去中心化數據層:人工智能時代的新基礎設施#247

中級11/26/2024, 4:28:16 AM
我們之前討論了人工智能和Web3如何在計算網絡、中介平台和消費者應用等垂直行業中相互補充。當我們專注於數據資源作為一個垂直領域時,新興的Web專案為數據的獲取、共享和利用提供了新的可能性。

TL/DR

我們先前討論了人工智能和Web3如何在計算網絡、中介平台和消費者應用等垂直行業中相互補充。當專注於數據資源作為一個垂直領域時,新興的Web項目為數據的獲取、共享和利用提供了新的可能性。

  • 傳統數據提供商在AI和其他數據驅動行業中很難滿足對高質量、實時且可驗證數據的需求,尤其是在透明度、用戶控制和隱私保護方面。
  • Web3解決方案正在重塑數據生態系統。像MPC(多方計算)、零知識證明和TLS Notary這樣的技術確保了數據在多個來源之間流動時的真實性和隱私,而分佈式存儲和邊緣計算則提供了更高的靈活性和效率,用於實時數據處理。
  • 去中心化數據網絡作為新興基礎設施,已經催生了幾個代表性項目,例如 OpenLayer(一個模塊化的實際數據層)、 Grass(利用用戶閒置帶寬和去中心化爬蟲節點網絡)、以及 Vana(一個用戶數據主權第一層網絡),透過不同的技術途徑為 AI 訓練和應用等領域開辟了新的前景。
  • 通過利用群眾的能力,無可信賴的抽象層,以及基於令牌的激勵機制,分散式數據基礎設施可以提供比Web2巨頭更私密、安全、高效和具有成本效益的解決方案。它還賦予用戶對其數據和相關資源的控制,構建一個更開放、安全和互聯的數字生態系統。

1. 數據需求的激增

數據已成為跨行業創新和決策的關鍵驅動力。瑞銀預測,全球數據容量將從2020年到2030年增長十倍,達到660 ZB。到2025年,全球每個個人預計每天將產生463 EB(Exabytes,1 EB = 10億GB)的數據。數據即服務(DaaS)市場正在迅速擴大。根據Grand View Research,全球DaaS市場在2023年價值1436億美元,預計將以28.1%的複合年增長率增長,到2030年達到7680億美元。

AI 模型訓練在很大程度上依賴於大型數據集來識別模式並調整參數。訓練後,還需要數據集來測試模型的性能和泛化能力。此外,作為新興的智能應用形式,AI 代理需要實時和可靠的數據來源來確保準確的決策和任務執行。

(來源:Leewayhertz)

商業分析的需求也變得更加多樣化和普遍,成為推動企業創新的核心工具。例如,社交媒體平台和市場研究公司需要可靠的用戶行為數據來制定策略和分析趨勢,將來自多個社交平台的多樣化數據整合起來,構建一個更全面的圖像。

對於Web3生態系統,鏈上也需要可靠和真實的數據來支持新的金融產品。隨著更多創新資產被代幣化,需要靈活可靠的數據接口來支持產品開發和風險管理,從而使智能合約能夠根據可驗證的實時數據執行。

此外,科學研究、物聯網和其他領域的應用案例凸顯了對多樣化、真實和即時數據的需求急劇增長。傳統系統可能難以應對快速增長的數據量和不斷變化的需求。

2. 傳統數據生態系統的限制和挑戰

典型的數據生態系統包括數據收集、存儲、處理、分析和應用。中心化模型的特點是由核心 IT 團隊負責集中數據收集和存儲,並實行嚴格的存取控制。例如,谷歌的數據生態系統涵蓋了各種數據來源,如搜索引擎、Gmail 和 Android 操作系統。這些平台收集用戶數據,將其存儲在全球分佈的數據中心中,並使用算法來支持各種產品和服務的開發和優化。

在金融市場中,LSEG(前身為Refinitiv)從全球交易所、銀行和主要金融機構收集實時和歷史數據,同時利用其專有的路透社新聞網絡收集市場相關新聞。他們使用專有算法和模型處理這些信息,生成分析和風險評估產品作為增值服務。

(來源:kdnuggets.com)

傳統數據架構在專業服務中很有效,但中心化模型的局限性越來越明顯,尤其是在覆蓋新興數據源、透明度和用戶隱私保護方面。以下是一些關鍵問題:

  • 數據覆蓋不足:傳統數據提供商難以快速捕捉和分析社交媒體情感和物聯網設備數據等新興數據源。中心化系統在高效獲取和整合來自許多小規模或非主流來源的“長尾”數據方面面臨挑戰。

例如,2021年的GameStop事件揭示了傳統金融數據提供商分析社交媒體情感的局限性。像Reddit這樣的平台上的投資者情感迅速影響了市場趨勢,但彭博和路透等數據終端未能及時捕捉到這些動態,導致市場預測延遲。

  • 數據可及性受限:壟斷限制訪問。許多傳統供應商通過API/雲服務開放部分數據,但高昂的訪問費用和複雜的授權流程增加了數據集成的難度。鏈上開發人員難以快速訪問可靠的鏈下數據,高質量的數據被少數巨頭壟斷,成本高昂。
  • 數據透明度和可信度的問題:許多中心化數據提供商在數據收集和處理方法方面缺乏透明度。缺乏驗證大規模數據的真實性和完整性的有效機制。在大規模範圍內驗證實時數據仍然復雜,中心化的特性增加了數據篡改或操縱的風險。
  • 隱私保護與數據所有權:大型科技公司廣泛商業化用戶數據。用戶作為個人數據的創造者,很少從中獲得應有的價值。他們往往無法理解他們的數據如何被收集、處理或使用,也無法決定其使用的範圍和方式。過度收集和濫用還會帶來嚴重的隱私風險。例如,Facebook的劍橋分析醜聞揭示了傳統數據生態系統中透明度和隱私保護方面的重大缺陷。
  • 數據孤島:來自不同來源和格式的實時數據很難快速整合,阻礙了全面分析。許多數據仍然被鎖在組織內,限制了跨行業和跨組織的共享和創新。這種“數據孤島”效應阻礙了跨領域數據整合和分析。例如,在消費品行業,品牌需要整合來自電子商務平台、實體店面、社交媒體和市場研究的數據,但由於平台不一致或分割而導致這些數據集可能被孤立。同樣,像Uber和Lyft這樣的共享乘車公司收集了大量關於交通、乘客需求和地理位置的實時數據,但競爭動態阻止了這些數據集的共享或整合。

除了這些問題之外,傳統數據提供商面臨成本效益和靈活性方面的挑戰。儘管他們積極解決這些問題,但新興的Web3技術為解決這些問題提供了新的觀點和可能性。

3. Web3數據生態系統

自2014年分散式存儲解決方案(如IPFS(星際文件系統))的推出以來,一系列新興項目旨在解決傳統數據生態系統的局限性。分散式數據解決方案已演變成一個多層次、互相連接的生態系統,涵蓋數據生命週期的所有階段,包括數據生成、存儲、交換、處理和分析、驗證和安全,以及隱私和所有權。

  • 數據存儲:Filecoin和Arweave的快速發展表明,去中心化存儲(DCS)正在成為存儲領域的範式轉變。DCS通過分散的架構減少單點故障,同時吸引參與者以競爭性的成本效益。隨著大規模應用的出現,DCS的存儲容量呈指數級增長(例如,到2024年,Filecoin的總網絡存儲容量達到22艾字節)。
  • 處理和分析: 分散式數據計算平台如Fluence通過邊緣計算提高數據處理的實時性和效率,尤其適用於物聯網和人工智能推理等實時應用場景。Web3項目利用聯邦學習、差異隱私、可信執行環境和完全同態加密等技術,在計算層提供靈活的隱私保護。
  • 數據市場/交易平台:為了促進數據的評估和流通,Ocean Protocol採用代幣化和DEX機制來創建高效和開放的數據交換渠道。例如,它已與戴姆勒(梅賽德斯-奔馳的母公司)合作,為供應鏈管理開發數據交換市場。另一方面,Streamr則開發了一個無許可的基於訂閱的數據流網絡,量身定制為物聯網和實時分析場景,顯示在交通運輸和物流項目中具有卓越的潛力(例如,與芬蘭智慧城市項目合作)。

隨著數據交換和利用的增加,確保真實性、可信度和隱私已變得至關重要。這推動了Web3生態系統在數據驗證和隱私保護方面的創新,帶來了突破性的解決方案。

3.1 數據驗證和隱私保護方面的創新

許多Web3技術和本地項目都致力於解決數據真實性和隱私保護等問題。除了廣泛采用零知識證明(ZK)和多方計算(MPC)等技術外,TLS Notary已經成為一種值得注意的新驗證方法。

TLS Notary介紹

傳輸層安全性 (TLS) 協定是一種廣泛使用的網路通信加密協定。其主要目的是確保客戶端和伺服器之間數據傳輸的安全性、完整性和機密性。TLS 是現代網路通信中的常見加密標準,適用於 HTTPS、電子郵件和即時消息等方案。

(TLS加密原則,來源:TechTarget)

十年前TLS Notary首次推出時,其目標是通過引入客戶端(證明者)和服務器之外的第三方“公證人”來驗證TLS會話的真實性。

利用鑰匙分割技術,TLS 會話的主鑰匙被分為兩部分,分別由客戶端和公證人分開保存。這種設計使得公證人在驗證過程中作為可信任的第三方參與,而無需訪問實際的通信內容。這個機制旨在檢測中間人攻擊,預防欺詐性證書,並確保通信數據在傳輸過程中不被篡改。它還使得可信任的第三方能夠確認通信的合法性,同時保護隱私。

因此,TLS Notary提供了安全的數據驗證,並有效平衡了驗證需求與隱私保護。

在2022年,以太坊基金會的隱私和擴展探索(PSE)研究實驗室對TLS Notary項目進行了重組。TLS Notary協議的新版本是用Rust編程語言從頭開始重寫的,並與更先進的密碼協議(如MPC)集成在一起。這些更新使用戶能夠證明從服務器收到的數據的真實性,而無需透露數據的內容給第三方。新的TLS Notary在保留其核心驗證功能的同時,顯著增強了隱私保護,使其更適合當前和未來的數據隱私要求。

3.2 TLS Notary的變體和擴展

近年來,TLS Notary 技術不斷演進,產生了各種衍生技術,進一步增強了其隱私和驗證能力:

  • zkTLS:一種增強隱私的TLS Notary版本,集成了ZKP技術,使用戶可以生成網頁數據的加密證明,而不會暴露任何敏感信息。它特別適用於需要高隱私保護的通信場景。
  • 3P-TLS(三方TLS):該協議引入了三個角色——客戶端、服務器和審計員,使審計員能夠在不公開內容的情況下驗證通信的安全性。該協議在需要透明度和隱私性的場景中非常有用,例如合規審計或金融交易審查。

Web3項目利用這些加密技術來增強數據驗證和隱私保護,解決數據壟斷、數據孤立和可信傳輸等問題。用戶可以安全地驗證社交媒體帳戶的所有權,金融貸款的購物記錄,銀行信用歷史,專業背景和學術證書,而不會損害他們的隱私。例子包括:

  • Reclaim Protocol:使用 zkTLS 生成 HTTPS 流量的零知識證明,允許用戶安全地從外部網站導入活動、聲譽和身份數據,而不會暴露敏感信息。
  • zkPass:結合3P-TLS技術,使用戶能夠安全驗證私人現實世界數據,應用於KYC和信用服務。它還與HTTPS網絡兼容。
  • Opacity Network:建立在zkTLS之上,它允許用戶在不直接訪問這些平台的API的情況下,安全地證明他們在Uber、Spotify和Netflix等平台上的活動,從而實現跨平台活動驗證。

(致力於TLS預言機制的項目,來源:Bastian Wetzel)

在Web3中,數據驗證是數據生態系統中的一個重要環節,具有廣泛的應用前景。這個生態系統的繁榮正在將數字經濟引向一個更開放、更動態和以用戶為中心的模式。然而,真實性驗證技術的發展僅僅是構建下一代數據基礎設施的開始。

4. 去中心化數據網絡

一些項目已將上述數據驗證技術與對上游數據生態系統的進一步探索相結合,例如數據可追溯性、分散式數據收集和可信傳輸。在下文中,我們重點介紹了三個具有代表性的項目——OpenLayer、Grass和Vana——展示了在構建下一代數據基礎設施方面獨特潛力。

4.1 數據層

OpenLayer,a16z Crypto 2024 春季初創加速器項目之一,是第一個模塊化的真實數據層。它旨在為協調數據收集、驗證和轉換提供創新的模塊化解決方案,滿足 Web2 和 Web3 公司的需求。OpenLayer 得到了知名基金和天使投資者的支持,包括 Geometry Ventures 和 LongHash Ventures。

傳統數據層面臨著多重挑戰:缺乏可靠的驗證機制,依賴於限制可訪問性的集中式架構,缺乏不同系統之間的互操作性和流動,以及缺乏公平的數據價值分配機制。

更具體的問題是人工智能訓練數據日益短缺。在公共互聯網上,許多網站現在部署了反爬蟲措施,以防止人工智能公司進行大規模數據爬取。在私有專有數據中,情況更加複雜。由於敏感性質,有價值的數據通常以受隱私保護的方式存儲,缺乏有效的激勵機制。用戶無法安全地賺取他們的私人數據,因此不願分享敏感信息。

為了應對這些問題,OpenLayer結合數據驗證技術,構建了一個模塊化的真實數據層。通過去中心化和經濟激勵,它協調數據收集、驗證和轉換的過程,為Web2和Web3公司提供了更安全、更高效和更靈活的數據基礎設施。

4.1.1 OpenLayer 模塊化設計的核心組件

OpenLayer 提供了一個模塊化平台,簡化了數據收集、可信驗證和轉換過程。

a) OpenNodes

OpenNodes是OpenLayer生態系統中負責去中心化數據收集的核心組件。通過移動應用程序、瀏覽器擴展和其他渠道,用戶可以收集數據。不同的運營商/節點可以通過執行最適合其硬件規格的任務來優化其獎勵。

OpenNodes支援三種主要的數據類型:

  • 公開可用的互聯網數據(例如金融、天氣、體育和社交媒體數據)
  • 用戶私人數據(例如Netflix觀看歷史、Amazon訂單記錄)
  • 來自可信賴來源的自我報告數據(例如,由擁有者或特定的可信賴硬體驗證的數據)。

開發人員可以輕鬆添加新的數據類型,指定數據來源並定義需求和檢索方法。用戶可以提供匿名化數據以換取獎勵。這種設計使系統能夠持續擴展以滿足新的數據需求。多樣化的數據源使OpenLayer適用於各種應用場景,降低了數據提供的門檻。

b) OpenValidators

OpenValidators處理收集數據的驗證,使數據使用者能夠確認用戶提供的數據與其來源的準確性。驗證方法使用加密證明,結果可以進行追溯驗證。多個提供者可以為同一類型的證明提供驗證服務,允許開發者選擇最適合其需求的提供者。

在初始使用案例中,特别是针对来自互联网API的公共或私有数据,OpenLayer采用TLS Notary作为验证解决方案。它可以从任何Web应用程序导出数据并验证其真实性,而不会损害隐私。

除了TLS Notary之外,由於其模組化設計,驗證系統可以輕鬆集成其他方法,以適應不同的數據和驗證需求,包括:

  1. 已認證的TLS連接:利用可信執行環境(TEEs)建立認證的TLS連接,確保數據在傳輸過程中的完整性和真實性。
  2. 安全隔離環境:使用硬體級安全隔離環境(例如 Intel SGX)來處理和驗證敏感數據,提供更高級別的數據保護。
  3. ZK證明生成器:將零知識證明集成到驗證數據屬性或計算結果,而不暴露底層數據。

c) OpenConnect

OpenConnect是負責OpenLayer生態系統中數據轉換和可用性的模組。它處理來自各種來源的數據,確保不同系統之間的互操作性,以滿足不同的應用程式需求。比如:

  • 將數據轉換為鏈上 Oracle 格式,供智能合約直接使用。
  • 將非結構化原始數據預處理為結構化數據,用於AI訓練。

為使用者的私人帳戶提供隱私保護的數據匿名化,同時在數據共享期間增強安全性,以減少泄漏和濫用。

為滿足人工智慧和區塊鏈應用的實時數據需求,OpenConnect支持高效的實時數據轉換。

目前,通過與EigenLayer的集成,OpenLayer AVS(Active Validation Service)操作員監控數據請求任務,收集數據,驗證數據並將結果報告給系統。操作員在EigenLayer上抵押或重新抵押資產,以對其行動提供經濟保證。惡意行為將導致資產削減。作為EigenLayer主網上最早的AVS項目之一,OpenLayer已經吸引了超過50個操作員和價值40億美元的重新抵押資產。

4.2 草

Grass,由Wynd Network開發的旗艦項目,旨在打造一個去中心化網絡爬蟲和人工智能訓練數據平台。到2023年底,Grass完成了由Polychain Capital和Tribe Capital領投的350萬美元種子輪融資。2024年9月,它獲得了500萬美元的A輪融資,由HackVC領投,並獲得了Polychain、Delphi、Lattice和Brevan Howard的額外參與。

隨著人工智慧訓練越來越依賴於多樣化和廣泛的數據源,Grass 通過創建分散式網路爬蟲節點網路來滿足這一需求。該網路利用分散的物理基礎設施和閑置的使用者頻寬來收集和提供可驗證的數據集,用於AI訓練。節點通過使用者互聯網連接、訪問公共網站和編譯結構化數據集來路由 Web 請求。使用邊緣計算技術執行初始數據清理和格式化,確保高質量的輸出。

Grass利用Solana Layer 2 Data Rollup架構來增強處理效率。驗證者從節點接收、驗證和批處理web交易,生成零知識(ZK)證明以確認數據的真實性。驗證後的數據存儲在Grass數據簿(L2),相應的證明鏈接到Solana L1區塊鏈。

4.2.1草的主要組成部分

a) 草節點:

用戶安裝Grass應用程序或瀏覽器擴展,允許他們的閒置帶寬來驅動去中心化的Web爬行。節點路由Web請求,訪問公共網站並編譯結構化數據集。使用邊緣計算,他們執行初始數據清理和格式化。用戶根據他們的帶寬貢獻和提供的數據量獲得GRASS代幣作為獎勵。

b) 路由器:

作為中介,路由器將Grass節點連接到驗證者。它們管理節點網絡和中繼帶寬,並根據它們促成的總驗證帶寬獲得激勵。

c) 驗證者:

驗證人員接收並驗證由路由器中繼的網絡交易。他們生成零知識證明來確認數據的有效性,利用唯一的密鑰集來建立安全的TLS連接和加密套件。儘管Grass目前使用集中式驗證人員,但計劃過渡到分散式驗證人委員會。

d) ZK 處理器:

這些處理器驗證節點會話數據證明並批處理所有網絡請求證明,以提交到Solana Layer 1。

e) 草地數據簿 (Grass L2):

草地數據簿記存儲全面的數據集,並將它們與它們在Solana上對應的L1證明鏈接起來,確保透明度和可追溯性。

f) 邊緣嵌入模型:

這些模型將非結構化的網絡數據轉換為適合AI訓練的結構化數據集。

來源:草

比較:草地 vs. OpenLayer

Grass和OpenLayer致力於利用分散式網絡為企業提供開放互聯網數據和驗證的私有數據訪問。兩者都利用激勵機制來促進數據共享和高質量數據集的生產,但它們的技術架構和商業模式有所不同。

技術架構:

Grass 使用 Solana Layer 2 Data Rollup 架構,以集中式驗證為基礎,依賴單一驗證者。作為 EigenLayer AVS(主動驗證服務)的早期採用者,OpenLayer 采用經濟激勵和切割懲罰的分散驗證機制。其模塊化設計強調數據驗證服務的可擴展性和靈活性。

產品焦點:

這兩個項目都允許用戶通過節點賺取數據,但它們的業務用例有所不同:

  • Grass採用數據市場模型,使用L2存儲結構化、高質量的數據集,並可進行驗證。這些數據集針對AI公司的培訓資源而設計。
  • OpenLayer專注於實時數據流驗證(VaaS),而不是專用數據存儲。它服務於動態場景,例如用於 RWA/DeFi/預測市場的預言機、即時社交數據以及需要即時數據輸入的 AI 應用程式。

Grass 主要針對需要大規模結構化數據集的人工智能公司和數據科學家,以及需要基於網絡的數據的研究機構和企業。OpenLayer 則為 Web3 開發者提供離鏈數據源,需要實時可驗證流的人工智能公司,以及追求創新策略(如驗證競爭對手產品使用情況)的企業。

未來競爭和協同效應

雖然這兩個項目目前佔據不同的市場,但隨著行業的發展,它們的功能可能會趨於融合:

  • 草坪可以擴展以提供實時結構化數據。
  • OpenLayer可能会为数据集管理开发专用的数据账本。

這兩個專案還可以整合數據標記,作為訓練數據集的關鍵步驟。Grass 擁有超過 220 萬個活躍節點的龐大網路,可以快速部署基於人工反饋的強化學習 (RLHF) 服務來優化 AI 模型。OpenLayer憑藉其在實時數據驗證和處理方面的專業知識,可以在數據可信度和品質方面保持優勢,特別是對於私有數據集。

儘管存在潛在的重疊,但他們獨特的優勢和技術方法可能允許他們在去中心化的數據生態系統中佔據不同的利基市場。

(來源:IOSG,David)

4.3 Vana:一個以使用者為中心的數據池網路

Vana是一個以用戶為中心的數據池網絡,旨在為AI和相關應用提供高質量的數據。與OpenLayer和Grass相比,Vana採用了獨特的技術和商業方法。2024年9月,Vana獲得了由Coinbase Ventures領導的500萬美元的融資,此前曾進行了1800萬美元的A輪融資,由Paradigm擔任首席投資者,並得到了Polychain和Casey Caruso的參與。

Vana 最初是在 2018 年作為 MIT 的研究項目推出的,是一個專門用於私人用戶數據的第一層區塊鏈。其在數據所有權和價值分配方面的創新使用戶能夠從在其數據上訓練的 AI 模型中獲利。Vana 通過不信任的、私人的、可歸因的數據流動池 (DLP) 和一種促進私人數據流動和貨幣化的創新貢獻機制實現了這一點。

4.3.1. 數據流動性池 (DLPs)

Vana推出一種獨特的數據流動性池(DLP)概念,該概念是Vana網絡的核心。每個DLP都是一個獨立的點對點網絡,匯集特定類型的數據資產。用戶可以將其私人數據(如購物記錄、瀏覽習慣和社交媒體活動)上傳到指定的DLP中,並決定是否授權特定的第三方使用。

這些資料池中的資料經過去識別化處理,以保護用戶隱私,同時保持對商業應用的可用性,例如 AI 模型訓練和市場研究。為 DLP 貢獻數據的用戶將獲得相應的 DLP 代幣作為獎勵。這些代幣代表用戶對資料池的貢獻,賦予治理權利,並使用戶有資格獲得未來利潤的一部分。

與傳統的一次性數據銷售不同,Vana允許數據持續參與經濟循環,使用戶能夠透過透明、可視化的使用追蹤持續獲得獎勵。

4.3.2. 貢獻證明機制

貢獻證明(PoC)機制是 Vana 確保數據質量的基石。每個 DLP 可以定義一個獨特的 PoC 函數,以符合其特性,驗證提交數據的真實性和完整性,並評估其對改善 AI 模型性能的貢獻。該機制量化用戶貢獻,並記錄以用於獎勵分配。類似於加密貨幣中的“工作量證明”概念,PoC 根據數據質量、數量和使用頻率獎勵用戶。智能合約自動化此過程,確保貢獻者獲得公平透明的補償。

Vana的技術架構

  1. 數據流動性層:

這個核心層將數據貢獻、驗證和記錄到數據層(DLPs),將數據轉化為可在鏈上轉移的數字資產。數據層創建者部署智能合約以設定目的、驗證方法和貢獻參數。數據貢獻者提交數據進行驗證,PoC 模塊評估數據質量並分配治理權和獎勵。

  1. 數據可移植性層:

作為Vana的應用程式層,該平臺促進了數據貢獻者和開發人員之間的協作。它為使用 DLP 中的流動性構建分散式 AI 訓練模型和 AI DApp 提供了基礎設施。

  1. 連結結構:

Connectome是Vana生態系統的去中心化總帳,作為實時數據流程圖。它使用PoS共識記錄所有實時數據交易,確保DLP代幣的高效轉移,並實現跨DLP數據訪問。與EVM完全兼容,可實現與其他網絡、協議和DeFi應用的互通。

(來源:Vana)

Vana通過專注於用戶數據的流動性和賦權,提供了一種新穎的方法。這種去中心化的數據交換模式不僅支持人工智能培訓和數據市場,還能實現在Web3生態系統中無縫跨平台數據共享和擁有權。最終,它促進了一個開放的互聯網,用戶可以擁有並管理其數據以及從中創建的智能產品。

5. 去中心化數據網絡的價值主張

2006年,數據科學家克萊夫·漢比(Clive Humby)曾著名地說過:“數據是新的石油。”在過去的二十年中,我們目睹了技術的快速演進,這些技術“提煉”了這一資源,例如大數據分析和機器學習,從數據中開創了前所未有的價值。根據IDC的數據,到2025年,全球數據領域將擴大到163 ZB,其中大部分將來自個人。隨著物聯網、可穿戴設備、人工智能和個性化服務的普及,商業用途所需的大部分數據將來源於個人。

傳統解決方案的挑戰和Web3創新

Web3數據解決方案通過利用分佈式節點網絡來克服傳統基礎設施的局限性。這些網絡能夠實現更廣泛、更高效的數據收集,同時改善特定數據集的實時訪問性和可驗證性。Web3技術確保數據的真實性和完整性,同時保護用戶隱私,促進更公平的數據利用模式。這種去中心化架構實現了數據訪問的民主化,讓用戶分享數據經濟的經濟利益。

OpenLayer和Grass都依賴於使用者節點模型來增強特定的數據收集過程,而Vana則將私有用戶數據商品化。這些方法不僅提高了效率,還使普通用戶能夠參與數據經濟所創造的價值,為用戶和開發者創造了雙贏的局面。

通過代幣經濟學,Web3數據解決方案重新設計了激勵模型,建立了更公平的價值分配機制。這些系統吸引了大量的用戶參與、硬件資源和資本投入,優化了整個數據網絡的運作。

Web3解決方案提供模塊化和可擴展性,允許技術迭代和生態系擴展。例如:OpenLayer的模塊化設計為未來的進步提供了靈活性;Grass的分佈式架構通過提供多樣化和高質量的數據集來優化人工智能模型訓練。

從數據生成、存儲和驗證到交換和分析,Web3 驅動的解決方案解決了傳統基礎設施的缺點。通過使用戶能夠將其數據貨幣化,這些解決方案從根本上改變了數據經濟。

隨著技術的演進和應用場景的擴展,去中心化的數據層有望成為下一代基礎設施的基石。它們將支持各種數據驅動的行業,同時讓用戶掌握自己的數據及其經濟潛力。

免責聲明:

  1. 本文章轉載自[IOSG Ventures]. 所有版權屬於原作者 [IOSG Ventures]。如果對此轉載有異議,請聯繫Gate Learn團隊,他們會立即處理。
  2. 免責聲明:本文中的觀點和意見僅代表作者自己的立場,並不構成投資建議。
  3. Gate.io的Learn團隊將文章翻譯成其他語言。未經許可,禁止複製、分發或剽竊翻譯後的文章。

去中心化數據層:人工智能時代的新基礎設施#247

中級11/26/2024, 4:28:16 AM
我們之前討論了人工智能和Web3如何在計算網絡、中介平台和消費者應用等垂直行業中相互補充。當我們專注於數據資源作為一個垂直領域時,新興的Web專案為數據的獲取、共享和利用提供了新的可能性。

TL/DR

我們先前討論了人工智能和Web3如何在計算網絡、中介平台和消費者應用等垂直行業中相互補充。當專注於數據資源作為一個垂直領域時,新興的Web項目為數據的獲取、共享和利用提供了新的可能性。

  • 傳統數據提供商在AI和其他數據驅動行業中很難滿足對高質量、實時且可驗證數據的需求,尤其是在透明度、用戶控制和隱私保護方面。
  • Web3解決方案正在重塑數據生態系統。像MPC(多方計算)、零知識證明和TLS Notary這樣的技術確保了數據在多個來源之間流動時的真實性和隱私,而分佈式存儲和邊緣計算則提供了更高的靈活性和效率,用於實時數據處理。
  • 去中心化數據網絡作為新興基礎設施,已經催生了幾個代表性項目,例如 OpenLayer(一個模塊化的實際數據層)、 Grass(利用用戶閒置帶寬和去中心化爬蟲節點網絡)、以及 Vana(一個用戶數據主權第一層網絡),透過不同的技術途徑為 AI 訓練和應用等領域開辟了新的前景。
  • 通過利用群眾的能力,無可信賴的抽象層,以及基於令牌的激勵機制,分散式數據基礎設施可以提供比Web2巨頭更私密、安全、高效和具有成本效益的解決方案。它還賦予用戶對其數據和相關資源的控制,構建一個更開放、安全和互聯的數字生態系統。

1. 數據需求的激增

數據已成為跨行業創新和決策的關鍵驅動力。瑞銀預測,全球數據容量將從2020年到2030年增長十倍,達到660 ZB。到2025年,全球每個個人預計每天將產生463 EB(Exabytes,1 EB = 10億GB)的數據。數據即服務(DaaS)市場正在迅速擴大。根據Grand View Research,全球DaaS市場在2023年價值1436億美元,預計將以28.1%的複合年增長率增長,到2030年達到7680億美元。

AI 模型訓練在很大程度上依賴於大型數據集來識別模式並調整參數。訓練後,還需要數據集來測試模型的性能和泛化能力。此外,作為新興的智能應用形式,AI 代理需要實時和可靠的數據來源來確保準確的決策和任務執行。

(來源:Leewayhertz)

商業分析的需求也變得更加多樣化和普遍,成為推動企業創新的核心工具。例如,社交媒體平台和市場研究公司需要可靠的用戶行為數據來制定策略和分析趨勢,將來自多個社交平台的多樣化數據整合起來,構建一個更全面的圖像。

對於Web3生態系統,鏈上也需要可靠和真實的數據來支持新的金融產品。隨著更多創新資產被代幣化,需要靈活可靠的數據接口來支持產品開發和風險管理,從而使智能合約能夠根據可驗證的實時數據執行。

此外,科學研究、物聯網和其他領域的應用案例凸顯了對多樣化、真實和即時數據的需求急劇增長。傳統系統可能難以應對快速增長的數據量和不斷變化的需求。

2. 傳統數據生態系統的限制和挑戰

典型的數據生態系統包括數據收集、存儲、處理、分析和應用。中心化模型的特點是由核心 IT 團隊負責集中數據收集和存儲,並實行嚴格的存取控制。例如,谷歌的數據生態系統涵蓋了各種數據來源,如搜索引擎、Gmail 和 Android 操作系統。這些平台收集用戶數據,將其存儲在全球分佈的數據中心中,並使用算法來支持各種產品和服務的開發和優化。

在金融市場中,LSEG(前身為Refinitiv)從全球交易所、銀行和主要金融機構收集實時和歷史數據,同時利用其專有的路透社新聞網絡收集市場相關新聞。他們使用專有算法和模型處理這些信息,生成分析和風險評估產品作為增值服務。

(來源:kdnuggets.com)

傳統數據架構在專業服務中很有效,但中心化模型的局限性越來越明顯,尤其是在覆蓋新興數據源、透明度和用戶隱私保護方面。以下是一些關鍵問題:

  • 數據覆蓋不足:傳統數據提供商難以快速捕捉和分析社交媒體情感和物聯網設備數據等新興數據源。中心化系統在高效獲取和整合來自許多小規模或非主流來源的“長尾”數據方面面臨挑戰。

例如,2021年的GameStop事件揭示了傳統金融數據提供商分析社交媒體情感的局限性。像Reddit這樣的平台上的投資者情感迅速影響了市場趨勢,但彭博和路透等數據終端未能及時捕捉到這些動態,導致市場預測延遲。

  • 數據可及性受限:壟斷限制訪問。許多傳統供應商通過API/雲服務開放部分數據,但高昂的訪問費用和複雜的授權流程增加了數據集成的難度。鏈上開發人員難以快速訪問可靠的鏈下數據,高質量的數據被少數巨頭壟斷,成本高昂。
  • 數據透明度和可信度的問題:許多中心化數據提供商在數據收集和處理方法方面缺乏透明度。缺乏驗證大規模數據的真實性和完整性的有效機制。在大規模範圍內驗證實時數據仍然復雜,中心化的特性增加了數據篡改或操縱的風險。
  • 隱私保護與數據所有權:大型科技公司廣泛商業化用戶數據。用戶作為個人數據的創造者,很少從中獲得應有的價值。他們往往無法理解他們的數據如何被收集、處理或使用,也無法決定其使用的範圍和方式。過度收集和濫用還會帶來嚴重的隱私風險。例如,Facebook的劍橋分析醜聞揭示了傳統數據生態系統中透明度和隱私保護方面的重大缺陷。
  • 數據孤島:來自不同來源和格式的實時數據很難快速整合,阻礙了全面分析。許多數據仍然被鎖在組織內,限制了跨行業和跨組織的共享和創新。這種“數據孤島”效應阻礙了跨領域數據整合和分析。例如,在消費品行業,品牌需要整合來自電子商務平台、實體店面、社交媒體和市場研究的數據,但由於平台不一致或分割而導致這些數據集可能被孤立。同樣,像Uber和Lyft這樣的共享乘車公司收集了大量關於交通、乘客需求和地理位置的實時數據,但競爭動態阻止了這些數據集的共享或整合。

除了這些問題之外,傳統數據提供商面臨成本效益和靈活性方面的挑戰。儘管他們積極解決這些問題,但新興的Web3技術為解決這些問題提供了新的觀點和可能性。

3. Web3數據生態系統

自2014年分散式存儲解決方案(如IPFS(星際文件系統))的推出以來,一系列新興項目旨在解決傳統數據生態系統的局限性。分散式數據解決方案已演變成一個多層次、互相連接的生態系統,涵蓋數據生命週期的所有階段,包括數據生成、存儲、交換、處理和分析、驗證和安全,以及隱私和所有權。

  • 數據存儲:Filecoin和Arweave的快速發展表明,去中心化存儲(DCS)正在成為存儲領域的範式轉變。DCS通過分散的架構減少單點故障,同時吸引參與者以競爭性的成本效益。隨著大規模應用的出現,DCS的存儲容量呈指數級增長(例如,到2024年,Filecoin的總網絡存儲容量達到22艾字節)。
  • 處理和分析: 分散式數據計算平台如Fluence通過邊緣計算提高數據處理的實時性和效率,尤其適用於物聯網和人工智能推理等實時應用場景。Web3項目利用聯邦學習、差異隱私、可信執行環境和完全同態加密等技術,在計算層提供靈活的隱私保護。
  • 數據市場/交易平台:為了促進數據的評估和流通,Ocean Protocol採用代幣化和DEX機制來創建高效和開放的數據交換渠道。例如,它已與戴姆勒(梅賽德斯-奔馳的母公司)合作,為供應鏈管理開發數據交換市場。另一方面,Streamr則開發了一個無許可的基於訂閱的數據流網絡,量身定制為物聯網和實時分析場景,顯示在交通運輸和物流項目中具有卓越的潛力(例如,與芬蘭智慧城市項目合作)。

隨著數據交換和利用的增加,確保真實性、可信度和隱私已變得至關重要。這推動了Web3生態系統在數據驗證和隱私保護方面的創新,帶來了突破性的解決方案。

3.1 數據驗證和隱私保護方面的創新

許多Web3技術和本地項目都致力於解決數據真實性和隱私保護等問題。除了廣泛采用零知識證明(ZK)和多方計算(MPC)等技術外,TLS Notary已經成為一種值得注意的新驗證方法。

TLS Notary介紹

傳輸層安全性 (TLS) 協定是一種廣泛使用的網路通信加密協定。其主要目的是確保客戶端和伺服器之間數據傳輸的安全性、完整性和機密性。TLS 是現代網路通信中的常見加密標準,適用於 HTTPS、電子郵件和即時消息等方案。

(TLS加密原則,來源:TechTarget)

十年前TLS Notary首次推出時,其目標是通過引入客戶端(證明者)和服務器之外的第三方“公證人”來驗證TLS會話的真實性。

利用鑰匙分割技術,TLS 會話的主鑰匙被分為兩部分,分別由客戶端和公證人分開保存。這種設計使得公證人在驗證過程中作為可信任的第三方參與,而無需訪問實際的通信內容。這個機制旨在檢測中間人攻擊,預防欺詐性證書,並確保通信數據在傳輸過程中不被篡改。它還使得可信任的第三方能夠確認通信的合法性,同時保護隱私。

因此,TLS Notary提供了安全的數據驗證,並有效平衡了驗證需求與隱私保護。

在2022年,以太坊基金會的隱私和擴展探索(PSE)研究實驗室對TLS Notary項目進行了重組。TLS Notary協議的新版本是用Rust編程語言從頭開始重寫的,並與更先進的密碼協議(如MPC)集成在一起。這些更新使用戶能夠證明從服務器收到的數據的真實性,而無需透露數據的內容給第三方。新的TLS Notary在保留其核心驗證功能的同時,顯著增強了隱私保護,使其更適合當前和未來的數據隱私要求。

3.2 TLS Notary的變體和擴展

近年來,TLS Notary 技術不斷演進,產生了各種衍生技術,進一步增強了其隱私和驗證能力:

  • zkTLS:一種增強隱私的TLS Notary版本,集成了ZKP技術,使用戶可以生成網頁數據的加密證明,而不會暴露任何敏感信息。它特別適用於需要高隱私保護的通信場景。
  • 3P-TLS(三方TLS):該協議引入了三個角色——客戶端、服務器和審計員,使審計員能夠在不公開內容的情況下驗證通信的安全性。該協議在需要透明度和隱私性的場景中非常有用,例如合規審計或金融交易審查。

Web3項目利用這些加密技術來增強數據驗證和隱私保護,解決數據壟斷、數據孤立和可信傳輸等問題。用戶可以安全地驗證社交媒體帳戶的所有權,金融貸款的購物記錄,銀行信用歷史,專業背景和學術證書,而不會損害他們的隱私。例子包括:

  • Reclaim Protocol:使用 zkTLS 生成 HTTPS 流量的零知識證明,允許用戶安全地從外部網站導入活動、聲譽和身份數據,而不會暴露敏感信息。
  • zkPass:結合3P-TLS技術,使用戶能夠安全驗證私人現實世界數據,應用於KYC和信用服務。它還與HTTPS網絡兼容。
  • Opacity Network:建立在zkTLS之上,它允許用戶在不直接訪問這些平台的API的情況下,安全地證明他們在Uber、Spotify和Netflix等平台上的活動,從而實現跨平台活動驗證。

(致力於TLS預言機制的項目,來源:Bastian Wetzel)

在Web3中,數據驗證是數據生態系統中的一個重要環節,具有廣泛的應用前景。這個生態系統的繁榮正在將數字經濟引向一個更開放、更動態和以用戶為中心的模式。然而,真實性驗證技術的發展僅僅是構建下一代數據基礎設施的開始。

4. 去中心化數據網絡

一些項目已將上述數據驗證技術與對上游數據生態系統的進一步探索相結合,例如數據可追溯性、分散式數據收集和可信傳輸。在下文中,我們重點介紹了三個具有代表性的項目——OpenLayer、Grass和Vana——展示了在構建下一代數據基礎設施方面獨特潛力。

4.1 數據層

OpenLayer,a16z Crypto 2024 春季初創加速器項目之一,是第一個模塊化的真實數據層。它旨在為協調數據收集、驗證和轉換提供創新的模塊化解決方案,滿足 Web2 和 Web3 公司的需求。OpenLayer 得到了知名基金和天使投資者的支持,包括 Geometry Ventures 和 LongHash Ventures。

傳統數據層面臨著多重挑戰:缺乏可靠的驗證機制,依賴於限制可訪問性的集中式架構,缺乏不同系統之間的互操作性和流動,以及缺乏公平的數據價值分配機制。

更具體的問題是人工智能訓練數據日益短缺。在公共互聯網上,許多網站現在部署了反爬蟲措施,以防止人工智能公司進行大規模數據爬取。在私有專有數據中,情況更加複雜。由於敏感性質,有價值的數據通常以受隱私保護的方式存儲,缺乏有效的激勵機制。用戶無法安全地賺取他們的私人數據,因此不願分享敏感信息。

為了應對這些問題,OpenLayer結合數據驗證技術,構建了一個模塊化的真實數據層。通過去中心化和經濟激勵,它協調數據收集、驗證和轉換的過程,為Web2和Web3公司提供了更安全、更高效和更靈活的數據基礎設施。

4.1.1 OpenLayer 模塊化設計的核心組件

OpenLayer 提供了一個模塊化平台,簡化了數據收集、可信驗證和轉換過程。

a) OpenNodes

OpenNodes是OpenLayer生態系統中負責去中心化數據收集的核心組件。通過移動應用程序、瀏覽器擴展和其他渠道,用戶可以收集數據。不同的運營商/節點可以通過執行最適合其硬件規格的任務來優化其獎勵。

OpenNodes支援三種主要的數據類型:

  • 公開可用的互聯網數據(例如金融、天氣、體育和社交媒體數據)
  • 用戶私人數據(例如Netflix觀看歷史、Amazon訂單記錄)
  • 來自可信賴來源的自我報告數據(例如,由擁有者或特定的可信賴硬體驗證的數據)。

開發人員可以輕鬆添加新的數據類型,指定數據來源並定義需求和檢索方法。用戶可以提供匿名化數據以換取獎勵。這種設計使系統能夠持續擴展以滿足新的數據需求。多樣化的數據源使OpenLayer適用於各種應用場景,降低了數據提供的門檻。

b) OpenValidators

OpenValidators處理收集數據的驗證,使數據使用者能夠確認用戶提供的數據與其來源的準確性。驗證方法使用加密證明,結果可以進行追溯驗證。多個提供者可以為同一類型的證明提供驗證服務,允許開發者選擇最適合其需求的提供者。

在初始使用案例中,特别是针对来自互联网API的公共或私有数据,OpenLayer采用TLS Notary作为验证解决方案。它可以从任何Web应用程序导出数据并验证其真实性,而不会损害隐私。

除了TLS Notary之外,由於其模組化設計,驗證系統可以輕鬆集成其他方法,以適應不同的數據和驗證需求,包括:

  1. 已認證的TLS連接:利用可信執行環境(TEEs)建立認證的TLS連接,確保數據在傳輸過程中的完整性和真實性。
  2. 安全隔離環境:使用硬體級安全隔離環境(例如 Intel SGX)來處理和驗證敏感數據,提供更高級別的數據保護。
  3. ZK證明生成器:將零知識證明集成到驗證數據屬性或計算結果,而不暴露底層數據。

c) OpenConnect

OpenConnect是負責OpenLayer生態系統中數據轉換和可用性的模組。它處理來自各種來源的數據,確保不同系統之間的互操作性,以滿足不同的應用程式需求。比如:

  • 將數據轉換為鏈上 Oracle 格式,供智能合約直接使用。
  • 將非結構化原始數據預處理為結構化數據,用於AI訓練。

為使用者的私人帳戶提供隱私保護的數據匿名化,同時在數據共享期間增強安全性,以減少泄漏和濫用。

為滿足人工智慧和區塊鏈應用的實時數據需求,OpenConnect支持高效的實時數據轉換。

目前,通過與EigenLayer的集成,OpenLayer AVS(Active Validation Service)操作員監控數據請求任務,收集數據,驗證數據並將結果報告給系統。操作員在EigenLayer上抵押或重新抵押資產,以對其行動提供經濟保證。惡意行為將導致資產削減。作為EigenLayer主網上最早的AVS項目之一,OpenLayer已經吸引了超過50個操作員和價值40億美元的重新抵押資產。

4.2 草

Grass,由Wynd Network開發的旗艦項目,旨在打造一個去中心化網絡爬蟲和人工智能訓練數據平台。到2023年底,Grass完成了由Polychain Capital和Tribe Capital領投的350萬美元種子輪融資。2024年9月,它獲得了500萬美元的A輪融資,由HackVC領投,並獲得了Polychain、Delphi、Lattice和Brevan Howard的額外參與。

隨著人工智慧訓練越來越依賴於多樣化和廣泛的數據源,Grass 通過創建分散式網路爬蟲節點網路來滿足這一需求。該網路利用分散的物理基礎設施和閑置的使用者頻寬來收集和提供可驗證的數據集,用於AI訓練。節點通過使用者互聯網連接、訪問公共網站和編譯結構化數據集來路由 Web 請求。使用邊緣計算技術執行初始數據清理和格式化,確保高質量的輸出。

Grass利用Solana Layer 2 Data Rollup架構來增強處理效率。驗證者從節點接收、驗證和批處理web交易,生成零知識(ZK)證明以確認數據的真實性。驗證後的數據存儲在Grass數據簿(L2),相應的證明鏈接到Solana L1區塊鏈。

4.2.1草的主要組成部分

a) 草節點:

用戶安裝Grass應用程序或瀏覽器擴展,允許他們的閒置帶寬來驅動去中心化的Web爬行。節點路由Web請求,訪問公共網站並編譯結構化數據集。使用邊緣計算,他們執行初始數據清理和格式化。用戶根據他們的帶寬貢獻和提供的數據量獲得GRASS代幣作為獎勵。

b) 路由器:

作為中介,路由器將Grass節點連接到驗證者。它們管理節點網絡和中繼帶寬,並根據它們促成的總驗證帶寬獲得激勵。

c) 驗證者:

驗證人員接收並驗證由路由器中繼的網絡交易。他們生成零知識證明來確認數據的有效性,利用唯一的密鑰集來建立安全的TLS連接和加密套件。儘管Grass目前使用集中式驗證人員,但計劃過渡到分散式驗證人委員會。

d) ZK 處理器:

這些處理器驗證節點會話數據證明並批處理所有網絡請求證明,以提交到Solana Layer 1。

e) 草地數據簿 (Grass L2):

草地數據簿記存儲全面的數據集,並將它們與它們在Solana上對應的L1證明鏈接起來,確保透明度和可追溯性。

f) 邊緣嵌入模型:

這些模型將非結構化的網絡數據轉換為適合AI訓練的結構化數據集。

來源:草

比較:草地 vs. OpenLayer

Grass和OpenLayer致力於利用分散式網絡為企業提供開放互聯網數據和驗證的私有數據訪問。兩者都利用激勵機制來促進數據共享和高質量數據集的生產,但它們的技術架構和商業模式有所不同。

技術架構:

Grass 使用 Solana Layer 2 Data Rollup 架構,以集中式驗證為基礎,依賴單一驗證者。作為 EigenLayer AVS(主動驗證服務)的早期採用者,OpenLayer 采用經濟激勵和切割懲罰的分散驗證機制。其模塊化設計強調數據驗證服務的可擴展性和靈活性。

產品焦點:

這兩個項目都允許用戶通過節點賺取數據,但它們的業務用例有所不同:

  • Grass採用數據市場模型,使用L2存儲結構化、高質量的數據集,並可進行驗證。這些數據集針對AI公司的培訓資源而設計。
  • OpenLayer專注於實時數據流驗證(VaaS),而不是專用數據存儲。它服務於動態場景,例如用於 RWA/DeFi/預測市場的預言機、即時社交數據以及需要即時數據輸入的 AI 應用程式。

Grass 主要針對需要大規模結構化數據集的人工智能公司和數據科學家,以及需要基於網絡的數據的研究機構和企業。OpenLayer 則為 Web3 開發者提供離鏈數據源,需要實時可驗證流的人工智能公司,以及追求創新策略(如驗證競爭對手產品使用情況)的企業。

未來競爭和協同效應

雖然這兩個項目目前佔據不同的市場,但隨著行業的發展,它們的功能可能會趨於融合:

  • 草坪可以擴展以提供實時結構化數據。
  • OpenLayer可能会为数据集管理开发专用的数据账本。

這兩個專案還可以整合數據標記,作為訓練數據集的關鍵步驟。Grass 擁有超過 220 萬個活躍節點的龐大網路,可以快速部署基於人工反饋的強化學習 (RLHF) 服務來優化 AI 模型。OpenLayer憑藉其在實時數據驗證和處理方面的專業知識,可以在數據可信度和品質方面保持優勢,特別是對於私有數據集。

儘管存在潛在的重疊,但他們獨特的優勢和技術方法可能允許他們在去中心化的數據生態系統中佔據不同的利基市場。

(來源:IOSG,David)

4.3 Vana:一個以使用者為中心的數據池網路

Vana是一個以用戶為中心的數據池網絡,旨在為AI和相關應用提供高質量的數據。與OpenLayer和Grass相比,Vana採用了獨特的技術和商業方法。2024年9月,Vana獲得了由Coinbase Ventures領導的500萬美元的融資,此前曾進行了1800萬美元的A輪融資,由Paradigm擔任首席投資者,並得到了Polychain和Casey Caruso的參與。

Vana 最初是在 2018 年作為 MIT 的研究項目推出的,是一個專門用於私人用戶數據的第一層區塊鏈。其在數據所有權和價值分配方面的創新使用戶能夠從在其數據上訓練的 AI 模型中獲利。Vana 通過不信任的、私人的、可歸因的數據流動池 (DLP) 和一種促進私人數據流動和貨幣化的創新貢獻機制實現了這一點。

4.3.1. 數據流動性池 (DLPs)

Vana推出一種獨特的數據流動性池(DLP)概念,該概念是Vana網絡的核心。每個DLP都是一個獨立的點對點網絡,匯集特定類型的數據資產。用戶可以將其私人數據(如購物記錄、瀏覽習慣和社交媒體活動)上傳到指定的DLP中,並決定是否授權特定的第三方使用。

這些資料池中的資料經過去識別化處理,以保護用戶隱私,同時保持對商業應用的可用性,例如 AI 模型訓練和市場研究。為 DLP 貢獻數據的用戶將獲得相應的 DLP 代幣作為獎勵。這些代幣代表用戶對資料池的貢獻,賦予治理權利,並使用戶有資格獲得未來利潤的一部分。

與傳統的一次性數據銷售不同,Vana允許數據持續參與經濟循環,使用戶能夠透過透明、可視化的使用追蹤持續獲得獎勵。

4.3.2. 貢獻證明機制

貢獻證明(PoC)機制是 Vana 確保數據質量的基石。每個 DLP 可以定義一個獨特的 PoC 函數,以符合其特性,驗證提交數據的真實性和完整性,並評估其對改善 AI 模型性能的貢獻。該機制量化用戶貢獻,並記錄以用於獎勵分配。類似於加密貨幣中的“工作量證明”概念,PoC 根據數據質量、數量和使用頻率獎勵用戶。智能合約自動化此過程,確保貢獻者獲得公平透明的補償。

Vana的技術架構

  1. 數據流動性層:

這個核心層將數據貢獻、驗證和記錄到數據層(DLPs),將數據轉化為可在鏈上轉移的數字資產。數據層創建者部署智能合約以設定目的、驗證方法和貢獻參數。數據貢獻者提交數據進行驗證,PoC 模塊評估數據質量並分配治理權和獎勵。

  1. 數據可移植性層:

作為Vana的應用程式層,該平臺促進了數據貢獻者和開發人員之間的協作。它為使用 DLP 中的流動性構建分散式 AI 訓練模型和 AI DApp 提供了基礎設施。

  1. 連結結構:

Connectome是Vana生態系統的去中心化總帳,作為實時數據流程圖。它使用PoS共識記錄所有實時數據交易,確保DLP代幣的高效轉移,並實現跨DLP數據訪問。與EVM完全兼容,可實現與其他網絡、協議和DeFi應用的互通。

(來源:Vana)

Vana通過專注於用戶數據的流動性和賦權,提供了一種新穎的方法。這種去中心化的數據交換模式不僅支持人工智能培訓和數據市場,還能實現在Web3生態系統中無縫跨平台數據共享和擁有權。最終,它促進了一個開放的互聯網,用戶可以擁有並管理其數據以及從中創建的智能產品。

5. 去中心化數據網絡的價值主張

2006年,數據科學家克萊夫·漢比(Clive Humby)曾著名地說過:“數據是新的石油。”在過去的二十年中,我們目睹了技術的快速演進,這些技術“提煉”了這一資源,例如大數據分析和機器學習,從數據中開創了前所未有的價值。根據IDC的數據,到2025年,全球數據領域將擴大到163 ZB,其中大部分將來自個人。隨著物聯網、可穿戴設備、人工智能和個性化服務的普及,商業用途所需的大部分數據將來源於個人。

傳統解決方案的挑戰和Web3創新

Web3數據解決方案通過利用分佈式節點網絡來克服傳統基礎設施的局限性。這些網絡能夠實現更廣泛、更高效的數據收集,同時改善特定數據集的實時訪問性和可驗證性。Web3技術確保數據的真實性和完整性,同時保護用戶隱私,促進更公平的數據利用模式。這種去中心化架構實現了數據訪問的民主化,讓用戶分享數據經濟的經濟利益。

OpenLayer和Grass都依賴於使用者節點模型來增強特定的數據收集過程,而Vana則將私有用戶數據商品化。這些方法不僅提高了效率,還使普通用戶能夠參與數據經濟所創造的價值,為用戶和開發者創造了雙贏的局面。

通過代幣經濟學,Web3數據解決方案重新設計了激勵模型,建立了更公平的價值分配機制。這些系統吸引了大量的用戶參與、硬件資源和資本投入,優化了整個數據網絡的運作。

Web3解決方案提供模塊化和可擴展性,允許技術迭代和生態系擴展。例如:OpenLayer的模塊化設計為未來的進步提供了靈活性;Grass的分佈式架構通過提供多樣化和高質量的數據集來優化人工智能模型訓練。

從數據生成、存儲和驗證到交換和分析,Web3 驅動的解決方案解決了傳統基礎設施的缺點。通過使用戶能夠將其數據貨幣化,這些解決方案從根本上改變了數據經濟。

隨著技術的演進和應用場景的擴展,去中心化的數據層有望成為下一代基礎設施的基石。它們將支持各種數據驅動的行業,同時讓用戶掌握自己的數據及其經濟潛力。

免責聲明:

  1. 本文章轉載自[IOSG Ventures]. 所有版權屬於原作者 [IOSG Ventures]。如果對此轉載有異議,請聯繫Gate Learn團隊,他們會立即處理。
  2. 免責聲明:本文中的觀點和意見僅代表作者自己的立場,並不構成投資建議。
  3. Gate.io的Learn團隊將文章翻譯成其他語言。未經許可,禁止複製、分發或剽竊翻譯後的文章。
Start Now
Sign up and get a
$100
Voucher!
It seems that you are attempting to access our services from a Restricted Location where Gate.io is unable to provide services. We apologize for any inconvenience this may cause. Currently, the Restricted Locations include but not limited to: the United States of America, Canada, Cambodia, Cuba, Iran, North Korea and so on. For more information regarding the Restricted Locations, please refer to the User Agreement. Should you have any other questions, please contact our Customer Support Team.