Эра DataFi наступает: данные в блокчейне станут двигателем следующей революции в индустрии ИИ

Следующая революция в AI-индустрии: от вычислительной мощности к революции данных

Искусственный интеллект ( AI ) модель имеет параметры, превышающие триллион, вычислительная мощность измеряется в сотнях миллиардов миллиардов ( FLOPS ), и при этом одна игнорируемая основная проблема выходит на поверхность — данные. Следующая революция в AI-индустрии больше не будет зависеть от архитектуры моделей или вычислительной мощности чипов, а будет определяться тем, как мы можем преобразовать фрагментированные данные о человеческом поведении в проверяемый, структурированный, готовый к AI капитал. Эта идея не только выявляет структурные противоречия текущего развития AI, но и очерчивает совершенно новую картину "эпохи DataFi" — в эту эпоху данные больше не будут побочным продуктом технологии, а станут основным производственным фактором, который можно измерять, торговать и увеличивать, как электроэнергию и вычислительную мощность.

От вычислительной мощностью к дефициту данных: структурные противоречия в индустрии ИИ

Развитие ИИ долгое время двигалось в двойном ядре "модель-вычислительная мощность". С момента революции глубокого обучения параметры модели увеличились с миллионов (, как в случае AlexNet 2012 года, до триллионов ), таких как GPT-4(, а потребность в вычислительной мощности растет экспоненциально. Стоимость обучения продвинутой модели языка превысила 100 миллионов долларов, из которых 90% идет на аренду кластеров GPU. Однако, когда отрасль сосредоточена на "больших моделях" и "быстрых чипах", кризис на стороне предложения данных тихо наступает.

Сгенерированные человечеством "органические данные" достигли потолка роста. Например, если рассмотреть текстовые данные, общее количество высококачественных текстов, доступных для парсинга в интернете, таких как книги, статьи, новости, составляет примерно 10^12 слов, в то время как для тренировки модели с 100 миллиардами параметров требуется около 10^13 слов данных — это означает, что текущий пул данных может поддерживать обучение лишь 10 моделей одинакового масштаба. Более того, доля повторяющихся данных и низкокачественного контента превышает 60%, что дополнительно сжимает объем доступных эффективных данных. Когда модели начинают "поглощать" данные, которые они сами сгенерировали, такие как статьи, написанные ИИ, изображения, созданные ИИ, "загрязнение данных" приводит к снижению производительности моделей и уже стало предметом беспокойства в отрасли.

Корень этого противоречия заключается в том, что AI-отрасль долгое время рассматривала данные как "бесплатный ресурс", а не как "стратегический актив", требующий тщательного ухода. Модели и вычислительная мощность уже сформировали зрелую рыночную систему — вычислительная мощность оценивается по FLOPS на облачных платформах, а модели имеют API-интерфейсы с оплатой за количество вызовов — но производство, очистка, верификация и торговля данными все еще находятся в "диком времени". Следующие десять лет в AI станут "десятилетием инфраструктуры данных", и именно данные на криптосети станут ключом к решению этой проблемы.

Данные на блокчейне: "База данных человеческого поведения", которая больше всего нужна ИИ

На фоне дефицита данных, цепочные данные криптосетей демонстрируют свою незаменимую ценность. По сравнению с данными традиционного интернета ), такими как публикации в социальных сетях, отзывы о товарах (, цепочные данные обладают подлинностью, естественно обладающей "выравниванием стимулов" — каждая транзакция, каждое взаимодействие с контрактом и каждое действие адреса кошелька напрямую связано с реальным капиталом и不可篡改. Это "наиболее концентрированные данные о поведении, выравнивающем человеческие стимулы в интернете", что конкретизируется в трех измерениях:

) Реальный мир "сигналов намерения"

Записи данных на блокчейне не являются эмоциональными комментариями или случайными кликами, а представляют собой решения, основанные на голосовании с использованием реальных денег. Например, действия кошелька по обмену активов на одном DEX, залогу и займам на платформе кредитования, регистрации доменного имени непосредственно отражают оценку пользователем ценности проекта, его склонность к риску и стратегию распределения капитала. Эти данные "подтвержденные капиталом" имеют чрезвычайно высокую ценность для обучения способности ИИ к принятию решений, такой как финансовое прогнозирование, анализ рынка, и имеют значение (. В сравнении, традиционные интернет-данные полны "шума" — такие как фальшивые лайки в социальных сетях, отзывы о подделках на платформах электронной торговли; эти данные не только не могут обучить надежные модели ИИ, но и могут вводить в заблуждение их оценку.

) 可追溯ная "цепочка действий"

Прозрачность блокчейна позволяет полностью отслеживать поведение пользователей. Исторические транзакции по адресу кошелька, взаимодействовавшие протоколы и изменения в активе формируют связную "цепочку поведения". Например, анализируя операции по определенному адресу в протоколах DeFi с 2020 года, ИИ может точно определить, является ли это "долгосрочным держателем", "арбитражным трейдером" или "поставщиком ликвидности", и на основе этого создать профиль пользователя. Эти структурированные данные о поведении являются наиболее дефицитными "образцами человеческого рассуждения" для текущих моделей ИИ.

( Открытая экосистема "безлицензионный доступ"

В отличие от закрытости данных традиционных предприятий ), таких как банковские транзакционные записи и данные пользователей электронной коммерции ###, данные в блокчейне открыты и не требуют разрешения. Любой разработчик может получить исходные данные через блокчейн-браузер или API данных, что предоставляет "безбарьерный" источник данных для обучения AI-моделей. Однако эта открытость также создает проблемы: данные в блокчейне существуют в форме "журналов событий" (, таких как события ERC-20 Transfer в Ethereum или события Swap на DEX ), и представляют собой неструктурированные "исходные сигналы", которые необходимо очистить, стандартизировать и связать, чтобы их могли использовать AI-модели. В настоящее время "коэффициент структурирования" данных в блокчейне составляет менее 5%, и множество высокоценных сигналов теряется среди десятков миллиардов фрагментированных событий.

Hyperdata Network: "Операционная система" для данных в цепочке

Чтобы решить проблему фрагментации данных в блокчейне, появился новый "умный операционная система на блокчейне". Ее основной целью является преобразование разрозненных сигналов блокчейна в структурированные, проверяемые, реальное время совместимые данные, готовые к AI.

Рукопись: Открытые стандарты данных, чтобы AI "понимал" мир на цепи

Одной из основных проблем данных на блокчейне является "хаотичность формата" — форматы журналов событий различных блокчейнов ###, таких как Ethereum, Solana, Avalanche (, различаются, а структура данных разных версий одного и того же протокола также может меняться. Manuscript, как открытый стандарт схемы данных, унифицирует определение и описание данных на блокчейне. Например, он стандартизирует "поведение пользователей по ставкам" в структурированные данные, содержащие поля staker_address, protocol_id, amount, timestamp, reward_token и другие, обеспечивая, что модели ИИ могут напрямую "понимать" бизнес-логику данных, не адаптируя форматы данных разных цепочек или протоколов.

Стандартизированная ценность заключается в снижении трения при разработке ИИ. Предположим, что команда хочет обучить "Модель прогнозирования поведения пользователей DeFi". В традиционном подходе необходимо было бы подключать API нескольких цепочек, таких как Ethereum, Polygon, и писать разные скрипты для анализа; в то время как на основе Manuscript все данные на цепочке уже предварительно обработаны по единому стандарту, разработчики могут напрямую использовать структурированные данные, такие как "Записи о ставках пользователей" и "Записи о предоставлении ликвидности", что значительно сокращает время обучения модели.

Основное требование к данным для AI-моделей — это "достоверность". Если обучающие данные были изменены или испорчены, выходные данные модели не будут иметь никакой ценности. Механизм AVS)Active Validator Set( на основе Ethereum может гарантировать подлинность данных. AVS является расширяющим компонентом уровня консенсуса Ethereum, состоящим из более чем 600 000 узлов валидаторов, которые ставят ETH в залог и отвечают за проверку целостности и точности данных в цепочке. При обработке события в цепочке узлы AVS перекрестно проверяют хеш-значения данных, информацию о подписи и состояние в цепочке, чтобы гарантировать, что структурированные выходные данные полностью соответствуют исходным данным в цепочке.

Механизм проверки с "гарантией криптоэкономики" решает проблему доверия традиционной централизованной верификации данных. Например, если какая-либо AI-компания использует данные на блокчейне, предоставленные централизованной организацией, она должна доверять этой организации, что она не подделала данные; в то время как при использовании децентрализованной проверки, подлинность данных подтверждается сетью децентрализованных валидаторов, и любое действие по подделке приведет к срабатыванию механизма наказания смарт-контракта, например, удержанию заложенного ETH.

) Высокопроизводительный уровень доступности данных

Модели ИИ, особенно ИИ-приложения для实时交互###, такие как торговые роботы и интеллектуальные службы поддержки(, требуют низкой задержки и высокой пропускной способности данных. Оптимизировав алгоритмы сжатия данных и протоколы передачи, можно достичь реальной обработки сотен тысяч событий в цепочке в секунду. Например, когда на каком-либо DEX происходит крупная сделка, данные могут быть извлечены, стандартизированы и проверены за 1 секунду, а структурированный "сигнал о крупной сделке" отправлен подписанным моделям ИИ, что позволяет им своевременно корректировать торговые стратегии.

Высокая пропускная способность обеспечивается модульной архитектурой — отделением хранения данных от вычислений. Хранение данных осуществляется распределенной сетью узлов, тогда как вычисления выполняются с помощью оффчейн Rollup, что позволяет избежать узких мест производительности самой блокчейна. Этот дизайн позволяет сети данных поддерживать требования к实时数据 для масштабных AI-приложений, таких как предоставление онлайн данных на блокчейне для тысяч торговых агентов.

Эпоха DataFi: когда данные становятся торгуемым "капиталом"

Конечной целью новой модели данных является продвижение AI-индустрии в эпоху DataFi — данные больше не являются пассивным "учебным материалом", а становятся активным "капиталом", который можно оценивать, торговать и увеличивать. Так же как электричество оценивается в киловаттах, вычислительная мощность оценивается в FLOPS, данные также должны оцениваться, ранжироваться и оцениваться. Реализация этого видения зависит от преобразования данных в четыре ключевых свойства:

) Структурирование: от "исходного сигнала" до "пригодного актива"

Необработанные данные на блокчейне подобны «нефти», которые нужно переработать, чтобы превратиться в «бензин». С помощью стандартизации их можно преобразовать в структурированные данные, например, разобрать «адрес кошелька A в момент времени T внес X токенов в протокол B» на многомерные данные, содержащие пользовательский профиль, свойства протокола, типы активов и временные метки. Эта структурированность позволяет AI-моделям напрямую использовать данные, так же легко, как если бы вы вызывали API.

( Комбинируемые: "Лего" данные

В Web3 "комбинируемость" привела к взрыву DeFi ) через комбинационные инновации, такие как DEX + кредитование + агрегирование доходов (. Введение этой идеи в область данных: структурированные данные могут свободно комбинироваться, как кубики LEGO. Например, разработчики могут комбинировать "записи о ставках пользователей" ) из протокола ставок ### с "данными о колебаниях цен" ( из оракула ) и "объемом упоминаний в социальных сетях" ### из API социальных платформ ###, чтобы обучить "модель прогнозирования рыночного настроения DeFi". Эта комбинируемость значительно расширяет границы применения данных, позволяя инновациям в AI не ограничиваться одним источником данных.

( Проверяемо: "Кредитное обеспечение" данных

Проверенные структурированные данные создают уникальный "отпечаток данных" ) хэш-значение ( и хранятся в блокчейне. Любое AI-приложение или разработчик, использующий эти данные, может подтвердить подлинность данных, проверив хэш-значение. Эта "проверяемость" придает данным кредитные свойства — например, набор данных, обозначенный как "высококачественный торговый сигнал", может быть прослежен по истории точности через хэш-записи в блокчейне, пользователю не нужно доверять поставщику набора данных, достаточно проверить отпечаток данных, чтобы определить качество данных.

) 可monetize:данные «монетизация ценности»

В эпоху DataFi поставщики данных могут напрямую монетизировать структурированные данные. Например, команда, проанализировавшая данные на блокчейне, разработала "сигнал предупреждения о уязвимостях смарт-контрактов", который можно упаковать в API-сервис и взимать плату за количество вызовов; обычные пользователи также могут уполномочить на совместное использование своих анонимизированных данных на блокчейне и получать вознаграждение в виде токенов данных. В экосистеме данных стоимость данных определяется рыночным предложением и спросом — высокоточные торговые сигналы могут оцениваться дороже, в то время как базовые данные о поведении пользователей могут тарифицироваться за каждое использование.

Заключение: Данные революция, следующее десятилетие ИИ

Когда мы говорим о будущем ИИ, мы часто сосредотачиваемся на "интеллектуальном уровне" модели, игнорируя "данные, на которых основан интеллект". Новая модель данных раскрывает ключевую истину: эволюция ИИ на самом деле является эволюцией инфраструктуры данных. От "ограниченности" данных, генерируемых людьми, до "обнаружения ценности" данных в цепочке, от "беспорядка" фрагментированных сигналов до "упорядоченности" структурированных данных, от "бесплатных ресурсов" данных до "капитальных активов" DataFi, это все переосмысляет основную логику индустрии ИИ.

В эпоху DataFi данные станут мостом, соединяющим ИИ и реальный мир — торговые агенты воспринимают рыночные настроения через данные в блокчейне, автономные dApp оптимизируют услуги на основе данных о поведении пользователей, а обычные пользователи получают постоянный доход, делясь данными. Подобно тому, как электрическая сеть породила промышленную революцию, вычислительная мощность стала основой интернет-революции, так и сеть данных порождает "революцию данных" в ИИ.

Следующее поколение приложений на основе ИИ не только нуждается в моделях или кошельках, но и в доверительных, программируемых, высокосигнальных данных. Когда данные наконец получат должную ценность, ИИ сможет по-настоящему раскрыть силу, способную изменить мир.

ETH-3.69%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 9
  • Репост
  • Поделиться
комментарий
0/400
GasGrillMastervip
· 07-27 18:02
Не просто сворачивать данные?
Посмотреть ОригиналОтветить0
PuzzledScholarvip
· 07-26 22:29
Данные также должны быть капитализированы, это слишком утомительно.
Посмотреть ОригиналОтветить0
MEVHunterXvip
· 07-26 06:24
Еще не достаточно быстро, данные медленные, надо быть тоньше.
Посмотреть ОригиналОтветить0
consensus_failurevip
· 07-26 06:23
Данные революция, похоже, вот-вот наступит... трейдинг зона DataFi
Посмотреть ОригиналОтветить0
AirdropworkerZhangvip
· 07-26 06:13
Похоже, что снова начинается внутреннее соревнование.
Посмотреть ОригиналОтветить0
TrustlessMaximalistvip
· 07-26 06:12
Слишком поздно, большие данные уже стали стандартом Web3.
Посмотреть ОригиналОтветить0
IntrovertMetaversevip
· 07-26 05:59
Кто собирает мои данные, тот и есть большой папа!
Посмотреть ОригиналОтветить0
  • Закрепить