数据是数字时代的生产要素,也是AI的核心生产力。OpenAI发布ChatGPT之后,
百度迅速发布“文心一言”,但对比之下效果却不甚理想。很多人说原因是GPT的语料库是全球互联网,而“文心一言”的是百度知道和百度贴吧。这当然是言过其实的调侃,但深思其背后的逻辑却是成立的,即大模型的成功依赖于数据来源的广度和开放度。仅从一两个平台获取数据进行训练,必然只会做出有“偏见”的模型。
ChatGPT在这一点上做得很好,依靠互联网的开放度尽可能多地收集了数据,但其主要来源仍然是中心化的数据平台,这也是Web2互联网范式下的数据困境,它会在数据应用层面带来两大问题:
1.数据源枯竭
依赖中心化平台所产生的数据无法保证有稳定持续的数据源来训练升级模型。Altman提到的互联网语料已被GPT穷尽只是问题的冰山一角。更严重的问题是,缺少数据激励会导致新的优质数据越来越少,甚至出现AI无数据可用的问题。
让我们想象这样一个场景。如果说ChatGPT逐渐完善成为唯一的知识平台,Quora、Stackoverflow、知乎等一众知识平台必将失去生存空间,而它们却又是ChatGPT训练的主要数据来源,那未来的ChatGPT又要用什么数据来训练呢?
2.数据质量低下
对于AI来说,平台有自己的应用场景,不会考虑AI训练的需求。平台不会对所谓的“数据质量”做审核,例如知乎上分享的不一定是知识,也可能是刚编的故事。同时根据不同平台的使用人群不同还会产生内容偏见。这也是为什么ChatGPT经常会给出一些明显错误甚至荒谬的回答。
以上问题的核心是平台数据并没有完成数据要素化。用户作为数据的生产者无法对数据进行确权,导致数据全部归平台所有;平台作为数据的加工者缺乏激励,不会对数据进行应有的加工;模型公司作为数据的使用者与数据生产加工环节严重割裂。而去中心化数据基础设施正是这些问题的解决方案。
在《
区块链托管重塑数据要素权益分配机制》一文中,我们提到了Web3是数据要素革命,是数据主权的“还数于民”。在AI新时代里,去中心化数据基础设施将为AI模型提供全生命周期数据解决方案,包括:
(1)数据确权:用户数据通过自主数字身份确权,数据生产者直接参与模型建设周期并获得对等激励;
(2)数据加工:数据加工者(例如模型数据标注、数据质量评价)通过去中心化数据基础设施参与模型建设并获得对等激励;
(3)数据共享:数据生产者通过去中心化数据托管共享数据给数据使用者(例如建模公司),建模公司可以通过智能合约自动化数据获取和建模流程,实现快速模型升级。
版权申明:本内容来自于互联网,属第三方汇集推荐平台。本文的版权归原作者所有,文章言论不代表链门户的观点,链门户不承担任何法律责任。如有侵权请联系QQ:3341927519进行反馈。