找回密码
 立即注册

扫一扫,登录网站

首页 区块链生态 查看内容
  • 2923
  • 0
  • 分享到

邬贺铨院士:AI时代的数据要素开发与治理

2023-11-10 08:50

来源: 国家数据局

培育数据资源,促进开放共享


数据是生产和生活过程的记录及对自然观察的结果。2022 年中国人口占全球 18%,网民占全球 21.5%,GDP 占全球 18.06%。据国家网信办《数字中国发展报告(2022年)》数据显示,2022 年我国数据产量达 8.1ZB,同比增长 22.7%,全球占比为 10.5%,位居全球第二;我国数据存储量达 724.5EB,同比增长 21.1%,全球占比为 14.4%。中国产生和存储的数据在全球的占比均低于中国的人口、网民和经济规模在全球的比例。据 Synergy Research Group 截至 2021 年 Q3 季度统计,美国大规模数据中心在全球占比高达 49%,其次是中国占比为 15%。可见我国数据存储量与美国相比差距还比较大,这反映了我国在社会信息化和产业数字化程度上仍落后于美国,加快数字中国的建设将有望尽快改变这一状况。

政府与研究机构及企业都会存储大量数据,其中政府掌握全社会数据约 80%,而且是高质量数据,但主要却仅供内部使用甚至是本部门内小单位各自存储和使用而非共享,数据利用率不高。需要从制度上明确共享内容、权限和责任,促进政府部门间数据共享,更精准地把握社会和经济运行全局,提升政府部门间工作的协同性。与共享相比,数据开放更是社会数字化的标志之一,政府及企事业单位掌握的公共数据具有很强的社会性,政府开放数据对提升政府公信力、降低社会成本,带动数字经济发展有重要作用。国际上将政府数据开放作为数字政府的重要衡量指标,据《联合国电子政务调查报告2022》数据显示,从 2012 年到 2022 年的十年间,中国在线服务指数从 0.5294 上升到 0.8876,在 193 个国家中排名从第 62 位上升到第 15 位,爱沙尼亚、芬兰、韩国位居前三,美国第 8,日本第 9。我国还存在政务数据标准规范体系待健全、政务数据统筹管理机制待完善,政务数据安全保障能力待加强的问题,需要从建设数据流通基础制度体系入手,加快数据立法,完善制度规范,统筹协调推进,编制数据目录,分类分级管理,夯实共享开放机制,提升安全保障。

除了政府开放数据以外,社会公共数据的开源开放也表征数据流通的水平。人工智能生成内容(AIGC)大模型都是利用语料库训练的,一些互联网大厂利用电商、社交、搜索等业务收集和标注了海量的语料供自身训练大模型使用,没有语料积累的企业和研究机构虽然可以从网络获得语料,但自媒体内容质量良莠不分,未经清洗与标注就用作大模型的训练语料其效果堪忧。ChatGPT 大模型训练时使用了开源语料库,但中文词元(token)占比不到 0.1%,还不及一些小语种的比例,其中的原因与中文开源语料库数量少和规模小有关。国内高校也有数亿到数十亿字的语料库但尚未开源。国内一些语言大模型直接采用国外开源语料库训练,在价值观的把控上存在潜在风险,建议对面向公众开放应用的对话类大模型需要做语料来源的评估。面向重要应用场景的大模型不宜强调训练用数据免标注和无监督学习,还是要采用经过清洗标注的数据集和保留人工微调,即有监督学习环节。

行业大模型的训练也面临挑战,专业数据没有通用数据容易获得,行业内的企业间往往不愿共享专业数据。为此有必要建立高质量国家级重要行业领域基础知识库、数据库、资源库等。此外要鼓励社会数据要素的合理流动和利用。中共中央、国务院《关于构建数据基础制度更好发挥数据要素作用的意见》提出,依法规范、共同参与、各取所需、共享红利的发展模式,将合理降低市场主体获取数据的门槛,增强数据要素共享性、普惠性,激励创新创业创造。

版权申明:本内容来自于互联网,属第三方汇集推荐平台。本文的版权归原作者所有,文章言论不代表链门户的观点,链门户不承担任何法律责任。如有侵权请联系QQ:3341927519进行反馈。
相关新闻
发表评论

请先 注册/登录 后参与评论

    回顶部