您的位置: 首页 > 实时讯息 >

率先挖掘AI时代的“金矿”,上海如何以语料为支点撬动AI产业

0次浏览     发布时间:2025-02-23 19:18:00    

语料数据(Corpus Data)指为语言分析、模型训练等目的系统化收集的真实文本或语音材料的集合,是自然语言处理(NLP)领域的核心资源,相当于AI学习语言的“教材”。在AI时代,语料是人工智能发展的核心基础之一,甚至被誉为AI产业的“金矿”,是决定模型能力上限的核心要素。随着国产开源推理大模型DeepSeek的“出圈”,其思维链背后用到的数据合成技术,再次提升了对于高质量语料数据的需求。

政策引领,上海战略布局推动语料体系建设

上海作为中国人工智能发展的前沿阵地,AI相关产业正迎来蓬勃发展的机遇,而语料正是其中最为关键的抓手之一,语料体系建设已被纳入人工智能发展的核心框架。

2024年底发布的《关于人工智能“模塑申城”的实施方案》中明确提出,到2025年底,建成世界级人工智能产业生态,力争全市智能算力规模突破100EFLOPS(每秒百亿亿次浮点运算次数),形成50个左右具有显著成效的行业开放语料库示范应用成果。方案还明确提出,要建立一批通用和专用语料库,打造多层次语料体系,支撑基础大模型研发和垂直应用。聚焦前沿大模型训练需求,推动打造基础大模型训练语料库。聚焦金融、制造、教育、医疗、文旅、城市治理等行业需求,打造一批行业开放语料库与测试数据集。此外,还要推动成立算力和语料基金,探索算力和语料作价入股等模式,加强创新型企业培育。

在近期举行的2025全球开发者先锋大会上,语料也成为一个备受瞩目的议题。2月22日,“语料筑基 智生时代”主题论坛在上海徐汇举行,会议深度聚焦大模型语料前沿主题,汇聚产学研用顶尖智慧,共同探讨语料数据发展的无限机遇与潜力,共建上海大模型语料繁荣生态,为人工智能大模型创新发展和应用注入新动能。

论坛由全球开发者先锋大会组委会指导,由上海库帕思科技有限公司承办,漕河泾开发区总公司、上海人工智能实验室、商汤科技、阶跃星辰、稀宇科技等公司联合协办。上海市经济和信息化委员会副主任张宏韬,徐汇区委常委、副区长俞林伟出席论坛并致辞。

在论坛上,张宏韬表示,上海已全面战略布局人工智能大模型产业,加速推进“模塑申城”行动方案,为大模型提供强大的基础底座赋能和丰富的应用场景支持,成为产业界创新发展的理想沃土。未来,上海将持续夯实高质量综合语料基座,构建数据语料核心枢纽,加快创新语料服务关键性技术,加速推动“5+6”垂类领域语料工程,完善行业语料供给体系,构建共赢繁荣的语料服务生态,更好助力大模型创新发展和应用。

实践先行,发力语料基建建设和生态协同

有研究表明,互联网上的高质量语言数据资源或将在2027年消耗殆尽。与开采金矿需要在资源勘察、选矿厂建设、固定资产购置等方面开展大量工作,高质量的语料数据也需要解决在获取、治理、安全、应用等多方面存在的挑战,语料基础设施的建设和生态环境的形成至关重要。

上海为此已采取一系列措施来加强语料库的建设和应用,推动世界级人工智能产业生态的形成。在本届全球开发者先锋大会,上海市经信委主任张英表示:“上海将开发者捧为主角,为这一群体倾力提供资源、政策与氛围,努力培育繁荣的开发者生态。”

2024年3月,首家由政府主导成立的人工智能语料公司——上海库帕思科技有限公司正式成立,公司定位于专业化的功能性语料服务运营平台,致力于提供低成本、高质量的语料数据服务。

库帕思去年已完成构建了“1+X”语料基座,语料服务规模达260T,链接合作伙伴超100家,签署战略合作协议57家,发布了9个语料团体标准,并完成了7个标准草案。目前已全面启动具身智能、金融、制造、教育、医疗、文娱、城市治理等领域的行业语料库建设。同时,为了形成高质量的多模态语料库,库帕思也正在建设大模型语料超级工厂,以每天最高1000GB的速度进行语料加工,计划到今年年底将语料库的总容量提升至2PB。

在生态协同上,徐汇区作为国家级人工智能产业集聚区,在全市率先发展人工智能大模型产业,市区联手推出了全国首个大模型创新生态社区—“模速空间”,打造了算力调度、开放数据、金融服务等五大功能平台,为企业提供“保姆式”“专班式”服务。俞林伟表示,徐汇将持续做好落实要素保障,持续吸引全球顶尖人才,持续优化大模型和语料服务产业生态,把模速空间打造为“全球最大的人工智能孵化器”,打造徐汇建成全国人工智能高地的创新策源尖峰。

模塑申城,语料普惠计划之语料数据智能创意大赛正式启动

在本届论坛上,市经济和信息化委副主任张宏韬、上海信投党委书记、副总裁黄卫军、人民网上海分公司总经理金煜纯、上海人工智能协会秘书长钟俊浩共同发布了模塑申城语料普惠计划之语料数据智能创意大赛(简称CICC)。依托《模速申城语料普惠计划》,CICC大赛面向全社会寻找“好语料、好技术、好场景”,为上海“模塑申城”工程筑牢语料基石,打通高质量语料数据采集、标注、共享、应用全链路。

随后,大会隆重发布2025语料风云榜招募令。为汇聚行业顶尖智慧、构建开放合作生态,在2024年世界人工智能大会上,库帕思发起了首届语料风云榜,一批好企业、好产品脱颖而出。2025语料风云榜将延续“好企业、好产品、好规则”的基本框架,在未来4个月完成征集与遴选,并在2025年世界人工智能大会上正式对外发布“2025中国语料生产商风云榜TOP10”、“2025中国语料服务商风云榜TOP10”。

此外,为进一步促进高质量语料数据建设,在市经济和信息化委的指导下,库帕思以普惠、链接、创新的态度,携手首批103家企业、科研机构和专家学者,联合发起成立语料工作委员会。语料工作委员会将围绕高质量语料建设,通过优化语料平台与各垂类应用领域链接机制,促进语料方、模型方、应用场景方三方合作模式跑通落地,从而构建高质量、具备应用价值的语料生态。

在可以预见的未来,上海不但是“魔都”,更将是AI产业的“模都”,致力于占据全球人工智能产业的发展高地。如今,上海正以语料为支点,撬动人工智能产业的全球竞争力,为全球行业发展提供新基建、新生态和新路线,这座“最懂开发者的城市”,正在书写人工智能时代的“掘金传奇”。

澎湃新闻记者 秦盛

相关文章

数字中国发展情况如何监测评估?相关指标体系和发展指数公布

“2023年、2024年,数字中国发展指数分别为136.03、150.51,同比增长达10.10%、10.65%。”4月29日,在第八届数字中国建设峰会期间,国家数据发展研究院院长胡坚波发布了“数字中国发展指标体系”和数字中国发展指数测算情况。据胡坚波介绍,自2024年10月以来,该院会同国内多家高
2025-04-30 11:19:00

上海市总工会“五一”期间推多项重磅活动 全城致敬劳动者

中工网讯 今年是中华全国总工会成立100周年,上海总工会成立100周年,在今年“五一”国际劳动节期间,上海市总工会准备了多个丰富多彩的活动,向全市劳动者致敬。从云端小屏到户外大屏,从穿越城市上空的无线电波到地铁广场里的集中展示,今年“五一”期间,整个申城都将被浓浓的劳模精神、劳动精神、工匠精神所围绕
2025-04-30 08:21:00

起步早、生态好、政策足!模速空间“C位出道”的阶跃星辰点赞“模都”

4月29日上午,习近平总书记在上海考察时,来到位于徐汇区的上海“模速空间”大模型创新生态社区调研。记者获悉,在“模速空间”展馆中,上海大模型独角兽企业阶跃星辰演示了旗下基础大模型的技术发展和应用情况。“国家高度重视人工智能的发展,其中基础大模型起到重要作用,是一场需要定力和实力的‘科技长征’。”阶跃
2025-04-29 23:26:00

景亚萍,被撤销全国政协委员资格

据新华社消息,政协第十四届全国委员会第三十五次主席会议29日在京召开。会议撤销景亚萍政协第十四届全国委员会委员资格的决定,提请全国政协十四届常委会第十二次会议追认。景亚萍(资料图)公开简历显示,景亚萍,女,汉族,1964年8月生,研究生,管理学博士,教授,中共党员、致公党党员。她是第十四届全国政协委
2025-04-29 18:04:00

西岸美术馆上新!蓬皮杜开启“新风景”,大卫·霍克尼带你走“瓦格纳之路”

4月28日,西岸美术馆与蓬皮杜中心新一轮五年展陈合作首个常设展“重塑景观”开幕。同时开幕的还有特展 “建造上海:1949年以来的建筑、城市与文化”,以及沉浸式艺术展“大卫·霍克尼:更大,更近”,西岸美术馆以全新的姿态,迈入一个更具前沿性与开放性的阶段。杜布菲作品《幸福的乡间》蓬皮杜中心主任罗朗·乐朋
2025-04-29 07:35:00

奔跑的力量

4月23日《广西日报》刊发文章《奔跑的力量》广西云-广西日报记者 董文锋报纸版面截图。编者按2025年是“十四五”规划收官之年,也是进一步全面深化改革的重要一年。新征程上,全区上下坚持实干为要,决心和信心更加坚定。即日起,广西云-广西日报推出全媒体专题报道——“在这里,感知经济脉动”,瞄准短期之“形
2025-04-28 19:07:00

网站内容来自网络,如有侵权请联系我们,立即删除!
站长邮箱 admin@99-bm.com Copyright © 99便民 鲁ICP备19046937号-5