您的位置: 首页 > 实时讯息 >

率先挖掘AI时代的“金矿”,上海如何以语料为支点撬动AI产业

0次浏览     发布时间:2025-02-23 19:18:00    

语料数据(Corpus Data)指为语言分析、模型训练等目的系统化收集的真实文本或语音材料的集合,是自然语言处理(NLP)领域的核心资源,相当于AI学习语言的“教材”。在AI时代,语料是人工智能发展的核心基础之一,甚至被誉为AI产业的“金矿”,是决定模型能力上限的核心要素。随着国产开源推理大模型DeepSeek的“出圈”,其思维链背后用到的数据合成技术,再次提升了对于高质量语料数据的需求。

政策引领,上海战略布局推动语料体系建设

上海作为中国人工智能发展的前沿阵地,AI相关产业正迎来蓬勃发展的机遇,而语料正是其中最为关键的抓手之一,语料体系建设已被纳入人工智能发展的核心框架。

2024年底发布的《关于人工智能“模塑申城”的实施方案》中明确提出,到2025年底,建成世界级人工智能产业生态,力争全市智能算力规模突破100EFLOPS(每秒百亿亿次浮点运算次数),形成50个左右具有显著成效的行业开放语料库示范应用成果。方案还明确提出,要建立一批通用和专用语料库,打造多层次语料体系,支撑基础大模型研发和垂直应用。聚焦前沿大模型训练需求,推动打造基础大模型训练语料库。聚焦金融、制造、教育、医疗、文旅、城市治理等行业需求,打造一批行业开放语料库与测试数据集。此外,还要推动成立算力和语料基金,探索算力和语料作价入股等模式,加强创新型企业培育。

在近期举行的2025全球开发者先锋大会上,语料也成为一个备受瞩目的议题。2月22日,“语料筑基 智生时代”主题论坛在上海徐汇举行,会议深度聚焦大模型语料前沿主题,汇聚产学研用顶尖智慧,共同探讨语料数据发展的无限机遇与潜力,共建上海大模型语料繁荣生态,为人工智能大模型创新发展和应用注入新动能。

论坛由全球开发者先锋大会组委会指导,由上海库帕思科技有限公司承办,漕河泾开发区总公司、上海人工智能实验室、商汤科技、阶跃星辰、稀宇科技等公司联合协办。上海市经济和信息化委员会副主任张宏韬,徐汇区委常委、副区长俞林伟出席论坛并致辞。

在论坛上,张宏韬表示,上海已全面战略布局人工智能大模型产业,加速推进“模塑申城”行动方案,为大模型提供强大的基础底座赋能和丰富的应用场景支持,成为产业界创新发展的理想沃土。未来,上海将持续夯实高质量综合语料基座,构建数据语料核心枢纽,加快创新语料服务关键性技术,加速推动“5+6”垂类领域语料工程,完善行业语料供给体系,构建共赢繁荣的语料服务生态,更好助力大模型创新发展和应用。

实践先行,发力语料基建建设和生态协同

有研究表明,互联网上的高质量语言数据资源或将在2027年消耗殆尽。与开采金矿需要在资源勘察、选矿厂建设、固定资产购置等方面开展大量工作,高质量的语料数据也需要解决在获取、治理、安全、应用等多方面存在的挑战,语料基础设施的建设和生态环境的形成至关重要。

上海为此已采取一系列措施来加强语料库的建设和应用,推动世界级人工智能产业生态的形成。在本届全球开发者先锋大会,上海市经信委主任张英表示:“上海将开发者捧为主角,为这一群体倾力提供资源、政策与氛围,努力培育繁荣的开发者生态。”

2024年3月,首家由政府主导成立的人工智能语料公司——上海库帕思科技有限公司正式成立,公司定位于专业化的功能性语料服务运营平台,致力于提供低成本、高质量的语料数据服务。

库帕思去年已完成构建了“1+X”语料基座,语料服务规模达260T,链接合作伙伴超100家,签署战略合作协议57家,发布了9个语料团体标准,并完成了7个标准草案。目前已全面启动具身智能、金融、制造、教育、医疗、文娱、城市治理等领域的行业语料库建设。同时,为了形成高质量的多模态语料库,库帕思也正在建设大模型语料超级工厂,以每天最高1000GB的速度进行语料加工,计划到今年年底将语料库的总容量提升至2PB。

在生态协同上,徐汇区作为国家级人工智能产业集聚区,在全市率先发展人工智能大模型产业,市区联手推出了全国首个大模型创新生态社区—“模速空间”,打造了算力调度、开放数据、金融服务等五大功能平台,为企业提供“保姆式”“专班式”服务。俞林伟表示,徐汇将持续做好落实要素保障,持续吸引全球顶尖人才,持续优化大模型和语料服务产业生态,把模速空间打造为“全球最大的人工智能孵化器”,打造徐汇建成全国人工智能高地的创新策源尖峰。

模塑申城,语料普惠计划之语料数据智能创意大赛正式启动

在本届论坛上,市经济和信息化委副主任张宏韬、上海信投党委书记、副总裁黄卫军、人民网上海分公司总经理金煜纯、上海人工智能协会秘书长钟俊浩共同发布了模塑申城语料普惠计划之语料数据智能创意大赛(简称CICC)。依托《模速申城语料普惠计划》,CICC大赛面向全社会寻找“好语料、好技术、好场景”,为上海“模塑申城”工程筑牢语料基石,打通高质量语料数据采集、标注、共享、应用全链路。

随后,大会隆重发布2025语料风云榜招募令。为汇聚行业顶尖智慧、构建开放合作生态,在2024年世界人工智能大会上,库帕思发起了首届语料风云榜,一批好企业、好产品脱颖而出。2025语料风云榜将延续“好企业、好产品、好规则”的基本框架,在未来4个月完成征集与遴选,并在2025年世界人工智能大会上正式对外发布“2025中国语料生产商风云榜TOP10”、“2025中国语料服务商风云榜TOP10”。

此外,为进一步促进高质量语料数据建设,在市经济和信息化委的指导下,库帕思以普惠、链接、创新的态度,携手首批103家企业、科研机构和专家学者,联合发起成立语料工作委员会。语料工作委员会将围绕高质量语料建设,通过优化语料平台与各垂类应用领域链接机制,促进语料方、模型方、应用场景方三方合作模式跑通落地,从而构建高质量、具备应用价值的语料生态。

在可以预见的未来,上海不但是“魔都”,更将是AI产业的“模都”,致力于占据全球人工智能产业的发展高地。如今,上海正以语料为支点,撬动人工智能产业的全球竞争力,为全球行业发展提供新基建、新生态和新路线,这座“最懂开发者的城市”,正在书写人工智能时代的“掘金传奇”。

澎湃新闻记者 秦盛

相关文章

数据筑基、破界而立:羊城晚报描绘“媒体+”融合新图景

当传统报章遇上智能时代,一场以数据激活文化基因、以技术重构产业生态的传媒变革,正在岭南大地上澎湃涌动。6月24日,《羊城晚报报业集团(羊城晚报社)推进系统性变革实施方案》(以下简称《方案》)发布,其提出的18类63项改革任务中,强化数据赋能,探索“媒体+”跨界融合,成为这一文化大报系统性变革中的核心
2025-06-29 12:46:00

是谁“偷”走了你的秘密?速查这三处漏洞

记者从国家安全部了解到,打印机作为现代办公高频使用的重要设备,其背后隐藏的安全隐患不容忽视。从硬件结构到网络连接,从日常操作到设备报废,容易造成失泄密隐患的渠道复杂多样,需要引起重视加以防护。窃密黑手知几何?恶意“毒源”精准攻击。某下载平台的部分打印软件曾被植入远程木马,利用下载链接扩散至大量用户设
2025-06-28 14:48:00

“百县对百校促就业行动”云南专场招聘会举行

本报讯(记者 欧媚)6月25日,教育部“百县对百校促就业行动”云南专场人才招聘会暨云南省2025届高校毕业生综合类招聘会在云南交通运输职业学院举行。 本次活动汇集了全国16个省份71个县近300家用人单位,提供制造、生物医药、数字经济、低空经济等行业就业岗位1.3万个,在滇高校1万余名毕业生参加招聘
2025-06-28 07:11:00

全国首个!贵阳贵安通用基础数据微调大模型免费开源

近日,贵州算家计算服务有限公司正式发布贵阳贵安通用基础数据微调大模型,并面向社会免费开源!目前,该模型已同步上线至算家云平台“镜像社区”。据悉,该模型基于国产领先大模型DeepSeek-R1-32B,深度融合贵阳贵安政务、产业、民生等六大领域本地化语料,实现区域知识的精准覆盖与动态更新,推动城市级A
2025-06-27 13:45:00

花都区汽车电子人才联盟成立,“订单式“育才赋能产学研

6月26日,花都区汽车电子产业人才联盟在东风日产大学成立,将定期开展产业人才交流会活动,搭建人才交流、技术合作、成果转化的一体化平台,汇集汽车电子领域高端人才,促进产学研协同,共同推动花都区汽车电子产业高质量发展。活动现场 以“轮值主席+专题研讨”机制聚智汇才据介绍,花都区汽车电子产业人才联盟由花都
2025-06-27 12:05:00

爱上大美青海生态之美触手可及

你印象中的生态之美是什么模样?青海之美,可以满足你的所有想象——白天鹅翩翩起舞、藏野驴悠闲觅食、野牦牛肆意奔跑、藏羚羊结队迁徙;三江源头、青海湖流域、祁连山下,清波荡漾、水草丰美。冰川雪峰、森林草甸、湖泊湿地与野生动物在此和谐共生,天蓝地绿水清已是各地的生态标识,一幕幕涵盖生态、生产、生活维度空间,
2025-06-25 09:04:00

网站内容来自网络,如有侵权请联系我们,立即删除!
站长邮箱 admin@99-bm.com Copyright © 99便民 鲁ICP备19046937号-5