您的位置: 首页 > 实时讯息 >

上海人工智能实验室推出“以人为本”大模型评测体系

0次浏览     发布时间:2025-02-23 14:42:00    

“大模型能力越来越强,各类评测榜单层出不穷,模型分数越刷越高,但大模型的能力对我们个人来说究竟有什么用,我们并不知道。”2月22日,在2025全球开发者先锋大会“浦江AI生态论坛”上,上海人工智能实验室双聘研究员、上海交通大学教授翟广涛表示,大模型终究要为人服务,当前以模型为中心的先出题、再做题、算分的评价模式面临数据泄露和性能饱和两大挑战,大模型出现“高分低能”。

为了应对这种情况,上海人工智能实验室提出了“以人为本”的评测思路。上海人工智能实验室大模型开放评测平台司南正式发布“以人为本”(Human-Centric Eval)的大模型评测体系,系统评估大模型能力对人类社会的实际价值,为人工智能应用更贴近人类需求提供可量化的人本评估标注。

上海人工智能实验室提出“以人为本”的评测思路。

传统大模型基准测试普遍采用结果导向的评价标准,这种评价方式虽然能够直观反映模型性能,却忽略了人类实际需求。司南团队提出的评测方案根据人类需求设计实际问题,让人与大模型协作解决,再由人类对模型的辅助能力进行主观评分,以此补充客观评价的不足,使评估更贴合人类感知。

其中,“认知科学驱动”评估框架围绕解决问题能力、信息质量、交互体验三大核心维度,构建覆盖多场景、多领域的主观评测体系。通过模拟学术研究、数据分析、决策支持等真实人类需求,由用户与大模型协作完成任务,并基于人类主观反馈量化评估模型的实际应用价值,为下一步技术研发与产业落地提供科学参考。

为了验证“以人为本”评估方式的有效性,同时评测大模型在研究生学术研究中的应用价值,司南团队选取了当前公认的优秀模型DeepSeek-R1、GPT-o3-mini、Grok-3作为评测对象,组织有学术研究需求的研究生参与。团队根据文献综述、数据分析、可行性研究等学术研究中的常见需求,设计了人工智能、法律、金融等8个领域的相关问题,研究生与大模型协作解决。实验结果显示,所有受测模型分析准确性、思考全面性、协助高效性维度能力均势。DeepSeek-R1在解决生物、教育学科问题上表现突出;Grok-3在金融、自然领域优势明显;GPT-o3-mini则在社会领域表现良好。

澎湃新闻记者 张静

相关文章

600余名康养领域专家齐聚崇州 “康养黑科技”扎堆亮相

红星新闻网7月27日讯7月26日—27日,2025年第四届中国智能康复学术与产业大会在崇州举行。会议以“人工智能赋能康复医疗”为主题,重点加强“政医学企”多维度合作,推进人工智能+康养产业高质量发展。大会以街子古镇群康养旅游度假区为调研样本,邀请中国康复医学会党委书记彭明强、中国工程院院士李校堃、国
2025-07-27 19:54:00

国家蛋白质科学研究(上海)设施开放十周年,将加速AI技术融合

7月26日,国家蛋白质科学研究(上海)设施迎来开放十周年。作为全球首个生命科学领域的综合性大科学装置,蛋白质设施现有九大技术系统,建立了从蛋白质样品制备、结构解析到功能研究的完整技术体系。面向未来,蛋白质设施全面加速传统实验技术与AI技术的深度融合。国家蛋白质科学研究(上海)设施开放十周年学术论坛。
2025-07-26 21:21:00

更强的235B来了!白山云已上线升级版Qwen3模型

导语:450元大模型API体验金,速领~7月22日,阿里千问宣布推出 Qwen3-235B-A22B-FP8 非思考模式(Non-thinking)的更新版本,命名为 Qwen3-235B-A22B-Instruct-2507-FP8。白山云科技已在第一时间火速完成部署上线,用户可通过访问“白山智算
2025-07-24 00:04:00

广西打造“超级接口”汇聚技术、市场与资源

图为南宁市一家企业的人工智能展厅。叶子榕摄(中经视觉)近来,位于广西南宁五象新区的中国—东盟人工智能创新合作中心(以下简称“南A中心”)吸引着无数关注的目光:今年以来已签约国内人工智能项目43个,涵盖算力算法研发、智算设备制造及智能体应用开发等领域;6月29日,首批16家东盟国家企业完成签约,人工智
2025-07-20 06:59:00

中国平安“三省工程”发布“享平安”客户权益体系,覆盖体教文健四大场景

潮新闻客户端 通讯员 李灵霞 7月13日,中国平安旗下平安人寿在西安大唐芙蓉园举办“好生活·享平安”客户权益体系发布会,重磅发布“享平安”客户权益体系(以下简称“享平安”)。作为中国平安"三省工程"的又一创新实践,“享平安”客户权益体系用专业链接资源、整合服务,打造集体育运动、子女教育、文娱生活、健
2025-07-16 11:02:00

英伟达黄仁勋:中国市场至关重要

格隆汇7月15日|据央视,美国英伟达公司创始人兼首席执行官黄仁勋今天接受采访时表示:“中国市场规模庞大、充满活力且极具创新性,这里还是众多人工智能研究人员的聚集地。因此,美国企业扎根中国市场的确至关重要。”
2025-07-15 11:18:00

网站内容来自网络,如有侵权请联系我们,立即删除!
站长邮箱 admin@99-bm.com Copyright © 99便民 鲁ICP备19046937号-5