活动现场王宏伟致辞张健致辞何亚琼致辞周振宇宣布开幕签约现场与会领导嘉宾参观项目展示常德日报记者 罗希 文/图 9月25日,2025中国生物制造科技创新...
2025-09-26 0
财联社9月26日讯(编辑 夏军雄)当地时间周四(9月25日),人工智能(AI)研究公司OpenAI发布了一项新的基准测试,用于比较其AI模型与各行业专业人士的工作表现。
这项测试名为GDPval,是一次初步尝试,旨在评估OpenAI的系统距离在经济价值工作上超越人类有多近。而经济价值工作是OpenAI开发通用人工智能(AGI)的关键环节。
OpenAI周四表示,其GPT-5模型以及竞争对手Anthropic公司的Claude Opus 4.1“已经接近行业专家的工作质量”。
这并不意味着OpenAI的模型会立刻取代人类工作。尽管一些CEO预测AI在几年内就会取代人类,但OpenAI承认GDPval目前只涵盖人们实际工作中有限的一部分任务。不过,这是该公司用来衡量AI向这一里程碑迈进的最新方式之一。
GDPval基于美国GDP贡献最大的九个行业,包括医疗、金融、制造业和政府等领域。测试覆盖了44种职业,从软件工程师到护士再到记者。
在首个版本GDPval-v0中,OpenAI邀请资深专业人士对比AI生成的报告与其他专业人士的成果,并挑选出更优者。
例如,某项任务要求投行人员为“最后一公里配送行业”制作竞争格局分析,并与AI生成的报告进行对比。OpenAI随后将AI模型在全部44个职业中对抗人类报告的“胜率”进行平均计算。
结果显示,GPT-5-high(高算力版本GPT-5)在40.6%的情况下被评为优于或与行业专家持平。
而Anthropic的Claude Opus 4.1模型则在49%的任务中被评为不输于行业专家,这一表现超过了OpenAI的模型。
OpenAI对此解释称,之所以Claude得分更高,部分原因是其倾向于生成更美观的图表,而非纯粹性能更优。
需要说明的是,大多数职业的工作远不止提交研究报告,而这却是GDPval-v0所测试的全部内容。OpenAI承认这一点,并计划在未来开发更全面的测试,涵盖更多行业和交互式工作流程。
尽管如此,OpenAI仍认为GDPval的进展具有重要意义。
OpenAI首席经济学家Aaron Chatterji在接受采访时表示,GDPval的测试结果表明,这些岗位上的人们可以利用AI模型节省时间,从而专注于更有意义的工作。
“因为模型在某些事情上已经变得很擅长,随着能力的提升,人们可以越来越多地把部分工作交给模型,去做潜在更有价值的事情,”Chatterji说。
OpenAI评估负责人Tejal Patwardhan表示,她对GDPval的进步速度感到鼓舞。
Patwardhan指出,约15个月前发布的GPT-4o模型得分仅为13.7%(胜出或持平人类),而GPT-5的成绩几乎提高了三倍。她预计这一趋势还会继续。
(财联社 夏军雄)
相关文章
活动现场王宏伟致辞张健致辞何亚琼致辞周振宇宣布开幕签约现场与会领导嘉宾参观项目展示常德日报记者 罗希 文/图 9月25日,2025中国生物制造科技创新...
2025-09-26 0
财联社9月26日讯(编辑 夏军雄)当地时间周四(9月25日),人工智能(AI)研究公司OpenAI发布了一项新的基准测试,用于比较其AI模型与各行业专...
2025-09-26 0
青海特装展区。向客商介绍产品信息。本报记者 牛玉娇 摄本报记者 牛玉娇八月十八潮,壮观天下无。钱塘江大潮的余韵未歇,浙江省杭州市又迎来另一股席卷全球的...
2025-09-26 0
本报讯(记者 郭晓华)为激发社区居民尤其是青少年的科学探索兴趣,普及科学知识,9月20日上午,老军营小区第二社区在社区科普活动中心组织开展了“趣味...
2025-09-26 0
大象新闻记者 李莉 李磊 张迪驰9月25日,小米集团董事长兼CEO雷军在“2025年度演讲”中表示,小米曾经给纽北官方连发21封邮件,但没有得到明确回...
2025-09-26 0
9月23日,梅赛德斯-奔驰(中国)投资有限公司与北京字跳网络技术有限公司宣布签署升级战略合作备忘录,共同推动人工智能(AI)技术的跨业务融合。梅赛德斯...
2025-09-26 0
9月24日,麻六记酸辣粉再次被曝出现发霉情况,距离上次同类风波过去不足两月。麻六记酸辣粉再次被曝发霉近日,一网友在社交平台上发布视频称,自己在某网购平...
2025-09-26 0
要点:•第三代QualcommOryon™ CPU是目前最快的移动端CPU。•凭借卓越的性能、能效和终端侧AI处理能力,第五代骁龙8至尊版专为提升核心...
2025-09-26 0
发表评论