站内搜索 | 手机版

智快网 - 新科技与新能源行业网络媒体

当前位置：智快网 > 科技 > 正文内容

OpenAI推出SimpleQA新基准：治理大模型“信口开河”有招了？

发布时间：2024-10-31 08:11 来源：ITBEAR 作者：赵云飞

OpenAI于近日推出了一项名为SimpleQA的新基准，旨在评估语言模型在回答简短事实寻求问题时的准确性。这一举措是AI领域追求更高事实正确性的重要一步。

据悉，SimpleQA通过一系列严格的标准来确保评估的公正性和有效性。其中包括高正确性，即参考答案需经两名独立AI训练师验证；多样性，涵盖从科学技术到娱乐等多个主题；以及前沿挑战性，相比早期的基准，SimpleQA更能测试出前沿模型的实力。

SimpleQA还注重高效用户体验，问题与答案设计得简洁明了，便于快速操作和评分。通过OpenAI API等工具，用户可以轻松地进行模型评估。

OpenAI表示，尽管SimpleQA在短查询的受限设置中测量事实准确性，但其希望这一基准的开源能够推动AI研究在更广泛领域的应用和发展。同时，SimpleQA也揭示了当前语言模型在生成事实正确回答方面仍面临的挑战，即如何减少错误输出和未经证实的答案，这一问题也被称为“幻觉”。

通过SimpleQA的推出，OpenAI期望能够进一步促进语言模型的优化和完善，使其在更多场景中发挥出更大的价值。

更多>同类内容

苹果iPhone 18 Pro将采用LTPO+技术，供应商挑战与研发进度受关注

11-24

大唐MAX N100迷你主机来袭：英特尔N100处理器，双网口配置仅549元起

11-24

《幻兽帕鲁》Mac版延期发布，为提升体验改至明年2月27日上线

11-23

微信PC版4.0.1内测：朋友圈功能上线，还有哪些新变化？

11-23

红龙M82/Pro有线磁轴键盘京东热售，Gasket结构，最低219元起！

11-23

大众汽车CEO：裁员关厂势在必行，工会罢工威胁能否阻止重组？

11-23

HKC G27H7 Pro显示器：27英寸4K 160Hz/1080P 320Hz双模，仅售1899元！

11-23

《地平线：零之曙光》Steam Deck验证遭玩家吐槽：帧率太低

11-23

抖音短剧结算新规落地，两大激励政策助力内容创作者

11-23

努比亚Z70 Ultra体验：独特设计，极致性能，真全面屏新标杆

11-23

2024中华文化国际传播新风向：哪些数字文化IP脱颖而出？

11-23

REDMI Watch 5大升级！2.07英寸超窄边框AMOLED屏，质感爆棚

11-23

微软Edge浏览器新推Game Assist，Win11游戏攻略从此触手可及！

11-23

《狙击精英》大逃杀项目遭取消，腾讯撤资或是关键原因？

11-23

短剧界新星闪耀！22日女演员戴琪轩、男演员柯淳热度登顶

11-23

点击查看更多 +

全站最新

OPPO Watch 4 Pro 高尔夫定制版来袭，专业级球场数据一网打尽！

OPPO Watch 4 Pro 高尔夫定制版来袭，专业级球场数据一网打尽！

小米Redmi新机“2409BRN2CC”获进网许可，详细配置曝光！

小米Redmi新机“2409BRN2CC”获进网许可，详细配置曝光！

荣耀耳夹式耳机预约开启，C形桥设计纯黑配色，你心动了吗？

荣耀耳夹式耳机预约开启，C形桥设计纯黑配色，你心动了吗？

中山大学80厘米望远镜首秀：红外天文观测新突破，超新星数据引关注！

中山大学80厘米望远镜首秀：红外天文观测新突破，超新星数据引关注！

23日短剧热度揭晓：《贺总》领跑，大盘热度近六千万

23日短剧热度揭晓：《贺总》领跑，大盘热度近六千万

保时捷货拉拉运费纠纷引热议，品牌深夜致歉：尊重基层零容忍

保时捷货拉拉运费纠纷引热议，品牌深夜致歉：尊重基层零容忍

英伟达CEO黄仁勋获港科大工程学荣誉博士，共庆AI时代创新成就

英伟达CEO黄仁勋获港科大工程学荣誉博士，共庆AI时代创新成就

瓦尔基里VK MAG 75系列机械键盘上市，低至149元起，多种配置可选！

瓦尔基里VK MAG 75系列机械键盘上市，低至149元起，多种配置可选！

热门内容

本栏最新

苹果iPhone 18 Pro将采用LTPO+技术，供应商挑战与研发进度受关注

苹果iPhone 18 Pro将采用LTPO+技术，供应商挑战与研发进度受关注

大唐MAX N100迷你主机来袭：英特尔N100处理器，双网口配置仅549元起

大唐MAX N100迷你主机来袭：英特尔N100处理器，双网口配置仅549元起

《幻兽帕鲁》Mac版延期发布，为提升体验改至明年2月27日上线

《幻兽帕鲁》Mac版延期发布，为提升体验改至明年2月27日上线

微信PC版4.0.1内测：朋友圈功能上线，还有哪些新变化？

微信PC版4.0.1内测：朋友圈功能上线，还有哪些新变化？

红龙M82/Pro有线磁轴键盘京东热售，Gasket结构，最低219元起！

红龙M82/Pro有线磁轴键盘京东热售，Gasket结构，最低219元起！

大众汽车CEO：裁员关厂势在必行，工会罢工威胁能否阻止重组？

大众汽车CEO：裁员关厂势在必行，工会罢工威胁能否阻止重组？

HKC G27H7 Pro显示器：27英寸4K 160Hz/1080P 320Hz双模，仅售1899元！

HKC G27H7 Pro显示器：27英寸4K 160Hz/1080P 320Hz双模，仅售1899元！

《地平线：零之曙光》Steam Deck验证遭玩家吐槽：帧率太低

《地平线：零之曙光》Steam Deck验证遭玩家吐槽：帧率太低

智快实验室评测约稿合作微信：netspread（注明:智快科技）简体繁体根据客户端智慧切换，如显示有问题，请点击页面右上角的简繁切换功能！
Copyright © 2016-2021 zhikuai.com All rights reserved. 鲁ICP备20033456号

微信群

微信扫一扫
加微信拉群
电动汽车群
科技数码群