AI 在高档历史磨砺中施展欠安:GPT-4 Turbo 准确率仅 46%

AI 在高档历史磨砺中施展欠安:GPT-4 Turbo 准确率仅 46%

近日,一项由奥地利复杂科学斟酌所(CSH)主导的斟酌炫耀,尽管大型谈话模子(LLMs)在多项任务中施展优异,但在应酬高档历史问题时却暴露了短板。斟酌团队针对三大顶尖模子进行测试,包括 OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini,成果让东说念主失望。

图源备注:图片由AI生成,图片授权作事商Midjourney

为了评估这些模子在历史常识上的施展,斟酌者们建设了一个名为 “Hist-LLM” 的基准测试器具。该器具依据 Seshat 大家历史数据库,旨在考证 AI 回话历史问题的准确性。斟酌成果在知名东说念主工智能会议 NeurIPS 上公布,数据炫耀,施展最好的 GPT-4Turbo 的准确率仅为46%。这一成果炫耀,其施展仅比赶快揣测稍好。

伦敦大学学院缱绻机科学副锤真金不怕火 Maria del Rio-Chanona 暗示:“尽管大型谈话模子令东说念主印象深切,但它们在高档历史常识方面的消失深度仍显不及。它们擅长经管浅易的事实,但在应酬更复杂的历史问题时却显得窝囊为力。” 举例,当议论古埃及某一特定时代是否存在鳞甲时,GPT-4Turbo 诞妄地回话 “存在”,而骨子情况是这种时代在1500年后才出现。此外,当斟酌者议论古埃及是否领有行状常备军时,GPT-4也诞妄地回话 “有”,而骨子谜底是莫得。

斟酌还揭示出,模子在经管一些特定区域(如撒哈拉以南非洲)的问题时施展较差,这标明其锻真金不怕火数据可能存在一定偏见。斟酌得当东说念主 Peter Turchin 指出,这些成果反应了在某些限制,LLMs 仍无法替代东说念主类。

举报/反馈




Powered by 数字视野网 @2013-2022 RSS地图 HTML地图