AI 在高档历史磨砺中施展欠安：GPT-4 Turbo 准确率仅 46%

发布日期：2025-02-28 06:36 点击次数：160

近日，一项由奥地利复杂科学斟酌所（CSH）主导的斟酌炫耀，尽管大型谈话模子(LLMs)在多项任务中施展优异，但在应酬高档历史问题时却暴露了短板。斟酌团队针对三大顶尖模子进行测试，包括 OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini，成果让东说念主失望。

图源备注：图片由AI生成，图片授权作事商Midjourney

为了评估这些模子在历史常识上的施展，斟酌者们建设了一个名为 “Hist-LLM” 的基准测试器具。该器具依据 Seshat 大家历史数据库，旨在考证 AI 回话历史问题的准确性。斟酌成果在知名东说念主工智能会议 NeurIPS 上公布，数据炫耀，施展最好的 GPT-4Turbo 的准确率仅为46%。这一成果炫耀，其施展仅比赶快揣测稍好。

伦敦大学学院缱绻机科学副锤真金不怕火 Maria del Rio-Chanona 暗示:“尽管大型谈话模子令东说念主印象深切，但它们在高档历史常识方面的消失深度仍显不及。它们擅长经管浅易的事实，但在应酬更复杂的历史问题时却显得窝囊为力。” 举例，当议论古埃及某一特定时代是否存在鳞甲时，GPT-4Turbo 诞妄地回话 “存在”，而骨子情况是这种时代在1500年后才出现。此外，当斟酌者议论古埃及是否领有行状常备军时，GPT-4也诞妄地回话 “有”，而骨子谜底是莫得。

斟酌还揭示出，模子在经管一些特定区域（如撒哈拉以南非洲）的问题时施展较差，这标明其锻真金不怕火数据可能存在一定偏见。斟酌得当东说念主 Peter Turchin 指出，这些成果反应了在某些限制，LLMs 仍无法替代东说念主类。

举报/反馈

热点资讯