LeCun最新访谈:距离AGI可能不到10年,下一代AI需要心机和视觉素养

发布日期：2025-01-23 15:47 点击次数：173

奇月发自凹非寺量子位 | 公众号 QbitAI

言语模子的发展已很难有大的破损了。

这是LeCun最新访谈中给出的断言。

头戴Meta爆火智能眼镜，LeCun再次默示东谈主类距离AGI的时刻莫得那么近，“大致在5-10年”，对言语模子发展的判断更是不乐不雅。

畴昔在哪？如故得看天下模子。

畴昔AI需要心机、视觉素养，能够纠合物理环境的天下模子。

而AI发展的缺欠是啥？开源，Llama之于AI就像是Linux之于互联网。

如果Llama畴昔不错发展成一个全球的、踱步式的AI诡计平台，不错大大促进AI的发展。

这次访谈在约翰霍普金斯大学布隆伯格中心进行，主办东谈主是Vox Media的卡拉·斯威舍（Kara Swisher）。

在不调动承诺的前提下，量子位对访谈的要点内容进行了梳理。

更智能的AI需要心机和视觉才能

Q：你取得了2024年Vin畴昔奖，在获奖感言中你提到，AI的学习方式不像东谈主类或动物，它们莫得从物理天下中获取普遍的视觉不雅察，但你一直在勤苦竣事这一丝。

LeCun：咱们将会有一些系统，它们会像东谈主类和动物一样高效地学习新技巧和新任务，咫尺咱们还无法用机器复制这一丝。

咱们无法制造出饱和贤人的家用机器东谈主，原因很简便，因为咱们素养的LLM和机器东谈主齐是基于扫数公开可用的文本，大致有20万亿个单词，每个单词大致由三个字节默示，是以大致是6乘以10的14次方个单词。

心情学家会告诉你，一个四岁的孩子悉数醒着的时刻是16000小时，视觉信息以每秒大致2兆字节的速率进入孩子的大脑。咱们来算一下，咱们有100万到200万根视神经纤维，每根每秒大致佩带一个字节，咱们有两只眼睛，是以大致是每秒2兆字节。

这样诡计，16000小时便是10的14次方字节，这与最大的LLM通过文本看到的数据量议论。咱们要花上几万年才能读完这些文本。这告诉咱们，咱们始终不会只是通过素养文本达到东谈主类水平的AI，咱们必须素养感官输入。

基本上，视觉输入是无尽的，16000小时的视频大致是YouTube上30分钟上传的视频总时长。咱们领有的视频数据比咱们能处理的要多得多。因此，畴昔几年AI要取得下一个级别的朝上，最大的挑战便是让系统通过不雅看视频并互动来纠合天下是怎样运作的。

这个问题还莫得措置，但我认为在接下来的五年里，很有可能取得要紧发达，这便是为什么你会看到扫数这些公司运行制造东谈主类机器东谈主。他们还造不出饱和贤人的机器东谈主，但他们敬佩在畴昔五年内AI会取得饱和的朝上，到时候这些机器东谈主就不错卖给公众了。

咱们设计在畴昔几年的构建蓝图中，AI系统将具有心机，这是这些系统设计的基本构成部分。为什么它们会有心机呢？因为它们将由方针驱动，你给它们一个必须完成的任务，它们的主义是在硬编码到它们设计中的拘谨条目下完成这个任务。

为了作念到这一丝，它们需要几个组件。起初，它们需要一种方法来笃定咱们给它们的方针是否也曾完成。此外，它们还需要一个咱们称之为天下模子的东西，这是咱们扫数东谈主在前额叶皮层中齐有的东西，它允许咱们联想咱们步履的效果是什么，它让咱们能够蓄意一系列行径来完成一个特定的方针。

如果你有才能提前预测一系列行径将产生什么，那么你就不错预测一个方针是否会得到满足，以及预测收尾会是好是坏。如果你预测收尾会很糟糕，你会感到懦弱；如果你预测收尾会很好，你会感到怡悦。是以，预测然后行径以完成这些预测的才能，产生了特别于心机的东西。

因此，饱和贤人的AI系统，能够推理和蓄意并领有天下模子的AI系统，将具有心机。

Q：这将产生凡俗的影响，可能会调动学习方式，调动一切，让每个东谈主齐相处得更好。然而，仇恨、功能阻难、寂寥等问题仍然存在，你怎样看待这些事情？

LeCun：我不是亿万大亨，我起初是别称科学家，如果莫得某种进程的科学诚信，我无法面临镜子中的我方。科学的全进程便是你必须袭取你可能会错的事实，正确的想法来自于多种不雅点的碰撞和不同意的东谈主。

咱们望望现实，东谈主们说AI会残害社会，因为咱们会充斥撰述假信息和生成的仇恨言论等等，但咱们根蒂莫得看到这种情况。事实上，东谈主们制造仇恨言论，制造作假信息，他们试图以多样方式传播，但咱们最佳的属目措施便是AI系统。

咱们需要的是更多的AI时刻掌抓在好东谈主手中，而不是坏东谈主手中。

言语模子很难再进步，畴昔每个东谈主齐会有AI助手

Q：你刚才说自纪念LLM正在达到性能上限，下一代东谈主工智能系统和大言语模子有什么不同？

LeCun：往时有些东谈主认为，像GPT这样的LLM，只须扩大范围，在更多的数据上进行素养，用更多的诡计才能，东谈主类水平的智能就会从中产生。我从来不敬佩这个主见。llya也曾是这个主见的有名信徒，不外他也烧毁了。

这些系统的性能也曾达到了上限，因为咱们基本上也曾用尽了扫数公开可用的文本数据来素养这些LLM，不可能再得到比这更多的数据了。是以东谈主们运行生成合成数据之类的东西，但这样不可能将性能提高10倍或100倍。

LLM被称为大型言语模子，因为它基本上是被素养来预测文本中的下一个单词，这些系统试验上是在预测单词的概率踱步，你不错用它来生成文本。这便是自纪念部分。

但无法保证所产生的单词序列会挑升念念，有可能会产生顺口开河或诬捏东西。是以好多行业齐在勤苦寻找一种方法，基本上是通过东谈主类参与来素养系统，让它们推论特定任务而不产生无好奇的内容。

咱们正在研究的是下一代东谈主工智能系统，它不单是基于预测下一个单词。

当它们不知谈谜底时，它们不错查询数据库或搜索引擎。你需要有能够检测系统是否知谈谜底的系统，然后可能生成多个谜底，然后你知谈挑选哪些谜底是好的。

Q：上周Meta发布了Meta Motivo，它不错制造看起来更像活东谈主的数字东谈主。这好像是在尝试让元天地再次成为现实，你能告诉我它到底是什么吗？因为你们在这些事情上参加了普遍资金。

LeCun：我咫尺正戴着智能眼镜，咱们最终将围绕智能眼镜或其他智能开荒伸开职责，它们将配备东谈主工智能助手，我不错通过它跟AI交流。这些开荒将在咱们的浩荡生存中协助咱们，咱们但愿这些系统具有东谈主类水平的智能水平，甚而在许多方面具有超东谈主的智能水平。

但咱们离阿谁方针还很远。不是几个世纪，也可能不是几十年，但可能是几年。LLM不错通过讼师覆按，或者通过一些大学覆按。但家用机器东谈主还不成十足打扫屋子，清算餐桌，洗碗。咱们不是不成制造机器东谈主，而是无法让它们饱和贤人、让它们纠合物理天下。事实阐明，物理天下对AI系统来说要复杂得多。

这些系统最终将能够蓄意一系列行径以竣事特定方针，这便是咱们所说的Agent。一个Agent系统是一个不错蓄意一系列行径以达到特定收尾的系统。咫尺巨匠评论的代理系统试验上并莫得这样作念。

Q：Meta还在开发AI搜索引擎，我猜你们是想超越谷歌搜索？

LeCun：一个智能助手的紧迫构成部分虽然是搜索。你搜索事实，并衔接到这些事实的开首。这样，与你交谈的东谈主就会信任这个收尾。是以搜索引擎是完竣AI系统的一个构成部分。

但归根结底，方针不是径直与谷歌竞争，而是行状于那些想要AI助手的东谈主。

畴昔每个东谈主齐会随时有一个AI助手，这将成为一个新的诡计平台。以前咱们称之为元天地，但这些眼镜最终会有清楚器，增强现实清楚器。也曾有了这方面的演示，比如猎户座面目。咱们咫尺不错把它作念得饱和低廉，不错出售了。

Q：咫尺东谈主力助手的资本要低得多。咫尺，Meta预测将破耗380亿至400亿好意思元，谷歌默示将超越510亿好意思元，分析师预测，微软的支拨将接近900亿好意思元。你会记挂被超越吗？你认为这是一项值得的投资吗？

LeCun：我不这样认为。我莫得在Facebook确立之初就袭取这份职责，是以不要问我这个问题。但这是一个历久的投资，你需要基础圭臬才能以合理的速率为越来越多的东谈主运行这些AI助手。

咫尺有6亿东谈主使用Meta AI，开源引擎Llama也曾被下载了6.5亿次，这是一个惊东谈主的数字。辞天下各地有85000个面目滋生自Llama，齐是公开可用的，大部分齐是开源的。好多这些面目基本上齐是在素养Llama说一种特定的言语，比如来自印度的言语。

我不认为这笔参加是冤枉的，因为将来会有好多东谈主每天神用这些AI系统，在一两年内会有很大增长。而这些系统如果更强劲，就会更有效，同期诡计资本就越高。是以这项投资是基础圭臬的投资。

Llama就像AI界的Linux

Q：Meta最近发布了Llama3.3，你认为它的主要作用是什么？和其他公司的阻塞模子对比起来有什么特质？

LeCun：Llama和大多数其他模子的主要永诀在于它是免费的和开源的。从时刻上来说，开源软件便是带有源代码的软件，你不错修改它、我方编译，你不错免费使用。而且，在大多数许可证下，如果你对它作念了一些改进，况兼你想在一个家具中使用它，你必须以源代码的阵势发布你的改进，这样就使得开源面目能够相配快速地发展，多年来这一直是一种见效的软件分发方式。

扫数这个词互联网齐运行在开源软件上，天下上大多数诡计机齐运行在Linux上，除了少数桌面电脑和一些iPhone除外，其他扫数的诡计机齐是这样。Linux相配见效，原因是它是一个平台，东谈主们不错修改它，让它更安全、更可靠等等，让它能够在多样硬件上运行。这并不是设计出来的，而是阛阓力量当然鞭策的。

在AI边界，判断某物是否为开源变得复杂，因为构建AI系统起初要采集素养数据，其次要在这些素养数据上素养所谓的基础模子。阿谁素养代码和数据常常是不公开的。举例，Meta不公开Llama模子的素养数据或大部分素养代码。

然后你不错分发素养好的基础模子，比如Llama。它开源了代码，你不错在职何方位运行该系统，况兼还不错进行微调。你不需要支付用度给Meta，也不需要向他们商榷，你不错我方作念这些事情。但这有一些收尾，主如若由于法律环境的原因。

大型模子好多齐是阻塞的，比如OpenAI、Anthropic和Google，这可能是因为他们想取得生意上风，比如你想径直从这种类型的家具中取得收入，况兼你认为我方或者不错起初于时刻，那么可能就有根由保持阻塞。

但对于Meta来说，Meta的AI用具是一整套体验的一部分，这些体验齐是靠告白收入来资助的，是以AI不是主要的收入开首。另一方面，咱们认为平台会发展得更快，事实上咱们也曾看到了Llama平台促进了更多的鼎新。有好多鼎新是咱们莫得想过、或者咱们莫得办法作念到，但东谈主们有了Llama模子之后，他们能够进行实验，然后建议新的想法。

Q：有好多东谈主品评说Meta之前在AI竞争里面逾期，开源模子是你们用来追逐的用具，你怎样看？

LeCun：起初，你必须厚实到，除了谷歌除外，这个行业里的每个东谈主在构建东谈主工智能系统时齐在使用一个名为PyTorch的开源软件平台。这个平台主要由Meta开发，其后Meta把扫数权转让给了Linux基金会，是以咫尺它不再属于Meta了。OpenAI的扫数东谈主齐使用它，是以莫得Meta，GPT和Claude等模子偶然发展不到今天的进程。

像GPT这样的用具，其中使用的底层时刻是在不同方位发明的。OpenAI在它们不那么守密的时候作念出了一些孝敬，它们在往时三年掌握的时刻里冉冉变得保守。谷歌虽然也作念了一些孝敬，但从未确切绽开过。他们试图奥秘地鞭策这项时刻。

我认为Meta是一个特别大的研究机构，咱们的研究组织叫作念FAIR，往时叫Facebook Research，咫尺主要作念基础研究。咱们有大致500东谈主在那里职责。咱们正在研究的试验上是下一代东谈主工智能系统，超越了LLMs，超越了大言语模子，超越了聊天机器东谈主。这便是所谓的好像念模子，这是一个特定的部分。

更安全的AI系统不错提前设计

Q：你说过私有AI模子逼近在少数几家公司手中是一个弘远的危急。开源模子的品评者也记挂，不良步履者可能会诈欺它们来传播诞妄信息、集聚战、生物恐怖主义等。谈谈这两者之间的永诀。Meta在小心这些情况发生的方面有什么四肢？

LeCun：这是一个弘远的争论。咱们第一次发布Llama是特别近期的事情，第一个Llama不是开源的。你必须央求许可，你必须阐明你是别称研究东谈主员。这是因为法律环境不笃定，咱们不知谈东谈主们会用它作念什么。

是以咱们进行了几个月的里面接洽，每周两个小时，有40个东谈主参与。对于安全性、法律环境等多样问题进行了相配严肃的接洽。然后在某个时候，马克决定绽开Llama 2的源代码。这是在2023年夏天完成的。从其时起，它基本上十足鞭策了扫数这个词行业。

为什么它比这些公司限度的私有模子更安全？因为有更多的东谈主在暖热它，是以有更多的东谈主在为多样事情微调它。

有一个问题是，可能有好多东谈主怀着坏心使用它。是以在Llama团队中，也曾对扫数咱们发布的系统进行Red Team测试，确保它们至少在发布时基本上是安全的。

咱们甚而最初将Llama 2给了一群黑客，在Defcon上让他们尝试作念赖事，比如尝试入侵系统之类的，这被称为白帽。收尾是，在往时的快要两年里，咱们还莫得厚实到任何确切糟糕的事情发生在咱们分发的任何模子上。

Q：如果你的愿景是AI成为扫数东谈主类常识的宝库，那么扫数的东谈主类常识齐必须可用于素养这些模子。而其中大部分要么没零碎字化，要么数字化了但莫得公开。

LeCun：比如法国国度藏书楼的一齐内容齐数字化了，但不可用于素养。我并不是在评论版权作品。我的家眷来自布列塔尼，法国西部。那里的传统言语也曾濒临灭绝，咫尺只好大致3万东谈主每天说这种言语。

如果你想让畴昔的LLM说布列塔尼语，就需要有饱和的素养数据。你将从那边得到这些数据？你会得到文化非渔利组织的匡助，他们采集他们领有的扫数东西。也许政府会匡助他们。但他们可能会说，我想让你们的系统说布列塔尼语，但我不想就这样把我的数据给你。

我认为最佳的方法是素养一个AI系统，一个踱步式的全球AI系统仓库，使用各地的数据为全球系统作念出孝敬。你不需要复制数据。

对于Linux来说，试验上它主如若由那些公司职工支撑的，这些公司告诉他们试验上要分发他们的孝敬。你不错有一个雷同的系统，每个东谈主齐不错为这个全球模子作念出孝敬，这是每个东谈主的AI。

Linux你是毋庸付费的，但如果你买了一个运行Linux的小部件，比如安卓手机或者车里的触摸屏，你为购买的小部件付费。AI亦然如斯，基础模子将会是开源且免费的。

咫尺，它如实嗅觉像是少许的力量在操控着一切。这个愿景很好意思好，但咫尺并莫得很好地竣事。不外，在我看来，这是不可幸免的。

Q：谈到辩说，你心爱与其他AI教父进行公开辩说，比如你的获奖同业Jeffrey Hinton和Yoshua Bengio。他们齐对AI的潜在危急发出了劝诫。

LeCun：我不认为需要对研发进行监管。我在加州法案SB 1047上与他们产生了不对。Hinton和Bengio齐支撑这个法案，而我则反对。我认为监管研发会给AI系统辖来晦气性的效果。我说，存在风险是一种幻觉，是一小撮过甚的智库所鞭策的。

但Hinton和Bengio并不外甚。Hinton刚刚因为他的职责取得了诺贝尔奖。另外，加州州长否决了这个法案，但他正在与斯坦福大学的贯通谐和对其进行阅兵。

我之是以称其为瞎掰八谈，是因为我认为这些危急也曾被夸大了，以至于变得误会。一些东谈主说AI会在五个月内杀死咱们扫数东谈主，这较着是诞妄的。

Q：让咱们来谈谈AGI（通用东谈主工智能），以及咱们距离它还有多远。当东谈主们听到这个时，他们会猜测《闭幕者》或《我，机器东谈主》之类的情节。

LeCun：Hinton和Bengio认为AGI的时刻表可能是五年，而我认为可能需要十年甚而更长。

我不知谈会是什么时候，但我个东谈主认为最早可能在五到六年后，但可能更接近十年。因为这比咱们联想的要阻滞多，历史上东谈主们老是低估AI的发展难度。

咱们咫尺还莫得达到东谈主类水平的智能，甚而不知谈怎样用AI系统作念好多事情，比如制造家用机器东谈主或五级自动驾驶汽车。在咱们找到新的方法之前，咱们甚而还莫得走上竣事东谈主类水平智能的谈路。

一朝咱们有了一个蓝图和一些的确的演示，阐明咱们可能有一条通往东谈主类水平智能的谈路，咱们就会知谈怎样使其安全。这就像在20世纪20年代，有东谈主告诉你几十年后咱们将能够以接近音速的速率航行数百万英里横跨大泰西，你会说：“天哪，你怎样知谈这安全？”但涡轮喷气机最终被阐明是相配可靠的。

是以，让AI安全意味着以安全的方式设计AI系统。但在咱们设计出来之前，咱们无法使其安全。

Q：你似乎不记挂AI会想要统辖东谈主类。你说现时的AI比家猫还笨。无论AI是否果然想要统辖咱们，咱们是否应该对AI和AI研发施加一些收尾？

LeCun：我认为，对于研发来说，不需要任何收尾。但如果你想推出一个家用机器东谈主，你可能会但愿硬编码一些法子，在系统构建时镶嵌效劳法律，比如当有东谈主在场时，机器东谈主不成拿着刀乱挥。

现时AI系统的设计在某种进程上是固有不安全的。你需要素养它们按照你的意愿行事。我建议了一种称为方针驱动的另一种架构，AI系统基本上只是为了竣事一个方针而存在，不成作念任何其他事情，只可在这个方针的拘谨下行径。

Q：咫尺好多东谈主，包括Hinton和Benjo在内，齐支撑一封由OpenAI现任和前任职工签名的信，号召AI公司的职工有权劝诫时刻的严重风险，你莫得支撑那封信。你是怎样看待模子安全这个问题的呢？

LeCun：我不是这个好奇。比如像辞谢在环球步地使用大范围东谈主脸识别这样的措施是件功德。

还有一些措施，比如未经允许就调动某东谈主在视频中的面部，这基本上也曾是正当的，咱们领有这些用具并不虞味着它们就不不法。可能需要针对这些步履制定定特定的法子，但我对此没挑升见。

我对AI骨子上危急以及需要监管研发的不雅点有异议，我认为这是避人耳目的。在畴昔，咱们将领有那些我认为对畴昔民主至关紧迫的开源平台，那些法子将会避人耳目，它们会让路源变得太冒险，以至于任何公司齐不敢分发，这样这些私东谈主公司将限度一切。

如果一切齐来自好意思国西海岸的三家公司，咱们齐说着雷同的言语，有着雷同的文化，这十足不可袭取。

他们想要的是绽开的平台，然后不错针对任何文化、价值体系或兴味中心进行微调，这样全天下的用户齐有聘请，他们不必使用三个助手，他们不错使用其他的。

咱们在印度与几个组织谐和，下一个版块的Llama能够说印度扫数的22或29种官方言语，这甚而还不及以涵盖章度的扫数言语，因为印度有700种言语，其中大部分是白话，莫得书面语。咫尺咱们有时刻不错让聊天机器东谈主试验上处理隧谈的白话，这是令东谈主惊奇的。

咱们在越南也作念了雷同的勤苦，咱们看到全天下的东谈主们齐在调换这些模子，并将其用于多样用途。我认为咱们需要一种更自愿的全球谐和伙伴忖度，这些系统从一运行就四肢基础模子，能够说天下上扫数的言语并纠合扫数的文化，这样的话，这些勤苦就会更容易见效，咱们不错为多样应用构建专门的系统。

参考衔接：

[1]https://www.youtube.com/watch?v=UmxlgLEscBs

— 完 —

量子位 QbitAI · 头条号签约

暖热咱们，第一时刻获知前沿科技动态

热点资讯