(本文作者为 Omni实验室,钛媒体经授权发布)
文 | Omni实验室
这两年对于AGI(通用人工智能)的讨论,常常走向两个极端:一边有人说它已经近在眼前,一边有人说现有大模型这条路根本走不通。
谷歌 DeepMind的CEO Demis Hassabis大概属于第三类人。
上个月,他在YC的一场访谈里给出了一个让我印象很深的判断:
现在的技术路径大概率是对的,但AGI可能还差一两个关键想法的突破,而这一两个想法,藏在一些看起来不太性感的地方。
我觉得他不是那种喜欢喊口号的人,作为AlphaGo和AlphaFold背后的灵魂人物,他拿到过诺贝尔化学奖,也有认知神经科学的博士学位。
他不是外行,也不是需要一些惊人的话语来吸引注意力。
所以,正因如此,当他被问到AGI还差什么时,他的回答值得认真看一遍。
一、架构已经对了大半,但拼图还没完整
主持人问他——大规模预训练、RLHF(基于人类反馈的强化学习)、思维链这些技术,在AGI的最终架构里到底占了多大比例?
他说这些组件几乎肯定会是AGI的一部分。
在他看来,这些技术路线已经验证了足够多的东西,不太可能某天被证明是死胡同。
但在已有技术之上,还有三个东西没解决:
持续学习、长程推理,以及记忆。
前两个都好理解。但记忆这个事,听着有点矛盾
——现在的大模型不是能处理几百万甚至千万token的上下文吗?Gemini的上下文窗口已经能做到1000万token了,还不够?
先把矛盾放在这儿,我们继续往下看~
二、记忆越大,反而越难思考
Hassabis用一个很直白的类比解释了这个问题。
他说,上下文窗口差不多就是AI的工作记忆。
人类的工作记忆平均只能同时记住7个左右的信息单元,但AI的工作记忆已经被强行撑到了百万级别。
问题是容量扩得太大,反而成了麻烦。
现在我们几乎把所有东西都往上下文窗口里塞
有重要的、不重要的、对的、错的,全部一股脑放进去。
然后指望模型自己从里面找出真正有用的那块。
举个例子~
他说如果要处理实时视频流,把每一帧的所有token都存进去,那100万token其实只够放大概20分钟的内容。

这还是单向写入,不涉及反复查找和推理。
打个不太精确的比方:假如你用记事本写了一百万字的笔记,而且从不分类、不归档、不打标签。
每次你需要从中找出一个特定知识点的时候,你都只能从头到尾通读一遍。
存得下和找得到,完全是两回事。
真正的AGI需要的不只是能存住历史信息,而是能把新的理解融入已有的知识体系里,在需要的时候精准调取。

就像人脑做的那样,而不是每次都对着一本长得离谱的流水账从头翻到尾。
三、内省:AI还不太会“怀疑自己的答案”
Hassabis还谈了另一个问题,他称之为“内省”。
他说他喜欢让Gemini下棋,有时候模型会选一步明显很差的棋。
系统自己也意识到了这可能是一步臭棋,但因为没有找到更好的替代方案,最后还是走了那一步。
他说最奇怪的地方是:同一个模型,能解出IMO(国际数学奥林匹克)金牌级别的题目,但换个方式问,它又会在小学数学级别的问题上犯错。
这说明模型对自己的推理过程还缺乏真正的反思能力。
它不是不知道自己可能错了,而是不知道怎么推翻或纠正自己。做错了就继续错下去,或者换一条路再撞一遍,像个新手棋手反复走进同一个陷阱。
四、一个务实的时间表
Hassabis对AGI时间的判断是2030年左右,他没有很绝对的认定,但概率应该不低。
他说大概有五五开的可能,剩下的那一两个关键想法还没有被找到。
我觉得他的态度更像是认为我们是在正确的方向上,只是还需要一些更精巧的东西
不是单纯的算力和数据能解决的东西
对于一名AI从业者来说,这可能是近期最有信息量的一场访谈。
不是因为他说了多惊人的结论,恰恰相反,他把问题讲得很清楚,也很克制。
也许真正值得关注的,正是那些看起来“不性感”的地方。
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App
本文为本站原创内容,如需转载请注明出处。
本文永久地址:https://m.ace6231.store/article/58724.html
文章观点仅供学习交流参考。