“纯”大模型公司不复存在、产品经理将比程序员更重要?林咏华、黄东旭、李建忠激辩大模型 | 万有引力...
作者 | 《万有引力》出品 | CSDN(ID:CSDNnews)过去一年,AI 及大模型技术的发展令人目不暇接:业界担忧 Scaling Law 遭遇瓶颈,开源模型蓬勃发展,推理能力迎来突破,多模态技术全面开花。然而,技术的演进也带来了新的思考:大模型公司的未来将走向何方?模型训练算力、数据质量哪个更重要?GenAI 应用 Killer App 何时到来?Agent 是否会迎来“千体大战”?20
作者 | 《万有引力》
出品 | CSDN(ID:CSDNnews)
过去一年,AI 及大模型技术的发展令人目不暇接:业界担忧 Scaling Law 遭遇瓶颈,开源模型蓬勃发展,推理能力迎来突破,多模态技术全面开花。然而,技术的演进也带来了新的思考:大模型公司的未来将走向何方?模型训练算力、数据质量哪个更重要?GenAI 应用 Killer App 何时到来?Agent 是否会迎来“千体大战”?2025 将是具身智能元年?
1 月 8 日,CSDN 对话直播栏目《万有引力》正式开播,在栏目主理人 CSDN &《新程序员》执行总编唐小引的主持下,北京智源人工智能研究院副院长兼总工程师林咏华、CSDN 高级副总裁李建忠、PingCAP 联合创始人兼 CTO 黄东旭围绕这些问题展开对话,对大模型技术发展进行了深度的总结及展望,本次对话中,三位嘉宾分享了多个引发热议的观点。
欢迎收听 & 订阅咱们的小宇宙新频道~
同时和大家预告,1 月 15 日中午 12:00,《万有引力》邀请到 Gru.ai CEO、CODING 创始人 张海龙,Prompt Engineer、知名 AI 博主 宝玉,阿里云通义灵码技术负责人 陈鑫、智谱 AI CodeGeeX 团队技术负责人 郑勤锴,和大家一起深入聊聊程序员朋友们最关心的 AI Coding 的痛点及演进,欢迎点击下方预约按钮一起参与。
黄东旭
我不太相信 Scaling Law。现在这一波生成式 AI 的可解释性,整个学术界其实没有定论。
产品经理可能比程序员更重要。AI 已经大大降低了编程的门槛,如果你真的有好想法,完全可以自己去尝试启动。
AI 或者 RAG 的业务最终会变成一个数据业务,就是谁拥有了数据,谁存储了数据,尤其是个人数据,谁就能赚大钱。
从左至右分别是:唐小引(主持)、林咏华、李建忠、黄东旭
李建忠
Agent 将使互联网从信息互联网转变为行动互联网,Agent 将塑造智能时代的应用形态。
大模型不是操作系统,操作系统的护城河很深,而大模型的护城河相对较低。未来的大模型仍然需要依赖操作系统来与各种应用和服务交互。
林咏华
做人形机器人的公司应该有 80 家左右,甚至可能接近 100 家。我们希望有一天能够打造出一个跨本体的具身智能大模型,能用于不同的机器人本体。
互联网上中文内容的占比,从 2013 年的 4% 多,到 2021 年已经下降到了 1.4%。这个比例下降的原因,并不是使用中文的人减少了,而是很多数据被封闭了。
以下是对话全文,经 CSDN 精编整理:
2024 年,大模型的“关键词”
唐小引:如果总结 2024 年大模型这一年的进展,你们会想到哪些关键词?哪些重要主题是你们认为非常关键且值得与大家分享的?
黄东旭:2024 年,我觉得首先要强调的点是,AI 的发展似乎遇到了一个瓶颈。Scaling Law 是否仍然有效,我还不能下定论。但从 GPT-5 以及像 Claude 这样的头部大模型厂商的新模型进步速度来看,已经很难再看到像 ChatGPT-1 到 GPT-3、3.5 再到 GPT-4 那样令人惊艳的飞跃了。因此,我认为第一个关键词是“短期天花板”。
第二个关键词是“开源模型的蓬勃发展”。回想两年前,ChatGPT-1 问世时,开源界一片恐慌,觉得无法追赶。但现在回头看,开源模型与主流一线大模型的差距已经缩小,甚至可以说,使用开源模型或开源许可友好的模型,已经能够做出很多真正有用的东西,而不仅仅局限于研究性质,能够产生实际的应用价值。
第三个点是,大家已经看到了这一波 AI 的天花板和下限。如果没有特别大的技术突破,其上限和下限已经相对清晰。因此,接下来可能会进入一个相关技术蓬勃发展的阶段,比如 RAG、Agent 等技术。如果要总结今年的趋势,那就是“遍地开花”。
李建忠:如果要我总结关键词,我想有三个。第一个关键词是“推理”,尤其是推理的 Scaling Law。OpenAI从年中的 o1 到年底的 o3,国内也有许多跟进者,我认为 2025 年会迎来大模型在推理侧的发展,就像 2024 年多模态的蓬勃发展一样,不再是单一厂商的天下,会有更多开源力量的加入。
推理的突破也破解了一些学者的质疑。相当一段时间以来,有学者认为大模型可能还是一种基于统计的模型,尤其在预训练系统中,更多表现出人类的 System 1 的语言能力,而 System 2 的思考能力、或者推理能力相对较弱。但下半年 OpenAI o1 展示了推理 Scaling Law 的发展,破除了大模型只会鹦鹉学舌式语言能力的质疑。正如维特根斯坦在关于人类语言与智能研究中所述,语言是人类智能的核心,他用“语言是思想的图画”或“语言是思想的边界”来形容,语言本身就蕴含着推理这一智能的关键要素。总体而言,下半年推理侧计算的发展,为模型 2025 年实现超越人类专家级智能水平奠定了基础。
第二个关键词是“多模态”。早在 2023 年,大家主要关注语言模型,认为 Transformer 架构更适合自然语言。但到了 2024 年初,随着 Sora 的出现及后续厂商的创新,包括智源在统一表示方面的创新,证明了 Scaling Law 和 Transformer 架构不仅适用于语言,还适用于视觉等更多模态。我曾在 Sora 发布后谈过,如果说 GPT 打开了 AGI 理解人类的大门,而 Sora 则打开了 AGI 理解世界的大门,因为它能够看见并理解世界的物理实体。我认为多模态在 2025 年,在对物理世界的探索方面,将大有可为。包括李飞飞教授研究的空间智能等领域都非常值得期待。
第三个关键词是“Agent”。Agent 被视为智能时代的 App 形态。去年在全球产品经理大会上,我提出一个观点:Agent 将使互联网从信息互联网转变为行动互联网。过去,互联网提供的主要是链接信息,人基于这些信息做决策和行动。但 Agent 凭借大语言模型的推理能力、工具能力和执行行动的能力,将使未来很多互联网行为由 Agent 来完成,比如帮助我们购物、下单、定酒店等。去年荣耀以及国内诸如智谱等公司开发的 Agent 只是展示了雏形,如果再结合人机交互方面的创新,我相信 Agent 将真正塑造未来的应用形态,这会带来广阔想象空间。
黄东旭:我感觉这个时间不会太久,因为在我看来,Agent 本质上就是完成一个具体任务。这些任务在程序中可以看作是一个个 API,比如发邮件、订奶茶、订机票等。难点在于 AI 需要对这些任务进行编排和理解,而最终的调用其实相对简单。这里面临的挑战并不在于基础技术,而是在于这些最终向用户提供服务的公司是否愿意开放其 API 供其他 AI 使用。
李建忠:而且很有可能的是,Agent 会打破现在应用中独立 App 的界限。未来我们面对的手机可能不再是一个个独立的 App,而是通过 Agent 无缝集成这些功能。
黄东旭:我现在做了很多有趣的事情,比如我自己的一些小项目。以邮件和飞书为例,我们使用飞书,所以我让 AI 帮我阅读和回复飞书的聊天记录。这里面最难的部分不在于调用大模型来理解这些内容,而在于如何将消息流接入,如何通过 Gmail 的 API 读取我的邮件,以及将这些信息存储在哪里。这些基础的工作占据了 90% 的工作量,而在大模型那一侧,它只是需要一些 Prompt 而已。
唐小引:林老师,请分享一下您对 2024 年的关键词总结。首先,Sam Altman 曾说 2024 年是多模态的一年,但您曾说过这一年也是大模型应用落地的一年。您总结 2024 有哪些关键词和重要主题?
林咏华:其实关键词和主题挺多的,但我先聚焦在三个主题上。首先,从全球开源大模型的发展来看,我们观察到出现了两极分化:一种是“越大越强”,即通过增加参数量来提升模型性能,以 Llama 3 的 405B 模型为代表;另一种是“越小越精”,许多模型的参数量都在 100 亿以下。我们曾在 11 月份对 Hugging Face 上过去一个月下载量超过 10 万的模型进行了调研,发现像 405B 这样大的模型,一个月的下载量居然接近 1000 万次。而剩下的大量模型中,90% 以上是 100 亿参数以下的小模型。
其次,2024 年确实是语言模型落地的一年,不断在一些高阶的能力上取得进步;但多模态模型的情况与 2023 年相似,还有许多进步的空间。智源在 12 月 19 日发布了智源评测,我们对比了 12 月份和 5 月份的评测结果,两次评测都涵盖了全球当下最重要的 100 多个模型和 API。语言模型的数量有所减少,而多模态模型的数量明显增加。这说明多模态模型在技术上还未收敛,没有像语言模型那样趋于稳定。
虽然多模态模型的 Demo 看起来不错,但实际性能与实用仍有较大差距。这里主要问题在于,目前打造多模态模型的方式很多是拼积木式的,即一个「语言塔」加一个「视觉塔」。语言塔随着语言模型的发展不断更新,比如可以轻易地使用 72B 的语言塔来训练多模态模型。但视觉塔的更新却相对滞后,目前仍以几亿参数的视觉塔为主(如 SigCLIP),导致对图像和视频进行理解的准确性远没有达到使用要求。因此,我们期待 2025 年在多模态模型的视觉理解方面,大家能下更大功夫,不要只是一味追求模型的“聪明程度”。如果连基本的图像和视频理解都做不好,再聪明的模型也无济于事。
黄东旭:在闭源模型方面,比如像 Claude、OpenAI 等的情况是怎样的?
林咏华:我们进行过许多测试,也发现了一些类似的问题。因此,在这次的智源评测中,如果大家留意的话,会发现我们并没有启动视觉模型的视频理解评测。原因在于,我们仅使用少量样本进行测试时,发现许多模型都无法给出准确的答案,尤其是在一些细节方面。我们认为目前没有必要进行过于精细化的测试。
唐小引:背后的关键原因是什么?
林咏华:很多时候,大家还是受到 2022、2023 年大语言模型热潮的影响,那时大家都在强调模型的推理能力和解数学题的能力,从而将发展方向引向了这个方向。但对于多模态模型,我们需要明白,它不仅需要理解 Prompt,还要理解视觉输入。我认为大家在这方面的努力还不够,所以这是多模态模型发展的一个关键问题。
第三个关键点是,大模型终于从数字域走向了物理世界。特别是在 2024 年 12 月,我注意到几家顶尖 AI 公司都在发布世界基础模型,比如 Google 的 Genie2、李飞飞的世界模型等。这些模型通过与人的交互来生成视频,这是非常棒的。还有 Meta 推出的模型,在物理空间中进行导航,可以生成导航视频,这些都是世界模型的体现。
这些世界模型的出现对我们有什么重要意义呢?一直以来,我们希望通过多模态模型打造具身智能。今年包括谷歌的 RT 系列(RT-1、RT-2、RT-X、RT-H)以及最近的 PaLI-X,都在尝试用多模态模型直接理解视频并输出行动。大家已经开始在这条路上探索,并看到了一些曙光。但问题在于,训练这样的模型需要大量真实世界的交互数据。因此,这些世界模型的出现,让我们在依赖真实世界数据采集之外,可能有了新的选择。
激辩:相不相信 Scaling Law?相信什么样的 Scaling Law?
唐小引:Scaling Law 是否遇到了天花板是大家很关注的问题,是否有更好的方法来突破 Scaling Law 的限制?英伟达的黄仁勋在开年演讲提出了对原有 Scaling Law 的补充,增加了两条新法则。智源发布的 2025 十大 AI 技术趋势中,也提出了与之有异曲同工之妙的观点。围绕这个话题,大家可以深入探讨一下。
黄东旭:我想发表一个暴论,就是我其实不太相信 Scaling Law。现在这一波生成式 AI 的可解释性,整个学术界其实没有定论。Scaling Law 只是大家发现的一条路径,能让模型具备一定的泛化能力。
而且,Scaling Law 这种堆算力的方法是最简单、确定性最高的。在过去两年,大家发现这条路好像能走得通,就一直往前走。但现在遇到了瓶颈,接下来如果再堆更多的算力、更多的数据,它会不会变得更好?不一定。因为大家不清楚背后的原因。
所以我们可以重新思考一下,Scaling Law 到底是一个万能的法则,还是只是一个像计算机开机的 bootstrap,通电上来后到达了一个瓶颈,之后可能需要走其他路径。
我经常举的一个例子是,一个小朋友,平时也没看这么多书,但他平时通过视觉、听觉等接受的信息可能与文本信息不一样。
我们想想人类自己的学习方式,就会发现像刚才提到的 System 1 和 System 2,在 System 2 我们可能不需要这种简单粗暴的算力和 Scaling Law 的堆积,而是可以回到智能本身的一些更基础的方面,包括推理等,可能会有一些突破。
其实从 o1 开始,我觉得 OpenAI 就在寻找,除了简单粗暴地合成数据、堆更大量的模型之外,是否可以通过强化学习或者像思维链这种结合到现有模型里的方法,这种一步一步往上走的方式,可能是未来的出路。所以,我不太相信 Scaling Law。
李建忠:我的观点与东旭稍微有所不同。首先,我比较相信 Scaling Law,当然我们可以稍微拆解一下,有狭义的 Scaling Law 和广义的 Scaling Law。
狭义上讲,Scaling Law 指的是计算量和数据指数级增长带来智能性能的线性增长的规律。这个所谓的“线性”,当下在速率上可能会有所放缓,或者与之前的速率存在差异,就像广义摩尔定律和狭义摩尔定律的区别一样。但从广义的角度来看,随着算力和数据的增加,智能是否会有更好的发展?我认为这一点是肯定的。
去年确实有人质疑 Scaling Law,但其实质疑的并不是 Scaling Law 本身,而是它所依赖的条件,尤其是数据。以预训练为主导的互联网公有领域数据是核心条件之一,但据预测,到 2028 年这些数据将基本耗尽,这会导致模型的扩展发展放缓。当然,算力成本也是一个潜在因素。但是 OpenAI 下半年 o 系列模型的发展之后,大家会看到推理侧的 Scaling Law 将为我们带来新的机会,它会是 Scaling Law 的一种延续。
除了刚才东旭提到的机器合成数据之外,我认为人机共生数据可能是机器合成数据之后的下一波 Scaling 机会。人机共生数据的典型例子是特斯拉的 FSD,车辆每天行驶时不断收集和训练数据。但说实话,在很多其他领域,我们还没有达到像自动驾驶领域那样的数据飞轮效应,即智能应用在运行过程中产生的数据很难实时进入训练系统。
比如在软件开发领域,现在为什么也遇到了一定的瓶颈?大模型可以胜任普通程序员的工作,但没法替代东旭这样的资深程序员。这其实是因为很多过程数据没有被训练,目前的训练数据大多是 GitHub 上已经完成的、被编译好、执行好的结果数据,而人类在很多活动中产生了更多动态的、实时的过程数据,即人机共生的数据,还没有进入到整个训练系统,或者目前来讲它的训练成本可能比较高。
黄东旭:实际上,我现在对此稍微乐观一些。在 ChatGPT 这类具有强大生成能力的代理模型出现之前,这些数据其实一直存在,只是大家不知道如何利用。比如我手机上的行为数据,所有 App 都可以记录我的点击行为,包括我们自己开发的应用,也会通过用户在用户旅程上的记录来收集数据。但以前如果没有相应的技术背景,普通公司是无法利用这些数据的。我觉得现在随着代理模型的出现,利用这些数据的门槛降低了。接下来,包括今年,几乎所有的 C 端 App 公司或 B 端工具公司,都会发现个人数据、交互数据,甚至是手机截屏的数据的重要性,虽然我现在可能还不能直接使用,但我一定会先存储起来。
李建忠:非常赞同。最近 AI 眼镜领域竞争非常激烈,其实眼镜是一个收集数据的巨大工具。我认为人机共生数据既能解决数据领域的 Scaling 问题,另外在推理侧的算力方面,目前至少还没有看到很明显的障碍,我觉得这两个条件应该还会继续。
黄东旭:所以我说这两年虽然数据不知道该怎么用,但对于数据库公司来说是巨大利好。我其实不太相信的是狭义上的 Scaling。但对于未来如何利用个人数据,或者刚才提到的行为数据,我非常相信其潜力。
李建忠:对,就是广义上的 Scaling。比如 TCP/IP 协议,它实际上是互联网的一种 Scaling,能够把所有的网络和设备无差别地连接起来,这实现了整个互联网在连接层面的广义 Scaling,也是一种指数级的连接,它也是一种互联网领域的 Scaling。在智能领域,如果我们能把人机共生数据以较低成本、相对统一的方式表示出来,就像最早大语言模型对语言的统一表示,后来 Sora 的 patch,以及智源对多模态数据的统一表示等。当前对各种数据的统一表示,尤其是目前的行为数据等各种各样数据的统一表示,业界可能还没有形成共识的做法。但如果这些基础设施层面的建设都到位了,人机共生数据源源不断地被投入再训练,我认为新一波智能的 Scaling 就又会出现。
唐小引:所以是 Scaling 做加法吗?
李建忠:是解决 Scaling 在算力和数据上的障碍。刚才东旭以孩子为例,我不太认同。因为人的物理能量限制,一个人一生能接触的知识是有限的。但是我们得相信,读的书越多,掌握的知识肯定是越多的,这是毫无疑问的。大模型读的书肯定比任何一个人一辈子读的书都要多得多。AI 可能永远追不上爱因斯坦这种创造力,但是在“卷”人类已经现存的世界知识方面,我觉得大模型还有巨大的机会。
林咏华:我认为 Scaling Law 这个问题需要辨证地看待,不能单纯地盲目追求。大家可能还记得,最早提出 Scaling Law 概念的是 2022 年的 OpenAI。在他们那篇文章中,列举了许多极具价值的实验。文章指出,在给定训练算力的前提下,要么增大模型的参数量,要么保持参数量不变而增大数据量,这两个维度都能提升模型的整体性能。
当时我看到这篇文章时,OpenAI 似乎更倾向于推崇参数量的增大。但我当时的想法是,如果能固定参数量,仅通过增加数据量就能达到良好的性能,那我们显然应该选择这条路,因为这涉及到部署成本的问题。毕竟,参数量每增加一倍或十倍,成本就会相应地大幅上升。所以当我看到 Scaling Law 时,我的第一反应是我们应该尽可能多地收集数据,同时固定参数量。
唐小引:然而,后来业界发现预训练模型似乎遇到了瓶颈,也就是所谓的 Scaling Law “撞墙”现象。
林咏华:我对此确实持有一些不同的看法。今天,我们先从语言数据说起,更不用说视觉数据了。实际上,大量的语言数据都存在于我们这些封闭的应用程序中,形成了一个个数据孤岛。是的,我记得有家公司曾经做过一项调研,即便是海外的英语数据,我们今天通过互联网搜索引擎能够获取到的数据,可能只有 Meta(Facebook)、Reddit 以及像 X(Twitter)这样的平台数据的五分之一。因此,实际上还是有很多数据被封闭在数据孤岛之中。
黄东旭:我确实非常认同这一点。
李建忠:甚至很多数据都还没有实现数字化。
林咏华:互联网网页的中文内容占比,从 2013 年的 4% 多,到 2021 年已经下降到了 1% 多。这个比例下降的原因,并不是使用中文的人减少了,实际上全球使用中文的人口比例还略有上升,达到了 19% 多。
黄东旭:是因为垃圾数据越来越多了吗?
林咏华:是因为很多数据被封闭了,无法被获取。所以我相信,确实还有很多数据存在。
不过,的确还有一个非常重要的数据类型,那就是视频数据。很多时候我在想,人类是如何学习的,并不是全部都靠阅读书籍。我们从小到大,通过观察这个世界,不断地学习。我们可以通过智能眼镜来不断获取这些数据,当然如何标注这些数据就成为另一个话题。这其实是一个非常重要的学习过程。
关于 Scaling Law,值得今年曾经引起很多讨论的 Scaling Law for Precision。这个来自几个顶级研究团队联合开展的一项研究引起了包括 OpenAI 的在内众多机构的关注。研究发现,就模型量化而言,目前主要使用 16 位精度,部分使用 8 位,甚至 4 位精度。当模型量化降至4位精度时,随着训练数据量增加,loss 并非持续下降,而是在某个临界点后开始上升;模型参数量越小,这个现象越明显。
这与传统 Scaling Law 的认知相悖。按照 Scaling Law 理论,在固定参数和精度位数的情况下,训练数据量越大,loss 应当越低,即便不再下降,也不应上升。这引发了关于 Scaling Law 失效的广泛讨论。
我认为这个讨论的核心在于模型的信息容量有限。以一个拥有 100 亿参数的模型为例,使用 4 位精度承载信息的容量,从直观上来说,必然少于使用 16 Bit 精度时的信息容量。
这其实跟 Overtrain 的说法相关。当模型容量相对有限时,如果输入过多训练数据,模型可能会达到饱和状态。此时会出现什么问题?就是后续输入的信息将无法被有效学习。考虑到模型的位数和参数量都是有限的,我们是否应该无限制地输入数据?在这种情况下,更应该注重提供高质量的数据,使模型能够学习到更有价值的信息。因此,今年围绕 Scaling Law 的这些讨论给了我很大的启发。
大模型公司的护城河,怎么复刻移动互联网的浪潮?
唐小引:2024 年,国际和国内大模型技术发展得很激烈,但这之间还有许多不同,三位老师能否分享一下自己现在对前沿 AI 技术和全球 AI 市场的观察?
黄东旭:从使用者的角度来看,目前人工智能领域出现了明显的分化。一方面,像 OpenAI 和 Claude 这样的团队,他们怀揣着宏伟的理想,致力于推动人工智能向 AGI 的方向迈进,追求更广泛、更深入的智能应用。另一方面,许多人开始关注如何将人工智能技术赋能于现有的各种场景,比如通过 AI 辅助更高效地购物、订票、收发邮件等,提升日常生活和工作的便利性。在这方面,中国的发展相对领先,很多创新应用已经深入到生活的方方面面。
同时,我观察到中美在人工智能领域的差距,尤其是在工程优化方面,并没有想象中那么大。中国开发者在工程优化上有着独特的优势,能够针对具体问题进行高效、实用的优化,提升系统的性能和稳定性。例如,最近 DeepSeek 的火爆,很多海外朋友都在积极学习其中的优化技巧。而这些优化往往并非来自学术研究层面,而是源于系统工程师的实践经验,像我这样的高性能程序的编写者,一看就能理解其原理。
此外,在硅谷等海外地区,AI 领域的活动非常活跃,每周都有大量的 AI 聚会,吸引了众多年轻人参与,包括大学生和刚毕业一两年的职场新人。大家普遍认为,如果不去从事基础模型研究或 AGI 方向,那么在 AI 领域,谁思维敏捷、熟练掌握 Python 等编程语言,就能快速将创意转化为产品,推向市场赚取收益或获得投资。这与当年 iPhone 刚推出、应用商店兴起时的情况颇为相似,各种应用层出不穷,吸引了众多关注。然而,专业的工程师尚未大规模进入这一领域,大家仍处于尝试和探索的阶段,但已经涌现出许多实用的应用。
例如,我现在每天都在使用的 Cursor,虽然它并非严格意义上的 AI 公司,但作为一个 IDE,加入 AI 功能后,其用户体验相较于传统 IDE 提升了好几个数量级。还有在美国,一些我们之前不敢想象的应用也已经开始出现,比如以对话框形式存在的 Agent,能够帮助用户订机票等。总的来说,美国在 AI 领域的创新氛围非常浓厚,不断有新的应用和场景被开发出来。
但是它的实现并不意味着这项技术已经非常完美。我觉得硅谷有一种文化,就是先将概念推广出去,尽快让产品上线,然后收集用户的反馈进行优化。
相比之下,中国可能更倾向于先观察国外的创新成果,然后再回来认真地进行本土化改进。这种现象挺有趣的。
李建忠:中国今年在应用层面有望涌现出一些引人注目的创新。比如李开复老师所在的零一万物,最近在预训练方面有所调整,转而更多地投入应用层面。其实国内很多大厂也呈现这一趋势,像字节、腾讯等,他们在应用方面的投入和推进速度,可能还高于模型技术方面。中国市场的特点是,一旦大家对某个方向有了比较明确的共识,应用层面的竞争就会非常激烈。门槛相对较低,而且自移动互联网以来,中国庞大的用户群体在接纳新鲜事物方面,在全球都算是比较领先的。
今年这个时间节点,让我想起了移动互联网的 2009 年初。2007 年 1 月 iPhone 发布,同年 12 月 Android 问世。我们现在距离 ChatGPT 诞生,也差不多两年时间。这两年,虽然面临诸多质疑,但模型的能力却一再证明其顽强的生命力。
就像移动领域,2007 年大家刚看到 iPhone 时,并未觉得它有多了不起;2008 年时,很多人还认为手机不可能取代 PC。然而到了 2009 年,随着第一波移动应用如 WhatsApp 等的出现,虽然微信和抖音还未崭露头角,但移动互联网的浪潮已初现端倪。
今年,整个行业包括成本的大幅降低,为产业生态的形成提供了重要条件。像智源等众多优秀的机构提供了便宜且好用的模型,甚至有些是免费的;还有许多创业公司提供免费的算力等资源。这些都为应用生态的发展奠定了良好基础。刚才东旭提到机票的例子,国内的智谱、荣耀等公司也在做类似的事情,比如荣耀的“Agent 点咖啡”,体验后发现真的能让 AI 给我们点咖啡。虽然这些应用还缺乏操作系统层面以及应用服务接口的发展,比如携程提供的机票接口、美团及各种外卖接口等。未来,如果有了这些接口的支持,大模型会有更让人惊艳的表现,比如你对大模型说一句话,它就能在美团上直接为你下单,无需像现在这样逐一打开 App 各个导航面。实际上,它已经理解了你的需求,只要提供合适的 API 调用即可,现在只是缺少可供大模型直接调用的 API。
黄东旭:如今,很多工作流实际上非常简单,并不需要依赖庞大的几百亿参数的模型。
李建忠:确实,这样可以大幅简化我们的许多交互。
林咏华:但这里会不会存在一个问题?因为确实需要通过操作系统或系统去调用不同应用的接口。这是否意味着那些控制了入口的公司会因此获得优势?因为这并不是一个简单的任务。
李建忠:Apple Intelligence 的 App Intent 功能就是在做这件事,为模型提供应用接口。
黄东旭:所以我认为,控制终端的公司将占据优势。未来,纯粹的大模型公司可能不再存在,而是像现在这一波公司一样,控制操作系统和入口。
李建忠:说到这儿,我想起去年我曾参与一个辩论。当时有些人认为大模型是操作系统,而我并不认可这个观点,因为操作系统的护城河其实很深,而大模型的护城河目前看来相对较低。未来的大模型仍然需要依赖操作系统来与各种应用和服务交互。像美团这样的服务厂商,他们的 API 与操作系统的交互层面的协同,将为模型厂商释放出巨大的机会。那时,我认为会出现非常有趣且蓬勃的应用,甚至可能会重塑整个手机生态。因此,今年应用领域特别值得关注。
产品经理 vs 程序员:AI 时代谁更重要?
唐小引:大家原本就对大模型公司的未来感到担忧,继刚才的讨论之后,似乎更加焦虑了。
李建忠:有些大模型厂商会变得更强大,但有些可能会选择不再卷入模型的竞争,转而投身于应用层面的开发。最终,剩下的大模型厂商可能会成为行业的主导者,数量相对较少。
唐小引:这是创业公司还是大厂的机会?
李建忠:我认为创业公司和大厂都有机会。OpenAI 本身也是从创业公司起步的,另外,还存在端侧模型和服务器端集群模型的区别。
黄东旭:但从使用角度来看,比如我们现在自己也在做 RAG 应用,大模型对我来说就是一个 API,类似于 OpenAI 的 RESTful API 规范。我把它当作一个插件来使用,目前已经集成了二十多种大模型提供商,可以随时切换。所以我一直觉得,再过两年,大家可能不再会频繁讨论大模型本身了,它会变成一个隐形的存在。
李建忠:我最早曾提出过一个观点:从技术的生态位角度来看,大模型其实更类似于数据库。今天的数据库依然存在,具有价值,并在 IT 基础设施中扮演着重要角色,但它并不像操作系统一样是一个统治性的、处于顶端的存在。
唐小引:这个话题最近大家很关注。旭哥你作为一个创业老兵,能否从创业的角度分享一下?当前对于大模型创业,很多人存在一些困惑。
黄东旭:我觉得首先,现在可能不要再去尝试从零开始训练大模型这种创业了。除非你一开始就能融到几亿美金,而且算力也是一大问题。所以,单纯以模型本身为创业方向可能并不是一个好机会。
其次,关于创业,无论是中国还是美国,虽然美国的风险投资看起来更活跃一些,但对于创业者来说,现在的门槛并不在于你有多少程序员,或者工程难度有多大,而在于你是否真的有一个好的创意或想法,能够快速地解决一些问题。
举个简单的例子,编程这件事情,原来有很多痛点在传统技术栈上比较难以解决,比如代码补全。代码补全看似是一件很简单的事情,但如果能结合 AI,将用户体验提升十倍,这其实就是一个很好的创业机会。
我的第二个建议是,即使你看到了像 Cursor 这样的产品,也不代表就没有机会了。Windsurf 现在也发展得很快,增长迅速。所以,竞争的关键不在于你对 AI 的理解有多深,而在于对现有工作流程的理解有多深,知道哪个环节非常痛苦,但通过 AI 的能力可以迅速改善。
现在 AI 就像一个放大器,任何东西加上 AI,马上就能登上 Hacker News 首页,推广速度非常快。因此,会有很多机会主义者开始尝试这个领域,这可能是一个短期的“财富密码”。但我觉得,经过两三年的发展,可能会像移动互联网或 iPhone 应用市场刚出来时一样,最早出现了一些非常奇怪的应用,比如《愤怒的小鸟》,或者是那个“大钻石”的 App,一点开就卖 99 美元,但其实什么功能都没有,很多人只是因为新鲜感而购买。
现在 AI 领域也有很多这样的“Killer App”原型,因为 AI 的光环放大效应,会有很多机会出现。所以,在今天,产品经理可能比程序员更重要。
林咏华:在这一波基于大模型的 AI 创业浪潮中,成功的人会不会和移动互联网应用成功的人很相似呢?
黄东旭:你看现在在美国这些非常受欢迎的 AI 创业公司的创始人,尤其是那些做应用的,他们其实都不是科学家,而是像 YC(Y Combinator)里的一些中途辍学的年轻人。这些年轻人思维活跃,想法新颖,我觉得现在这一波创业者的背景基本都是这样。
但问题在于,如果你深入探究他们的工程实现,有时会发现其实质量并不高,甚至有些糟糕。因为 AI 已经大大降低了编程的门槛,正如 Sam Altman 去年所说,现在“一人公司”是完全可行的。如果真有好的想法,完全可以自己去尝试启动。但正如我之前所说,这可能是一种短期的投机行为,不过现在确实有很多资金在涌入这个领域。
唐小引:这场对话之前,我自己尝试用 AI 给《万有引力》制作了一张海报,但我发现与专业的人类设计师相比,还是存在很大的差距。
黄东旭:这就取决于你的预期是什么了。比如,如果你的目标是做出 100 分的作品,目前 AI 确实很难达到那个水平。但如果你要设计一个 60 分的东西,AI 可以帮你批量生产,这正是 AI 目前的优势之一。
同样,在编程方面,如果我是一个经验丰富的程序员,我知道可能有 90% 的代码并不需要太多思考。AI 对我最大的帮助在于,我不需要花费 90% 的时间去重复编写这些冗余的代码,从而可以更专注于其他事情。设计和绘画也是如此,以前 90% 的工作流程都是一些重复和冗余的事情,现在 AI 帮我完成了这些,我就可以更专注于最重要的部分。所以,我认为 AI 是一个个人能力的放大器,但这个放大器的效果取决于你自身的能力。如果自身能力较低,即使放大 10 倍也还是较低;但如果自身能力较强,放大后的效果就会非常显著。
唐小引:刚才旭哥提出了一个观点,认为在人工智能时代,产品经理的重要性甚至超过了程序员,建忠老师有着怎样的思考?
李建忠:这个话题确实可以从多个角度来探讨。首先,创业可以从几个维度来分析。我们需要明确 AI 到底改变了什么。就像当年智能手机的出现,催生了一批创业公司,它们的成功很大程度上得益于移动设备的独特功能。例如,位置服务催生了美团外卖和滴滴出行,摄像头功能则孕育了抖音和美图秀秀等公司。移动支付的普及也造就了许多企业。
那么,AI 究竟改变了什么?我认为它在三个层次上带来了革命性的变化。去年四月的全球机器学习技术大会(ML-Summit)上,我曾提到过这一点。
首先是计算范式的变化,这是自图灵和冯·诺依曼以来计算架构的最大变革。显然,英伟达等公司是这一范式变化的最大受益者。
第二个变化是开发范式的变化,即大模型改变了软件开发的方式,无论是经验丰富的程序员还是创业者,都能从这一范式的变化中获得巨大的红利。比如东旭刚才提到的 Cursor 等工具,它们正在为程序员带来便利。
第三个变化是应用层面的交互范式。自然语言交互给应用层带来的变化可能像 PC 设备的 GUI 和移动设备的触控交互一样,带来一场革命。例如,结合大模型的 Agent 等技术,已经在交互范式上展现出一些潜力。去年苹果在 WWDC 上展示的 Apple Intelligence,以及荣耀和智谱等公司在交互方面的探索,都让我们看到了一些曙光。
当然,目前基础设施、操作系统生态和服务 API 接口等生态建设还不够完善。一旦这些条件成熟,我相信在未来两到三年内,可能会出现像美团、抖音和滴滴这样的快速崛起的企业。创业者需要在这三个层次的变化中选择自己的赛道。我将这称为纵轴,即 Y 轴。另一个维度是横轴,即 X 轴,也就是需求洞察。
美团王兴曾有一个经典的分享,即所谓的“四纵三横”,指的是互联网领域或数字化领域中人类最大的几个需求:社交、电商、娱乐和信息。这四个领域是主导性的,因为它们是人类的刚需,也是最容易标准化的需求。当然,人类还有很多其他需求,如教育、医疗等。创业者需要选择自己的领域,这时产品经理在需求洞察方面具有明显优势,能够发现该领域存在的痛点,以及上一个时代无法解决的问题。
前段时间我与硅谷产品经理大师 Marty Cagan 进行了一次深入的交谈,正好提到了这个话题。他说“需求洞察固然重要,但如果没有技术的支撑,也是不够的。你需要了解 AI 的能力范围和技术的成熟度。”
例如,如今大家都羡慕抖音,但如果在2009年去做抖音,可能就会失败,因为那时正处于 3G 到 4G 的过渡期,技术成本高,视频成本高,摄像头也不够清晰。那时许多做视频的公司都失败了。为什么抖音在 2016 年做视频时能够一飞冲天?这与技术的成熟度以及技术基础设施的完善密切相关。因此,产品经理需要具备需求洞察力,但同时也要有技术的配合和工程师的洞见,需要清楚什么是可行的,什么是成本低廉的,什么是能够交付给大众的。我认为,当这两者结合在一起时,就有可能诞生出许多伟大的应用公司。
黄东旭:全栈工程师要上阵了。
“数据质量>算力”?
唐小引:2024 年底引发全球关注的 DeepSeek V3 有一个标志性的特点,那就是以较低的算力实现了与 GPT-4o 相当的性能。这让大家关注的焦点从以往的算力转移到了数据质量上,因为数据质量能够直接影响模型的质量。请几位老师分别从各自的角度分享一下对这件事的看法。
林咏华:数据对模型质量的影响是相当显著的。正如前面提到的 Scaling Law for Precision,当我们把大量好坏不一的数据都用于训练模型时,实际上是在浪费模型的信息容量。对于 DeepSeek V3 来说,我认为其计算优化相对比较直接。
首先,它本身采用了 MoE 架构,因此自然能够大幅降低训练所需的资源。其次,它采用了 FP8 等低比特进行训练,但令人称赞的是它公开了混合精度控制的方法。此外,这几天大家也在讨论一个话题,因为 DeepSeek 在数据方面实际上利用了 R1 来进行一些与蒸馏相关的学习,所以有人认为如果要公平地看待,应该将 DeepSeek R1 模型所需的算力也加以考虑。回到这里,我想说的是,天上不会掉馅饼。要训练出一个优秀的模型,能够使用更少的算力训练出更好的模型,背后肯定有很强的逻辑和原因。正如刚才所说的,有几个重要的因素决定了它为什么能够比其他模型少用五分之一或六分之一的算力就训练出来。
黄东旭:其实我对 DeepSeek 并不感到意外,这非常符合中国团队的风格。我们自己的经验也表明,在系统工程和性能优化方面,我们并不比海外同行差。虽然我不是从事大模型研究的,但从我所看到的优化方向来看,比如流水线等技术,站在系统工程师的角度,我认为这些都是很自然的优化。如果非要让我评论这部分优化,我认为在过去的机器学习社区中,训练基础设施还有很多可以改进的空间。大家可能一开始只是想让它工作,认为买硬件就能解决问题,先提高数据质量和算力规模,因为买硬件是最简单的。站在 OpenAI 的角度,它根本不需要省钱,但中国团队可能不一样。
首先,买卡本身就有困难,其次我们不是巨头,没有无限的资金,所以我们就会专注于如何优化工程上的这些事情。我认为这种情况必然会发生,而且现在仍然有很大的空间。DeepSeek V3 绝对不会是最后一个,可能会有人在此基础上继续优化,直到最后。我认为 NVIDIA 自己也可能在不断优化,你看现在像 5090 这样的产品,成本也在降低。所以,过去我们看到的这些成本问题,只是因为这个行业现在竞争太激烈,进步太快了。买硬件或者直接复制已有的东西是最快的,但随着精细化程度的提高,我相信成本还会持续下降,降到可能现在都无法想象的地步。
李建忠:我认为数据的重要性无论是在人类学习还是机器学习中都是毋庸置疑的。高质量的数据无疑会带来更好的学习成果。然而,目前我们采用的是一种廉价且统一的规模化方法来快速学习相关领域的数据,这主要是为了从中筛选和标注出高质量的数据。实际上,这在某种程度上是有难度的,甚至可以说是不经济的。不过,如果我们对比一下其他领域,比如刚才提到的 DeepSeek 的例子,再看看编程领域,东旭刚才也提到,目前编程领域在某种程度上表现得要比自然语言领域更好一些。
黄东旭:因为它的范围较小,确定性较高。
李建忠:我想说的是,它的数据训练质量实际上比自然语言要高,因为大量的开源数据,如 GitHub 等,都经过了编译和验证,它不像自然语言那样存在许多问题。甚至去年有些学者的研究表明,一些幻觉现象实际上与互联网公共领域中的脏数据和数据混乱性有一定的关系,至少某些类型的幻觉是这样。包括 RAG 在内的一些方法,也是从数据层面来弥补模型训练中的不足。因此,我认为从长远来看,数据质量是非常重要的。甚至可以说,如果有成本较低的方法能够让我们收集到高质量的数据,那么即使数据量只是其他数据集的十分之一,但只要数据质量足够高,性能也不会差。当然,关于 DeepSeek 也有很多说法,比如知识蒸馏等方法。但无论如何,至少证明了在小模型上使用一些高质量数据以及其系统工程能力的加持下,模型性能与数据质量之间存在极高的正相关关系。
黄东旭:其实顺着这个话题,我正好也有一个小观点,就是真正优质的数据,比如对我有用的数据是我的个人数据,但我绝对不会将我的个人数据公开或用于训练公共大模型,所以这就是为什么我认为未来不会出现一个通用模型,了解所有人并且非常厉害。这也是为什么我一直特别相信 RAG,RAG 不仅仅现在是作为补充,而是一个非常必然的存在,因为你肯定需要一个基础模型,再加上你的个人数据,但这些个人数据我绝对不想公开出去。
李建忠:包括像 AI4Science,2024 年有两个诺贝尔奖都授予了与 AI 相关的人物。
AI4Science 之所以发展迅速,令科学界震惊,与科学界数据的高质量密切相关。我认为未来的垂直模型未必需要非常庞大,只要该领域的数据质量足够高,它在该领域的进步速度可能会超过通用模型。
RAG 技术是“权宜之计”还是最终方案?
唐小引:2024 年,基本上做模型开发的都会用到 RAG,它成了大家的必选方案。建忠老师曾形容它是解决大模型落地“最后一公里”的关键。那么,对于整个模型技术的发展来说,RAG 是权宜之计还是最终方案?
黄东旭:我觉得,起初 RAG 可能只是一个权宜之计,因为那时的上下文窗口不够大,大家就想通过数据补充来让回答更加相关。但现在你会发现,现在的 RAG 已经不是简单的原始版本,而是叠加了各种技巧,比如我的私人数据、各种相关的检索,然后进行重排、二次检索等等,RAG 本身的流程已经变得很复杂了。
我们今天讨论的 RAG 已经与去年年初的 RAG 大不相同,现在大家发现即使现在的上下文窗口已经足够大了,RAG 也不再仅仅是补充上下文窗口不足的问题,而是利用它来实现个性化体验,正如我刚才所说,有些东西我不想让大模型来训练,而是让大模型为我提供个性化的体验,这就是为什么我认为现在 RAG 是一个必经之路。
而且,我对大模型本身的要求已经不高了,只要是一个正常的大模型,能够正常交流,具备一定的理解能力,能够理解我提供的数据,大多数任务就能完成,比如函数调用,或者是一些代理的编排调度等。
我觉得 AI 或者 RAG 的业务最终会变成一个数据业务,就是谁拥有了数据,谁存储了数据,尤其是个人数据,谁就能赚大钱。比如像 Databricks,其实现在已经有不少收入来自于 RAG 或者 AI 的部分,但它并不是 AI 领域的大玩家,而是数据领域的大玩家,它拥有所有这些企业的数据。数据一直是有引力的,它会把应用往数据方面靠拢,大模型也是如此。
唐小引:所以最终,做 AI 的生意变成了做数据的生意。
黄东旭:AI 做出了模型,数据库在赚钱。
李建忠:从那位黄教主(黄仁勋)的生意变成了这位黄教主(黄东旭)的生意。
唐小引:建忠老师,你有哪些观点可以跟大家分享?
李建忠:我也想谈谈狭义的 RAG 和广义的 RAG。狭义的 RAG 就是我们现在比较成熟的,或者以知识库外挂的形式存在的,我认为这种狭义的 RAG 可能是一个权宜之计。但正如东旭所说,数据对模型永远是重要的。广义的 RAG,其架构和实现技术可能会演变。因为 RAG 的出现,某种程度上是由当前大模型技术架构演进的特点所决定的,大模型使用数据的方式就有好几种,比如预训练、微调、RAG 等。
但未来,如果我们的模型训练能够更多地进入实时训练阶段,比如,我们实时产生的共生数据、环境数据能够随时进入再训练系统,当然这需要很多基础设施的支撑,比如算力层的支撑,使得我们能够快速地在端侧模型、本地模型实现这种再训练,我认为这种实时的数据,广义来讲也可能是一种 RAG,它也是一种数据进入模型系统的方式,但它可能和今天狭义上的 RAG 已经不一样了。
黄东旭:它可能更贴近模型本身了。
李建忠:总结来说,传统那种拿一大堆数据塞给模型训练完之后,后期只能用 RAG 来补充的模式,可能随着模型架构的演进,Transformer 架构的演进可能会发生变化。在那种情况下,我认为广义上的 RAG 应该是会永存的,因为数据永远是机器学习最重要的一部分。
2024 是不是“大模型落地元年”?
唐小引:2024 年在大模型上有许多个“元年”的称呼,接下来我们进入快问快答,各位老师可以投票并相应地分享自己的观点。首先,大家称 2024 年是大模型落地元年,这句话算实现了吗?
黄东旭:不算。
李建忠:我犹豫了一下,我觉得从计算范式和开发范式来看,算,但到应用范式还不算,我觉得 2025 年应该会是大模型应用落地的元年。
黄东旭:我的理由也是一样。
林咏华:我认为对于语言模型来说,2023 年可以被视为其元年。毕竟,我们已经看到许多语言模型被应用于各种场景,包括客服等。然而,对于多模态模型,我认为它还没有达到那个阶段。
唐小引:那么,2024 年被称为多模态的一年,基本上是这样吗?2024 年是否已经完全实现了多模态的目标?
林咏华:我认为 2025 年多模态仍将是一个重点。目前,多模态模型在许多方面仍然存在明显的不足,就像 2023 年上半年我们看到的语言模型那样,很容易就能发现一些问题。因此,我认为 2025 年仍需要在技术上沉下心来进一步打磨和提升。
李建忠:我对此部分甚至持稍微悲观的态度,我认为多模态可能还需要两到三年的长足发展,才能真正成熟。我认为标志性的事件是出现能够取代抖音、视频号等平台的新一代AI驱动视频,实现与人类的智能交互,而不仅仅是简单的生成。只有当这样的应用出现,才能标志着多模态真正进入智能时代。
唐小引:听了您的分析,两年内能实现吗?
李建忠:我觉得比较困难。首先落地需要经历一个从零到一的过程。
黄东旭:那我就更悲观一些,我觉得两三年内,多模态大模型的 AI 基础设施能实现就很不错了。首先是成本问题,其次是存储和训练。我觉得要开发多模态模型,不能沿用现有的基于语言模型的基础设施。
李建忠:对于多模态,如果类比推算一下,2024 年就像 2017 年 GPT-1 出现的时间点。现在 2024 年的语言模型成熟度,相对于 2017 年已经过了 7 年。
唐小引:真的为时尚早。
黄东旭:正如我之前提到的,数据的存储是首要任务,如果大家现在拥有流量和入口,那么首先要考虑的就是能采集到哪种模态的数据就采集哪种。如果采集不到,就开始合成,先将数据存储起来。
李建忠:当然,如果我们稍微聚焦一些,比如在某些垂直领域,如果是专注于纯视觉,未必需要整个多模态。比如自动驾驶就是一个垂直领域,或者具身智能在垂直领域中的应用,也许其视觉能力会迅速发展,因为所需的数据训练量并不大,但在垂直领域的能力建设却可能很快达到应用水平。
多模态进展不足,移动互联网时代“不同模态发展路径”值得借鉴
唐小引:那我们更进一步地细化一下,2024 年多模态已经实现了哪些成果,在 2025 年又有望实现哪些目标?
林咏华:我认为多模态领域需要对不同类型的多模态进行定义。一种是生成式多模态,如文生视频、文生图等真实模态;另一种是视觉-语言模型(VLM),它对语言、图像和视频进行理解,并进行文字输出或其他形式的输出。
目前来看,生成式多模态,尤其是闭源模型,在最近的发展中表现强劲。我们曾在 2024 年 5 月和 12 月进行过生成式多模态的评测,并且是请中国传媒大学来评的。发现在年底的闭源 API 评测中,确实取得了明显的进步,已经接近落地应用的需求。下一步的关键在于我们如何打造产品来应用这些技术。
不过,我刚才提到,目前多模态领域在理解方面还存在差距,但在这一过程中,也有一些可以尝试的领域。例如 OCR(文字识别),在多模态大模型中表现优于传统小模型。以前在小模型中,我们做 OCR 理解时,面对不同的表格,需要设计不同的模板,这很繁琐,也难以用小模型来识别不同表格并产生不同的结果。但在多模态大模型中,这一领域表现确实不错。虽然准确率还不是完全完美,但已经明显优于小模型。因此,在商业流程中用到的许多表格等,都可以尝试应用多模态大模型来处理。所以,我认为还是有一些看到希望的地方。
黄东旭:实际上,音频也可以算作一种模态。比如 OpenAI 的 ChatGPT Advanced Work Mode,虽然价格较高,但我的体验已经非常接近实时交互了,因此我认为它已经算是落地应用了。如果成本能够降低,延迟进一步减小,它的应用空间和前景将非常广阔。
李建忠:我认为 2024 年多模态领域在某种程度上完成了统一,即通过 Scaling 的方式统一训练,形成了统一的架构。大家在架构上达成了相对的共识,Transformer 架构仍然适用于多模态领域。但在此过程中,数据积累以及在应用方面的结合,如与语言、语音的结合,以及对各种模态混合模式的理解和生成能力等方面,仍需要进一步的发展和进步。
回顾互联网以及移动互联网的发展历程,我们可以发现一些有趣的规律。互联网和移动互联网的早期都是以文本为主,比如手机出现后,微博等以文本为主的平台迅速崛起。
然而,经过 3 到 5 年的演变,图片类的内容开始快速崛起。虽然中国没有 Instagram 这样的平台,但微信朋友圈在某种程度上承担了类似的角色。随后,抖音等视频平台的出现,基本上遵循了从文本到图片再到视频的发展路径。这与人类接受信息的方式密切相关。因此,我认为智能领域的发展大体上也会遵循这一规律,即先在文本上成熟,然后是图片、视觉,最终发展为混合模态。这一过程与成本、视频编码的容量以及训练难度和算力等因素都有关系。但一旦爆发,其价值将远超文本时代,就像抖音的价值远大于微博一样。
黄东旭:这个领域再加上机器人和具身智能等技术的融合,哇,前景真是令人期待。
推理元年,Agent 为什么没有落地?
唐小引:2024 年 OpenAI 的 o1 模型推出了更强的推理能力,关于推理能力,大家认为 2024 年我们取得了哪些进展,以及到 2025 年,甚至未来两年,推理能力会朝哪些方向发展?
李建忠:我认为推理能力的发展确实像一道曙光,但大家也不要期望过高,毕竟它的发展过程中肯定会有曲折。比如 OpenAI 目前将其思维链的数据保密,当然也存在各种破解手段,但这些数据究竟以何种方式结构化组织,思维链到底多长才是有效的,这些都是问题。比如像爱因斯坦这样的科学家,他的思维链有多长?我们的推理能力能否模仿到那个水平?如果想要在某个单点上超越人类专家,比如博士生的研究,目前有些已经能做到,但从普遍性来看,我认为还有巨大的差距,需要长期的训练和思维链的发现,以及数据机制的完善。
但在一些简单的应用方面,比如出差订机票时,不需要在天气、地图和商旅应用之间来回切换多个应用,这种推理能力会非常成熟,能够给普通人的生活带来便利。以前再简单的问题都需要人工介入,现在则不需要了,我对这部分的期待值很高。但对于更严肃的领域,比如涉及人类系统级的工程,例如建筑设计、软件工程,我认为还是需要人类专家来介入、验证和矫正。所以,我认为推理能力在简单应用方面会给人类生活带来巨大变革,而在复杂领域则需要人类专家的参与。
黄东旭:像助理型的应用。
唐小引:推理能力的元年应该算是 2024 年还是 2025 年?
李建忠:从语言的定义来看,应该是 2024 年,因为它已经出现了。
唐小引:其实推理能力的提升确实为 Agent 应用开辟了更多可能性。大家之前一直在讨论,2024 年被认为是 Agent 的元年,但现在又出现了另一种观点,认为 2025 年才是 Agent 真正落地的元年。那么,究竟应该将哪一年定义为元年呢?
李建忠:现在这种 Buzz Word 太多了。
黄东旭:从实际开发者的角度来看,我们不妨回顾一下 2024 年初的情况。那时,模型本身连稳定输出一个 JSON 格式的能力都可能不具备,又怎能称之为元年呢?
李建忠:当时的模型连倒数 1 到 100 都会出错。
黄东旭:所以我认为至少要等到年底,大概能够稳定输出 JSON 模式,闭源和开源的问题才算基本解决。有了这些能力之后,我们才能着手构建这种函数调用平台,进而尝试像 GPT-4 或 Claude 那样,稳定地调用外部功能。我觉得 2024 年不能算作 Agent 元年,因为在一些复杂任务的拆解方面,仍然存在诸多问题。
我自己也在做类似的工作,尝试了各种方法,将任务拆解成两三步,调用一些具体的能力,这还是可行的。但一旦任务变得较为复杂,或者完成任务的路径有很多时,就会发现需要采取各种手段进行微调,并且需要大量的工程引导,才能让大模型输出你想要的结果。
而且,这些结果还涉及到一些问题,比如如何调试,如何让其持续生成可复现的结果,目前还没有什么最佳实践,大家都在探索。所以,就像我说的,基础能力已经具备,但还有无数的工程工作需要完成。或许 2025 年能成为 Agent 元年吧。
Agent 的“千体大战”
唐小引:2023 年和 2024 年,我们经历了所谓的“百模大战”。那么 2025 年会不会迎来“Agent 的千体大战”?另外,Agent 会是通向 AGI 应用的突破口吗?
李建忠:我首先认为 Agent 当然是 AGI 应用的突破口,它是智能时代的 App 形态。但是说到千体大战,我觉得这个说法可能还有些保守,实际上可能会出现更多的 Agent。不过,正如东旭刚才的观点,2024 年还不能算作 Agent 的元年。虽然 2024 年也出现了一些 Agent,并且它们的表现带来了一些小惊喜,但无论如何,很多 Agent 仍然基于相对简单的编排,有些甚至只是之前 RPA(机器人流程自动化)的延续,即规则化的延续。它们并没有真正达到我们所说的 AGI 层面的 Agent,具备强大的推理、判断以及行动、执行工具等能力。正如刚才讨论推理时所提到的,我认为这是非常重要的基础。
黄东旭:我想补充两点,我认为有两个非常重要的里程碑。首先,作为从事 Agent 编排应用开发的人,我需要能够方便地进行调试。其次,我需要能够稳定地产生结果,从而实现迭代。如果这两点还没有准备就绪,那么谈论开发出多么强大的 Agent 就为时尚早。所以,在工具还不完备的情况下,讨论所谓的“元年”是没有意义的。
李建忠:例如,目前思维链的调试问题仍在探索中,推理过程的复现也是一个难题。我认为,如果推理领域能够再深入发展一年,或许能够将 Agent 的能力提升到大众可以广泛应用的水平,从而达到所谓的“元年”。
大模型开源和闭源之间,还差最后几公里?
唐小引:开源大模型在过去一年里发展迅速,如今开源大模型的性能与闭源大模型相比,是逐渐接近还是有差距?
林咏华:这个问题比较容易回答。如果参考我们 2024 年 12 月 19 日发布的榜单,其中涵盖了语言模型的开源与闭源情况,以及多模态 VLM 的开源与闭源情况。在文生视频和文生图领域,基本上都是闭源模型占据优势,开源模型很难上榜。不过,在语言模型方面,开源模型得益于两家公司的贡献,分别是阿里和 Meta。从榜单中可以看到,在语言模型的前五名中,包括主观评测等,这两家公司的开源模型与我们的一线闭源模型,如豆包、o1 等,基本上处于同一梯队。
尤其是在阿里方面,其开源模型与闭源模型,性能基本相当,可以说是相当良心的开源模型团队。在多模态领域,情况也类似。例如阿里推出的 Qwen VL 模型,在多模态模型的测试中,与闭源模型的表现也基本处于同一梯队。所以,我认为开源模型之所以能够取得这样的成绩,得益于一些公司持续的坚持打磨和开源工作。但在文生图和文生视频领域,基本上还是闭源模型占据主导地位。
唐小引:从您的角度来看,2024 年开源模型取得了哪些成就?2025 年又将实现哪些进展?
林咏华:2024 年,开源大模型在两个方面取得了显著进展。首先,以语言模型为例,开源大模型的性能已经接近闭源模型,极大地推动了多个应用场景的落地。
其次,开源大模型在技术创新方面也取得了突破。例如,智源打造的 Emu 多模态原生大模型采用了自回归的 token 方式,与现有的开源多模态模型不同。由于其开源,后续的研究者可以在其基础上继续进行技术迭代。
因此,开源大模型在 2024 年对产业创新和落地都起到了重要作用。展望 2025 年,我们期待国内外坚持开源大模型的企业能够继续推出更多优秀的成果。大模型的研发成本高昂,如果没有持续的迭代和分享,许多创新很难由一家公司独立完成。
唐小引:我们能否实现大模型的彻底开源?包括代码、训练数据等各个方面。
林咏华:可以实现。例如,Linux 基金会在去年 11 月份发布了 Model Open Source Framework(MOF),它定义了三种开源等级,其中最高级别是“Open Science”。这一级别要求不仅开源模型的权重和代码,还要开源训练数据、测试代码和测试数据,即所有内容都要开源。去年 11 月、12 月,我们率先发布了一个遵循这一标准的模型,当时还没有其他模型达到这样的开源水平。此后,我们也看到国内外的一些团队正在申请 MOF 的最高等级。我们认为这种开源等级的衡量标准非常好,因为一旦有了等级标准,大家就会去追求更高的开源水平,从而促进开源工作的更加彻底。
李建忠:给林院长想了一句广告词,智源等于“智能的完全开源”。
具身智能的“元年”在什么时候?
唐小引:2024 年下半年,我们能够看到具身智能之风逐渐兴起。智源近日发布的 2025 年 AI 技术趋势,把 2025 年定义为具身智能元年。林老师能否讲讲为什么?建忠老师和旭哥对此赞同吗?
林咏华:坦白说,我刚才一直在听大家讨论多个“元年”,我觉得首先大家需要对“元年”有一个明确的定义。
如果按照刚才两位老师所说的定义,我觉得肯定达不到,因为当然还是需要可落地、稳定的。我觉得具身智能元年对智源来说,因为毕竟智源还是从创新的角度出发,所以我们为什么定义它是元年呢?是因为首先我们会看到从 2024 年年底的这一波——
黄东旭:——Prototype(原型)出现了。
林咏华:是的,这些具身基础大模型的出现,让我们看到 2025 年将会有更多团队能够实现更优秀的具身基础大模型,使其能够适应更多不同的实体。这是第一个方面。第二个方面是,随着大家对具身数据重要性的认识日益加深,我们注意到 2024 年年底,包括国外和国内的一些团队发布了具身开源数据集。没有这些具身开源数据集,就无法构建更好的模型。我们发现这一共识已经开始形成。因此,2025 年,包括智源以及 CSDN 等,希望能够推动更多具身数据的共建和开源。所以,从创新的角度来看,我们认为这两点非常重要。
李建忠:我比较看好具身智能的发展。原因在于,如果说 Agent 是数字领域智能的应用形态,那么在物理世界,也就是原子领域,具身智能就是其应用形态。以自动驾驶为例,其数据非常规整,即道路数据,且其智能目的相对简单。在具身智能的许多人类场景中,如果不谈特别泛化的能力,比如让具身智能做保安、帮我叠被子、炒菜或者拿快递,在这些相对狭窄的场景中,可能会出现非常有趣且成本低廉的应用。
这是中国得天独厚的优势。从这个角度来看,我反而对具身智能的未来更加乐观。虽然它的应用范围可能相对有限,但其价值将很快显现出来。当然,在自动驾驶和无人机这两个已被证明的领域中,具身智能的价值已经得到了体现。然而,当我们放眼更广泛的具身智能领域时,我认为已经出现了很好的发展前景。我相信今年将会迎来重大的发展.
黄东旭:如果按照我刚才的标准,今年应该是行业达成共识的一年。虽然这一点是公认的,但我认为距离实际落地还有许多工程上的挑战。第一批先行者可能会面临很多困难,所以我对这一点有些悲观。最近这两年开始从事具身智能的公司,可能起步得有点早。如果你现在是大一学生,等你研究生毕业时,具身智能可能会成为一个可以找到工作的方向。但目前来看,因为过去的历史一直是人类主导的,达成共识的时间通常是最长的。但好处是现在已经达成了共识。剩下的工作,站在工程师的角度来看,我总是比较谨慎。大家可能讨论的是创新,而我更关注代码的复杂性,所以还需要更多的时间。
唐小引:这让我想起一句话,说 CEO 负责吹牛,而 CTO 负责实现。
黄东旭:好在我们的 CEO 也是一位程序员。
未来的里程碑就在具身智能?
唐小引:当我们展望 2025 年及未来两年,三位老师认为会有哪些重要的里程碑?可以列举出你们心中的前三名,并且可以谈谈为什么会有这样的思考。
黄东旭:我肯定会从我正在做的事情的角度出发。AI 数据基础设施这个行业将会趋于收敛,因为在过去两年中,这个行业热度比较高,出现了各种各样的向量数据库,以及一些不太像样或者可能是来蹭热点的公司。但我认为今年将会发生一些变化,技术栈和工具链将会趋于收敛。
第二点是,关于个人数据和行为数据的定义以及标准化,将会开始慢慢形成行业标准。我对大模型本身的进步持有悲观态度,但我觉得越来越多的注意力将会集中在这些“无聊但至关重要”的工作上。这是我今年希望能够看到的里程碑,或者说趋势。也就是说,不要追逐那些热门的东西,而是去关注那些是否可调试、是否标准化、是否能够帮助工程师更好地构建应用的基础设施。我希望这个能够实现,当然这不是一个预测,而是一个愿望。
总之,我其实只想提出一点,那就是工具必须先准备好,而且这里面的重点是数据,这是我们老本行。
李建忠:首先,我想谈的第一点是,是否有类似移动端的《愤怒的小鸟》这样的全民爆款应用,也就是 Killer App 的出现?当然,有些同学可能会认为 ChatGPT 或者其它某些应用也算是Killer App,但我认为它们还不算,它们更像是 iPhone 本身。当它结合了人的需求以及智能,也就是具备了手机目前不具备的能力,智能为它提供了这种能力的时候,就会随之诞生应用。比如《愤怒的小鸟》和《切水果》这些游戏没法在 PC 上玩得那么痛快,但在移动端却能瞬间感受到它的魅力。现在智能领域需要这种原生应用出现,并且不是效率类的,而是消费类的。
黄东旭:确实,它可能不会立即面向 C 端消费者,反而会先在一些个人生活助理或高管助理等细分领域应用。我现在特别期待我的助理能变成一个数字助理——这个领域相对比较狭窄,但能够确定产生实际效果。
李建忠:关于第二点,如果我从推理的角度来看,类似于去年很多开源的多模态大模型那样,推理领域是否会有更多的开源大模型涌现,推动整个行业卷起来,把推理技术推向一个非常成熟的阶段,同时把成本降到最低,包括对算力的更有效利用,包括对 CPU、GPU、NPU 等不同架构的高效协同,我觉得在推理领域的开源发展是非常值得期待的。我看到很多公司已经在研究这一块,虽然目前还没有大规模的开源成果出现,我对此充满期待。
唐小引:前面提到的第一个应用,到 2025 年能实现吗?
李建忠:我对此抱有期待,认为应该能够实现,尽管它看起来似乎相对简单。
唐小引:第二个推理应该是肯定会出现的吧?
李建忠:第二个推理的开源化是肯定会出现的。至于第三个,我依然看好具身智能的发展。因为它的领域相对细分,而中国在这一领域的竞争力尤为突出。最近,像 DeepSeek 和宇树这样的企业,就充分展现了中国在人工智能模型构建和制造业方面的强大能力,我觉得在具身智能上可能会有更大的突破。
黄东旭:在具身智能的具体应用场景中,可能会有一些场景率先取得突破。
李建忠:再出现一个像大疆那样在全球范围内广受欢迎的企业,我觉得是有可能的。
林咏华:我就只总结一道里程碑吧。关于具身智能,实际上目前在中国,做人形机器人的公司应该有 80 家左右,甚至可能接近 100 家,大家的硬件等都不尽相同,小到灵巧手上的触点排布、数量都不一样。虽然网上有很多 demo 视频,但坦白说,很多简单的任务都难以保证其可重复的成功率。
不过,我们已经看到了一些希望。首先,我们希望有一天能够打造出一个跨本体的具身智能大模型。之所以要跨本体,是因为这么多机器人的摄像头位置、胳膊、手等都不一样。有了这个跨本体、跨不同领域甚至跨不同行业场景的基座大模型后,我们就可以像今天大模型的微调一样,在它进入某个产业领域或垂直领域时,只需收集少量数据,针对它要用的这一块,无论型号还是其他,少量地进行微调,就能达到不错的效果。当然,这肯定要依赖于一个非常强大的基座大模型。
黄东旭:就像 Llama 3 那样的模型。
林咏华:这就是我所期待的,从模型层面来看。但从算力层面来说,其实我也期待着,虽然现在大家都在谈论云端协同,但我们有很多场景是不允许云端协同的。因此,我期待能有推理加速和硬件创新,让这些大模型能够直接在端侧运行,以避免因断网等问题带来的困扰。这也是为什么,包括智源在内的机构在过去做了很多优化工作,主要集中在训练侧,包括跨不同芯片的优化。而在 2025 年,我们会把很多重点放在推理侧,尤其是跨不同端侧芯片的优化上。这主要是因为具身智能在端侧的芯片选择上,会有各种各样的类型。
快就是好吗?代码的架构、扩展性还需要吗?AI 帮助我们快速写完代码,但就是因为太快,导致开发者根本就没有时间去思考,让生成的代码变成一次性的代码——用完即走。代码应该要怎么写,要如何进行方法、模块的划分,这些都是需要时间去思考的。如何在这快与慢中去找到平衡点?
如果你和我一样,有以上诸多的困惑,不妨一起来听 2025 年 1 月 15 日(星期三)中午 12:00-13:30 CSDN《万有引力》的年度特别讨论:《2025 年,AI Coding 将如何演进?》
更多推荐
所有评论(0)