马斯克将开源AI聊天机器人大模型进入技术突破期

遨翔天地间 · 发表于 2024-3-19 10:15

马斯克将开源AI聊天机器人大模型进入技术突破期
3月11日，埃隆·马斯克在社交平台上表示，xAI将于本周开源AI聊天机器人Grok。马斯克是大模型开源的倡导者。为了寻求OpenAI和谷歌的替代方案，马斯克去年推出了xAI，以创造他所说的“最大程度寻求真相的人工智能”。天风证券认为，海外大语言模型进入新一轮大模型技术突破期，国内也纷纷突破GPT3.5水平。除去大模型侧的创新，海外应用端在GP7s的带领下诞生了大量应用，2个月内就有超过300万应用创建。在算力端，海外大厂的硬件投资依然持续，微软、谷歌、亚马逊都预计资本性支出有望在2024年继续扩大，以支撑AI的投入。看好AI应用与算力板块。

遨翔天地间 · 发表于 2024-3-19 10:18

马斯克开源3140亿参数的Grok，大模型争相开源所为何求？
“主要是招揽客户，做影响力。”对于大模型厂商开源的动力，陈冉对第一财经表示。

特斯拉CEO埃隆·马斯克(Elon Musk)给大模型领域投下一枚重磅炸弹。

北京时间3月18日凌晨，马斯克旗下大模型公司 xAI 在官网宣布开源 3140 亿参数的大模型Grok-1，以及该模型的权重和网络架构。

xAI官网的博客（官方介绍封面图是Grok提供提示词基于Midjourney生成的神经网络3D图）

这是目前为止参数量最大的开源模型，此前开源大模型中影响力较大的是 Meta开源的Llama 2，有700亿参数。在GitHub页面中，官方提示，由于Grok模型规模较大，需要有足够GPU和内存的机器才能运行。

开源大模型生态社区OpenCSG的创始人陈冉认为，在马斯克开源前，大家还在讨论开源好，还是闭源好，“马斯克开源的意义很大，说明AI 2.0，也就是大模型的大趋势就是以开源为主的渐进创新方式。”对于企业和个人来说，在 Llama、Gemma和Mistral这些开源大模型外，也会有更多选择。

大模型厂商纷纷开源

据xAI官方发布公告介绍，Grok-1是一个由xAI从头开始训练的混合专家（MoE）模型，目前开源的是其2023年10月的原始基础模态，没有针对任何任务进行微调，意味着这个模型目前还没有针对任何应用开发。

xAI 提到遵守 Apache 2.0 许可证来开源 Grok-1 的权重和架构，而Apache 2.0 许可证允许用户自由地使用、修改和分发软件，无论是个人还是商业用途。

马斯克一直是开源的支持者，对OpenAI闭源的商业路线有所不满。几周前，马斯克向法院提起诉讼，以违反合同为由起诉OpenAI及其CEO奥尔特曼（Sam Altman），要求该公司恢复开源。马斯克在诉讼中表示， OpenAI违背了公司成立时达成的一项协议，即开发技术以造福人类而不是利润。OpenAI与科技巨头微软的关系损害了该公司最初致力于公共、开源的通用人工智能（AGI）的目标。

马斯克在2023年创立大模型公司xAI，他曾表示，创立xAI就是为阻止人工智能领域出现“一家独大”的局面。随后，xAI推出大语言模型Grok。

此次Grok开源后，ChatGPT官方账号也现身评论区，马斯克正面开“怼”回复称：告诉我们更多关于OpenAI “开放”的部分（Tell us more about the “Open” part of OpenAI）。

和OpenAI为代表的闭源路线相反的是，开源成为不少大模型厂商选择的方向。同样在3月18日，国内创企潞晨科技的Colossal-AI团队宣布，全面开源Open-Sora模型参数和所有训练细节。Open-Sora是一个类Sora架构视频生成模型，模型采用了目前火热的Diffusion Transformer（DiT）架构。

公开资料显示，Open-Sora背后的公司潞晨科技创立于2021年7月，创始人尤洋是加州伯克利大学博士、新加坡国立大学计算机系的校长青年教授。

潞晨科技在其今日的官方发文中提到了团队用低成本方法复现Sora的路径。在复现流程中，团队共使用了64块H800进行训练。第二阶段的训练量一共是 2808 GPU hours，约合7000美元，第三阶段的训练量是1920 GPU hours，大约4500美元，成功把Open-Sora复现流程控制在了1万美元左右。

具体技术细节上，官方提到，为了进一步降低Sora复现的门槛和复杂度，Colossal-AI团队在代码仓库中提供了便捷的视频数据预处理脚本，可以轻松启动Sora复现预训练，包括公开视频数据集下载，长视频根据镜头连续性分割为短视频片段，使用开源大语言模型LLaVA生成精细的提示词。团队提供的批量视频标题生成代码可以用两卡 3 秒标注一个视频，并且质量接近于 GPT-4V。最终得到的视频/文本对可直接用于训练。

开源所为何求？

无论是国内还是海外，大模型开源都已经成为一大趋势。对于大模型厂商开源的动力，陈冉对第一财经表示，“主要是招揽客户，做影响力。”

陈冉比喻道，大模型的这个打法就像互联网时代移动应用的市场模式，“免费试用一段时间，后面有企业包装后的功能或者服务，这个东西也相当于汽车里的发动机，直接用不起来，需要包装成整车（企业功能）。”

2023年 7月，Meta公布开源最新大模型Llama 2，包含70 亿、130 亿和 700 亿三种参数类型，并宣布可免费用于商业或者研究。彼时Meta公开表示，开放的方法是当今人工智能模型开发的正确方法，特别是在技术快速发展的生成领域。通过公开提供人工智能模型，它们可以使每个人受益。

而最近一次影响力较大的开源是谷歌，其在2月22日宣布推出开源模型系列Gemma，包含Gemma 2B 和 Gemma 7B，模型权重也一并开源，且允许商用。

倒回半年多以前，2023年5月，一份谷歌的内部文件曾在网上传开并引发讨论。这份内部文件认为，开源大模型迅猛发展，正在侵蚀OpenAI和谷歌的阵地。除非改变闭源的立场，否则开源替代品将最终使这两家公司黯然失色。

“虽然我们的模型在质量方面仍略占优势，但（闭源和开源模型）的差距正在以惊人的速度缩小。”文件写道。外媒确认了内部文件的真实性，这篇文章的原作者是谷歌高级软件工程师Luke Sernau。

开源模式的迭代进步速度已经威胁到了部分闭源模型的生存。文件表示，开源大模型的很多创新，都是源于Meta LLaMA模型的泄露，但Meta又成为这一进程中一个明显的赢家——他们相当于获得了整个星球的免费劳动力，“拥有生态系统的价值怎么强调都不为过。”

“开源的最终目的是变现，做出商业模式。”陈冉认为，大模型领域的开源趋势会促进和推动行业在上面的商业化，快速迭代、快速试错、共创共担，对于这个生态只有好处，没有什么不利，“开源只会越来越澎湃向上，不会走向闭源。”

在Llama 2开源时，Meta CEO马克·扎克伯格曾为其站台，称Llama 2为大模型的“次世代”产品，他表示，开源推动了创新，因为它让更多的开发者能够使用新技术。同时，软件开源意味着更多的人可以审查它，识别并修复可能存在的问题，从而提高了安全性，“我相信如果生态系统更加开放，将会释放更多的进步，这就是我们开源Llama 2的原因。”

不过，在开源的同时，厂商们也并未完全放弃闭源路线。来自法国的Mistral AI最初是开源起家，其开源的Mistral 7B一度被称为最好的 7B 模型，这家初创公司也被誉为“欧洲的OpenAI ”，但就在前不久，Mistral AI发布了最强的旗舰模型 Mistral Large，性能对标 GPT-4，却没有选择开源，其CEO 阿瑟·门斯（Arthur Mensch）公开表示，未来他们依然会坚持开源理念，但是同时也会推出性能最为强大的闭源模型参与商业竞争。

此次，马斯克开源了目前最大参数量的Grok，再次搅动大模型领域的战争。闭源还是开源路线胜？犹未可知。对于科技圈而言，正如OpenAI CEO奥尔特曼在3月18日凌晨的推文所述，“这是人类历史上最有趣的一年，除未来所有年份以外。”

遨翔天地间 · 发表于 2024-3-19 10:21

埃隆·马斯克开源Grok的“难言之隐”与“野望”[size=1em]腾讯科技[size=1em]03-18 16:22

2024年3月18日，马斯克兑现前几天的诺言，正式对Grok大模型进行开源。根据开源信息显示：Grok模型的Transformer达到64层，大小为314B；用户可以将Grok用于商业用途（免费），并且进行修改和分发，并没有附加条款。

首先速览一下 Grok 的参数细节：

①模型概况：拥有3140亿个参数，成为目前参数量最大的开源模型；Grok-1 是一个基于 Transformer 的自回归模型。xAI 利用来自人类和早期 Grok-0 模型的大量反馈对模型进行了微调。初始的 Grok-1 能够处理 8192 个 token 的上下文长度，已经于 2023 年 11 月发布。

②特点：模型采用了混合专家架构，共有8个专家模型，其中每个数据单元（Token）由2位专家处理。这使得每次对Token的处理会涉及860亿激活参数，比目前开源的最大模型Llama-2 70B的总参数量还多。模型包含64个处理层，模型使用了48个用于处理查询的注意力机制单元和8个用于处理键/值对的注意力机制单元。模型支持8bit精度量化。

③缺陷：Grok-1 语言模型不具备独立搜索网络的能力。在 Grok 中部署搜索工具和数据库可以增强模型的能力和真实性。尽管可以访问外部信息源，但模型仍会产生幻觉。

④训练数据：Grok-1 发布版本所使用的训练数据来自截至 2023 年第三季度的互联网数据和 xAI 的 AI 训练师提供的数据。

再看一下各项基准测试的评分对比：

从评分上来看，没有什么惊艳之处，比不过GPT4，也比不过Palm-2及Claude3。但是xAI 表示，他们没有为应对这个考试而特别准备或调整模型。也许我们可以小小期待一下，Grok1.5 是不是会带来某些惊喜。

这次公布的开源版本，马斯克绝对会着重讽刺一下隔壁的“Closed AI”。

但是，Grok 开源，仅仅是为了讽刺 OpenAI 吗？如果坚持闭源，Grok 是不是会把自己陷入某些比较艰难的境地？大模型开源 VS 闭源，在产业生态上，分别占据什么样的位置？

Grok开源的难言之隐

马斯克宣布xAI开源，虽然引发了新一轮的创新竞争和争议，但从整个市场格局来看，Grok的开源也是不得已而为之的决定。

Grok是马斯克创立的AI公司X.ai推出的大模型，相比于其他大模型，Grok的与众不同之处在于使用了X平台（原名Twitter）上的语料进行训练，据称Grok还自带幽默感和怼人的风格。

虽然得到了X平台数据资源的加持，但是在大模型大爆发的当下，Grok并没有进入第一梯队。

尤其是2024年以来，Gemini、Claude3接连发布，其能力已经接近甚至超越GPT-4，三者处于第一梯队的行业格局基本确定。这还不算上Mistral AI和Inflection AI的奋起直追。因此，未来的基座大模型“虹吸效应”越发明显，留给其他玩家的机会并不多。

Grok借助埃隆·马斯克的影响力虽然得到了一定的关注度，但是在产业和用户的知名度并不高，在大模型的“军备竞赛”中并没有太多竞争优势。抛开马斯克本身与OpenAI的恩怨情仇，Grok继续叫板的意义并不大。

如果Grok继续走闭源开发的路径，基本上将成为人工智能时代的“诺基亚塞班系统”，被抛弃只是时间问题。届时Grok既不能帮助马斯克对X平台实现商业化变现，又成为昂贵的沉默成本。

因此，与其作为一个二流甚至三流的闭源大模型，倒不如破釜沉舟，通过开源为Grok杀出一条血路，在风口上为Grok谋下新的发展路径。国内大模型月之暗面CEO杨植麟也曾表达过，“如果我今天有一个领先的模型，开源出来，大概率不合理。反而是落后者可能会这么做，或者开源小模型，搅局嘛，反正不开源也没价值。”

开源是推动产业“螺旋式成长”的必要一环

技术的发展有闭源，就必然有开源。闭源和开源两者的性能会竞相追赶，交替上升，这也是技术发展的动力之一。

移动互联网时代iOS的和Android就是闭源和开源的典型代表，因此不存在闭源一直碾压开源的现象，而是双方在不断借鉴和切磋的过程中，让更多用户在移动互联网时代获得更多收益，成果惠及社会。

同样道理，在大模型时代，如果说ChatGPT点燃大家对大模型的热情，那么开源大模型的出现则是进一步降低了创业者的门槛，让更多创业者在基础模型方面处于同一起跑线上。

甚至可以说，正是因为有了开源大模型才极大降低了大模型的开发成本。毕竟仅靠OpenAI一家公司是难以将大模型向全球生态的形态进行发展，大家也不愿意看到一家独大的局面。

例如2024年年初火爆的文生视频模型Sora引发全球轰动，业内也不短加快开源版本的研发，国内研究机构甚至推出了Open-Sora框架，并将复现成本降低46%，模型训练输入序列长度扩充至819K patches，让更多机构可以在文生视频利于获得可用的工具和方法。

同时，在企业应用大模型时，不仅关注模型的前沿能力，还需考虑数据安全隐私、成本控制等多方面因素。因此，面向企业的开源模型在许多情况下更能满足企业个性化需求，而像OpenAI这样的闭源模型公司可能无法完全满足这些需求。

未来的大模型市场，将呈现出开源模型满足基本智能需求，闭源模型满足高阶需求的互补态势。

开源基础上的创新，次啊是“真功夫”

对于大模型而言，开源的底座只是起点，需要在这个起点上进一步创新。

尤其是当前开源大模型更新的速度不断加快，今天可能还是业内最好的模型，但是明天就有可能被超越，变成沉默成本。当模型迭代速度不断加快的今天，过去的投入很有可能就会打水漂。

因此在开源底座的基础上，做为我所用的东西更有价值。比如目前海外的开源模型发展较快，但是其模型中文能力一般，也没有丰富的行业场景，缺乏国内如此丰富的数据预训练资源，这反倒是创业的机会和宝贵的窗口期。

同时，开源模型让更多高校、科研机构、中小企业不断深入使用，并对开源模型进行不断完善改进，最终这些成果也将惠及参与开源模型的所有人。

以Meta公司开源的LLaMa2为例，截止2023年底，HuggingFace上开源的大模型排行榜前十名中，有8个是基于LLaMa 2 打造的，使用LLaMa 2的开源大模型已经超过1500个。同时，Meta、英特尔、Stability AI、Hugging Face、耶鲁大学、康奈尔大学等57家科技公司、学术机构还在2023年下半年成立了AI联盟，旨在通过构建开源大模型生态，来推动开源工作的发展。目前AI联盟构建起从研究、评估、硬件、安全、公众参与等一整套流程。

当然，依托开源做研发并不容易，用好开源模型也是一种壁垒和门槛。

这是因为基于开源模型做开发，其后续的投入门槛并不低，对研发要求依旧很高。用开源模型做底座只是有效降低了冷启动的成本，具体来看：优秀的开源模型可能已经学习超过万亿token的数据，因此帮助创业者节省了部分成本，创业者可以在这个基础上进一步进行训练，最终将模型做到行业领先水平，这个过程中数据清洗、预训练、微调、强化学习等步骤都不能少。

“开源+”战略或将成为Grok突围的新思路

1.开源+端侧实现“软硬一体化”

当前，主流大模型动辄万亿级的参数，需要海量的算力资源予以支持，但并非所有终端都能够支持这样的成本投入，而在智能手机、物联网等端侧需要小巧、灵活的轻量级模型，甚至可以在终端处于离线状态也能够使用。

因此，真正做到让AI可以“触手可及”，端侧模型落地具体需求场景更为迫切：

埃隆·马斯克在特斯拉汽车、星链卫星终端、甚至擎天柱机器人正在构建AI落地“最硬核”场景：特斯拉的Autopilot使用了AI算法来实现自动驾驶功能，将是未来智慧交通的一种重要尝试；SpaceX最近发射的星舰实现了2秒内处理所有33个发动机的数据，并且确保可以安全加速。未来基于Grok来构建软硬一体化的模型-应用生态体系，有望解决当前“基础模型和需求场景，谁来把两者衔接起来”的现实问题。更为关键的一点在于，大部分目前致力于大模型开发的公司最终将变为模型-应用一体化的企业，而且应用层的市场价值更大。

一旦通过了TMF（Technology Market Fit）、PMF（Product Market Fit）阶段，其价值将在生产力效率提升、泛娱乐、信息流转创新方面产生更大效益，而马斯克在其他产业的布局可以更好的与之发生“共振”：一方面通过Grok开源，吸引更多用户和企业的调用和接入，提升通用的智能化能力，另一方面围绕自身生态和产业场景、数据方面的优势（汽车+卫星+机器人）构建更多可落地的创新。生成式人工智能正在从超级模型向超级应用转型的新起点，与其和学霸“卷”基座大模型，不如在应用侧让Grok率先卡位。

同时，对于一直尚未进入大众视野的“大模型安全和透明度”问题，Grok的开源有望为大众理解大模型复杂性和安全挑战，提供新的视角。毕竟以目前的发展速度，大模型已经不是技术研发问题，而是一个全社会需要广泛参与和讨论的社会话题。

2.开源+闭源构建“一体两翼”

是的，开源和闭源并非死对头，老死不相往来。

事实上，在大模型领域大量科技企业已经在探索开源+闭源的双重策略。例如谷歌在发布大模型Gemini的时候，能力较为强大的Gemini Ultra是采用闭源策略，主要竞争对手是GPT-4、Claude3.0等，而Gemma2B和7B则采用了开源战略，能力稍逊一筹，但是在特定场景将有着更广泛的应用领域。

Grok可以借鉴开源与闭源混搭的思路，以“半开源”的方式一方面释放能力给更多用户和企业，另一方面借助X平台的海量优质实时数据构建自身壁垒。从而在大模型的竞争中获得一席之地。

当然并不是说开源大模型可以解决一切问题。事实上，开源大模型和闭源大模型还是有一定的差距：闭源大模型整体能力上还是高于开源模型。因为开源的大模型大多还没有经过算力验证，闭源是人才密度、资金密度、资源密度高度集中的方式，同时开源本身也避免不了中心化的风险。

对于企业来讲，希望在基座大模型上实现反超的机会已经接近尾声，但是通过选择开源模型是更加务实的选择，优化、训练出实用的模型更是真本事。基于开源，是有机会作出优秀的大模型，核心是能够拥有相对领先的认知，可以对模型能力进行持续迭代。

本文作者：翟尤，本文来源：，原文标题：《埃隆·马斯克开源Grok的“难言之隐”与“野望”》

廖若晨星 · 发表于 2024-3-19 16:55

谢谢遨翔天地间老师转载

山洞 · 发表于 2024-3-19 17:29

“不是我不明白，这世界变化快。”，这唱出了我心中的迷茫和彷徨，新名词络绎不绝于目，新呼声不绝于耳，中文，外文呼呼隆隆一塌刮子迎面扑来，哪里会招架得住？连意思也弄不明白，那就只能等看效果了，也只有如此，谁让你学习的劲头不足，跟不上步伐呢。

沪上人 · 发表于 2024-3-20 16:44

谢谢分享！

帐号		自动登录	找回密码
密码			注册会员

[资讯] 马斯克将开源AI聊天机器人 大模型进入技术突破期

[资讯] 马斯克将开源AI聊天机器人大模型进入技术突破期