可爱老人网

 找回密码
 注册会员
搜索
查看: 38|回复: 5

[资讯] 马斯克将开源AI聊天机器人 大模型进入技术突破期

[复制链接]
发表于 2024-3-19 10:15 | 显示全部楼层 |阅读模式
马斯克将开源AI聊天机器人 大模型进入技术突破期
3月11日,埃隆·马斯克在社交平台上表示,xAI将于本周开源AI聊天机器人Grok。马斯克是大模型开源的倡导者。为了寻求OpenAI和谷歌的替代方案,马斯克去年推出了xAI,以创造他所说的“最大程度寻求真相的人工智能”。天风证券认为,海外大语言模型进入新一轮大模型技术突破期,国内也纷纷突破GPT3.5水平。除去大模型侧的创新,海外应用端在GP7s的带领下诞生了大量应用,2个月内就有超过300万应用创建。在算力端,海外大厂的硬件投资依然持续,微软、谷歌、亚马逊都预计资本性支出有望在2024年继续扩大,以支撑AI的投入。看好AI应用与算力板块。

 楼主| 发表于 2024-3-19 10:18 | 显示全部楼层
马斯克开源3140亿参数的Grok,大模型争相开源所为何求?
“主要是招揽客户,做影响力。”对于大模型厂商开源的动力,陈冉对第一财经表示。

特斯拉CEO埃隆·马斯克(Elon Musk)给大模型领域投下一枚重磅炸弹。

北京时间3月18日凌晨,马斯克旗下大模型公司 xAI 在官网宣布开源 3140 亿参数的大模型Grok-1,以及该模型的权重和网络架构。

xAI官网的博客(官方介绍封面图是Grok提供提示词基于Midjourney生成的神经网络3D图)

这是目前为止参数量最大的开源模型,此前开源大模型中影响力较大的是 Meta开源的Llama 2,有700亿参数。在GitHub页面中,官方提示,由于Grok模型规模较大,需要有足够GPU和内存的机器才能运行。

开源大模型生态社区OpenCSG的创始人陈冉认为,在马斯克开源前,大家还在讨论开源好,还是闭源好,“马斯克开源的意义很大,说明AI 2.0,也就是大模型的大趋势就是以开源为主的渐进创新方式。”对于企业和个人来说,在 Llama、Gemma和Mistral这些开源大模型外,也会有更多选择。

大模型厂商纷纷开源

据xAI官方发布公告介绍,Grok-1是一个由xAI从头开始训练的混合专家(MoE)模型,目前开源的是其2023年10月的原始基础模态,没有针对任何任务进行微调,意味着这个模型目前还没有针对任何应用开发。

xAI 提到遵守 Apache 2.0 许可证来开源 Grok-1 的权重和架构,而Apache 2.0 许可证允许用户自由地使用、修改和分发软件,无论是个人还是商业用途。

马斯克一直是开源的支持者,对OpenAI闭源的商业路线有所不满。几周前,马斯克向法院提起诉讼,以违反合同为由起诉OpenAI及其CEO奥尔特曼(Sam Altman),要求该公司恢复开源。马斯克在诉讼中表示, OpenAI违背了公司成立时达成的一项协议,即开发技术以造福人类而不是利润。OpenAI与科技巨头微软的关系损害了该公司最初致力于公共、开源的通用人工智能(AGI)的目标。

马斯克在2023年创立大模型公司xAI,他曾表示,创立xAI就是为阻止人工智能领域出现“一家独大”的局面。随后,xAI推出大语言模型Grok。

此次Grok开源后,ChatGPT官方账号也现身评论区,马斯克正面开“怼”回复称:告诉我们更多关于OpenAI “开放”的部分(Tell us more about the “Open” part of OpenAI)。

和OpenAI为代表的闭源路线相反的是,开源成为不少大模型厂商选择的方向。同样在3月18日,国内创企潞晨科技的Colossal-AI团队宣布,全面开源Open-Sora模型参数和所有训练细节。Open-Sora是一个类Sora架构视频生成模型,模型采用了目前火热的Diffusion Transformer(DiT)架构。

公开资料显示,Open-Sora背后的公司潞晨科技创立于2021年7月,创始人尤洋是加州伯克利大学博士、新加坡国立大学计算机系的校长青年教授。

潞晨科技在其今日的官方发文中提到了团队用低成本方法复现Sora的路径。在复现流程中,团队共使用了64块H800进行训练。第二阶段的训练量一共是 2808 GPU hours,约合7000美元,第三阶段的训练量是1920 GPU hours,大约4500美元,成功把Open-Sora复现流程控制在了1万美元左右。

具体技术细节上,官方提到,为了进一步降低Sora复现的门槛和复杂度,Colossal-AI团队在代码仓库中提供了便捷的视频数据预处理脚本,可以轻松启动Sora复现预训练,包括公开视频数据集下载,长视频根据镜头连续性分割为短视频片段,使用开源大语言模型LLaVA生成精细的提示词。团队提供的批量视频标题生成代码可以用两卡 3 秒标注一个视频,并且质量接近于 GPT-4V。最终得到的视频/文本对可直接用于训练。

开源所为何求?

无论是国内还是海外,大模型开源都已经成为一大趋势。对于大模型厂商开源的动力,陈冉对第一财经表示,“主要是招揽客户,做影响力。”

陈冉比喻道,大模型的这个打法就像互联网时代移动应用的市场模式,“免费试用一段时间,后面有企业包装后的功能或者服务,这个东西也相当于汽车里的发动机,直接用不起来,需要包装成整车(企业功能)。”

2023年 7月,Meta公布开源最新大模型Llama 2,包含70 亿、130 亿和 700 亿三种参数类型,并宣布可免费用于商业或者研究。彼时Meta公开表示 ,开放的方法是当今人工智能模型开发的正确方法,特别是在技术快速发展的生成领域。通过公开提供人工智能模型,它们可以使每个人受益。

而最近一次影响力较大的开源是谷歌,其在2月22日宣布推出开源模型系列Gemma,包含Gemma 2B 和 Gemma 7B,模型权重也一并开源,且允许商用。

倒回半年多以前,2023年5月,一份谷歌的内部文件曾在网上传开并引发讨论。这份内部文件认为,开源大模型迅猛发展,正在侵蚀OpenAI和谷歌的阵地。除非改变闭源的立场,否则开源替代品将最终使这两家公司黯然失色。

“虽然我们的模型在质量方面仍略占优势,但(闭源和开源模型)的差距正在以惊人的速度缩小。”文件写道。外媒确认了内部文件的真实性,这篇文章的原作者是谷歌高级软件工程师Luke Sernau。

开源模式的迭代进步速度已经威胁到了部分闭源模型的生存。文件表示,开源大模型的很多创新,都是源于Meta LLaMA模型的泄露,但Meta又成为这一进程中一个明显的赢家——他们相当于获得了整个星球的免费劳动力,“拥有生态系统的价值怎么强调都不为过。”

“开源的最终目的是变现,做出商业模式。”陈冉认为,大模型领域的开源趋势会促进和推动行业在上面的商业化,快速迭代、快速试错、共创共担,对于这个生态只有好处,没有什么不利,“开源只会越来越澎湃向上,不会走向闭源。”

在Llama 2开源时,Meta CEO马克·扎克伯格曾为其站台,称Llama 2为大模型的“次世代”产品,他表示,开源推动了创新,因为它让更多的开发者能够使用新技术。同时,软件开源意味着更多的人可以审查它,识别并修复可能存在的问题,从而提高了安全性,“我相信如果生态系统更加开放,将会释放更多的进步,这就是我们开源Llama 2的原因。”

不过,在开源的同时,厂商们也并未完全放弃闭源路线。来自法国的Mistral AI最初是开源起家,其开源的Mistral 7B一度被称为最好的 7B 模型,这家初创公司也被誉为“欧洲的OpenAI ”,但就在前不久,Mistral AI发布了最强的旗舰模型 Mistral Large,性能对标 GPT-4,却没有选择开源,其CEO 阿瑟·门斯(Arthur Mensch)公开表示,未来他们依然会坚持开源理念,但是同时也会推出性能最为强大的闭源模型参与商业竞争。

此次,马斯克开源了目前最大参数量的Grok,再次搅动大模型领域的战争。闭源还是开源路线胜?犹未可知。对于科技圈而言,正如OpenAI CEO奥尔特曼在3月18日凌晨的推文所述,“这是人类历史上最有趣的一年,除未来所有年份以外。”
 楼主| 发表于 2024-3-19 10:21 | 显示全部楼层
埃隆·马斯克开源Grok的“难言之隐”与“野望”[size=1em]腾讯科技[size=1em]03-18 16:22
2024年3月18日,马斯克兑现前几天的诺言,正式对Grok大模型进行开源。根据开源信息显示:Grok模型的Transformer达到64层,大小为314B;用户可以将Grok用于商业用途(免费),并且进行修改和分发,并没有附加条款。
首先速览一下 Grok 的参数细节:
①模型概况:拥有3140亿个参数,成为目前参数量最大的开源模型;Grok-1 是一个基于 Transformer 的自回归模型。xAI 利用来自人类和早期 Grok-0 模型的大量反馈对模型进行了微调。初始的 Grok-1 能够处理 8192 个 token 的上下文长度,已经于 2023 年 11 月发布。
②特点:模型采用了混合专家架构,共有8个专家模型,其中每个数据单元(Token)由2位专家处理。这使得每次对Token的处理会涉及860亿激活参数,比目前开源的最大模型Llama-2 70B的总参数量还多。模型包含64个处理层,模型使用了48个用于处理查询的注意力机制单元和8个用于处理键/值对的注意力机制单元。模型支持8bit精度量化。
③缺陷:Grok-1 语言模型不具备独立搜索网络的能力。在 Grok 中部署搜索工具和数据库可以增强模型的能力和真实性。尽管可以访问外部信息源,但模型仍会产生幻觉。
④训练数据:Grok-1 发布版本所使用的训练数据来自截至 2023 年第三季度的互联网数据和 xAI 的 AI 训练师提供的数据。
再看一下各项基准测试的评分对比:
从评分上来看,没有什么惊艳之处,比不过GPT4,也比不过Palm-2及Claude3。但是xAI 表示,他们没有为应对这个考试而特别准备或调整模型。也许我们可以小小期待一下,Grok1.5 是不是会带来某些惊喜。
这次公布的开源版本,马斯克绝对会着重讽刺一下隔壁的“Closed AI”。
但是,Grok 开源,仅仅是为了讽刺 OpenAI 吗?如果坚持闭源,Grok 是不是会把自己陷入某些比较艰难的境地?大模型开源 VS 闭源,在产业生态上,分别占据什么样的位置?
Grok开源的难言之隐
马斯克宣布xAI开源,虽然引发了新一轮的创新竞争和争议,但从整个市场格局来看,Grok的开源也是不得已而为之的决定。
Grok是马斯克创立的AI公司X.ai推出的大模型,相比于其他大模型,Grok的与众不同之处在于使用了X平台(原名Twitter)上的语料进行训练,据称Grok还自带幽默感和怼人的风格。
虽然得到了X平台数据资源的加持,但是在大模型大爆发的当下,Grok并没有进入第一梯队。
尤其是2024年以来,Gemini、Claude3接连发布,其能力已经接近甚至超越GPT-4,三者处于第一梯队的行业格局基本确定。这还不算上Mistral AI和Inflection AI的奋起直追。因此,未来的基座大模型“虹吸效应”越发明显,留给其他玩家的机会并不多。
Grok借助埃隆·马斯克的影响力虽然得到了一定的关注度,但是在产业和用户的知名度并不高,在大模型的“军备竞赛”中并没有太多竞争优势。抛开马斯克本身与OpenAI的恩怨情仇,Grok继续叫板的意义并不大。
如果Grok继续走闭源开发的路径,基本上将成为人工智能时代的“诺基亚塞班系统”,被抛弃只是时间问题。届时Grok既不能帮助马斯克对X平台实现商业化变现,又成为昂贵的沉默成本。
因此,与其作为一个二流甚至三流的闭源大模型,倒不如破釜沉舟,通过开源为Grok杀出一条血路,在风口上为Grok谋下新的发展路径。国内大模型月之暗面CEO杨植麟也曾表达过,“如果我今天有一个领先的模型,开源出来,大概率不合理。反而是落后者可能会这么做,或者开源小模型,搅局嘛,反正不开源也没价值。”
开源是推动产业“螺旋式成长”的必要一环
技术的发展有闭源,就必然有开源。闭源和开源两者的性能会竞相追赶,交替上升,这也是技术发展的动力之一。
移动互联网时代iOS的和Android就是闭源和开源的典型代表,因此不存在闭源一直碾压开源的现象,而是双方在不断借鉴和切磋的过程中,让更多用户在移动互联网时代获得更多收益,成果惠及社会。
同样道理,在大模型时代,如果说ChatGPT点燃大家对大模型的热情,那么开源大模型的出现则是进一步降低了创业者的门槛,让更多创业者在基础模型方面处于同一起跑线上。
甚至可以说,正是因为有了开源大模型才极大降低了大模型的开发成本。毕竟仅靠OpenAI一家公司是难以将大模型向全球生态的形态进行发展,大家也不愿意看到一家独大的局面。
例如2024年年初火爆的文生视频模型Sora引发全球轰动,业内也不短加快开源版本的研发,国内研究机构甚至推出了Open-Sora框架,并将复现成本降低46%,模型训练输入序列长度扩充至819K patches,让更多机构可以在文生视频利于获得可用的工具和方法。
同时,在企业应用大模型时,不仅关注模型的前沿能力,还需考虑数据安全隐私、成本控制等多方面因素。因此,面向企业的开源模型在许多情况下更能满足企业个性化需求,而像OpenAI这样的闭源模型公司可能无法完全满足这些需求。
未来的大模型市场,将呈现出开源模型满足基本智能需求,闭源模型满足高阶需求的互补态势。
开源基础上的创新,次啊是“真功夫”
对于大模型而言,开源的底座只是起点,需要在这个起点上进一步创新。
尤其是当前开源大模型更新的速度不断加快,今天可能还是业内最好的模型,但是明天就有可能被超越,变成沉默成本。当模型迭代速度不断加快的今天,过去的投入很有可能就会打水漂。
因此在开源底座的基础上,做为我所用的东西更有价值。比如目前海外的开源模型发展较快,但是其模型中文能力一般,也没有丰富的行业场景,缺乏国内如此丰富的数据预训练资源,这反倒是创业的机会和宝贵的窗口期。
同时,开源模型让更多高校、科研机构、中小企业不断深入使用,并对开源模型进行不断完善改进,最终这些成果也将惠及参与开源模型的所有人。
以Meta公司开源的LLaMa2为例,截止2023年底,HuggingFace上开源的大模型排行榜前十名中,有8个是基于LLaMa 2 打造的,使用LLaMa 2的开源大模型已经超过1500个。同时,Meta、英特尔、Stability AI、Hugging Face、耶鲁大学、康奈尔大学等57家科技公司、学术机构还在2023年下半年成立了AI联盟,旨在通过构建开源大模型生态,来推动开源工作的发展。目前AI联盟构建起从研究、评估、硬件、安全、公众参与等一整套流程。
当然,依托开源做研发并不容易,用好开源模型也是一种壁垒和门槛。
这是因为基于开源模型做开发,其后续的投入门槛并不低,对研发要求依旧很高。用开源模型做底座只是有效降低了冷启动的成本,具体来看:优秀的开源模型可能已经学习超过万亿token的数据,因此帮助创业者节省了部分成本,创业者可以在这个基础上进一步进行训练,最终将模型做到行业领先水平,这个过程中数据清洗、预训练、微调、强化学习等步骤都不能少。
“开源+”战略或将成为Grok突围的新思路
1.开源+端侧实现“软硬一体化”
当前,主流大模型动辄万亿级的参数,需要海量的算力资源予以支持,但并非所有终端都能够支持这样的成本投入,而在智能手机、物联网等端侧需要小巧、灵活的轻量级模型,甚至可以在终端处于离线状态也能够使用。
因此,真正做到让AI可以“触手可及”,端侧模型落地具体需求场景更为迫切:
埃隆·马斯克在特斯拉汽车、星链卫星终端、甚至擎天柱机器人正在构建AI落地“最硬核”场景:特斯拉的Autopilot使用了AI算法来实现自动驾驶功能,将是未来智慧交通的一种重要尝试;SpaceX最近发射的星舰实现了2秒内处理所有33个发动机的数据,并且确保可以安全加速。未来基于Grok来构建软硬一体化的模型-应用生态体系,有望解决当前“基础模型和需求场景,谁来把两者衔接起来”的现实问题。更为关键的一点在于,大部分目前致力于大模型开发的公司最终将变为模型-应用一体化的企业,而且应用层的市场价值更大。
一旦通过了TMF(Technology Market Fit)、PMF(Product Market Fit)阶段,其价值将在生产力效率提升、泛娱乐、信息流转创新方面产生更大效益,而马斯克在其他产业的布局可以更好的与之发生“共振”:一方面通过Grok开源,吸引更多用户和企业的调用和接入,提升通用的智能化能力,另一方面围绕自身生态和产业场景、数据方面的优势(汽车+卫星+机器人)构建更多可落地的创新。生成式人工智能正在从超级模型向超级应用转型的新起点,与其和学霸“卷”基座大模型,不如在应用侧让Grok率先卡位。
同时,对于一直尚未进入大众视野的“大模型安全和透明度”问题,Grok的开源有望为大众理解大模型复杂性和安全挑战,提供新的视角。毕竟以目前的发展速度,大模型已经不是技术研发问题,而是一个全社会需要广泛参与和讨论的社会话题。
2.开源+闭源构建“一体两翼”
是的,开源和闭源并非死对头,老死不相往来。
事实上,在大模型领域大量科技企业已经在探索开源+闭源的双重策略。例如谷歌在发布大模型Gemini的时候,能力较为强大的Gemini Ultra是采用闭源策略,主要竞争对手是GPT-4、Claude3.0等,而Gemma2B和7B则采用了开源战略,能力稍逊一筹,但是在特定场景将有着更广泛的应用领域。
Grok可以借鉴开源与闭源混搭的思路,以“半开源”的方式一方面释放能力给更多用户和企业,另一方面借助X平台的海量优质实时数据构建自身壁垒。从而在大模型的竞争中获得一席之地。
当然并不是说开源大模型可以解决一切问题。事实上,开源大模型和闭源大模型还是有一定的差距:闭源大模型整体能力上还是高于开源模型。因为开源的大模型大多还没有经过算力验证,闭源是人才密度、资金密度、资源密度高度集中的方式,同时开源本身也避免不了中心化的风险。
对于企业来讲,希望在基座大模型上实现反超的机会已经接近尾声,但是通过选择开源模型是更加务实的选择,优化、训练出实用的模型更是真本事。基于开源,是有机会作出优秀的大模型,核心是能够拥有相对领先的认知,可以对模型能力进行持续迭代。
本文作者:翟尤,本文来源:,原文标题:《埃隆·马斯克开源Grok的“难言之隐”与“野望”》

发表于 2024-3-19 16:55 | 显示全部楼层
谢谢遨翔天地间老师转载
发表于 2024-3-19 17:29 | 显示全部楼层
       “不是我不明白,这世界变化快。”,这唱出了我心中的迷茫和彷徨,新名词络绎不绝于目,新呼声不绝于耳,中文,外文呼呼隆隆一塌刮子迎面扑来,哪里会招架得住?连意思也弄不明白,那就只能等看效果了,也只有如此,谁让你学习的劲头不足,跟不上步伐呢。
        
下一页 发布主题 快速回复

手机版|公众号|小黑屋|可爱老人网

GMT+8, 2024-5-6 15:04

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表