
马斯克旗下的ai公司xAI开发的Grok-1大型语言模型,在经历几个月的训练和准备后,于2024年3月18日正式开源。Grok-1拥有高达3140亿的参数,超过了OpenAI的GPT-3.5模型,成为迄今为止开源的参数量最大的大语言模型。这一动作遵照Apache 2.0协议进行,意味着开发者可以自由地下载、使用、修改并分发Grok-1的模型权重和架构。

Grok官网:https://grok.x.ai/
Grok开源GitHub源码下载地址:https://github.com/xai-org/grok-1
Grok-1是基于大量文本数据训练的基础模型,未针对特定任务进行微调。它采用的是混合专家架构(Mixture-of-Experts, MOE),这是一种机器学习方法,通过结合多个子模型(专家)的输出,提高模型处理任务的效率。Grok-1的源权重数据大小约为300GB,并在GitHub上开源。
马斯克Grok为什么开源?
马斯克此举是在与OpenAI的关系紧张和对后者提出法律诉讼的背景下进行的,马斯克与OpenAI的联合创始人奥特曼之间存在着长期的矛盾。他公开批评OpenAI违背了其开源的初心,并将原本旨在对抗谷歌的机构转变为一个与微软合作的盈利性实体。因此,马斯克决定通过开源Grok-1来展示其对AI领域开放共享的承诺。
另外,通过开源,马斯克希望吸引更多的开发者和用户,扩大其影响力,同时也为xAI带来更多的数据资源,帮助其不断完善和优化技术。
马斯克Grok开源的意义
Grok-1的开源将直接推动AI技术的发展,促进竞争与多样性。它为AI领域提供了新的发展动力,并可能引发新的技术革命。同时,这也是对AI领域现有商业化策略的一次挑战,马斯克试图通过开源来改变AI技术的走向,使之更符合他个人的愿景。
官方文章介绍:https://x.ai/blog/grok-os
GitHub地址:https://github.com/xai-org/grok-1
Hugging Face地址:https://huggingface.co/xai-org/grok-1
模型权重下载:
magnet:xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce
模型详情:
基于大量文本数据训练,未针对任何特定任务微调
3140亿参数MoE模型,激活权重25%
使用旋转嵌入而非固定位置嵌入
Tokenizer词汇大小131,072,嵌入大小6,144
64层Transformer,每层解码器层包含多头注意力块和密集块
多头注意力:48头查询,8头键/值,键值大小128
密集块:加宽因子8,隐藏层大小32768
每个token从8个专家选择2个
旋转位置嵌入大小6,144
上下文长度8192 tokens,精度bf16
模型能力:
在标准LM基准测试中表现超过同等计算量模型
HumanEval编码任务63.2%,MMLU 73%
在匈牙利高中数学考试中获C级(59%)
整体在推理和编码任务中表现出色
局限性:
缺少独立搜索网络能力,需结合搜索工具增强
可能产生幻觉,需人工审查
目前无法像X平台付费版实现实时获取信息
开源意义:
遵循Apache 2.0许可证,用户可自由使用修改分发
体现了xAI追求透明化和社区开放的理念
为进一步研究和创新提供了宝贵资源
Grok-1的开源引起了广泛关注,短短四小时内便获得了3.4k星标。知名机器学习研究者Sebastian Raschka和DeepMind研究工程师Aleksa Gordié都对Grok-1给予了积极评价,认为其开源程度和能力都值得关注。
Grok-1的应用前景
Grok-1作为xAI团队的杰作,不仅在技术上展现了强大的实力,更在应用前景上展现了广阔的天地。它将作为Grok背后的引擎,用于自然语言处理任务,包括问答、信息检索、创意写作和编码辅助等。尽管Grok-1在信息处理方面表现出色,但xAI也强调了人类检查的重要性,以确保输出的准确性。
马斯克之前说过:科技创新才是推动人类进步的关键,而专利保护只会阻碍这个进程。他希望通过公开这些专利设计,鼓励更多人加入科技创新行列,共同推动人类社会进步。