Meta 将发布 LLaMA 商用版，GPT-4 模型架构曝光：1.8 万亿参数、混合专家模型

Meta 将发布商用版 LLaMA，GPT-4 模型架构泄露：包含 1.8 万亿参数、采用混合专家模型 (MoE)

大语言模型是人工智能领域的热门话题，也是各大科技公司的竞争焦点。Meta 准备发布其大语言模型 LLaMA 的商用版本，与 OpenAI 和谷歌等对手展开较量。而 OpenAI 今年 3 月发布的 GPT-4 大模型，也被业内人士揭秘了其技术细节。本文将为你介绍 Meta 的 LLaMA 商用版和 GPT-4 的模型架构等信息。根据英国《金融时报》报道，Meta即将发布商用版本的人工智能模型LLaMA，允许企业和初创公司基于该技术构建定制软件。本文将揭秘LLaMA商用版的具体内容，以及GPT-4模型架构的泄露，包括参数规模和采用的混合专家模型等详细信息。Meta与OpenAI和谷歌展开竞争，旨在削弱OpenAI的主导地位。

根据英国《金融时报》的报道，Meta 准备发布其人工智能模型 LLaMA 的商用版本，允许初创公司和企业在该技术的基础上构建定制软件。

此举将使 Meta 与微软支持的 OpenAI 和谷歌展开竞争。今年早些时候，Meta 面向研究人员和学者发布了自有大语言模型 LLaMA。其参数规模从 70 亿到 650 亿参数不等（包括 7B、13B、33B 和 65B 参数），该模型的一大优势是能运行在单张显卡上。

三位知情人士表示，新的商用版本将更广泛地提供给企业，并可由企业定制。还有一名了解 Meta 高层战略的人士称，他们的目标是 “削弱 OpenAI 目前的主导地位”。

延伸阅读 GPT-4 模型架构泄露：包含 1.8 万亿参数、采用混合专家模型 (MoE)

业内人士近日对 OpenAI 今年 3 月发布的 GPT-4 大模型进行了大揭秘，其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、混合专家模型 (Mixture of Experts, MoE) 等非常具体的参数和信息。

文章作者之一正是此前爆料谷歌内部文件《我们没有护城河，OpenAI 也没有》的 Dylan Patel。

下面介绍一下这篇揭秘 GPT-4 技术细节文章的主要内容。

文章开头就指出，OpenAI 之所以不 Open，不是为了保护人类不被 AI 毁灭，而是因为他们构建的大模型是可复制的，未来中国和美国的互联网大厂（比如谷歌、Meta、腾讯、百度、字节跳动），以及 AI 头部初创企业，都会有能力构建出可以媲美 GPT-4 甚至超越 GPT-4 的大模型。

而 OpenAI 最持久的护城河，就在于他们拥有真实用户的使用反馈、业内最顶尖的工程人才，以及先发优势带来的领先地位。

据介绍，GPT-4 在 120 层中总共包含了 1.8 万亿参数，而 GPT-3 只有约 1750 亿个参数。而为了保持合理的成本，OpenAI 采用 MoE 模型来进行构建。

具体而言，GPT-4 使用了 16 个混合专家模型 (mixture of experts)，每个有 1110 亿个参数，每次前向传递路由经过两个专家模型。

此外，它有 550 亿个共享注意力参数，使用了包含 13 万亿 tokens 的数据集训练，tokens 不是唯一的，根据迭代次数计算为更多的 tokens。

GPT-4 预训练阶段的上下文长度为 8k，32k 版本是对 8k 微调的结果。如果是在云端进行训练，以每 A100 小时 1 美元计算，那么一次的训练成本就高达 6300 万美元。不过今天的训练成本能降至 2150 万美元。

通过本文，你可以了解到 Meta 的 LLaMA 商用版和 GPT-4 的模型架构等信息。这些大语言模型都是基于深度学习和自然语言处理技术构建的，具有强大的生成能力和应用潜力。但同时，它们也面临着训练成本、数据质量、伦理道德等挑战。未来，大语言模型的发展将取决于科技公司、研究人员和社会各方的共同努力和合作。Meta的LLaMA商用版发布意味着生成式人工智能技术进入商业应用阶段。通过该技术，企业和初创公司可以基于LLaMA构建定制软件，与OpenAI和谷歌等竞争对手展开激烈竞争。同时，本文还揭秘了GPT-4模型架构的详细信息，包括参数规模和混合专家模型的使用，为读者深入了解生成式人工智能技术提供了重要参考。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Meta 将发布 LLaMA 商用版，GPT-4 模型架构曝光：1.8 万亿参数、混合专家模型

最新文章

IP非授权！中国首款6nm真自研GPU发布砺算科技第一代TrueGPU显卡性能实测：真赶上了4060

盗版动漫网站“樱花动漫”运营者被判有期徒刑 2 年 3 个月，罚金 1.5 万元

淘宝即将上线大会员体系：打通饿了么飞猪盒马，88VIP 权益全面升级

北极遭遇30摄氏度热浪：医院人满为患驯鹿濒临热死

曝荣耀首发10000mAh电池：史上最大电量

国家育儿补贴来了！3岁前每娃每年3600元申领程序及发放渠道公布

随便看看

hostdare高性能AMD EPYC平台+三网纯高端网络(cn2/cuii/cmin2)，VPS低至$25/年

腾讯云国内北上广轻量4核大算力，新用户低至79元/年

hostdare洛杉矶AMD EPYC VPS，5折优惠，低至$15.49/年

spinservers 七月促销高配/低价美国服务器，低至$59/月，4路铂金8173M/1.5T内存/15TNVMe/100T流量/10Gbps带宽

hostdare：全场VPS低至$10.4/年，美国(CN2+CUII+CMIN2)/日本软银+NTT/保加利亚BGP

Meta 将发布 LLaMA 商用版，GPT-4 模型架构曝光：1.8 万亿参数、混合专家模型

相关文章

最新文章

随便看看

标签