Meta 将发布商用版 LLaMA,GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型 (MoE)

大语言模型是人工智能领域的热门话题,也是各大科技公司的竞争焦点。Meta 准备发布其大语言模型 LLaMA 的商用版本,与 OpenAI 和谷歌等对手展开较量。而 OpenAI 今年 3 月发布的 GPT-4 大模型,也被业内人士揭秘了其技术细节。本文将为你介绍 Meta 的 LLaMA 商用版和 GPT-4 的模型架构等信息。根据英国《金融时报》报道,Meta即将发布商用版本的人工智能模型LLaMA,允许企业和初创公司基于该技术构建定制软件。本文将揭秘LLaMA商用版的具体内容,以及GPT-4模型架构的泄露,包括参数规模和采用的混合专家模型等详细信息。Meta与OpenAI和谷歌展开竞争,旨在削弱OpenAI的主导地位。

根据英国《金融时报》的报道,Meta 准备发布其人工智能模型 LLaMA 的商用版本,允许初创公司和企业在该技术的基础上构建定制软件。

此举将使 Meta 与微软支持的 OpenAI 和谷歌展开竞争。今年早些时候,Meta 面向研究人员和学者发布了自有大语言模型 LLaMA。其参数规模从 70 亿到 650 亿参数不等(包括 7B、13B、33B 和 65B 参数),该模型的一大优势是能运行在单张显卡上。

三位知情人士表示,新的商用版本将更广泛地提供给企业,并可由企业定制。还有一名了解 Meta 高层战略的人士称,他们的目标是 “削弱 OpenAI 目前的主导地位”。

延伸阅读 GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型 (MoE)

业内人士近日对 OpenAI 今年 3 月发布的 GPT-4 大模型进行了大揭秘,其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、混合专家模型 (Mixture of Experts, MoE) 等非常具体的参数和信息。

文章作者之一正是此前爆料谷歌内部文件《我们没有护城河,OpenAI 也没有》的 Dylan Patel。

下面介绍一下这篇揭秘 GPT-4 技术细节文章的主要内容。

文章开头就指出,OpenAI 之所以不 Open,不是为了保护人类不被 AI 毁灭,而是因为他们构建的大模型是可复制的,未来中国和美国的互联网大厂(比如谷歌、Meta、腾讯、百度、字节跳动),以及 AI 头部初创企业,都会有能力构建出可以媲美 GPT-4 甚至超越 GPT-4 的大模型。

而 OpenAI 最持久的护城河,就在于他们拥有真实用户的使用反馈、业内最顶尖的工程人才,以及先发优势带来的领先地位。

据介绍,GPT-4 在 120 层中总共包含了 1.8 万亿参数,而 GPT-3 只有约 1750 亿个参数。而为了保持合理的成本,OpenAI 采用 MoE 模型来进行构建。

具体而言,GPT-4 使用了 16 个混合专家模型 (mixture of experts),每个有 1110 亿个参数,每次前向传递路由经过两个专家模型。

此外,它有 550 亿个共享注意力参数,使用了包含 13 万亿 tokens 的数据集训练,tokens 不是唯一的,根据迭代次数计算为更多的 tokens。

GPT-4 预训练阶段的上下文长度为 8k,32k 版本是对 8k 微调的结果。如果是在云端进行训练,以 每 A100 小时 1 美元计算,那么一次的训练成本就高达 6300 万美元。不过今天的训练成本能降至 2150 万美元。

通过本文,你可以了解到 Meta 的 LLaMA 商用版和 GPT-4 的模型架构等信息。这些大语言模型都是基于深度学习和自然语言处理技术构建的,具有强大的生成能力和应用潜力。但同时,它们也面临着训练成本、数据质量、伦理道德等挑战。未来,大语言模型的发展将取决于科技公司、研究人员和社会各方的共同努力和合作。Meta的LLaMA商用版发布意味着生成式人工智能技术进入商业应用阶段。通过该技术,企业和初创公司可以基于LLaMA构建定制软件,与OpenAI和谷歌等竞争对手展开激烈竞争。同时,本文还揭秘了GPT-4模型架构的详细信息,包括参数规模和混合专家模型的使用,为读者深入了解生成式人工智能技术提供了重要参考。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。