LLaMA2是Meta开源的一款大型语言模型,它是一系列开源模型的基础模型,包括vicuna系列和LongChat系列等​​。LLaMA2在2023年7月18日由Facebook AI研究实验室发布,专注于自然语言处理​​。这个模型的参数范围从70亿到700亿不等,训练于超过2万亿tokens的数据集上​​。

所有LLaMA2模型使用全局批量大小为4M tokens进行训练,而700亿参数的模型还使用了Grouped-Query Attention(GQA)来提高推理的可扩展性。LLaMA2是一个纯文本模型,只接受文本输入和输出。它的预训练过程持续了从2023年1月到7月,使用的是A100-80GB GPU,总计约33万GPU小时​​。

LLaMA2的评估结果显示,它在多方面超过了第一代LLaMA模型,特别是在数学、文本理解等方面表现出色​​。此外,LLaMA2是完全开源且可商用的模型,但使用前需要填写表单申请并通过审核​​。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。