一文彻底搞懂大模型_莆田市城厢区萌爵百货商行

萌子哥

2024-11-14 23:49:04发布
关注私信

618 115 513

GPT与LlaMA，作为大言语模型的两大巨擘，均基于Transformer架构却各有所长。GPT系列以弱小的生成才干著称，经过始终增大的参数规模引领复杂言语与推理义务的前沿；而Llama则以开源姿态，经过技术翻新优化模型性能，预示着多模态裁减的未来，为AI生态的多样性和开明性奉献力气

一、GPT

什么是GPT？ GPT模型，全称为Generative Pre-trained Transformer，是由OpenAI团队开发的一种基于深度学习的人造言语解决（NLP）模型。该模型经过无监视学习的模式，对大规模文本启动学习和形象概括，进而经过微调的模式用于各种特定的人造言语解决义务。

GPT的版本迭代：OpenAI GPT模型自颁布以来，曾教训了多个版本的迭代更新，每个版本都在前一版本的基础上启动了改良和优化。

GPT的版本迭代

GPT2的架构：GPT-3及的版本采取了闭源的战略，模型的详细成功细节、训练数据、超参数性能等关键消息并未对当地下。

GPT-2的架构重要基于Transformer的解码器（Decoder）局部，并经过重叠多个Decoder层、引入自留意力机制和位置编码、经常使用残差衔接和层归一化 等技术手腕来构建模型。

GPT-2的架构

1. 重叠Transformer的Decoder

2. 自留意力机制（Self-Attention）

3. 位置编码（Position Encoding）

4. 残差衔接（Residual Connections）和层归一化（Layer Normalization）

5. 输入层

GPT-2的架构

二、LlaMA

什么是LlaMA？ LLaMA的全称是Large Language Model Meta AI，直译为“大言语模型元AI”。因为“Llama”在西班牙语中意为“羊驼”，因此社区也将其昵称为羊驼系模型。

LLaMA于2023年2月由Meta AI颁布，是该系列的初代模型。随后，Meta AI又相继推出了LLaMA2和LLaMA3等更新版本。

LlaMA的架构： LLaMA模型的全体架构与GPT-2等Transformer模型相似，但针对稳固性和性能启动了多项改良。它驳回了前置层归一化（Pre-normalization）、RMSNorm归一化函数、SwiGLU激活函数以及旋转位置嵌入（RoPE）等关键技术。

LlaMA的架构

原文链接：

版权声明 1、本网站名称：莆田市城厢区萌爵百货商行
2、本站永久网址：http://www.relax48.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#大模型 #OpenAI #言犀 #多模态 #Copilot #日日新 #GPT #开源大模型 #AI #ChatGPT #文心一言 #人工自动 #紫东太初 #Sora #盘古 #Agent #AIGC运行 #混元 #孟子 #4 #通义千问 #云雀 #悟道 #LaMDA #清言 #LlaMA #Bard #AIGC