GPT与LlaMA,作为大言语模型的两大巨擘,均基于Transformer架构却各有所长。GPT系列以弱小的生成才干著称,经过始终增大的参数规模引领复杂言语与推理义务的前沿;而Llama则以开源姿态,经过技术翻新优化模型性能,预示着多模态裁减的未来,为AI生态的多样性和开明性奉献力气
一、GPT
什么是GPT? GPT模型,全称为Generative Pre-trained Transformer,是由OpenAI团队开发的一种基于深度学习的人造言语解决(NLP)模型。 该模型经过无监视学习的模式,对大规模文本启动学习和形象概括,进而经过微调的模式用于各种特定的人造言语解决义务。
GPT的版本迭代:OpenAI GPT模型自颁布以来,曾教训了多个版本的迭代更新,每个版本都在前一版本的基础上启动了改良和优化。
GPT的版本迭代
GPT的版本迭代
GPT2的架构:GPT-3及的版本采取了闭源的战略,模型的详细成功细节、训练数据、超参数性能等关键消息并未对当地下。
GPT-2的架构重要基于Transformer的解码器(Decoder)局部,并经过重叠多个Decoder层、引入自留意力机制和位置编码、经常使用残差衔接和层归一化 等技术手腕来构建模型。
GPT-2的架构
1. 重叠Transformer的Decoder
2. 自留意力机制(Self-Attention)
3. 位置编码(Position Encoding)
4. 残差衔接(Residual Connections)和层归一化(Layer Normalization)
5. 输入层
GPT-2的架构
二、LlaMA
什么是LlaMA? LLaMA的全称是Large Language Model Meta AI,直译为“大言语模型元AI”。因为“Llama”在西班牙语中意为“羊驼”,因此社区也将其昵称为羊驼系模型。
LLaMA于2023年2月由Meta AI颁布,是该系列的初代模型。随后,Meta AI又相继推出了LLaMA2和LLaMA3等更新版本。
LlaMA的架构: LLaMA模型的全体架构与GPT-2等Transformer模型相似,但针对稳固性和性能启动了多项改良。它驳回了前置层归一化(Pre-normalization)、RMSNorm归一化函数、SwiGLU激活函数以及旋转位置嵌入(RoPE)等关键技术。
LlaMA的架构
原文链接: