大模型介绍
大语言模型(Large Language Model,简称LLM),也称大型语言模型,是一种人工智能模型,旨在理解和生成人类语言。
LLM在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,以助于学习语言数据中的复杂模式。这些模型通常基于Transformer架构,有助于它们在各种NLP( Natural Language Processing,自然语言处理)任务上取得令人印象深刻的表现。
基本概念
概念 |
描述 |
---|---|
Encoder-Only |
大模型结构,也可称为Auto-encoding model,仅使用Transformer模型的Encoder部分,每阶段的注意力层可以访问初始句子中的所有单词。 |
Decoder-Only |
大模型结构,也可称为Auto-regressive model,仅使用Transformer模型的Decoder部分,每阶段的注意力层只能访问位于给定单词之前的单词。 |
Encoder-Decoder |
大模型结构,也可称为Sequence-to-sequence model,同时使用Transformer模型的Encoder和Decoder两个部分,Encoder的注意力层可以访问初始句子中的所有单词,Decoder的注意力层只能访问位于给定单词之前的单词。 |
父主题: 简介