大语言模型打卡学习DAY1

2025-03-12 约 262 字预计阅读 1 分钟

学习目标：

   `语言模型通常是指能够建模自然语言文本生成概率的模型，从语言建模到任务求解，这是科学思维的一次重要跃升。`

定义：通常是指具有超大规模参数的预训练语言模型

架构: 主要为Transformer架构

训练：预训练(base model)、后训练(instruct model)

定义：使用与下游任务无关的大规模数据进行模型参数的初始训练