目录

大语言模型打卡学习DAY1

大语言模型打卡学习DAY1

学习目标:

  • 语言模型的发展历程
  • 大模型的技术基础

学习内容:

1. 语言模型的发展历程

   `语言模型通常是指能够建模自然语言文本生成概率的模型,从语言建模到任务求解,这是科学思维的一次重要跃升。`

https://i-blog.csdnimg.cn/direct/7b469052099e4a329200ae5a28101830.png

2. 大语言模型技术基础

定义:通常是指具有超大规模参数的预训练语言模型

架构: 主要为Transformer架构

训练:预训练(base model)、后训练(instruct model)

https://i-blog.csdnimg.cn/direct/b40f968284d144acb382f3b857d725dd.png

https://i-blog.csdnimg.cn/direct/a78ab8c6b3ec4bf180537da51e4e9dc1.png

2.1 大语言模型与训练(Pre-training)

定义:使用与下游任务无关的大规模数据进行模型参数的初始训练

https://i-blog.csdnimg.cn/direct/4a907668563646e2ac8b8aa4fb182dd6.png

2.2 大语言模型后训练(Post-Training)

https://i-blog.csdnimg.cn/direct/831dc2117c44489fbd43f76b2bf194ac.png

https://i-blog.csdnimg.cn/direct/b7f1320b4aba46b49b0cd9a2f3c6834f.png