一点思考漫谈-AI-中的反馈机制

JAY.LIN 收录于碎片笔记一点思考

2025-02-22 约 571 字预计阅读 2 分钟

https://bing.ee123.net/img/rand?artid=132335499

一点思考｜漫谈 AI 中的「反馈」机制

前言：生物世界中的正负反馈机制能够促进生物进化，为生物圈的良好生态提供保障。本文探究反馈机制在深度神经网络中的体现，由于笔者知识浅薄，故仅列举个人认知范围内的以下几种「反馈」示例。（本文初稿诞生于2022年12月12日）

AI中的反馈机制

反向传播

反向传播（Back Propagation，BP）带来梯度更新，然后是神经网络的参数更新，提高神经网络的拟合能力。

变体：

生成对抗网络（GAN）

GAN由生成器+判别器构成，判别器输出的结果可作为生成器生成效果的反馈，提高生成器的生成性能；而随着生成器能力的提升，其输出与真实数据又会共同喂给判别器，提高判别器的判别能力，二者在彼此的成长中相得益彰，不断精进。

ChatGPT 中的 RLHF

ChatGPT 使用的神经网络是 InstructGPT，其背后基于人工反馈的强化学习方法的核心思想是：在训练过程中，生成结果由 Human Evaluation 纠正，以确保其生成的文本积极正向，不含性别歧视等负面内容，即 RLHF（Reinforcement Learning from Human Feedback）：使用强化学习的方法，利用人类反馈信号直接优化语言模型。这就涉及到 Human-in-the-Loop（人机回圈）的概念。根据，人类在机器的塑造过程中发挥重要作用，促进机器的发展。

Teacher-Student Model

Teacher model 的生成结果可以作为 student model 的评判，提升 student model 的性能。

后记：没有反馈，就没有进步。

参考资料