目录

一点思考漫谈-AI-中的反馈机制

一点思考|漫谈 AI 中的「反馈」机制

前言 :生物世界中的正负反馈机制能够促进生物进化,为生物圈的良好生态提供保障。本文探究反馈机制在深度神经网络中的体现,由于笔者知识浅薄,故仅列举个人认知范围内的以下几种「反馈」示例。(本文初稿诞生于2022年12月12日)

AI中的反馈机制


反向传播

反向传播(Back Propagation,BP)带来梯度更新,然后是神经网络的参数更新,提高神经网络的拟合能力。

变体:

生成对抗网络(GAN)

GAN由生成器+判别器构成,判别器输出的结果可作为生成器生成效果的反馈,提高生成器的生成性能;而随着生成器能力的提升,其输出与真实数据又会共同喂给判别器,提高判别器的判别能力,二者在彼此的成长中相得益彰,不断精进。

ChatGPT 中的 RLHF

ChatGPT 使用的神经网络是 InstructGPT,其背后基于人工反馈的强化学习方法的核心思想是:在训练过程中,生成结果由 Human Evaluation 纠正,以确保其生成的文本积极正向,不含性别歧视等负面内容,即 RLHF(Reinforcement Learning from Human Feedback):使用强化学习的方法,利用人类反馈信号直接优化语言模型。这就涉及到 Human-in-the-Loop(人机回圈)的概念。根据 ,人类在机器的塑造过程中发挥重要作用,促进机器的发展。

Teacher-Student Model

Teacher model 的生成结果可以作为 student model 的评判,提升 student model 的性能。

后记 :没有反馈,就没有进步。


参考资料