目录

深度学习Dropout

JAY.LIN 收录于未分类

2025-03-07 约 578 字预计阅读 2 分钟

https://bing.ee123.net/img/rand?artid=146090846

目录

深度学习Dropout

一、概念

Dropout是为了解决过拟合，当层数加深，就有可能过拟合，这个时候模型太复杂就会过拟合，那么可以让模型变得简单一点，所以就可以随机挑一些神经元，让某些神经元的输出是0，只保留部分神经元的输出给下一层，这个过程是随机的。但是在推理的时候这些神经元相当于变得透明，不再随机。丢多少的比例就是超参。

二、AlphaDropout

AlphaDropout是Dropout的一个变种，在应用Dropout时使用了一个额外的缩放因子alpha。与标准Dropout相比，AlphaDropout在将一些输出设置为0的同时，也会对剩余输出进行缩放，来保持网络权重的期望值不变（均值和方差）。这种缩放可以增加训练的稳定性。

三、代码

只在第一层加AlphaDropout，i可以控制加多少AlphaDropout，这里没加，注释掉了。

class NeuralNetwork(nn.Module):
    def __init__(self, layers_num=2):
        super().__init__()
        self.transforms = transforms
        self.flatten = nn.Flatten()
        # 多加几层
        self.linear_relu_stack = nn.Sequential(
            nn.Linear(28 * 28, 100),  # in_features=784, out_features=300
            nn.ReLU(),
            nn.AlphaDropout(p=0.2) # 增加dropout，p=0.2表示以0.2的概率将某些神经元置0，防止过拟合
        )
        # 加19层
        for i in range(1, layers_num):
            self.linear_relu_stack.add_module(f"Linear_{i}", nn.Linear(100, 100))
            self.linear_relu_stack.add_module(f"relu", nn.ReLU())
            if i<3:
                # self.linear_relu_stack.add_module(f"dropout_{i}", nn.AlphaDropout(p=0.2))
                pass
             # 增加dropout
        # 输出层
        self.linear_relu_stack.add_module("Output Layer", nn.Linear(100, 10))
        
        # 初始化权重
        self.init_weights()
        
    def init_weights(self):
        """使用 xavier 均匀分布来初始化全连接层的权重 W"""
        for m in self.modules():
            if isinstance(m, nn.Linear):
                nn.init.xavier_uniform_(m.weight)
                nn.init.zeros_(m.bias)

    def forward(self, x):
        # x.shape [batch size, 1, 28, 28]
        x = self.transforms(x)
        x = self.flatten(x)  
        # 展平后 x.shape [batch size, 28 * 28]
        logits = self.linear_relu_stack(x)
        # logits.shape [batch size, 10]
        return logits

print(f"{'layer_name':^40}\tparamerters num")
for idx, (key, value) in enumerate(NeuralNetwork(20).named_parameters()):
    print("{:<40}\t{:^10}".format(key, np.prod(value.shape)))