目录

深度学习多源物料融合算法一量纲对齐常见方法

JAY.LIN 收录于深度学习之多源物料混排

2025-03-12 约 943 字预计阅读 2 分钟

https://bing.ee123.net/img/rand?artid=146199807

目录

【深度学习】多源物料融合算法（一）：量纲对齐常见方法

一、引言

类似抖音、快手、小红书等产品的信息流推荐业务，主要通过信息流广告、信息流直播电商等获得经济收益，对于流量最大的核心推荐系统，或多或少都要承担商业指标，承接特定物料的曝光需求。但是广告、直播电商或其他业务物料，会根据自己的需求进行排序，由于不是一套模型，业务场景数据也不一样，插入物料的量纲与主推荐量纲必定不相同，随之但是的就是无法比较问题，如何将不同的量纲对齐且可比呢，今天介绍常见的几种方法。

二、量纲对齐常见方法

2.1 Z-score标准化+Sigmoid归一化

Z-score标准化将数据转换为均值为0、标准差为1的分布。公式如下：

$https://latex.csdn.net/eq?z%3D%5Cfrac%7Bx-%5Cmu%20%7D%7B%5Csigma%20%7D$

其中：

是原始数据点
$\mu$ 是序列的均值
$\sigma$ 是序列的标准差

Sigmoid将均值为0、标准差为1的分布转化为值域为0-1的分布。公式为

$https://latex.csdn.net/eq?f%28x%29%3D%5Cfrac%7B1%7D%7B1+e%5E%7B-x%7D%7D$

Z-score+Sigmoid序列合并计算步骤

对每个序列分别计算均值和标准差。
对每个数据点应用Z-score公式进行标准化。
对标准化后的序列采用Simgoid归一化到0-1后，进行比较。

2.2 Min-Max 归一化

Min-Max 归一化将数据线性地转换到一个固定的区间（通常是 [0, 1]）。公式如下：

$https://latex.csdn.net/eq?x%27%3D%5Cfrac%7Bx-min%7D%7Bmax-min%7D$

其中：

是原始数据点
min是序列的最小值
max是序列的最大值

序列合并计算步骤：

对每个序列分别计算最小值和最大值。
对每个数据点应用上述公式进行归一化。
合并归一化后的序列。

2.3 Rank Transformation

Rank Transformation 将数据转换为它们的秩次。公式如下：

序列合并计算步骤：

对每个序列分别计算每个数据点的秩次。
合并秩次后的序列。

2.4 Log Transformation

如果数据分布偏斜，可以使用对数变换来压缩数据范围。公式如下：

序列合并计算步骤：

对每个序列分别应用对数变换。
合并变换后的序列。

2.5 Robust Scaling

Robust Scaling 使用中位数和四分位距（IQR）进行标准化，适用于存在异常值的数据。公式如下：

$https://latex.csdn.net/eq?x%27%3D%5Cfrac%7Bx-mediam%7D%7BIQR%7D$

是序列的中位数
是序列的四分位距（即第75百分位数减去第25百分位数）

序列合并计算步骤：

对每个序列分别计算中位数和IQR。
对每个数据点应用上述公式进行标准化。
合并标准化后的序列。

3、总结

本文初步介绍了多种将不同量纲的多源物料转换为同一量纲的方法，主要目标就是让不同业务场景的推荐排序结果可以比较，通过公式化的序列转换，快速达到可比的预期，计算效率更高。在实践中，Z-score+Sigmoid方法更为实用。