今天给大家分享一篇很有趣的文章。也算是Debias领域比较新颖的工作了。能不能落地我暂时没有实战。不过落地的话他这个需要收集一个随机没有Bias的数据集。
我们都知道,目前运行的推荐系统中存在很多不平等问题。以电商平台为例,从用户角度来看,他只能在推荐系统给他推荐(搜索排序)的列表中选择买哪些产品,其实这些产品是从数以万计的产品池中挑出来的,很难保证没被选上的产品Ws就不满足用户需求。对于这些产品Ws就是不公平的,这个叫做曝光不公平性;其次,由于有的产品排前面,有的产品排后面,那些排前面的“关系户”对其他产品来说也是不公平的。这个是位置的不公平。还有很多不公平的地方,比如说最近流行一种裙子,导致他得到的流量多,那些精美的不流行的裙子就得不到更多的光顾。就像两家牛肉米粉店,如果一家店里人多,另一家店里没人,很多人就会选那家人多的。
而推荐算法就是一个放大器,他的训练集来自于这样不公平收集到的数据,然后训练一个算法,让这种不公平不断迭代放大。因此如何解决这个不公平就成了算法魔法师的责任。
这篇论文的整个思路大致如下:使用元学习(后面会详细介绍)的方法来训练模型。结构相同的模型有两个:meta_model和 ing_model。ing的意思就是进行时。数据集呢也有两个,一个是自然收集到的不公平训练集D1,然后呢,还有一个是特意收集到的随机没有不公平性的数据集P2。这个数据集的收集过程大概就是无论一个产品好卖与否,都有同等的在第一个位置曝光的机会。详细的数据集你可以看这个数据集的说明:
R3 - Yahoo! Music ratings for User Selected and Randomly Selected songs, version 1.0 (1.2 MB)
首先用meta_model0初始化ing_model,然后在训练集D1上迭代到ing_model1,然后计算ing_moede1在数据集P2上的loss,通过这个loss来反向传播优化Meta_model0到meta_model1。逐渐这样迭代,保证学习到的meta_model在随机数据集上的loss也很低。这样就相当于自动debias了。这个思想就是meta-learning的精髓。



Finn C, Abbeel P, Levine S. Model-agnostic meta-learning for fast adaptation of deep networks[C]//Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org, 2017: 1126-1135. Nichol A, Schulman J. Reptile: a scalable metalearning algorithm[J]. arXiv preprint arXiv:1803.02999, 2018, 2: 2. https://zhuanlan.zhihu.com/p/136975128 https://webscope.sandbox.yahoo.com/catalog.php?datatype=r https://www.unofficialgoogledatascience.com/2020/11/adding-common-sense-to-machine-learning.html