搜索推荐的debias全面总结(113页PDF)
-
Agent的潜意识
2021-04-25 11:34:36
-
数据库开发技术
-
原创
搜索推荐中,排序位置不一样,得到的曝光不一样,点击、转化的行为受位置影响,与该产品真实的畅销性之间存在偏差。例如一个产品A和产品B,A本来比较好卖,但曝光不足,导致点击转化都很低;而B一直得到曝光,点击的人多,在有限信息量的情况(用户根本没看到过A产品)下,B的销量也多。因而算法排序带来的位置偏差导致了劣币驱逐良币。同时也导致真正有实力的产品冷启动很难打开局面。 为了解决这个问题,最近研究者们也一直在探索好方法。有一篇文章将这些方法做了一个总结。我觉得很有帮助,分享给大家。 尽管近年来有关推荐系统(RS)的研究论文迅速增长,但大多数论文专注于创新机器学习模型以更好地适应用户行为数据。但是,用户行为数据是观察性的,是自然观察得到的数据,而不是按实验方法部署模型后再得到的结果,这使得数据中广泛存在各种偏差,包括但不限于选择偏差,位置偏差,曝光偏差和人气偏差。在不考虑固有偏差的情况下盲目拟合数据会导致许多严重问题,例如离线评估与在线指标之间的差异,损害用户满意度和对推荐服务的信任度等。将大量的研究模型转化为实际的改进方法,迫切需要探索各种偏见和影响,必要时执行去偏处理。在审查考虑推荐系统中的偏差估计的论文时,我们发现令我们惊讶的是相当分散,缺乏系统的组织。术语“偏差”在文献中被广泛使用,但是其定义通常是论文之间含糊不清甚至不一致。这激励我们提供有关RS偏见的现有工作的系统调查。在本文中,我们首先总结了推荐中的七种偏差及其定义和特征。然后,我们提供分类法来定位和组织有关建议去偏的现有工作。最后,我们确定了一些未解决的挑战,设想一些未来的方向,希望能激发更多关于这一重要但研究较少的话题的研究工作。后面就放PPT的内容给大家看下吧。他总结的比我要全面,我就不赘述了。对这个debias小方向感兴趣的可以自行下载。部署一下debias的算法,还是很好拿到业务结果的。






