首页 > 每日热点 > 正文

算法推荐终于可关闭算法推荐的潜在危害

2022-03-03 15:30:34

我要分享

算法推荐的技术原理

各种形式的算法推荐，包括《规定》中列举的“生成合成、个性化推送、排序精选、检索过滤、调度决策”等形式，当下主流的实现方式都是采用机器学习（machine learning），背后的原理都是基于贝叶斯统计（Bayesian statistics）方法的预测——听起来很高深，其实通过一个简单的例子很容易就能理解。

假设你丢一个以前没用过的骰子，你认为有多大概率丢出6点？当然，在没有任何额外信息的情况下，你的预测是“1/6”。然后，你连续丢了20把，每把都是6点，这时候你认为下一把继续丢出6点的概率是多大？经典概率论说，每次丢骰子都是一个独立随机事件，过去丢出的点数不影响未来丢出的点数，所以你的预测仍然应该是“1/6”。但很明显正常人不会这么想。

“这个骰子连丢了20把6点”这项信息很明显会影响对未来的决策（例如可能说明这个骰子被灌了铅），因此你会预测下一把有很大概率还是会丢出6点。简化地说，贝叶斯统计就是“基于过去已经发生过的事件预测未来将要发生的事件”。各种算法推荐都是在进行这样的预测：

知乎的个性化推送就是预测用户可能喜欢看什么问题和回答；百度的检索过滤就是预测用户可能对哪些搜索结果感兴趣；淘宝的排序精选就是预测用户可能购买哪些商品。

这些预测所基于的“过去已经发生过的事件”则是与用户相关的、非常宽广的数据集，不仅包含“用户看过/赞过/收藏过哪些回答”这种直接的用户行为，还包含大量用户本身的属性信息：年龄、性别、地域、教育程度、职业、上网设备、买过什么东西、发过什么言论、住多大房子、家里几口人、喜欢张信哲、反感蔡徐坤……这些信息都会被用于预测用户的偏好。

每一项类似这样的属性信息也被称为“特征”（feature），对于一个普通用户，互联网公司通常拥有数千、数万项特征信息。其中一些特征信息来自该公司本身的业务，更多的特征信息来自其他平台，三大运营商、微博、腾讯、阿里、手机制造商等企业都会SDK（软件开发包）的方式与其他互联网应用共享用户个人特征信息。