首页 > 每日热点 > 正文

算法推荐终于可关闭 算法推荐的潜在危害

算法推荐的技术原理

各种形式的算法推荐,包括《规定》中列举的“生成合成、个性化推送、排序精选、检索过滤、调度决策”等形式,当下主流的实现方式都是采用机器学习(machine learning),背后的原理都是基于贝叶斯统计(Bayesian statistics)方法的预测——听起来很高深,其实通过一个简单的例子很容易就能理解。

假设你丢一个以前没用过的骰子,你认为有多大概率丢出6点?当然,在没有任何额外信息的情况下,你的预测是“1/6”。然后,你连续丢了20把,每把都是6点,这时候你认为下一把继续丢出6点的概率是多大?经典概率论说,每次丢骰子都是一个独立随机事件,过去丢出的点数不影响未来丢出的点数,所以你的预测仍然应该是“1/6”。但很明显正常人不会这么想。

“这个骰子连丢了20把6点”这项信息很明显会影响对未来的决策(例如可能说明这个骰子被灌了铅),因此你会预测下一把有很大概率还是会丢出6点。简化地说,贝叶斯统计就是“基于过去已经发生过的事件预测未来将要发生的事件”。各种算法推荐都是在进行这样的预测:

知乎的个性化推送就是预测用户可能喜欢看什么问题和回答; 百度的检索过滤就是预测用户可能对哪些搜索结果感兴趣; 淘宝的排序精选就是预测用户可能购买哪些商品。

这些预测所基于的“过去已经发生过的事件”则是与用户相关的、非常宽广的数据集,不仅包含“用户看过/赞过/收藏过哪些回答”这种直接的用户行为,还包含大量用户本身的属性信息:年龄、性别、地域、教育程度、职业、上网设备、买过什么东西、发过什么言论、住多大房子、家里几口人、喜欢张信哲、反感蔡徐坤……这些信息都会被用于预测用户的偏好。

每一项类似这样的属性信息也被称为“特征”(feature),对于一个普通用户,互联网公司通常拥有数千、数万项特征信息。其中一些特征信息来自该公司本身的业务,更多的特征信息来自其他平台,三大运营商、微博、腾讯、阿里、手机制造商等企业都会SDK(软件开发包)的方式与其他互联网应用共享用户个人特征信息。