首页 > 每日热点 > 正文

算法推荐终于可关闭 算法推荐的潜在危害

知乎与第三方共享个人信息的清单(部分)

在所有这些特征信息中,给定一项具体的预测,有些特征与这项预测的相关度较高,有些特征的相关度则较低。如果能从预测的结果回溯到哪些特征产生了重要的影响,我们就可以说这种算法“具备可被审核性”(auditable)。例如最简单、最基础的机器学习算法线性回归(linear regression),其原理就是根据过去的事件给每项特征打一个权重分数,然后根据这些权重分数预测未来的事件。从一个线性回归的预测模型中,可以直观地看到每项特征的在预测中的权重,因此线性回归是特别容易审核的一种算法。

当然,最简单、最基础的算法,也就存在预测能力不够强的问题。形象地说,只用简单的线性回归,无法把特征值里隐含的信息全都榨取出来,所以预测效果不见得特别好。于是科学家和工程师们想了很多办法来压榨特征值里的信息。一种办法叫“特征工程”(feature engineering),说白了就是从已知的特征值推导出新的特征值,例如根据用户的手机型号、购物清单给用户打上“购买力强”或者“时尚潮人”的新标签,这就是一种简单的特征工程。

另一种压榨特征值的办法是把起初的特征信息视为一“层”输入,然后用各种数学方法把输入层变换成新的信息节点,从而形成一个多层的“网络”。这个变换的过程可以重复进行,变换的层数越多,就说这个网络越“深”——这就是“深度学习”(deep learning)这个词的由来。

尽管科学家经常用“神经元”、“神经网络”来类比这些数学变换的结果,但很多时候,经过这些变换得到的信息节点几乎没有现实世界中的含义,纯粹是一种数学工具的产物。所以业界有一种说法:深度学习就像炼金术(国内也称“炼丹”),把数据丢进神经网络,不知道什么原因就炼出结果了——如果结果不理想,就再加几层神经网络。

正因为深度学习常有“炼金术”的神秘感,使用它们的工程师经常自己都不知道为什么一个算法有效。例如谷歌曾发表过一篇论文介绍他们的图像识别算法,其中使用了一个深达19层的神经网络(VGG19)。然而谷歌的照片服务(Google Photos)却多次被曝暗含种族歧视,甚至把黑人照片识别为“大猩猩”。事后谷歌根本无法找出算法中的问题出在哪里,只好删除“大猩猩”标签了事。

尽管有谷歌的前车之鉴,类似的问题仍然在各家互联网巨头的产品中反复出现。2020年,部分脸书用户在观看一段以黑人为主角的视频时收到推荐提示,询问他们是否愿意“继续观看有关灵长类动物的视频”。2018年MIT媒体实验室的研究员Joy Buolamwini发现,微软、IBM和Face++的人脸识别算法在识别黑色人种的性别的错误率要远远高于白色人种,而且肤色越黑,识别率就越低,黑人女性的识别错误率高达35%。过度依赖“炼金术”式的深度学习算法,是这些互联网巨头对算法审核态度冷淡的原因,同时也导致它们难以修正其算法中隐含的系统性歧视。

我国《规定》的意义和疑虑

正因为业界对算法推荐、对深度学习技术的依赖,此次的《规定》才显得尤为重要。笔者认为,《规定》的公布,一方面迫使互联网企业约束自身行为,要用算法推荐技术为善,坚持主流价值导向、积极传播正能量,而不能制造信息茧房、诱导用户沉迷;另一方面迫使互联网企业加强内部能力建设,建立算法审核能力,主动选择并优化可被理解、可被审核的推荐算法,而不能搞唯技术论、过度依赖“炼金术”式的推荐算法。

不过,毕竟此次的《规定》是一个开世界先河的新事物,在其实施过程中,笔者还是有一些具体的疑虑。

首先,算法机制机理审核和科技伦理审查如何落实,对于监管机构可能是一个新的挑战。虽然《规定》要求“算法推荐服务提供者应当定期审核、评估、验证算法机制机理、模型、数据和应用结果”,但这项要求是否落到实处,互联网企业是否真的进行了审核、评估和验证,算法结果是否合乎要求,其中可能有很大模糊空间。毕竟算法推荐审核不像违法不良信息审核,只要发现违法不良信息立即就能知道审核过程有问题,而算法推荐审核的效果是在长期、大范围的统计意义上表现出来的,如何核实审核是否确实落地,本身可能就是一个技术难题。