脑课堂编程教育

人工智能的偏见是如何产生的?我们列举的5大可能的原因

人工智能 4年前
58 0 0
脑课堂编程培训

一说到机器,尤其是智能机器,人们一般都觉得它是冰冷的、精明的、无偏见的。我们会认为自动驾驶汽车在司机和行人之间进行与生死有关的决策时,是没有任何偏好的。我们相信智能的系统在进行信用审核时将不会放过任何真正有效的指标,如收入和信用分数。而那些能够进行自主学习的系统所收集的也是客观的数据,因为本身算法就是无偏见的。

但其实这是不对的。事实上,几乎没有任何的智能系统是真正能做到完全消除偏见的,而导致偏见产生的原因也各不相同。它们包括我们用于训练的数据中所存在的偏见、我们和数据交互的过程的导致的偏见、紧急偏见(emergent bias)、相似偏见(similarity bias)以及由于相斥的目标所产生的偏见。很多时候这些原因是被忽视的。但是当我们创建和部署智能系统的时候,理解这些原因是很重要的。它能够在设计过程中引起我们的重视,绕开可能出现的问题。

由数据驱动的所导致偏见

(Data-Driven Bias)

对于任何有学习能力的系统来说,它所输出的内容是由输入的数据所决定的。这并不是一个新的观点。只不过当我们在面对一个由数以百万计的例子所组成的系统的时候,我们通常可能都会忘了以上这一点。在这种情况下,我们就会认为这种规模数量级的例子将足以抵消任何的人类偏见。但如何训练的数据集本身就是有偏差的,那么任何由这个系统所产出的结果其实都是有偏差的。

最近一段时间,这种类型的偏见在基于深度学习的多个图像识别系统都出现了。在相应的人脸识别系统中,尼康所出现的对于亚洲人脸的认知混乱以及HP的肤色问题,都是由于其本身训练例子的偏差所导致的。

除了人脸识别之外,在其他的应用场景也遭遇了相似的问题。如果一个用来预测假释犯的重复犯罪率、犯罪模式以及是否能找到工作的学习系统的训练数据本身就是取自较不安定的区域的话,那么就意味着这个系统的训练是建立在有偏差的数据之上的,或者即使这些数据进行过处理,那么这个系统在决策的层面就依然存在着偏见,而且这种偏见会一直存在。

交互过程中产生的偏见

(Bias through interaction)

一些系统是通过大规模的例子来进行学习的,而另外的一些系统则是在交互的过程中进行学习的。偏见的出现是随着用户在驱动交互过程中所怀揣的偏见所形成的。关于这种类型的偏见,一个很典型的例子就是微软的聊天机器人Tay。这是一个在Twitter平台上的聊天机器人,它可以在用户和他进行交互的过程进行学习。

由于Tay所表现出的明显的种族歧视,这个聊天机器人在上线后24个小时就被微软强制下线了。虽然Tay的种族歧视仅仅是在Twitter的范围之内,但这却是真实世界的一种反映。当我们所创建的智能系统是基于对人类模式的学习而进行最终决策的话,那么上述我们说到过的负面的训练就会出现。

不过,如果我们的智能系统将会有专人去不断去教导,结果又会是怎么样的呢?Tay事件给我们的警示就是,诸如此类的智能系统将会学习周围的事物和人所拥有的偏见,而后以一种更好或更糟的方式反映出训练它的人的意志。

突发的偏见

(Emergent bias)

有时候,由系统所做出的个性化决策往往会导致各种偏见的出现。在Facebook上,我们就可以看看种种这样的例子。在Facebook信息流的最上方,我们可以看到朋友们发的状态和分享的各类信息。

现在几乎任何一种基于对现有数据的分析而进行其他内容推荐的算法,推荐的都是和用户之前所看到过的同类的内容。这种效应会在用户打开、like以及share内容的时候不断扩大。这种情况所导致的结果就是一系列基于用户当前的belief set所呈现出的信息流。

看上去这一切都显得非常个性化,很让人放心,但其实这就不再是我们常规所认为的新闻了。这些将会出现的信息只不过是确认偏见(confirmation bias)的算法版本。用户不用再担心看到用他们的理念相背的新闻了,因为系统已经自动的把这些都过滤掉了。

这种类型的信息偏见对于真实世界的新闻来说是很糟糕的。当我们把社交媒体的模型当做是企业进行决策的一种辅助手段时,一个已经支持了这种偏见的系统是很有可能误导我们的判断的。

一个知识工作者如果看到的信息一味只是正面的,他将永远看不到与其相对立的观点或者就会习惯性的忽略或否定这些观点。

相似性偏见

(Similarity bias)

有些时候,偏见的出现是由系统本身的功用所决定的。

虽然相似性是对于我们实际生活中的信息来说是一个重要的指标,但它绝不是唯一一个。不同的观点为我们进行决策提供了更有力的支持。信息系统如果只是提供与查询或者现有文档相似的结果,那么这其中就是存在泡沫的。

虽然我们常 说不同角度、甚至有冲突的观点将促进创新和创意的产生,但相似性偏见现如今看上去已经被大多数人接受了。

目标相斥所导致的偏见

(Conflicting goals bias)

有一些系统在早期其实为了一个非常具体的业务需求所设计的,但之后却出现了一些特别真实的偏见,而且是之前完全没有预计到的。

举个例子,想象一下有这样的一个系统,它是用来写招聘时的JD所开发的。当用户点击每点击一下JD,系统就会自动产生收入。所以,对于这个系统的算法来说,它的目标自然就是生成能获得最高点击量的JD。

那么,结果就是人们会是点击那些跟他们的理念相符的JD。举例来说,对一个女性求职者来说,如果JD上写的是“护士”,那么它比写“医疗技术工作者”是更容易获得点击的。这可能并不是由于这份工作是最适合这个求职者的,而是当看到这样的措辞时,他们脑中的思维定势会被强化。

长此以往,任何一个基于用户的点击行为进行学习的网站都会向着去呈现用户思维定势中所希望看到的结果。

机器所拥有的偏见就是人类的偏见

在理想的世界里,智能系统和他们的算法是绝对客观的。但很不幸的是,这些系统都是由人所创建的,因此它们必然也继承着我们的偏见。只有理解这些偏见,去找出导致它们出现的原因,我们才能更好的在设计系统时避免这些偏见的出现。

也许我们永远也无法去创造出绝对客观的系统或工具,但至少我们希望它们拥有的偏见要比我们人类少。到那时候,或许我们不会被选举而蒙蔽双眼,货币不会崩溃,我们也可以和在我们被个性化的信息推荐所笼罩之外的群体对话。

收藏

本文标题:人工智能的偏见是如何产生的?我们列举的5大可能的原因

本文链接:https://naoketang.com/p/mzg7kpokqop8

评论区

推荐课程