根据麻省理工学院和斯坦福大学的一篇新论文研究人员本月晚些时候将在公平,问责和透明度会议上发表的文章,来自主要科技公司的三项商业发布的面部分析项目表现出皮肤类型和性别偏见。
在研究人员的实验中,三个项目在确定浅肤色男性性别方面的错误率从未低于0.8%。然而,对于肤色较深的女性来说,错误率会膨胀 - 在一个案例中超过20%,在另外两个案例中超过34%。
这些发现提出了一些问题,即如何通过在大型数据集中寻找模式来学习执行计算任务的今天的神经网络进行训练和评估。例如,据该报称,美国一家大型科技公司的研究人员声称,他们设计的人脸识别系统的准确率超过97%。但用于评估其性能的数据集中,男性占77%以上,白人占83%以上。
“这方面真正重要的是方法以及该方法如何应用于其他应用程序,”麻省理工学院媒体实验室思域媒体小组的研究人员和新论文的第一作者Joy Buolamwini说。“当你正在寻找犯罪嫌疑人或解锁你的手机时,也可以使用同样以数据为中心的技术来判断某人的性别。这不仅仅是关于计算机视觉。我是真的希望这会刺激更多的工作来研究[其他]差距。“
Buolamwini加入了Timnit Gebru的论文,Timnit Gebru是斯坦福大学的研究生,当时工作完成,现在是微软研究院的博士后。
机会发现
Buolamwini和Gebru调查的三个程序是通用面部分析系统,可用于匹配不同照片中的面部以及评估性别,年龄和情绪等特征。所有这三个系统都将性别分类视为二元决策 - 男性或女性 - 这使得他们在该任务上的表现特别容易在统计上进行评估。但同样类型的偏见也可能影响程序在其他任务上的表现。
事实上,正是由于其中一个项目首先引发了Buolamwini的调查,才有机会发现面部跟踪的明显偏见。
几年前,作为媒体实验室的研究生,Buolamwini正在研究一种名为Upbeat Walls的系统,这是一种交互式多媒体艺术装置,允许用户通过移动头部来控制投射在反射表面上的彩色图案。为了跟踪用户的动作,系统使用商业面部分析程序。
Buolamwini为该项目开展工作的团队在种族上多种多样,但研究人员发现,当需要公开展示该设备时,他们不得不依靠一个肤色较浅的团队成员来展示它。对于皮肤较黑的用户来说,该系统似乎无法可靠地工作。
好奇的,黑色的Buolamwini开始将自己的照片提交给商业面部识别程序。在一些情况下,节目未能将照片识别为具有人脸特征。当他们这样做时,他们一直错误地将Buolamwini的性别分类。
量化标准
为了开始系统地研究这些程序的偏见,Buolamwini首先组装了一组图像,其中女性和深色皮肤的人比通常用于评估面部分析系统的数据集中表现得更好。最后一组包含1,200多张图像。
接下来,她与一位皮肤外科医生合作,根据Fitzpatrick皮肤色调进行编码,这是一种从浅到深的六点量表,最初由皮肤科医生开发,作为评估晒伤风险的一种手段。
然后,她将主要技术公司的三个商业面部分析系统应用到她新构建的数据集中。在所有三个国家中,女性的性别分类错误率始终高于男性,对于肤色较深的受试者而言,与浅肤色受试者相比。
对于肤色较深的女性 - 那些在Fitzpatrick量表上分配IV,V或VI分数的女性 - 错误率分别为20.8%,34.5%和34.7。但是对于其中两个系统,数据集中最黑皮肤的女性的错误率 - 那些得分为VI的错误率 - 更糟糕的是:46.5%和46.8%。从本质上讲,对于那些女性来说,系统也可能随意猜测性别。
“在三分之一的商业系统中,对于已经被简化为二进制分类任务的东西失败,你必须要问,如果这些失败率属于不同的子群,那么这是允许的吗?”Buolamwini说。“另一个重要的教训是,我们的基准,我们衡量成功的标准,本身可以给我们一种虚假的进步感。”