算法中的偏差比你想象的更常见。
2012年的一篇学术论文显示,Cognitec公司的面部识别系统在非裔美国人身上的表现比在白种人身上差5%到10%。2011年,研究人员发现,在中国、日本和韩国开发的模型难以区分白种人和东亚人。
在最近的另一项研究中,谷歌和亚马逊(Amazon)生产的受欢迎的智能音箱被发现,它们听懂非美国口音的可能性比听懂那些土生土长的用户要低30%。
2016年的一篇论文得出的结论是,在谷歌的新闻文章中嵌入的单词往往表现出女性和男性的性别刻板印象。
这是一个问题。
好消息是,麻省理工学院计算机科学和人工智能实验室(MIT CSAIL)的研究人员正在努力寻找解决方案。
一篇文章《通过了解潜在结构揭露和减轻算法偏见》计划于本周在檀香山举行的人工智能发展协会人工智能、伦理和社会会议上发表。
麻省理工学院CSAIL的科学家描述了一种人工智能系统,它可以通过重新采样使数据更加平衡,从而自动“去偏”数据。
他们声称,在一个专门用于测试计算机视觉系统偏差的数据集上进行评估时,它显示出了优越的性能和“减少了分类偏差”。
一篇相关论文的共同作者、博士生亚历山大·阿米尼(Alexander Amini)在一份声明中说,“尤其是面部分类技术,人们通常认为这是一项已经解决了问题的技术,尽管很明显,人们使用的数据集往往没有经过适当的审查。”
“随着我们开始看到这类算法在安全、执法和其他领域的应用,纠正这些问题尤为重要。”
Amini和他的博士生Ava Soleimany以及研究生Wilko Schwarting以及MIT教授Sangeeta Bhatia和Daniela Rus对这篇新论文做出了贡献。
这并不是麻省理工学院的CSAIL第一次发现这个问题——在2018年的一篇论文中,David Sontag教授和他的同事描述了一种在不降低预测结果准确性的前提下减少人工智能偏见的方法。
但这种方法的特点是一种新颖的、半监督的端到端深度学习算法,它可以同时学习所需的任务(例如面部检测)及训练数据的底层潜在结构。
后者使它能够发现训练数据中隐藏的或隐式的偏差,并在训练过程中自动消除这种偏差,而不需要数据预处理或注释。
为了在一个具有“重大社会影响”的真实问题上验证去偏算法,研究人员使用40万张图像的数据集对DB-VAE模型进行了训练,分别将80%和20%的图像分成训练集和验证集。
然后他们在PPB测试数据集上对其进行评估,该数据集包含来自非洲和欧洲各国的1270名男性和女性议员的图像。
结果真的很有希望。
根据研究人员的说法,DB-VAE不仅能够学习诸如肤色和毛发等面部特征,还能学习诸如性别和年龄等其他特征。
与在个人人口统计数据(种族/性别)和PPB数据集上训练或不训练偏倚的模型相比,DB-VAE显示出更高的分类准确性,并减少了跨种族和性别的分类偏倚——该团队表示,这是朝着开发公平和无偏倚的人工智能系统迈出的重要一步。
“公平的开发和部署……系统对于防止无意识的歧视和确保这些算法的长期接受度至关重要,”合著者写道。
“我们预计,拟议中的方法将成为促进现代人工智能系统系统性、算法公平性的额外工具。”
过去十年中,人工智能犯下的许多错误令人沮丧地描绘了一幅潜在偏见的图景。
但这并不是说在更精确、更少偏见的系统方面人们没有取得进展。
今年6月,微软与人工智能(AI)公平方面的专家合作,修订并扩展了用于培训Face API的数据集。Face API是微软Azure API,提供用于检测、识别和分析图像中的人脸的算法。
通过研究肤色、性别和年龄的新数据,研究人员能够将肤色较深的男性和女性的辨认错误率分别降低20倍和9倍。
与此同时,一种新兴的减少算法偏差的工具有望加速朝着更公正的人工智能方向发展。
今年5月,Facebook宣布了Fairness Flow,如果算法根据一个人的种族、性别或年龄对他或她做出不公平的判断,它会自动发出警告。
初创企业Pymetrics开源了其偏差检测工具Audit AI。
埃森哲发布了一个工具包,可以自动检测人工智能算法中的偏差,并帮助数据科学家减轻这种偏差。
在今年5月微软(Microsoft)推出了自己的解决方案后,今年9月,谷歌推出了What-If工具,这是TensorBoard web dashboard在其TensorFlow机器学习框架上的一个偏误检测功能。
IBM也不逊色,今年秋季发布了AI Fairness 360,这是一款基于云计算的全自动套件,“持续提供关于人工智能系统如何做出决策,并建议进行调整的意见”——比如算法调整或数据平衡——以减轻偏见的影响。
最近,Watson and Cloud Platforms小组的研究重点是减轻人工智能模型的偏见,尤其是与人脸识别相关的模型。
如果运气好的话,这些努力——再加上麻省理工学院CSAIL的新算法等开创性工作——将使情况变得更好。