【原】陳根：糾偏AI歧視，從打破行業偏見開始

陳根談科技 2021-03-19

展開全文

文/陳根

科技是人類現有文化的延伸。科技在延展了人類智慧的同時，也繼承了人們的偏見和歧視。

當前，人工智能作為第四次工業革命中的代表性技術，正在迅速改變我們所認知的世界。然而與此同時，現實世界中，由人所創造、從人類數據中學習觀察的人工智能，也常常表現出和人類相似的偏見，不論是招聘中的性別歧視，還是人臉識別下的種族誤判。

歧視的發生不僅折射出社會中原就存在的性別陳規與偏見，并且，在設計與營銷決策的過程中，人工智能還將進一步放大這些偏見。在科技能量日益增強的當下，思考和解決這些歧視的發生變得越來越重要。

AI偏見，是人類意志的產物

與隨機雜亂、物競天擇的進化過程不同，人工智能是人類意志的產物，是為了達成某種目的而形成的。盡管人工智能作為技術包含著一個客觀結構，但人工智能同時服務于人的目的理性活動。也就是說，任何一種人工智能算法在誕生前就已經被概念化，并且在開發的過程中必然伴隨著開發者的意志。

然而，從開發者的角度來看，美國勞工局的數據顯示，雖然女性在勞動力市場中占了59%的比例，但在科技界往往只有20-30%的女性員工。在與程序開發相關的工作中，網站開發是女性比例最高的職業，但也只有不到40%。

據估計，截至2018年，僅僅在美國就有140萬個與計算機相關的就業機會，而女性只會獲得這其中29%的工作。人工智能的開發也很自然地繼承了從業上的性別不平衡，沒有足夠的女性樣本參與使得人工智能的知識不可避免地出現漏洞，這就是為什么會出現偏差錯誤的原因。

人工智能Now作為一家研究人工智能對社會影響的研究機構，其研究就表明，男性主導的人工智能產業與其生產的歧視性系統及產品之間有著明顯的聯系。比如，在機器學習領域里，其偏見的來源就包括不完整的或有偏差的訓練數據集、訓練模型代入人的標簽和偏見，以及算法和技術的缺陷。

當訓練數據中缺少某種統計類別時，人工智能習得的模型就無法正確衡量這部分特征。如果訓練數據中男性比例過低，這一算法模型應用于男性時就有更大的誤差；如果訓練數據中關于“醫生”的照片大部分是女性，搜索“醫生”圖片時，算法就會放大女性出現的概率。

于是，當科技從業者們的性別不平衡進一步表現在有偏差的訓練數據集里時，性別歧視就出現了。亞馬遜的Alexa和蘋果的Siri等常見人工智能系統的核心——自然語言處理（NLP）就存在性別偏見，人工智能在詞嵌入上的性別偏見，就像單詞聯想游戲一樣。其中，這些系統通常將“男人”與“醫生”相關聯，將“女人”與“護士”相關聯。而這也正是訓練樣本不完整、不足的典型代表。

從訓練模型代入人的標簽和偏見來看，絕大多數商業人工智能系統都使用監督機器學習，因此訓練數據需要人為打上標簽。這個過程中，就難免會有意無意將人的偏見編碼到算法模型中。倘若人在設定標簽時，將“身材的胖瘦”與“美”聯系起來，算法自然會繼承這一偏見。

同時，這些偏見在算法和技術的缺陷下進一步被隱匿，當算法和所有人的生活都緊密相關時，算法卻以一種所有人都無法理解的方式在黑箱操作。“算法黑箱”帶來的某種技術屏障使得無論是程序錯誤，還是算法歧視，在人工智能的深度學習中，都變得難以識別。偏見也因而無從解釋。

此外，正是由于科技行業女性的低比例，使得科技行業彌漫的性別偏見難以打破、研發出來的人工智能產品折射出來的男尊女卑的“女性觀”得不到糾偏。這種物化女性、加固性別刻板印象的趨勢則進一步打擊了女性進入科技界的意愿。從開發到應用，性別的歧視就在這樣的不良循環里存在著，隨時發生著。

適時糾偏，重建技術公平

當前，偏見、歧視、錯誤都是人工智能進步的必經之路，其前提是人們能夠在意識到偏見存在時做出改變，適時糾偏。

顯然，人工智能算法由人類開發，被人類使用。開發者們的價值觀和偏見都將對算法造成極大影響。這也是為什么社會需要更多的女性科研人員參與人工智能的設計，甚至是將女性用戶的需求以及尊重性別平等的理念融入到人工智能的系統里的重要原因。

從技術開發的過程來看，不公正的數據集則是偏見的土壤——如果用于訓練機器學習算法的數據集無法代表客觀現實情況，那么這一算法的應用結果往往也帶有對特定群體的歧視和偏見。事實上，算法存在的前提就是數據信息，而算法的本質則是對數據信息的獲取、占有和處理，在此基礎上產生新的數據和信息。簡言之，算法是對數據信息或獲取的所有知識進行改造和再生產。

由于算法的“技術邏輯”是結構化了的事實和規則“推理”出確定可重復的新的事實和規則，以至于在很長一段時間里人們都認為，這種脫胎于大數據技術的算法技術本身并無所謂好壞的問題，其在倫理判斷層面上是中性的。

然而，隨著人工智能的第三次勃興，產業化和社會化應用創新不斷加快，數據量級增長，人們逐漸意識到算法所依賴的大數據并非中立。它們從真實社會中抽取，必然帶有社會固有的不平等、排斥性和歧視的痕跡。因此，算法偏見最直接的解決思路就是將原本不均衡的數據集進行調整。

比如，確保訓練樣本的多樣性，在訓練數據中使用與男性數量相近的女性樣本，確保給樣本打標簽的人們有著多元化的背景等。

2018年，微軟就曾與專家合作修正和擴展了用于訓練Face API的數據集。Face API作為微軟Azure中的一個API，提供預訓練算法以檢測、識別和分析人臉圖像中的屬性。新數據通過調整膚色、性別和年齡等所占的比例，將膚色較深的男性和女性之間的識別錯誤率降低20倍，女性的識別誤差率則降低9倍。

此外，也有公司嘗試通過構建全球社區，大規模地把某個組織可能在尋找的任何信息匯集起來，并以這種廣度和深度相結合的方式進行，這使得引入截然不同的數據來訓練人工智能系統成為可能，以幫助克服算法偏見等問題。

毋庸置疑，構建更加公正的數據集是算法偏見重要的解決方法之一，在此基礎上，還可以應用新的機器學習去除偏見的技術。比如，哥倫比亞大學的研究者曾開發的一款名為DeepXplore的軟件，就可以通過技術手段使得系統犯錯，以暴露算法神經網絡中的缺陷。

DeepXplore使用差分測試，通過以不同的方式看待事物。如果其他模型都對給定的輸入做出一致的預測，而只有一個模型對此做出了不同的預測，那么這個模型就會被判定有一個漏洞的方法，為打開黑箱做出了重要的貢獻。

此外，2018年，谷歌也曾推出新工具 What-If，作為 TensorBoard 中用于檢測偏見的工具。利用該工具，開發者可以通過交互式可視界面和反事實推理探究機器學習模型的特征重要性，找出誤分類原因、確定決策邊界，檢測算法公平性等。

顯然，現實社會中的偏見產生的原因盤根錯節，技術作為一面鏡子，映射了人類社會許多固有的偏見。盡管長期以來，人們都一直致力于消除偏見，但人們至今也尚未徹底將其消滅。

偏見作為生活中不可避免的事實而存在著，但這并不意味著偏見和歧視也是新技術不可避免的方面。人工智能作為第四次工業革命中的代表性技術，始終有機會重新開始糾正偏見。技術由人類開發，為人類服務，而能否創造對每個人都有效和公平的技術，從來都取決于人類，而不是機器。

贊賞

共11人贊賞

轉藏分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：陳根談科技 > 《待分類》

舉報/認領

0條評論

發表

請遵守用戶評論公約

類似文章 更多

陳根談科技

關注對話

TA的最新館藏

陳根：睡6小時都多了，一天到底睡多久才好？
陳根：為什么要讓AI價值對齊？
陳根：年輕人猝死數據驚人？無預警無病史，不幸猝死不是偶然
陳根：癌癥涌向年輕人，兩個趨勢不可忽視
陳根：基孔肯雅熱多地爆發，致死率如何？
陳根：痛到直不起身？基孔肯雅熱到底是什么？

喜歡該文的人也喜歡更多

熱門閱讀換一換