2016-12-11

在現代生活中,「機器學習」無所不在。當我們每分每秒使用智慧型手機搜尋圖片或推薦餐廳時,我們正不斷地跟機器學習演算法互動。我們所輸入的任何資訊都會成為大數據的原始資料,演算法從中分析各方資訊,並梳理出你/妳會想看到的內容。因此,如果原始資料一開始就是存在社會偏見的話,機器學習也會複製這項偏見。

機器學習演算就像一個新生兒,雖然我們給它數以千計的書閱讀,但我們卻沒有教它如何拼字或文法。處理大數據的過程很重要但其中也存在一個問題,當電腦挑選了一段文字內容,它會拼湊出文字符號間的連結,包含這些文字如何被串連在一起。

史丹佛大學生物醫學與數據科學系James Zou教授所帶領的團隊運用類比模式(analogy puzzles)檢測機器所認知到的文字關係(word relationships),例如,他們要求系統回覆:「他之於國王,如同,她之於__」,如果系統回覆「皇后」,那麼就可以確定這是個成功的系統,因為這是現實生活中的人會給予的答覆。

但,當研究團隊在檢測Google新聞系統時,卻發現了演算法存在性別偏見。當團隊詢問系統:「男人之於電腦工程師,如同,女人之於__」,系統回覆:「家庭主婦」。

James Zou說明電腦會依據單字詞彙彼此間出現的連結與次數,計算出這個詞彙與哪些性別或文化較有關聯,結果可能呈現現實社會中的偏見。研究團隊目前已經找到解決方法移除演算法的性別偏見,他們重建了一個去偏見的系統,運用真人指認詞彙間適當的連結與需要移除的偏見。接著,利用真人區辨方法,將詞彙中的性別予以量化程度表現,團隊會再告知系統移除高度性別化的字詞連結、偏見和刻板印象。如此,機器學習演算將不會再出現性別偏見文字,團隊目前也運用這項發現移除種族與文化的刻板印象。