算法有偏見或歧視嗎?
不同的人給出的答案可能完全相反。認為算法有偏見者,可能會以大數據殺熟、保險單歧視等來舉證;認為算法無偏見者,會指出算法僅僅是如菜刀一般的工具而已,工具怎么會有偏見或歧視?
但是,如果我們換一種問法:人類社會產生的數據有偏見或歧視嗎?如果答案是肯定的,那么算法“吃進”這些有偏見或歧視性的數據,會怎樣?
從技術上講,算法本身沒有像人類一樣的情感、觀念和偏見。它僅僅是一系列指令的集合。在理想狀態下,它只是按照預定的規則和邏輯對輸入的數據進行處理、輸出,不存在偏向。
但是,算法是基于數據進行訓練和學習的。如果數據本身存在偏差,那么算法就會產生偏見。
例如,在招聘算法中,如果用于訓練的數據大部分源于男性求職者的成功事例,那么算法在評估求職者時,可能會對男性求職者產生偏向。同理,算法“學習”了其他具有性別、地域或文化傾向的數據模式,它在后續的應用中就會帶有這種偏見。
美國一些學者曾于2018年啟動一項名為“圖網輪盤”的研究,專門就此問題做了探討:“這些圖片來自哪里?”“照片中的人為什么會被貼上這樣那樣的標簽?”“當圖片和標簽對應時,什么樣的因素在起作用?”“當它們被用來訓練模型系統時,會產生什么樣的影響?”
這一研究更像一次行為藝術,明白無誤地反映出人工智能算法系統很容易復刻和強化來自現實社會的固有偏見。如果對此視而不見,這些偏見便會滲入各類數字系統,繼而影響整個社會的發展。
除了反映社會偏見之外,算法還會造成數據屏蔽——算法對數據的提取、分析、處理等操作是基于概率,那么它優先抓取的、出現頻次較高的數據,就會成為“強勢數據”,一些“弱勢數據”或“少數派數據”就容易被忽略、被屏蔽。而且,數據體量越大、越是高度自動化的算法,越容易造成數據屏蔽。
數據屏蔽的問題更為隱蔽,但它的影響不容小覷,顯著問題之一就是對文化多元性的影響。美國計算機科學家喬恩·克萊因伯格曾這樣詰問:“如果我們都使用同一種算法作決定,是否會導致作出的決定高度趨同,導致我們的文化也高度趨同?”
如果說數據偏差帶來的算法偏見算是“無心之失”的話,那么人為因素導致的算法偏向就是別有用心了。
例如,在設計內容推薦系統時,人為將系統目標設計為“延長用戶的停留時間”,這就會導致算法傾向于推送聳人聽聞的新聞信息或低俗娛樂內容,進而對內容的多樣性和用戶體驗產生影響。另外,被困在算法里的外賣騎手、遭遇大數據殺熟的網約車用戶等,背后的算法多是受人為因素干擾的。
算法偏見并非“頑癥”,只要肯下功夫,總有辦法盡量去消除。比如,從數據端著手,倡導在算法設計階段進行多樣化數據的收集,確保用于訓練算法的數據多樣性。尤其是涉及就業、金融保險等民生議題,在構建算法數據集時,可以通過收集來自不同性別、種族、年齡、地域等各種背景的事例,避免數據過于集中。
同時,還應對數據進行嚴格的質量檢查,剔除帶有明顯歧視、偏見的信息。在算法的設計過程中,必須考慮多元化的公平標準,并引入公平性指標作為約束條件。
在監管上,要求平臺或算法開發者公開算法設計的決策依據并不過分。如此,監管機構和第三方才能對算法是否存在潛在的偏見進行審查。
此外,設立專門的渠道,讓公眾能夠通過反饋、投訴等方式參與到算法改善中。
最后,就目前所涌現的算法亂象問題,筆者認為,平臺有很大的作為空間。以“鐘睒睒事件”和“假冒張文宏事件”為例,平臺至少可以有效處理虛假信息。對于未經核實的信息和內容,平臺負有提示的責任和義務。平臺的工作量和成本投入或許會增加,但受益的是大多數人。
如果平臺最終留存的都是更優質的內容,數字空間也會因此更加清朗,社會也將更為積極向上。
本文鏈接:算法的一些“偏見”可能是固有的http://www.lensthegame.com/show-11-15671-0.html
聲明:本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: 2024年,年輕人在數字空間隱姓埋名