偵測仇恨言論所遇到的難題
上次更新日期 2022年1月19日
對我們的技術和人工審查團隊而言,偵測仇恨言論特別困難。不同文化、語言和地區在使用俗諺和語意細節上有很大的不同。此外,用戶有時會分享一般視為是仇恨言論的文字,但他們這麼做是為了喚起他人對此問題的意識,或用於指稱自己以取回對該字詞的控制權。
光是偵測以文字表達的仇恨言論,就已經會遇到這些難題,更遑論我們在 Facebook 和 Instagram 找到的仇恨言論,有許多都是以相片或影片呈現。例如,迷因可能同時運用文字和圖像來攻擊特定族群,這對我們的技術是更困難的挑戰。
當用戶試圖變更內容來規避系統偵測,使仇恨言論的內容變得更加複雜。例如,他們可能會把字拼錯或寫錯、避免使用特定字詞或修改圖像和影片。
使用人工智慧偵測仇恨言論的進展
過去幾年,我們改善了偵測仇恨言論的工具。因此,我們現在可在用戶檢舉內容前,先行移除多數這類內容,有時甚至可在任何用戶看到內容前,先將內容移除。
我們使用人工智慧來識別與因仇恨言論遭移除內容相符的圖像和文字。我們的技術也會查看心情和留言,以評估內容與仇恨言論的相似度。
即使內容的意思較為隱晦,或內容為規避偵測而經過變更,這些技巧都可協助我們的技術更準確偵測仇恨言論。
前往 Facebook AI 部落格閱讀深入分析