偵測仇恨言論的挑戰
上次更新日期 2022年1月19日
對於技術和人工審查團隊來說,仇恨言論尤其難以偵測。在不同的文化、語言和地區當中,有各式各樣的俚俗語和細微差別。此外,有時候用戶雖然是分享常作為仇恨言論的字詞,但其目的卻是為了提高民眾對這個問題的意識,或是希望透過自我指涉的方式糾正這個字詞的用法。
這些只不過是在文字層面偵測仇恨言論所遇到的問題。我們發現 Facebook 和 Instagram 上有許多仇恨言論都是隱藏在相片或影片中。以迷因為例,這種形式可能會同時利用文字和圖像來攻擊特定的族群。這對技術來說是更嚴峻的挑戰。
類似這樣的內容會變得更複雜,因為有心人士會刻意更改內容來嘗試躲避偵測。舉例來說,這些人可能會故意拼錯單字、避免使用特定字詞,或者修改圖像和影片來規避偵測。
使用人工智能偵測仇恨言論的進展
過去幾年來,我們改善了工具以偵測仇恨言論,如今我們已經可以在用戶舉報這些內容之前將其移除,甚至有時候是在還沒有人看到內容之前就已經將其移除。
我們會運用人工智能,根據我們先前以仇恨言論為由而移除的內容,識別出與這類內容一模一樣的圖像和文字。我們的技術也會根據內容獲得的心情和回應,來評估內容的相似性。
這些技巧能夠幫助我們的技術更精準地偵測到仇恨言論,即使是含義曖昧不明或為了規避偵測而修改內容的情況也不放過。
閱讀 Facebook 人工智能網誌文章的深入分析