Thách thức trong việc phát hiện ngôn từ gây thù ghét

NGÀY CẬP NHẬT 19 THáNG 1, 2022
Công nghệ và đội ngũ xét duyệt gặp rất nhiều khó khăn trong việc phát hiện ngôn từ gây thù ghét. Thành ngữ cũng như sắc thái ngữ nghĩa có sự khác biệt lớn giữa các nền văn hóa, ngôn ngữ và khu vực. Ngoài ra, đôi khi mọi người chia sẻ những từ ngữ thường sẽ bị xem là ngôn từ gây thù ghét, nhưng họ làm vậy là nhằm nâng cao nhận thức về vấn đề hoặc để tự nói về mình nhằm dùng lại cụm từ theo nét nghĩa tích cực.
Đó mới chỉ là những thách thức trong việc phát hiện ngôn từ gây thù ghét ở dạng văn bản. Trên Facebook và Instagram, chúng tôi tìm thấy nhiều ngôn từ gây thù ghét dưới dạng ảnh hoặc video. Ví dụ: Ảnh chế có thể kết hợp văn bản và hình ảnh để công kích một nhóm người cụ thể. Điều này tạo ra thách thức còn lớn hơn nữa cho công nghệ.
hate-speech-image
Nội dung như vậy sẽ trở nên phức tạp hơn khi mọi người cố thay đổi nội dung để tránh bị phát hiện. Ví dụ: Họ có thể viết các từ sai chính tả, tránh một số cụm từ hoặc sửa đổi hình ảnh và video.
Bước tiến trong việc sử dụng trí tuệ nhân tạo để phát hiện ngôn từ gây thù ghét
Trong vài năm qua, nhờ cải thiện các công cụ phát hiện ngôn từ gây thù ghét, chúng tôi giờ có thể gỡ nhiều nội dung có loại ngôn từ này trước khi mọi người báo cáo, thậm chí là trước khi có người thấy nội dung đó trong một số trường hợp.
Chúng tôi sử dụng AI để xác định các hình ảnh và văn bản giống hệt nội dung đã bị gỡ do là ngôn từ gây thù ghét. Công nghệ của chúng tôi cũng dựa vào lượt bày tỏ cảm xúc và bình luận để đánh giá mức độ giống nhau giữa nội dung.
Những kỹ thuật này hỗ trợ công nghệ của chúng tôi phát hiện ngôn từ gây thù ghét một cách chính xác hơn, ngay cả khi ý nghĩa không rõ ràng hoặc nội dung được thay đổi để tránh bị phát hiện.
Đọc bài phân tích chuyên sâu trên blog Facebook AI