Трудности с выявлением враждебных высказываний

ОБНОВЛЕНО 19 янв 2022 г.
Нашим технологиям и командам проверки контента особенно сложно обнаруживать враждебные высказывания. Устойчивые выражения и нюансы сильно зависят от культуры, языка и региона. Иногда люди используют слова, которые считаются оскорбительными, но делают это с целью повышения осведомленности о проблеме или употребляют эти слова в свой адрес, чтобы лишить их первоначального смысла.
И это лишь те проблемы, которые возникают при обнаружении враждебных высказываний в текстовом виде. Многие враждебные высказывания, которые мы находим на Facebook и в Instagram, представлены в форме фото или видео. Например, мем может содержать текст и изображения, совмещенные с целью оскорбить определенную группу людей. Это представляет ещё большую трудность для технологий.
hate-speech-image
Выявлять такой контент становится сложнее, когда пользователи видоизменяют его для обхода системы обнаружения. Например, они могут писать слова с ошибками, избегать определенных фраз либо редактировать изображения и видео.
Прогресс в сфере обнаружения враждебных высказываний благодаря искусственному интеллекту
За последние несколько лет мы улучшили инструменты для обнаружения враждебных высказываний. Теперь мы удаляем большую часть этого контента до того, как пользователи пожалуются на него, а иногда — до того, как его кто-нибудь увидит.
Мы используем ИИ для обнаружения изображений и текста, идентичных контенту, который мы уже удаляли за враждебные высказывания. Наша система также изучает реакции и комментарии, чтобы понять, насколько этот контент похож на уже удаленный.
Эти методики помогают нашей системе точнее обнаруживать враждебные высказывания, даже если их смысл неочевиден или контент изменен в попытках избежать обнаружения.
Подробный анализ читайте в блоге Facebook, посвященном ИИ