Detekce nenávistných projevů a její úskalí

AKTUALIZOVÁNO 19. 1. 2022
Nenávistné projevy jsou pro technologie i týmy pro kontrolu obtížné odhalit. Idiomatické výrazy a nuance se v různých kulturách, jazycích a regionech velmi liší. Lidé někdy taky sdílejí výrazy, které by normálně byly nenávistné projevy. Dělají to ale proto, aby upozornili na nějaký problém nebo aby daný výraz použili ve vztahu k sobě pozitivním způsobem.
Tohle jsou jen některé z nástrah při detekci nenávistných projevů v textu. Nenávistné projevy, na které na Facebooku a Instagramu narážíme, jsou často ve formě fotek nebo videí. Například mem může používat text a obrázky k útokům na konkrétní skupinu lidí. To pro technologii představuje ještě větší výzvu.
hate-speech-image
Podobný obsah je složitější na odhalení, když se mu lidé snaží vyhnout změnou daného obsahu. Můžou třeba psát určitá slova jinak, vyhýbat se určitým frázím nebo upravovat své obrázky a videa.
Pokroky v odhalování nenávistných projevů pomocí umělé inteligence
V posledních letech jsme vylepšili nástroje pro detekci nenávistných projevů, takže teď většinu takového obsahu odebíráme ještě předtím, než ho někdo nahlásí – a někdy i dřív, než ho někdo uvidí.
K identifikaci obrázků a textů, které jsou stejné jako obsah, který jsme už odebrali jako nenávistný projev, využíváme AI. Naše technologie taky analyzuje reakce a komentáře, aby zjistila, do jaké míry se obsah shoduje.
Tyhle techniky pomáhají našim technologiím přesněji rozpoznat nenávistné projevy, a to i v případech, kdy není jejich smysl zřejmý nebo kdy se jejich obsah mění, aby je nebylo možné detekovat.
Přečtěte si podrobnou analýzu na blogu Facebook AI