혐오 발언 감지의 어려움

업데이트됨 2022. 1. 19.
혐오 발언은 기술 및 인적 검토 팀에서 감지하기가 특히 어렵습니다. 관용구와 미묘한 차이는 문화, 언어 및 지역에 따라 큰 차이가 있습니다. 또한 일반적으로 혐오 발언에 해당하는 용어이지만 사람들이 문제에 대한 인지도를 높이고 해당 용어의 올바른 사용을 위해 자신을 지칭하여 공유하는 경우도 있습니다.
이러한 용어는 텍스트에서 혐오 발언으로 감지하는 데 어려움이 있습니다. Facebook과 Instagram에서 발견되는 많은 혐오 발언은 사진 또는 동영상에서 발견됩니다. 예를 들어, 밈에서는 텍스트와 이미지를 함께 사용하여 특정 그룹의 사람들을 공격합니다. 이러한 경우 기술적으로 감지하는 것이 훨씬 어렵습니다.
hate-speech-image
사람들이 콘텐츠를 변경하여 감지를 피하려고 시도할 경우 이러한 콘텐츠를 감지하기가 훨씬 복잡해집니다. 예를 들어, 단어의 철자를 잘못 입력하거나, 특정 문구를 피하거나, 이미지 및 동영상을 수정하는 방법으로 회피를 시도할 수 있습니다.
인공 지능을 통한 혐오 발언 감지 기술의 현 상황
Meta는 지난 몇 년 동안 혐오 발언을 감지하는 도구를 개선하여, 지금은 대부분의 콘텐츠를 사람들이 신고하기 전에 삭제하며, 일부는 사람들이 보기도 전에 삭제됩니다.
AI를 사용하여 혐오 발언으로 인해 이미 삭제된 콘텐츠와 동일한 이미지 및 텍스트를 식별합니다. 또한 Meta 기술로 공감 및 댓글을 조사하여 콘텐츠의 유사성을 평가할 수도 있습니다.
이러한 기법을 활용하면 의미가 명확하지 않거나 감지를 피하기 위해 콘텐츠가 변경된 경우에도 기술을 통해 혐오 발언을 보다 정확하게 감지할 수 있습니다.
Facebook AI 블로그에서 심층 분석 보기