Hoe handhavingstechnologie werkt

BIJGEWERKT 12 NOV. 2024
Meta gebruikt technologie om de richtlijnen voor de community te handhaven. Onze teams werken samen om de technologie te bouwen en trainen. Het werkt als volgt.
Modellen ontwikkelen en voorspellingen doen
Het proces begint met onze teams voor kunstmatige intelligentie. Ze ontwikkelen machinelearningmodellen die taken kunnen uitvoeren zoals herkennen wat er op een foto staat of een tekst begrijpen. Onze integriteitsteams, die verantwoordelijk zijn voor het schalen van de detectie en handhaving van ons beleid, bouwen vervolgens voort op deze modellen om specifiekere modellen te maken die voorspellingen doen over mensen en content. Deze voorspellingen helpen ons bij het handhaven van ons beleid.
Een AI-model voorspelt bijvoorbeeld of een contentitem haatdragend taalgebruik of gewelddadige en expliciete content is. Een apart systeem, onze handhavingstechnologie, bepaalt of er actie moet worden ondernomen, zoals de content verwijderen, degraderen of voor verdere beoordeling doorsturen naar een menselijk beoordelingsteam.
Leren door herhaling, geverifieerd door mensen
Toen we voor het eerst nieuwe technologie ontwikkelden voor contenthandhaving, trainden we de technologie om te zoeken naar bepaalde signalen. Sommige technologie zoekt bijvoorbeeld naar naaktbeelden in foto's, terwijl andere technologie leert om tekst te begrijpen. In het begin heeft een nieuw type technologie er mogelijk weinig vertrouwen in of een contentitem in strijd is met ons beleid.
Beoordelingsteams kunnen het definitieve besluit nemen en onze technologie kan leren van elk menselijk besluit. Als de technologie na verloop van tijd van duizenden menselijke besluiten heeft geleerd, wordt deze nauwkeuriger.
Ons beleid verandert ook in de loop van de tijd om bij te blijven met wijzigingen in ons product, in sociale normen en in de taal. Daardoor is het trainen van zowel onze technologie als de beoordelingsteams een geleidelijk en iteratief proces.
Herhaaldelijke schendingen detecteren
Technologie is zeer goed in het steeds opnieuw detecteren van dezelfde content, miljoenen keren als het nodig is. Onze technologie onderneemt actie op een nieuw contentitem als het overeenkomt met of heel erg lijkt op een ander schendend contentitem. Dit is vooral nuttig voor virale desinformatiecampagnes, memes en andere content die zich zeer snel kan verspreiden.
Subtiel onderscheid maken
Technologie kan dezelfde content steeds opnieuw vinden en verwijderen. Het is echter een grote uitdaging om een machine de nuances in woordkeuze te laten begrijpen, of hoe kleine verschillen de context kunnen veranderen.
Misleading content 1
De eerste afbeelding is het originele misleidende contentitem, dat desinformatie bevat met betrekking tot de volksgezondheid.
Misleading content 2
De tweede afbeelding is een schermafbeelding van de eerste afbeelding, deze keer met de menubalk van de computer bovenaan weergegeven.
Misleading content 3
Tot slot lijkt de derde afbeelding zeer veel op de eerste en tweede afbeelding, maar bevat deze 2 kleine woordwijzigingen die ervoor zorgen dat de kop nauwkeurig en niet meer onjuist is.
Dit is voor mensen redelijk eenvoudig te begrijpen, maar technologie heeft er moeite mee om dit te onderscheiden. Het risico bestaat dat een besluit te veel naar de ene of andere kant doorslaat. Als de technologie te agressief is, zullen er miljoenen niet-schendende berichten worden verwijderd. Als de technologie niet agressief genoeg is, zal deze denken dat de schermafbeelding met de menubalk anders is dan het origineel en wordt er geen actie ondernomen op de content.
We besteden veel tijd aan dit werk. In de afgelopen jaren hebben we diverse investeringen gedaan om het vermogen van onze technologie om subtiele contentverschillen te detecteren te verbeteren. De technologie wordt met de dag preciezer en blijft leren.
Subtile distinctions