So funktionieren Durchsetzungstechnologien
AKTUALISIERT 12.11.2024
Erstellen von Modellen und Voraussagen
Der Prozess beginnt mit unseren Teams für künstliche Intelligenz. Sie erarbeiten Modelle für maschinelles Lernen, die bestimmte Aufgaben übernehmen können, z. B. den Inhalt eines Fotos erkennen oder Text verstehen. Anschließend entwickeln unsere Integritätsteams, die für die Skalierung der Erkennung und Durchsetzung unserer Richtlinien zuständig sind, auf diesen Modellen aufbauend spezifischere Modelle, die Voraussagen über Personen und Inhalte treffen. Diese Voraussagen tragen zur Durchsetzung unserer Richtlinien bei.
Beispielsweise sagt ein KI-Modell voraus, ob es sich bei einem bestimmten Inhalt um Hassrede oder Gewalt darstellenden Inhalt handelt. Ein anderes System – unsere Durchsetzungstechnologien – bestimmt, ob Maßnahmen zu ergreifen sind, also ob der Inhalt gelöscht, heruntergestuft oder zur weiteren Bewertung an ein menschliches Review-Team gesendet werden soll.
Lernen durch Wiederholung, verifiziert durch Mitarbeiter*innen
Wenn wir neue Technologien für die Durchsetzung von Content-Richtlinien entwickeln, trainieren wir sie darauf, auf bestimmte Signale zu achten. Ein Beispiel: Einige Systeme suchen nach Nacktdarstellungen in Fotos, während andere lernen, Text zu verstehen. Bei einer neuartigen Technologie ist die Erkennung von Inhalten, die gegen unsere Richtlinien verstoßen, zunächst noch wenig zuverlässig.
Die endgültige Entscheidung können dann die Review-Teams treffen und unsere Technologie kann aus jeder menschlichen Entscheidung lernen. Mit der Zeit, nachdem sie aus tausenden von menschlichen Entscheidungen gelernt hat, wird die Technologie immer treffsicherer.
Auch unsere Richtlinien entwickeln sich im Laufe der Zeit weiter, um Veränderungen bei unseren Produkten, den sozialen Normen und in der Sprache gerecht zu werden. Dementsprechend ist das Trainieren unserer Technologie und unserer Review-Teams ein stufenweiser, iterativer Prozess.
Erkennen wiederholter VerstößeDie Technologie ist besonders gut darin, denselben Inhalt wieder und wieder zu erkennen, auch millionenfach, falls nötig. Wenn ein neuer Inhalt einem anderen unzulässigen Inhalt entspricht oder stark ähnelt, ergreift unsere Technologie bestimmte Maßnahmen. Bei viralen Falschmeldungskampagnen, Memes und anderen Inhalten, die sich extrem schnell verbreiten können, ist dies besonders nützlich.
Erkennen subtiler Unterschiede
Technologie kann immer wieder denselben Inhalt aufspüren und entfernen. Einer Maschine beizubringen, feine Abstufungen bei der Wortwahl oder Kontextänderungen durch kleine Unterschiede zu verstehen, ist hingegen eine enorme Herausforderung.
Das erste Bild ist das Original mit irreführendem Inhalt. Es enthält Fehlinformationen, die die öffentliche Gesundheit betreffen.
Das zweite Bild ist ein Screenshot des ersten Bildes. Oben ist jedoch die Menüleiste des Computers zu sehen.
Das dritte Bild schließlich ist dem ersten und zweiten Bild sehr ähnlich. Doch durch zwei kleine Wortänderungen ist die Schlagzeile richtig und keine Falschmeldung mehr.
Für Menschen ist das relativ leicht zu verstehen, für Technologie hingegen nicht. Das Fehlerpotenzial auf der einen oder anderen Seite ist zu hoch. Ist die Technologie zu aggressiv, werden Millionen von richtlinienkonformen Beiträgen gelöscht. Ist sie nicht aggressiv genug, geht sie davon aus, dass sich der Screenshot mit der Menüleiste vom Original unterscheidet, und unternimmt nichts.
Wir investieren viel Zeit in diese Problematik. In den vergangenen Jahren haben wir einiges investiert, damit unsere Technologie subtile Unterschiede bei Inhalten zuverlässiger erkennt. Durch kontinuierliches Lernen wird sie jeden Tag präziser.