Цей показник відображає частку контенту або облікових записів, які ми виявили і щодо яких ужили заходів ще до надходження скарг від користувачів. Ми використовуємо цей показник як індикатор ефективності виявлення порушень.
Розвиток технології машинного навчання має вирішальне значення для швидшого виявлення.
Ми поєднуємо машинне навчання з роботою спеціально навчених фахівців, які перевіряють контент і вживають заходів у разі виявлення порушення правил спільноти.
Для деяких категорій порушень ми своєчасно реагуємо на контент, що потенційно порушує правила спільноти, тобто ми знаходимо та вживаємо заходів щодо переважної частини проблемного контенту, перш ніж користувачі почнуть скаржитися на нього. Результати значно покращилися після впровадження технології машинного навчання, яка автоматично ідентифікує контент, що потенційно порушує наші стандарти.
Це надзвичайно перспективна технологія, проте знадобляться роки, щоб показати ефективні результати для всіх категорій порушень. Зокрема можливості цієї технології все ще дуже обмежені у сфері розпізнавання контексту й смислових нюансів, особливо для текстового контенту. Це створює додаткові труднощі для оперативного виявлення деяких порушень.
Показники можуть зростати й знижуватися залежно від зовнішніх факторів. Прикладом може бути кібератака, під час якої спамери роблять 10 мільйонів дописів з однією шкідливою URL-адресою. Якщо ми виявимо шкідливу URL-адресу до того, як будь-який користувач повідомить про неї, частка попередньо перевіреного контенту збільшиться під час кібератаки й знизиться згодом — навіть якщо наша технологія виявлення не змінювалася протягом цього періоду. Цей показник також може збільшуватись або зменшуватись залежно від того, як змінюються наші процеси та інструменти. Наприклад, він зросте, якщо наша технологія виявлення покращиться, але знизиться, якщо ми вдосконалимо інструмент зворотного зв’язку для користувачів і менше покладатимемося на попереднє виявлення.
Оскільки цей показник залежить від обсягу контенту, щодо якого вжито заходів, до нього багато в чому застосовуються ті самі підходи. Частка попередньо перевіреного контенту не говорить нам про те, скільки часу витрачено на виявлення контенту, що порушує правила, або скільки разів його переглядали, перш ніж він був виявлений. Крім того, ця частка не відображає, скільки всього порушень нам не вдалося виявити або скільки разів цей контент було переглянуто. І хоча відсоток попередньо виявленого контенту може бути дуже високим (у деяких категоріях до 99 %), навіть такий невеликий залишковий відсоток може мати сильний вплив на людей.
Ми розраховуємо цей відсоток за допомогою поділу кількості одиниць контенту, які ми виявили й щодо яких ужили заходів до надходження скарг від користувачів Facebook або Instagram, на загальну кількість одиниць контенту, щодо яких було вжито заходів.
У випадку фальшивих облікових записів Facebook ми розраховуємо цей показник як процентну частку вимкнених фальшивих облікових записів, які ми знайшли і щодо яких ужили заходів до того, як користувачі повідомили про них нам. Ця частка розраховується за допомогою поділу кількості вимкнених облікових записів, які ми виявили й щодо яких ужили заходів до надходження скарг від користувачів, на загальну кількість вимкнених фальшивих облікових записів.
Застереження
Ми обчислюємо частку попередньо перевіреного контенту за допомогою суворої атрибуції скарг користувачів на контент. Наприклад, якщо хтось подає скаргу на сторінку, і під час перевірки цієї сторінки ми виявляємо на ній контент, що порушує правила, і вживаємо відповідних заходів, вважається, що ми заздалегідь вжили заходів щодо цього контенту (якщо на цей контент не було інших скарг від користувачів).