政策执行技术的运作方式

更新日期 2024年11月12日
Meta 利用技术来执行社群守则。这些技术由我们的团队共同构建和训练。运作方式如下。
构建模型并做出预测
这个流程由我们的人工智能团队着手。他们负责构建可以执行任务的机器学习模型,例如识别照片中的内容或理解文本。然后,由我们负责扩展政策检测和执行的诚信团队接手,他们会在这些模型的基础上,构建更具体的模型来对用户和内容做出预测。这些预测有助于我们执行政策。
例如,人工智能模型可以预测一条内容是否为仇恨言论或暴力和血腥内容。我们的政策执行技术是一个单独的系统,负责决定是否应采取措施,例如删除内容、对内容降级或将内容发送给人工审核团队以供进一步审核。
反复学习,人工验证
在刚为内容执行构建新技术时,我们会训练它寻找某些信号。例如,我们会训练一种技术在照片中检测裸露内容,并训练另一种技术学习理解文本。对于新技术而言,在刚开始判断某条内容是否违反我们的政策时,置信度可能较低。
在这种情况下,审核团队可以做出最终决定,而我们的技术则可以从每次人工决定中学习。一段时间后,通过从大量的人工决定中学习,这种技术就能做出更准确的判断。
我们的政策也会随着我们的产品、社会规范和语言变化而不断演变。因此,训练我们的技术和培训审核团队都是一个循序渐进的迭代过程。
检测屡次违规的内容
技术的优势在于可以反复检出相同的内容,必要时,甚至可以达到数百万次。如果新内容与另一条违规内容吻合或非常相似,我们的技术将对其采取措施。这对于热传错误信息散布活动、表情包和其他可以极快传播的内容特别有用。
区分细微差别
技术可以一遍又一遍地检出并移除相同内容。但在理解措辞选择的细微差别或较小差异可能对语境的改变方面,机器面临着巨大的挑战。
Misleading content 1
第一张图是原始的误导性内容,其中包含有关公共卫生安全的错误信息。
Misleading content 2
第二张图是第一张图的截图,图的顶部是电脑的菜单栏。
Misleading content 3
最后,第三张图看起来与第一和第二张图极其相似,但其中更改了两个词,使标题变得准确且不再包含虚假信息。
这对人来说很容易理解,但对技术而言却难以理解正确。无论偏向哪一边都可能存在风险。如果技术过于激进,便会移除数百万篇未违规的帖子。如果技术不够激进,则会认为带有菜单栏的截图与原始图片不同,从而不会对该内容采取措施。
对此,我们投入了大量的时间进行研究。在过去几年中,我们进行了多项投资,以帮助我们的技术更有效地检出内容中的细微差别。经过不断学习,我们技术的检测结果正变得日益精确。
Subtile distinctions