Cách Meta đầu tư vào công nghệ
NGÀY CẬP NHẬT 19 THáNG 1, 2022
Sau đây là một số hoạt động đầu tư vào công nghệ AI mà chúng tôi đã thực hiện để cải thiện cách công cụ hiểu nội dung:
- Chúng tôi đã phát triển một cấu trúc mới có tên Linformer để phân tích nội dung trên Facebook và Instagram tại nhiều khu vực trên toàn thế giới.
- Chúng tôi đã xây dựng một hệ thống mới có tên Reinforced Integrity Optimizer (Công cụ tối ưu hóa nhằm củng cố tính toàn vẹn) để học hỏi từ các tín hiệu trên mạng, từ đó cải thiện khả năng phát hiện ngôn từ gây thù ghét.
- Chúng tôi đã cải tiến một công cụ so khớp hình ảnh có tên SimSearchNet để hỗ trợ công nghệ phát hiện những điểm khác biệt khó thấy trong nội dung. Nhờ đó, chúng tôi có thể xử lý thông tin sai lệch.
- Chúng tôi đã tích hợp các công cụ ngôn ngữ có tên XLM và XLM-R để hỗ trợ chúng tôi xây dựng các công nghệ phân loại có thể hiểu cùng một khái niệm bằng nhiều ngôn ngữ. Như vậy tức là công nghệ có thể vừa học hỏi bằng một ngôn ngữ, vừa cải thiện hiệu quả ở các ngôn ngữ khác. Điều này đặc biệt hữu ích đối với những ngôn ngữ ít phổ biến hơn trên Internet.
- Chúng tôi đã xây dựng hệ thống tìm hiểu toàn bộ thực thể để phân tích nội dung, từ đó xác định xem nội dung có chứa ngôn từ gây thù ghét hay không.
Dẫn đầu ngành AI bằng những nỗ lực cộng tác rộng mở
Những thách thức mà nội dung có hại đặt ra ảnh hưởng đến toàn ngành công nghệ và xã hội nói chung. Do đó, chúng tôi cung cấp công nghệ của mình ở dạng nguồn mở để người khác có thể sử dụng. Chúng tôi tin rằng việc cộng tác rộng mở với cộng đồng AI sẽ thúc đẩy hoạt động nghiên cứu và phát triển, tạo ra những cách mới để phát hiện và ngăn chặn nội dung có hại, cũng như góp phần đảm bảo an toàn cho mọi người.
Dưới đây là một số công nghệ chúng tôi đã cung cấp ở dạng nguồn mở trong những năm gần đây, bao gồm cả 2 cuộc thi trong ngành mà chúng tôi đã phát động:
XLM-R
XLM-R là mô hình máy học được huấn luyện bằng một ngôn ngữ, sau đó dùng với các ngôn ngữ khác mà không cần thêm dữ liệu huấn luyện. Với thực tế là mọi người đăng nội dung bằng hơn 160 thứ tiếng trên các công nghệ của Meta, XLM-R giúp chúng tôi sử dụng một mô hình cho nhiều ngôn ngữ, thay vì mỗi ngôn ngữ một mô hình. Nhờ đó, chúng tôi có điều kiện dễ dàng hơn để xác định ngôn từ gây thù ghét và nội dung vi phạm khác ở nhiều ngôn ngữ khác nhau, cũng như ra mắt đồng loạt sản phẩm bằng nhiều thứ tiếng. Chúng tôi đã cung cấp mô hình và mã nguồn mở để cộng đồng nghiên cứu có thể cải thiện hiệu quả cho các mô hình đa ngôn ngữ của họ.
Mục tiêu: Mang lại trải nghiệm tốt nhất cho mọi người trên nền tảng của chúng tôi, bất kể ngôn ngữ họ dùng là gì.Linformer
Linformer là cấu trúc chuyển đổi có chức năng phân tích hàng tỷ nội dung trên Facebook và Instagram tại nhiều khu vực trên toàn thế giới. Linformer hỗ trợ phát hiện ngôn từ gây thù ghét và nội dung cổ xúy bạo lực. Chúng tôi công bố thành tựu nghiên cứu và cung cấp mã nguồn mở Linformer để các nhà nghiên cứu và kỹ sư khác có thể cải thiện mô hình của họ.
Mục tiêu: Tạo ra mô hình AI mới có thể học hỏi từ văn bản, hình ảnh, cũng như giọng nói và phát hiện ngôn từ gây thù ghét, hành vi buôn người, bắt nạt và các hình thức nội dung có hại khác một cách hiệu quả.Thử thách phát hiện nội dung deepfake
Chúng tôi đã phát động một cuộc thi với Microsoft, Liên minh hợp tác về AI (Partnership on AI) và các học giả từ một số trường đại học để tìm ra công nghệ phát hiện hiệu quả hơn những trường hợp sử dụng AI để thay đổi video nhằm gây hiểu nhầm cho người xem. Chúng tôi đã đóng góp cho cuộc thi Thử thách phát hiện nội dung deepfake bằng cách thuê người thực hiện một tập dữ liệu dựa trên thực tế, chưa từng có trong ngành để hỗ trợ hoạt động phát hiện nội dung deepfake.
Mục tiêu: Thúc đẩy toàn ngành tìm ra cách thức mới nhằm phát hiện và ngăn chặn việc sử dụng nội dung đa phương tiện bị chỉnh sửa bằng AI để gây hiểu nhầm cho mọi người.Thử thách ảnh chế gây thù ghét
Chúng tôi đã phát động một cuộc thi với Getty Images và DrivenData để thúc đẩy hoạt động nghiên cứu về vấn đề gặp phải trong việc phát hiện ngôn từ gây thù ghét dưới dạng kết hợp hình ảnh và văn bản. Chúng tôi đã đóng góp cho cuộc thi Thử thách ảnh chế gây thù ghét bằng cách tạo một tập dữ liệu độc nhất, chứa hơn 10.000 ví dụ để các nhà nghiên cứu có thể dễ dàng sử dụng trong công việc.
Mục tiêu: Thúc đẩy toàn ngành tìm ra các cách tiếp cận và phương pháp mới nhằm phát hiện ngôn từ gây thù ghét đa thể thức.