Haciendo una busqueda rápida en el PDF, veo que han estado scrapeando masto.es y un buen chorro de instancias.
LEAKED: A New List Reveals Top Websites Meta Is Scraping of Copyrighted Content to Train Its AI
https://www.dropsitenews.com/p/meta-facebook-tech-copyright-privacy-whistleblower