Gli ingegneri di Facebook mettono in dubbio la capacità dell’IA di moderare i contenuti

I documenti interni mostrano che l’azienda rimuove solo un sottoinsieme di messaggi che violano le sue regole.

Facebook ha affermato in diverse occasioni che le sue tecnologie di intelligenza artificiale risolveranno i problemi dei contenuti che incitano all’odio e alla violenza sulla sua piattaforma.

Tuttavia, a giudicare dai documenti interni dell’azienda, che si sono rivelati a disposizione del Wall Street Journal, non tutto è così roseo come Facebook sta cercando di immaginare. La tecnologia AI che utilizza non è in grado di rilevare filmati in prima persona di spari, discorsi razzisti e, con grande sorpresa dei ricercatori, non distingue nemmeno i combattimenti di galli dagli incidenti stradali.

Sulla base dei documenti, Facebook ha deciso di determinare quanto bene la piattaforma sia riuscita a far rispettare le proprie linee guida sui contenuti generati dagli utenti. A quanto pare, l’azienda sta rimuovendo solo una parte dei messaggi che incitano all’odio e violano le sue regole. Secondo gli esperti, questa è una piccola percentuale con una sola cifra. Quando gli algoritmi di Facebook non sono abbastanza sicuri sul fatto che il contenuto stia violando le regole o meno, appare meno frequentemente nel feed dell’utente, ma gli account che lo pubblicano rimangono impuniti.

I documenti interni mostrano che due anni fa l’azienda ha ridotto il tempo necessario ai revisori per elaborare i reclami degli utenti relativi all’incitamento all’odio. Sono state inoltre apportate altre modifiche per ridurre il numero totale dei reclami. Pertanto, Facebook è diventato più dipendente dall’intelligenza artificiale per far rispettare le normative, il che ha aumentato l’apparente successo della tecnologia nelle sue statistiche pubbliche.

Secondo i documenti, i responsabili della protezione della piattaforma da contenuti offensivi e pericolosi ammettono che l’azienda non è ancora vicina a verificarla in modo affidabile.

“Il problema è che non abbiamo e potremmo non avere mai un modello che abbia registrato almeno gravi violazioni dell’integrità, soprattutto nelle aree sensibili”, afferma l’ingegnere senior in una nota datata metà del 2019.

Ha stimato che i sistemi automatizzati hanno rimosso i messaggi che hanno generato solo il 2% delle visualizzazioni di incitamento all’odio sulla piattaforma.”Le ultime stime mostrano che, a meno che non ci siano grandi cambiamenti nella strategia, sarà molto difficile aumentare questa cifra sopra il 10-20% a breve termine”, ha affermato l’ingegnere.

Nel marzo di quest’anno, un altro team di esperti di Facebook è giunto a una conclusione simile. Hanno stimato che i sistemi automatizzati hanno rimosso i post che hanno generato tra il 3% e il 5% di visualizzazioni di incitamento all’odio sulla piattaforma e lo 0,6% di tutti i contenuti che hanno violato le politiche non violente e di incitamento di Facebook.