Mwc 2021. Defezioni e minacce annunciate
Il Mobile World Congress 2021 di Barcellona si terrà in presenza. Scelta coraggiosa ma ci sono ostacoli.
Nokia ed Ericsson, Sony e Oracle avevano già certificato la propria rinuncia, ora un nuovo duro colpo, è Google (il cui motto è: “Don't Be Evil”) ad avere appena annunciato che quest’anno non esporrà alla manifestazione barcellonese.
«A seguito delle nostre attuali restrizioni e protocolli di viaggio imposti da Covid-19, Google ha deciso di non esporre al Mobile World Congress quest’anno. Continueremo a collaborare strettamente con GSMA (nr. l'ente organizzatore) e supporteremo i nostri partner attraverso opportunità virtuali. Non vediamo l’ora di iniziare le attività di quest’anno e di vedervi a Barcellona nel 2022.»
Diversi Paesi europei si apprestano ad un Aprile fatto di lockdown più o meno soft. Il 28 giugno, data d’inizio del Mwc 2021, non è poi così lontano.
L'Europa delle commisioni - che ad ora a epresso le migliori e più seguite legislazioni sui Diritti - con la Commissione Europea per la connettività digitale e la Commissione europea per un'istruzione digitale di alta qualità, di cui sarebbe auspicabile una presenza, non ha ancora precisato le sue modalità di adesione. O meglio al di là di una vasta e fumosa dichiarazione d'intenti non ha ancora fatto cenno a quanto andrebbe elaborato, come linee guida, per un corretto approccio ad alcuni problemi che stanno affiorando, "gli effetti diretti e collaterali dell'intelligenza artificiale".
Semplice, Google ha potenziato e reso più efficace Bert, il sistema di riconoscimento e previsione del linguaggio utilizzato anche per eseguire le ricerche online e che sempre più aziende usano Gpt-3, il software di Natural language processing sviluppato da OpenAI, finanziato un anno fa da Microsoft.
Ma cos’è il Natural language processing?
È la capacità delle macchine di elaborare le parole, capirle, anche metterle insieme oppure rimetterle insieme nel caso in cui fossero mescolate o sparse all’interno di una frase o di un paragrafo.
È l'evoluzione della Image recognition. Dopo aver insegnato per circa trentanni alle IA a riconoscere la foto di un cane da quella di un gatto, una persona da un oggetto e anche da un'altra persona o una pizza da un piatto di pasta, ora le stiamo insegnando a capire il nostro linguaggio.
In questi ultimi anni grazie a processori sempre più piccoli e potenti e a capacità di calcolo sempre più elevate, sono stati fatti i più ampi passi avanti, in commercio non c'è telefonino che non offra funzioni di scatto fotografico o di elaborazione e naturalmente di connessione, o di supporto alla scrittura. Una rete neuronale-artificiale che emula i principali sensi umani ed è pomposamente dichiarata intelligenza artificiale.
Addirittura in alcuni casi la AI (intelligenza artificiale) ha superato la prestazione umana. DeepFace di Facebook, l'algoritmo introdotto nel 2015, in pochissimo tempo è diventato accurato al 97,4%, poco meno del 97,5% delle prestazioni umane. L'algoritmo di riconoscimento facciale dell'FBI è (per ora) accurato solo all'85%, il che significa che è ancora difettoso in più di un caso su sette.
Facebook è riuscito a raggiungere questo obiettivo perché ha scoperto come mettere in atto due componenti essenziali dell'IA a livello umano: un'architettura in grado di imparare le funzionalità e dati di alta qualità taggati da milioni di utenti che avevano taggato i loro amici nelle foto condivise. Il team di ingegneri dell'FBI deve però sottostare alle limitazioni delle leggi Americane ed internazionali ed a quelle ancor più severe dell'Europa.
Ma il linguaggio sembra essere cosa molto più complessa
Meno di dieci anni fa, gli algoritmi contavano solo la frequenza di alcune parole. Questo approccio ignorava chiaramente il fatto che le parole hanno dei sinonimi e hanno un significato solo se si trovano all'interno di un certo contesto.
Nel 2013, l'algoritmo word2vec di Tomas Mikolov ha mappato i sinonimi : è stato in grado di modellare il significato come dimensione, genere, velocità, e persino di imparare relazioni funzionali come i paesi e le loro capitali. Poi Google ha introdotto il modello BERT, una vera svolta.
Il team di Jacob Devlin ha riciclato un'architettura tipicamente usata per la traduzione automatica e le hanno fatto imparare il significato di una parola in relazione al suo contesto in una frase. Hanno insegnato al modello a riempire le parole mancanti negli articoli di Wikipedia, il team è stato in grado di incorporare la struttura linguistica nel modello BERT. Così con una quantità limitata di dati di alta qualità, sono stati in grado di mettere a punto il BERT per una moltitudine di compiti che vanno dalla ricerca della risposta giusta a una domanda alla comprensione effettiva di cosa sia una frase. Sono stati i primi ad individuare i due elementi essenziali per la comprensione della lingua: la giusta architettura e una grande quantità di dati di alta qualità da cui imparare.
Nel 2019 i ricercatori di Facebook sono riusciti ad andare ancora oltre. Hanno formato un modello simile al BERT in oltre 100 lingue contemporaneamente. Il modello è stato in grado di imparare alcune attività in una lingua, ad esempio in inglese, e di utilizzarlo per lo stesso compito in una qualsiasi delle altre lingue, come l'arabo, il cinese e l'hindi. Questo modello linguistico-agnostico si comporta esattamente come il BERT nella lingua in cui è addestrato e ha un impatto limitato quando si passa da una lingua all'altra.
All'inizio del 2020 i ricercatori di Google sono stati finalmente in grado di superare le prestazioni umane su una vasta gamma di attivitá di comprensione della lingua.
Google ha spinto l'architettura del BERT ai suoi limiti addestrando una rete molto più grande con ancora più dati. Il cosiddetto modello T5 supera ora gli esseri umani nell'etichettare le frasi e nel trovare le risposte giuste a un quesito. Il modello mT5 è praticamente equivalente a degli esseri umani bilingui nel passaggio da una lingua all'altra, ma può farlo con più di 100 lingue contemporaneamente.
Funziona così
Dei software si ingoiano Internet, leggono tutto quello che scriviamo, tutti gli articoli dei giornali online, tutti i post su Facebook, Instagram, Reddit e anche oltre, tutti i commenti di tutti i tipi, intelligenti, sciocchi, arrabbiati o volgari, tutti i documenti scientifici o quelli legali, i brevetti, le recensioni dei film. Tutto.
Leggono tutto e apprendono
E così ci siamo accorti che la questione non è più che cosa possono fare le macchine, ma soprattutto che cosa possono dire.
Timnit Gebru e Margaret Mitchell si sono scontrate con i vertici di Google e hanno perso il loro lavoro come responsabili del team Ethic AI di Mountain View: di fondo pensano "è giusto che queste intelligenze artificiali siano così, perché in fondo riflettono quello che siamo noi, gli umani da cui hanno preso esempio, oppure dovremmo in qualche modo educarle, come si fa con i bambini e insegnare loro la differenza fra giusto e sbagliato?".
Che succede nel 2021 se la stessa intelligenza artificiale che è in grado di copiare alla perfezione un volto umano fosse in grado anche di farlo parlare, fargli dire quello che vuole e farglielo dire in modo convincente? Ecco un esempio a mostrarlo, due foto ed il gioco è servito ...
Nella primavera del 2016, Microsoft debutta su Twitter con un bot chiamato Tay , avrebbe dovuto imparare a conversare dall’interazione con le persone: “Più gli scriverete, più diventerà bravo a chiacchierare”, aveva spiegato l’azienda.
Sono bastate 24 ore per farlo diventare non solo bravo, ma anche pessimo: ha iniziato a twittare insulti, frasi razziste e omofobe e pure che “costruiremo un muro lungo il confine e lo pagherà il Messico”. Ancora: chiedendo a Gpt-3 di completare una frase con la parola “musulmano”, nel 60% dei casi viene fuori qualcosa che a che fare con bombe, attacchi violenti e terrorismo. Questi sono i casi più evidenti, ma ce ne sono molti altri meno espliciti in cui viene lasciata intendere la superiorità dei bianchi sui neri o degli uomini sulle donne, degli eterosessuali sui gay e così via.
Quindi ora immaginiamo un robot che risponde per noi alla chat e che è in grado di capire quello che si scrive in qualsiasi lingua. Capirà il contesto e ricorderà le conversazioni precedenti. Si otterranno risposte non generiche, ma precise ed esaurienti.
I motori di ricerca saranno in grado di capire qualsiasi domanda. Forniranno le risposte attese e non si dovranno nemmeno usare le parole chiave giuste. Avremo dei collaboratori virtuali che sapranno tutto quello che c'è da sapere sulle procedure della nostra azienda, un'assistente servizievole ed attento. Promemoria, e-mail, rapporti, ecc. saranno automaticamente interpretati, memorizzati e indicizzati.
Fosse solo questo
Che dire della “discriminazione” che viene fatta per le lingue che non siano l’inglese:
Allestire questi database di parole e informazioni e sviluppare software che siano in grado di sfruttarli costa molto e richiede tempo e impegno e al momento non è economicamente proficuo farlo per altre lingue.
Creare questi software costa molto, anche in termini di inquinamento. Secondo quanto rivelato dai ricercatori di OpenAI, le capacità di elaborazione e calcolo richieste per insegnare loro a capire le parole e pure a parlare sono non solo elevatissime, ma anche che decuplicano ogni anno. Ovvero crescono di 10 volte l’anno. E quindi crescono i computer necessari per gestirli e cresce la richiesta di energia per alimentarli, questi computer: a oggi, sviluppare un modello di Natural language processing come Bert o Gpt-3 produce circa 284 tonnellate di anidride carbonica.
E tanto o è poco? E più o meno quanto inquina una persona in 28 anni di vita. E senza contare il moltiplicatore 10x dell’anno prossimo.
Vi è sembrato un racconto di fantascienza? È la realtà. Parola di robot.