Gemini di Google non è il modello di AI che ci aspettavamo

leggi l’articolo completo...

Il tanto atteso modello di intelligenza artificiale generativa di prossima generazione di Google, Gemini, è arrivato.

Ma le altissime aspettative al riguardo si stanno lentamente affievolendo, dato che il rivoluzionario modello promesso non appare, almeno dalla conferenza di lancio, così straordinario.

Ve lo raccontiamo grazie a una testimonianza di TechCrunch.

 

Una famiglia di modelli di AI

 

La versione di Gemini lanciata questa settimanaGemini Pro – è essenzialmente una versione light di un modello Gemini più potente, previsto per l’anno prossimo. I membri del team di Google DeepMind, la forza trainante dietro Gemini, ne hanno fornito un’esauriente panoramica durante la conferenza di lancio.

Si tratta in realtà di una famiglia di modelli di intelligenza artificiale, proposta in tre varianti:

  • Gemini Ultra, il modello Gemini di punta
  • Gemini Pro, un modello “lite” di Gemini
  • Gemini Nano, progettato per funzionare su dispositivi mobili come il Pixel 8 Pro

Dove provare Gemini Pro? In Bard, il concorrente di ChatGPT di casa Google, che da oggi è alimentato da una versione ottimizzata di Gemini Pro, almeno in inglese negli Stati Uniti.

Sissie Hsiao, GM di Google Assistant e Bard, ha dichiarato che Gemini Pro ottimizzato offre miglioramenti nelle capacità di ragionamento, pianificazione e comprensione rispetto al modello precedente. Gemini Pro verrà lanciato il 13 dicembre per i clienti enterprise che utilizzano Vertex AI, la piattaforma di machine learning completamente gestita di Google, e poi si dirigerà verso il Google Generative AI Studio developer suite. Infine, Gemini arriverà nei prossimi mesi nei prodotti Google come Duet AI, Chrome e Ads, nonché in Search come parte dell’esperienza generativa di Ricerca.

 

Nativamente multimodale

 

Eppure Gemini Pro non appare eccezionale, secondo gli esperti di TechCrunch.

Hsiao afferma che Gemini Pro dà il meglio in compiti come riassumere contenuti, brainstorming e scrittura, e supera OpenAI GPT-3.5, il predecessore di GPT-4, in sei benchmark, tra cui uno che misura il ragionamento matematico delle scuole elementari. Ma GPT-3.5 ha più di un anno, difficile considerarlo un vero concorrente in un paradigma tecnologico che corre a perdifiato.

Come Gemini Pro, anche Gemini Ultra è stato addestrato per essere “nativamente multimodale“, cioè preaddestrato e ottimizzato su un ampio insieme di basi di codice, testi in diverse lingue, audio, immagini e video. Questo algoritmo può comprendere informazioni sfumate in testi, immagini, audio e codice e rispondere a domande su argomenti complicati, come matematica e fisica.
In questo senso, Gemini Ultra fa diverse cose meglio del modello multimodale concorrente di OpenAI, GPT-4 con Vision, che può comprendere solo il contesto di due modalità: parole e immagini. Gemini Ultra può trascrivere il discorso e rispondere a domande su audio e video (ad esempio, “Cosa succede in questo clip?”).

“L’approccio standard alla creazione di modelli multimodali coinvolge l’addestramento di componenti separati per modalità diverse“, ha detto Eli Collins, VP di prodotto a DeepMind. “Questi modelli hanno difficoltà con compiti concettuali più complicati e di ragionamento complicato. Quindi abbiamo progettato Gemini per essere nativamente multimodale.”

Google tuttavia non ha fornito ai giornalisti informazioni chiare sui dati di addestramento, che rischierebbero di trasformarsi in fonti di cause legali relative all’uso equo. Lo sanno bene Microsoft, GitHub, OpenAI e Stability AI, citati in azioni legali per violazione della legge sulla proprietà intellettuale in quanto addestrano i loro sistemi IA su contenuti protetti da copyright, senza riconoscere i credits.

Ci auguriamo che Google abbia preso misure per tutelare la proprietà intellettuale, ma non possiamo darlo per certo dato il silenzio dai piani alti di Mountain View.

 

Un modello marginalmente migliore

 

In una demo preregistrata, Google ha mostrato come Gemini potrebbe essere utilizzato per aiutare con i compiti di fisica, risolvendo problemi passo dopo passo su un foglio di lavoro e segnalando eventuali errori nelle risposte già compilate. È stato anche mostrato come agisce nell’identificazione di articoli scientifici rilevanti per un insieme di problemi, nell’estrazione di informazioni da quegli articoli e nell’update di un grafico attraverso le formule necessarie.

Collins ha sottolineato l’eccellenza di Gemini Ultra nei benchmark, affermando che il modello supera i risultati attuali di 30 dei 32 benchmark accademici utilizzati nella ricerca e sviluppo di modelli di lingua di grandi dimensioni. Eppure, esaminando i risultati, è evidente che Gemini Ultra supera solo marginalmente GPT-4 e GPT-4 con Vision su molti di quei benchmark.

Alla domanda di un reporter sulla possibilità che Gemini Ultra, come altri modelli di AI, potesse per errore inventare fatti, Collins ha replicato che non si tratta di un problema risolto. Dunque, a voi la scelta di fidarvi o meno.

Altri punti deboli? Gemini Ultra, al momento, è anglo-centrico come gli altri modelli di intelligenza artificiale generativa.
Inoltre, l’architettura di Gemini Ultra supporta la generazione di immagini ma questa capacità non sarà inclusa nella versione finalizzata al momento del lancio. Questo perché il meccanismo è leggermente più complesso rispetto a quello utilizzato da ChatGPT: invece di inviare prompt a un generatore di immagini (come fa ChatGPT), Gemini produce immagini “in modo nativo” senza uno step intermedio.

 

Un lancio precipitoso?

 

L’impressione generale del lancio di Gemini è l’urgenza e la frettolosa preparazione del progetto.

Se infatti andiamo un po’ indietro nel tempo, ricordiamo che durante la sua conferenza annuale per gli sviluppatori, Google promise che Gemini avrebbe offerto “impressionanti capacità multimodali non viste in modelli precedenti” e “efficienza nelle integrazioni di strumenti e API”.

Forse Gemini Ultra è o sarà in grado di fare cose magnifiche, ma non lo dimostra al momento. Google sta cercando di recuperare nel campo dell’IA generativa fin dall’inizio di quest’anno, inseguendo OpenAI e ChatGPT. Bard però è stato rilasciato a febbraio con diverse critiche per l’incapacità di rispondere correttamente a domande di base.

È vero che Big G sta facendo progressi con Bard migliorato notevolmente dal giorno del lancio, ma forse sviluppare modelli di AI generativa non è il suo core business e non lo sarà mai?

Lo confermano le segnalazioni interne e le impressioni dei partecipanti alla conferenza di lancio, che suggeriscono uno sviluppo di Gemini problematico e inconcludente sotto alcuni punti di vista.

The best has yet to come? Forse sì: a voi scoprirlo sulle pagine del nostro blog.