Scroll Top
Via Antonio Amato, 20/22 84131 Salerno (SA)

Il token nei Large Language Model

token large language model IA

(articolo redatto da Alex Lysytsya)

I Large Language Model utilizzati nelle applicazione di Intelligenza artificiale non “vedono” le lettere o i caratteri effettivi nel testo che stanno elaborando e producendo. Loro operano solo tramite token. Ve ne parlo in questo mio post sul blog Nexsoft.

Studiare prima dell’avvento dell’AI

Il mio più grande rimpianto? Aver concluso gli studi prima dell’avvento di ChatGPT.

Sarebbe stato tutto sicuramente molto più comodo. Immaginate solo quanto è più semplice oggi studiare con un assistente digitale sempre pronto a spiegarti ogni concetto e a rispondere a tutte le tue domande in tempo reale.

Personalmente, trovo che la semplice possibilità di avere una conversazione sensata con un computer – essenzialmente un insieme di circuiti che abbiamo ingannato a ‘pensare? sia un traguardo straordinario. Ora, più che mai, ci troviamo di fronte ad una rivoluzione nell’accesso all’informazione e nell’interazione umana-tecnologica.

Ma qui non voglio parlarvi solo di quanto sia incredibile un transformer. Piuttosto, sono qui per spiegarvi uno dei concetti fondamentali quando si parla di un Large Language Model (LLM).

Nota bene: quando dico “Transformer”, “Large Language Model” (LLM) o più semplicemente “ChatGPT”, mi riferisco alla stessa cosa: un modello di deep learning concepito per l’elaborazione del linguaggio naturale.

Spesso vedo persone sorprese dai tipi di errori “semplici” che gli LLM commettono quando devono affrontare compiti che coinvolgono lettere, sillabe, lunghezza delle parole, rime, ecc. Questi modelli non eccellono in compiti orientati ai caratteri, che a noi sembrano banali, come ad esempio “scrivimi una frase con solo parole di 5 lettere”.

Tutti questi problemi derivano dal fatto che gli LLM non “vedono” le lettere o i caratteri effettivi nel testo che stanno elaborando e producendo. Loro operano solo tramite token, ognuno dei quali solitamente raggruppa insieme più lettere.

Il fatto che a volte riescano parzialmente a portare a termine compiti orientati ai caratteri è la vera sorpresa. Presumibilmente, utilizzano una meta-conoscenza su parole specifiche. Ad esempio, potrebbero aver appreso a memoria che “gatto” ha 3 lettere. O semplicemente sanno come fatto che “luna” e “tuna” fanno rima, senza avere alcuna nozione di cosa significhi pronunciarle.

Che cos’è un token?

Per un transformer il concetto di token ha la medesima importanza delle singole lettere per il nostro linguaggio naturale.

Ogni token rappresenta una unità di informazione, che può essere una parola, una parte di una parola, un simbolo di punteggiatura o anche un numero.

Come le singole lettere per il linguaggio naturale, i token sono i mattoni con cui costruiamo il significato dei testi e li elaboriamo.
I token vengono utilizzati per rappresentare il testo in modo che i computer possano comprenderlo e manipolarlo.

LLM token

L’immagine qui sopra illustra come il testo viene tokenizzato secondo il sistema di OpenAI, disponibile alla piattaforma ufficiale.

Esistono vari altri tokenizzatori, come il SentencePiece di Google, che puoi esplorare su GitHub.

Parlando di innovazioni recenti, il nuovo articolo di Meta descrive il rilascio di Llama 3, un modello che sfrutta un tokenizzatore con un vocabolario di 128.000 token, permettendo una codifica del linguaggio molto più efficiente. Questo contribuisce notevolmente al miglioramento delle prestazioni del modello.

Per ottimizzare l’efficienza di inferenza dei modelli Llama 3, Meta ha implementato l’attenzione raggruppata delle query (GQA). Questa tecnica consente al modello di concentrarsi solo su un gruppo ristretto di token alla volta, riducendo così la complessità computazionale e aumentando l’efficienza.

Questo approccio evidenzia l’importanza dei token nei modelli transformer, a ogni stadio: dalla progettazione e l’addestramento fino all’impiego pratico del modello.

Subword Embedding

La tecnica di subword embedding suddivide le parole in sottounità più piccole, come prefissi, suffissi e morfemi.
Questo approccio è utile perché molte parole possono essere composte da più unità di significato più piccole, e rappresentarle in questo modo può consentire al modello di catturare meglio il significato complessivo del testo.

subword embedding

Ad esempio, anziché trattare “lettera” come una singola parola, il modello può imparare a considerare sia “letter” che “a” come unità separate, ciascuna con il proprio significato.

Posizionamento Relativo

Il posizionamento relativo è una tecnica fondamentale nei modelli di trasformatori. Per comprendere il suo ruolo, immaginiamo che i trasformatori debbano non solo interpretare il significato di ciascun token, ma anche capire le relazioni tra di essi in base alla loro posizione nella sequenza. Questo è particolarmente importante perché una parola può assumere significati diversi a seconda delle parole che la circondano.

Ad esempio: “il gatto arancione” vs “il gatto di polvere”.

La parola “gatto” assume significati diversi a seconda delle parole che la precedono o la seguono.

Il posizionamento relativo consente al modello di catturare queste differenze di contesto e di comprendere meglio il significato complessivo del testo.

Per gestire questa complessità, entra in gioco il meccanismo di attenzione, un elemento cruciale nei modelli di trasformatori. Questo meccanismo permette al modello di determinare quanta “attenzione” o importanza assegnare a ciascun token durante il processo di elaborazione del testo.

Funziona così: immagina che ogni token nella frase abbia un faro di luce che può illuminare più forte o più debole a seconda di quanto sia importante in quel momento. Il meccanismo di attenzione regola l’intensità di questi fari basandosi sulla posizione relativa dei token. Così, il modello può concentrarsi più su “gatto” quando appare vicino a “arancione” piuttosto che a “di polvere”, distinguendo le varie sfumature di significato in base al contesto.

In sintesi, il posizionamento relativo e il meccanismo di attenzione lavorano insieme per aiutare il modello a navigare e interpretare efficacemente il testo, garantendo una comprensione più profonda e accurata delle dinamiche linguistiche.

Conclusioni

In conclusione, mentre i transformer ed i Large Language Models come ChatGPT continuano ad evolversi e a rifinire le loro capacità, il nostro approccio all’informazione e alla comunicazione subisce una trasformazione radicale.

Con ogni miglioramento nella tecnologia di tokenizzazione e nei meccanismi di attenzione, queste macchine non solo comprendono meglio il linguaggio umano, ma diventano anche strumenti più potenti e accessibili per affrontare sfide complesse.
Questo non solo evidenzia il potenziale crescente dell’intelligenza artificiale nel comprendere e generare il linguaggio naturale, ma apre anche nuove prospettive per l’innovazione in settori che vanno dall’educazione alla terapia, dalla creatività letteraria all’assistenza clienti.

La strada davanti a noi è ricca di possibilità entusiasmanti e, forse, di sfide inaspettate. Ma una cosa è certa: l’interazione tra umani e macchine non sarà mai più la stessa. Stiamo entrando in un’era in cui la barriera tra l’umano e l’artificiale diventa sempre più sfumata, offrendo un orizzonte di opportunità per esplorare, apprendere e creare in modi che, fino a poco tempo fa, potevamo solo immaginare.


Se anche tu vuoi occuparti di importanti progetti di Ricerca&Sviluppo sull’Intelligenza Artificiale
dai un’occhiata alle nostre opportunità di lavoro e conosciamoci subito!

Questo sito utilizza cookies propri e si riserva di utilizzare anche cookie di terze parti per garantire la funzionalità del sito e per tenere conto delle scelte di navigazione.
Per maggiori dettagli e sapere come negare il consenso a tutti o ad alcuni cookie è possibile consultare la Cookie Policy.

USO DEI COOKIE

Se abiliti i cookie nella tabella sottostante, ci autorizzi a memorizzare i tuoi comportamenti di utilizzo sul nostro sito web. Questo ci consente di migliorare il nostro sito web e di personalizzare le pubblicità. Se non abiliti i cookie, noi utilizzeremo solo cookies di sessione per migliorare la facilità di utilizzo.

Cookie tecnicinon richiedono il consenso, perciò vengono installati automaticamente a seguito dell’accesso al Sito.

Cookie di statisticaVengono utilizzati da terze parti, anche in forma disaggregata, per la gestione di statistiche

Cookie di social networkVengono utilizzati per la condivisione di contenuti sui social network.

Cookie di profilazione pubblicitariaVengono utilizzati per erogare pubblicità basata sugli interessi manifestati attraverso la navigazione in internet.

AltriCookie di terze parti da altri servizi di terze parti che non sono cookie di statistica, social media o pubblicitari.