L’NLP è un ramo dell’intelligenza artificiale che consente ai computer di comprendere, generare e manipolare il linguaggio umano
L’elaborazione del linguaggio naturale (NLP, Natural Language Processing) è un ramo dell’intelligenza artificiale (AI) che consente ai computer di comprendere, generare e manipolare il linguaggio umano, al punto di consentire al Pc di comprendere, interpretare e generare testo. L’elaborazione del linguaggio naturale è una delle tecnologie che recentemente ha fatto passi da gigante.
I potenziali benefici degli strumenti di Nlp sono infiniti e di portata immensa poiché relativi a tutte le attività connesse al testo, quali ad esempio correttori ortografici e sistemi di traduzione automatica a che fare per una buona parte delle nostre giornate.
Se guardiamo al futuro scopriamo che queste soluzioni possiedono un elevato potenziale.
Questi strumenti consentono di superare le barriere comunicative tra persone che parlano lingue diverse.
In pratica si possono rendere le informazioni accessibili a tutti indipendentemente dal loro background o dalle loro capacità, fino al punto di riassumere testi lunghissimi senza neanche doverli leggere.
E dunque l’elaborazione del linguaggio naturale non solo sta creando nuove opportunità di lavoro, ma sta anche rivoluzionando il modo di lavorare.
In concreto l’emergere di strumenti basati su Nlp sta trasformando tutti i settori e le professioni, dal servizio clienti al giornalismo.
Sì perché con l’aiuto di questi strumenti i giornalisti possono sfruttare la potenza di queste tecnologie per condurre ricerche preliminari, recuperare grandi quantità di dati e generare sintesi o bozze di articoli, avendo così a disposizione più tempo per concentrarsi sull’analisi e l’interpretazione delle informazioni raccolte.
Gli strumenti di Nlp permettono quindi ai lavoratori di utilizzare in modo più efficiente il loro tempo aumentando significativamente la produttività e la qualità del lavoro svolto.
Le applicazioni di Natural Language Processing
Le imprese sono sempre più interessate alle soluzioni di Natural Language Processing. Sono diverse le opportunità di business dei sistemi di elaborazione del linguaggio naturale per il business:
- analisi di email aziendali (es. per riconoscere messaggi indesiderati e classificare per argomento la posta in arrivo);
- estrazione di informazioni da documenti di governance, quali report e procedure, per garantirne una rapida consultazione;
- progetti per l’analisi di documenti amministrativi, quali fatture e contratti, e soluzioni per l’analisi delle comunicazioni interne all’azienda quali mail di help-desk;
- analisi di post sui Social Network (es. per comprendere il sentiment degli utenti e consolidare la brand reputation dell’azienda);
- algoritmi per comprendere le query di navigazione nei siti web e reindirizzare correttamente la ricerca;
- soluzioni per l’analisi di notizie giornalistiche, ad esempio per riconoscere le fake news.
Quanto sono diffuse le soluzioni di NLP in Italia?
Tali applicazioni mostrano un livello di adozione ancora modesto nel nostro Paese. La spiegazione si trova in una serie di criticità rilevate dalle organizzazioni che hanno iniziato a lavorarci.
Innanzitutto bisogna fare i conti con la mancanza di dataset già pronti per l’addestramento del motore di intelligenza artificiale, di conseguenza occorrono investimenti significativi di tempo e risorse per preparare un dataset adeguato. Alcune imprese sfruttano dati di proprietà – che però devono essere puliti ed etichettati per il training – ma non mancano gli acquisti di dati da provider specializzati e collaborazioni con altri attori della filiera, quali Vertical Solution Provider, consulenti o System Integrator.
Inoltre, servono competenze interne specifiche per lo sviluppo di queste soluzioni e la lingua italiana non sempre garantisce prestazioni adeguate in termini di comprensione della lingua e delle sue declinazioni. A questo ostacolo, già critico, si aggiungono le difficoltà nel comprendere il sentiment del testo e nel dedurne di conseguenza il significato reale. E guardando al futuro, è proprio questa una delle sfide principali per l’NLP: il Quality Natural Language Understanding, ossia l’identificazione dell’ironia e del buon senso.
Machine Learning, Deep Learning e NLP
Il passato, il presente, ma soprattutto il futuro del NLP si intrecciano con le tecniche di Machine Learning e Deep Learning. Negli anni Novanta nasce il Natural Language Processing statistico, un insieme di approcci basati sull’utilizzo di Machine Learning, quindi sull’apprendimento dai dati, che hanno la capacità di arricchire il modello alla loro base a fronte di ulteriori dati.
Spostandoci intorno agli anni 2000 (ma soprattutto negli ultimi anni) si rilevano numerosi sviluppi nell’applicazione di reti neurali artificiali all’elaborazione del linguaggio naturale.
Oggi l’NLP ci pone di fronte all’analisi di frasi complesse, che per essere interpretate correttamente devono essere scomposte in unità elementari: le parole. E oltre all’analisi della singola parola, è necessaria la comprensione della semantica dell’intera frase. Da un punto di vista tecnico, per passare dalla dimensione di analisi della singola parola alla comprensione della frase nel suo complesso (Natural Language Understanding), sono principalmente tre i task da prendere in considerazione:
- Word Sensing Disambiguation: associare alle parole, nel contesto, i corretti significati (es. nei motori di ricerca online);
- Semantic Role Labeling: portare l’attenzione su una parola e cercare di evidenziare lo scenario di utilizzo e identificare i ruoli all’interno della frase (es. per eseguire comandi in ambito Smart Home);
- Semantic Parsing: trasformare il testo in una rappresentazione semantica strutturata (nella pratica, rispondere a domande data una specifica frase e una collezione di documenti)
E in un contesto dove il Deep Learning sta potenziando sempre di più le capacità del NLP, nel 2020 è si è registrato un traguardo importante nel mondo dell’interpretazione del linguaggio naturale. OpenAI, organizzazione no profit per la ricerca sull’intelligenza artificiale, ha rilasciato il suo ultimo modello linguistico basato su reti neurali – GPT-3 o Generative Pre-trained Transformer 3 – che a oggi risulta la rete con più parametri mai addestrata. Questo modello è integrato interamente in Chat GPT e lo vede ulteriormente ottimizzato con l’utilizzo di GPT-4.
Ma se è vero che la nascita di reti neurali sempre più complesse apre la strada ad applicazioni sempre più sofisticati, non sempre è necessario ricorrere a modelli così complessi, soprattutto perché tali reti richiedono un’ingente quantità di dati per poter essere utilizzate.