Sistemi come ChatGPT-4 sono in grado di rispondere correttamente all'85% delle domande delle valutazioni universitarie. Questi risultati, pubblicati sulla rivista americana PNAS, sono stati uno «shock» per gli autori dello studio.

ChatGPT è entrato sulla scena pubblica alla fine del 2022, attirando più di 100 milioni di utilizzatori dal primo mese.

Nell'insegnamento superiore, la comunità studentesca ricorre sempre più spesso a questo tipo di assistente IA (intelligenza artificiale), ha indicato il Politecnico federale di Losanna (EPFL) in un comunicato odierno.

Nel loro studio, gli scienziati della Facoltà di informatica e comunicazione hanno esaminato 50 corsi dell'EPFL per misurare le prestazioni attuali di questi modelli linguistici di grandi dimensioni (LLM) nelle valutazioni di corsi dell'insegnamento superiore.

I corsi che sono stati selezionati fanno parte di nove programmi online di laurea e master e coprono un'ampia gamma di discipline, tra cui l'informatica, la matematica, la biologia, la chimica, la fisica e le scienza dei materiali.

«Questi dati sono stati raccolti in un formato che, secondo noi, sarebbe più simile al modo in cui gli studenti comunicherebbero queste informazioni ai modelli», spiega Antoine Bosselut, professore assistente e membro del Centro IA dell'EPFL, citato nel comunicato.

Concentrandosi su GPT-3.5 e GPT-4, gli scienziati hanno utilizzato otto differenti strategie per produrre risposte. Hanno constatato che GPT-4 risponde correttamente in media al 65,8% delle domande, e può anche fornire la risposta corretta in almeno una strategia per l'85,1% delle domande.

«Uno shock»

«Siamo rimasti sorpresi dai risultati. Nessuno si aspettava che gli assistenti IA ottenessero una percentuale così elevata di risposte corrette in così tanti corsi», indica Anna Sotnikova, coautrice dell'articolo.

In effetti, il 65% delle risposte corrette è stato ottenuto per mezzo della strategia più elementare, senza conoscenze pregresse. «Con una certa conoscenza del soggetto, è stato possibile raggiungere una percentuale di successo dell'85%, il che è stato un vero shock», aggiunge la ricercatrice.

Questi assistenti IA non peggioreranno, miglioreranno soltanto. La conclusione degli scienziati è che se lo studio venisse ripetuto oggi, le cifre sarebbero ancora più elevate.

Adattare l'istruzione

«A breve termine, dovremmo insistere affinché le valutazioni siano più difficili, non nel senso della difficoltà delle domande, ma nel senso della complessità della valutazione stessa», suggerisce Bosselut. Sul lungo termine, è chiaro che i sistemi di istruzione dovranno adattarsi.

«Questo non è che l'inizio e penso che si possa tracciare un'analogia tra le LLM attuali e le calcolatrici: quando sono state introdotte per la prima volta, c'erano le stesse preoccupazioni riguardo al fatto che i bambini non avrebbero più imparato la matematica», sottolinea Beatriz Borges, coautrice di questa ricerca.

«Oggi, nelle prime fasi di istruzione, le calcolatrici non sono generalmente consentite, ma a partire dai livelli superiori sono presenti, per svolgere i compiti di livello inferiore mentre gli studenti acquisiscono competenze più avanzate», conclude la ricercatrice.

