|
admin
Webmaster
    

Regione: Italy
Prov.: Pisa
Città: Capannoli
24967 Messaggi |
Inserito il - 23/03/2026 : 09:39:05
|
ChatGPT, la scienza diventa un banco di prova e rivela quali sono i suoi limiti più grandi
Uno studio accademico mette ChatGPT di fronte a un compito semplice solo in apparenza. I risultati mostrano difficoltà nel distinguere il vero dal falso e una coerenza non sempre stabile.
18 Marzo 2026 - Biagio Petronaci
Uno studio condotto alla Washington State University ha scelto un terreno preciso per valutare ChatGPT: la capacità di distinguere tra ipotesi confermate dalla ricerca e affermazioni prive di riscontro nei dati. Il risultato è meno rassicurante di quanto si potrebbe immaginare.
Il metodo: stessa domanda, dieci volte
Il gruppo guidato da Mesut Cicek ha selezionato 719 ipotesi tratte da studi pubblicati dal 2021 su riviste accademiche di ambito business. A ChatGPT è stato chiesto di esprimere un giudizio netto su ciascuna: vero oppure falso. La forma della risposta non lasciava spazio a interpretazioni, ma il contenuto richiedeva comunque una lettura attenta e una valutazione fondata su evidenze.
Per ogni ipotesi, la stessa domanda è stata ripetuta dieci volte senza alcuna variazione. L’obiettivo era misurare il numero di risposte corrette e verificare la capacità del sistema di mantenere una linea coerente a fronte dello stesso input.
Il test è stato condotto in due momenti distinti: nel 2024 con ChatGPT-3.5, nel 2025 con ChatGPT-5 mini. In entrambi i casi è stata utilizzata la versione gratuita dei modelli.
I numeri migliorano, ma la lettura cambia: l’evoluzione di ChatGPT
I risultati, considerati isolatamente, suggeriscono un progresso. Nel primo ciclo di test, l’accuratezza si è fermata al 76,5%. Nel secondo è salita all’80%. Una differenza contenuta, ma sufficiente a far pensare a un miglioramento.
La valutazione cambia quando si considera il contesto in cui quelle risposte sono state generate. Trattandosi di domande binarie, una risposta casuale avrebbe comunque una probabilità del 50% di risultare corretta. I ricercatori hanno quindi ricalibrato il dato per tener conto di questo fattore. Il quadro che emerge è più prudente: la performance reale si colloca solo intorno al 60% al di sopra del livello del caso.
Dove si inceppa ChatGPT?
Il punto più critico riguarda le ipotesi false: è qui che ChatGPT mostra le maggiori difficoltà. Nel test, la capacità di riconoscere un’affermazione non supportata dalla ricerca si è fermata al 16,4%. In altre parole, quando il compito richiedeva di negare, il sistema ha spesso finito per confermare.
Questo comportamento ha un peso rilevante. Si traduce in una tendenza a validare contenuti che avrebbero dovuto essere respinti. In un contesto scientifico, questa asimmetria diventa un limite concreto.
ChatGPT è coerente?
Accanto all’accuratezza, lo studio introduce un altro parametro decisivo: la coerenza. Ripetendo lo stesso prompt dieci volte, ChatGPT ha mantenuto la stessa risposta nel 73% dei casi. Ciò significa che, in una quota non trascurabile di situazioni, il giudizio è cambiato pur a fronte della stessa domanda. In alcuni casi, la distribuzione delle risposte è risultata perfettamente bilanciata tra vero e falso.
Il risultato del test
ChatGPT dimostra una forte capacità espressiva, ma non raggiunge lo stesso livello quando deve affrontare compiti che richiedono un ragionamento strutturato. Secondo Cicek, questi sistemi non comprendono il contenuto nel senso umano del termine: elaborano schemi e restituiscono formulazioni convincenti.
Il linguaggio può essere fluido e la risposta plausibile, ma questo non implica che il processo sottostante sia solido. Per questo motivo, i ricercatori invitano a mantenere un approccio prudente.
da libero.it/tecnologia
|
|