Home » Rassegna stampa » Rassegna stampa nazionale » Fondamentalmente errati? I dubbi della BBC sui test OCSE-PISA

Fondamentalmente errati? I dubbi della BBC sui test OCSE-PISA

Solo il 10% degli studenti sostiene i “reading test” al completo, mentre a metà degli studenti non viene sottoposto nessun quesito sulla lettura. Però, entrano tutti nelle statistiche, simulando le risposte mancanti mediante numeri casuali. Non è una truffa, ma una tecnica che esige l’assoluta correttezza del modello statistico.

12/05/2014

Invia ad un amico

Stampa

ROARS

Giuseppe De Nicolao

Solo il 10% degli studenti sostiene i “reading test” al completo, mentre a metà degli studenti non viene sottoposto nessun quesito sulla lettura. Però, entrano tutti nelle statistiche, simulando le risposte mancanti mediante numeri casuali. Non è una truffa, ma una tecnica che esige l’assoluta correttezza del modello statistico. Un modello che però, come ammesso anche dall’OCSE, non è corretto. “Is Pisa fundamentally flawed?” è il titolo di un articolo apparso lo scorso dicembre sul Times Education Supplement, a pochi giorni di distanza da un documentario trasmesso da BBC Radio 4 sullo stesso argomento. Il dubbio sulla correttezza delle metodologie statistiche è esploso parecchi mesi prima dell’ultima autorevole contestazione dei test PISA. Risale a pochi giorni fa, infatti, una lettera firmata da un’ottantina di accademici da tutto il mondo che mettono in dubbio la validità pedagogica e conoscitiva dei test e denunciano le distorsioni che introducono nei sistemi educativi nazionali. Distorsioni a maggior ragione inaccettabili, se legittimate in nome di numeri statisticamente inaffidabili. Ma quali sono i presunti errori commessi dall’OCSE? Questi errori hanno lasciato qualche indizio facilmente visibile? Cerchiamo di capirlo con l’aiuto di David Spiegelhalter, professore a Cambridge e statistico di fama mondiale.

1. Botta e risposta tra BBC e Financial Times

The Guardian ha da poco pubblicato una la lettera firmata da accademici di tutto il mondo che solleva critiche sostanziali nei confronti della validità pedagogica e conoscitiva dei test OCSE-PISA, come pure delle distorsioni che introducono nei sistemi educativi nazionali.

Nella lettera non è menzionato un altro aspetto dei Test PISA che è stato recentemente messo in discussione, ovvero quello della loro correttezza statistica. I dubbi sulla solidità statistica dei test circolavano da tempo sulla stampa inglese, ma è stato dopo la messa in onda lo scorso novembre di un documentario radiofonico della BBC che è sceso in campo il Financial Times con un commento a difesa dell’OCSE, prontamente e fedelmente riassunto dal Corriere della Sera.

L’articolo di John Kay, pur citando nelle prime righe il documentario della BBC, si limita ad etichettarlo come “an attack on Pisa’s principles and methods“, senza però entrare nel merito delle circostanziate obiezioni statistiche che erano state sollevate in quella sede. Il columnist del FT non sembra aver compreso le criticità metodologiche e tanto meno il loro peso nel determinare il risultato finale dei test.

Piuttosto, fin dal sottotitolo si mettono le mani avanti, ricordando che “academic comparisons are always imperfect“, mentre il titolo stesso evidenzia l’irrilevanza degli argomenti tecnici, se ciò che conta è pendere nella “giusta direzione”. Che la direzione sia quella giusta, tuttavia, è una questione quanto meno controversa, alla luce della già citata lettera firmata da un’ottantina di docenti universitari di tutto il mondo (I test OCSE-Pisa danneggiano l’istruzione a livello mondiale? Un appello firmato da docenti universitari di tutto il mondo). Da parte nostra, vorremmo anche chiarirci le idee sulle questioni tecniche eluse dal FT. Per farlo, conviene cominciare dall’inizio.

2. Le risposte mancanti sono riempite con numeri casuali

Il punto di partenza sono stati alcuni studi che mettevano in dubbio la solidità dei test OCSE (qui e qui due articoli su riviste peer-reviewed). Chi volesse farsi un’idea del dibattito scientifico può consultare un lungo e dettagliato articolo pubblicato sul Times Educational Supplement, che cerca di rispondere alla domanda cruciale: Is Pisa fundamentally flawed?

Un quesito talmente importante da divenire oggetto di un documentario di BBC Radio 4 (PISA – Global Education Tables Tested, 25.11.2013), nel corso del quale uno statistico di fama mondiale, David Spiegelhalter, professore a Cambridge, sottoscrive la denuncia del collega danese Svend Kreiner, secondo il quale i test PISA poggiano su un “flawed model” (modello errato). Sebbene la trasmissione non sia più ascoltabile online, è comunque disponibile un articolo pubblicato sul BBC News Magazine: How accurate is the Pisa test?

A pochi giorni di distanza dalla trasmissione, Spiegelhalter ritorna sull’argomento in un articolo pubblicato sul blog della Royal Statistical Society (The problems with PISA statistical methods), in cui riassume per punti i problemi metodologici che gravano sui test PISA:

Individual students only answer a minority of questions
Multiple ‘plausible values’ are then generated for all students assuming a particular statistical model, essentially estimating what might have happened if the student had answered all the questions.
These ‘plausible values’ are then treated as if they are the results of surveys with complete data on all students. They then form the basis of national scores (and their uncertainties) and hence rankings in league tables.
The statistical model used to generate the ‘plausible scores’ is demonstrably inadequate.
This means the variability in the plausible scores is underestimated, which in turn means the uncertainty in the national scores is underestimated. Hence the rankings are even less reliable than claimed.

È difficile non rimanere stupiti quando si viene a sapere che gli studenti rispondono solo ad una minoranza delle domande e che le risposte mancanti vengono riempite con numeri casuali (‘plausible values’):

… roughly half of the student participating in the PISA 2006 survey did not respond to any reading items. In spite of this, all students were assigned reading scores (so-called plausible values). Exactly how these scores were calculated is one of the unanswered questions, but the brief discussion of plausible values in Chapter 9 of OECD (2006) suggests that they may be random numbers drawn from the conditional distribution of the latent reading ability given scores on math and science items and a number of person covariates.

Kreiner, Psycometrika 2013

Spiegelhalter non si scandalizza per il ricorso all’uso di numeri casuali al posto delle risposte, ma mette in chiaro sotto quale condizione tale tecnica sia accettabile:

Analysis using imputed (‘plausible’) data is not inherently unsound, provided (as PISA do) the extra sampling error is taken into account. But the vital issue is that the adjustment for imputation is only valid if the model used to generate the plausible values can be considered ‘true’.

Condizione che, secondo Spiegelhalter, non è soddisfatta, dato che il modello usato per le “imputazioni” è “demonstrably inadequate.”.

Ma quali sono le conseguenze sull’affidabilità dei ranking PISA? Secondo i calcoli di Kreiner, l’incertezza è tale che la posizione del Regno Unito nel “Reading Test” 2006 oscillerebbe tra 14 e 30, quella della Danimarka tra 5 e 37, quella del Canada tra 2 e 25 e quella del Giappone tra 8 e 40. “The best we can say about Pisa rankings is that they are useless” dice Kreiner.

Per quanto riguarda Spiegelhalter, questo è il suo giudizio finale sulla correttezza statistica del metodo usato dall’OCSE (il grassetto è nostro):

Svend Kreiner has calculated that in 2006, about half did not answer any reading questions at all, while ‘another 40 per cent of participating students were tested on just 14 of the 28 reading questions used in the assessment. So only approximately 10 per cent of the students who took part in PISA were tested on all 28 reading questions.

Multiple ‘plausible values’ are then generated for all students assuming a particular statistical model, essentially estimating what might have happened if the student had answered all the questions. [...]

The crucial issue, in my view, is that since these ‘plausible values’ are generated from an over-simplified model, they will not represent plausible values as if the student really had answered all the questions. Kreiner says: ‘The effect of using plausible values generated by a flawed model is unknown.’

Quello che segue è un estratto della replica di Ray Adams, capo dell’OECD analysis team:

The sample sizes in PISA are such that the fit of any scaling model, particularly a simple model like the Rasch model, will be rejected. PISA has taken the view that it is unreasonable to adopt a slavish devotion to tests of statistical significance concerning fit to a scaling model.

Comments on Kreiner 2011

In sostanza, Adams ammette che, secondo i criteri statistici comunemente adottati, il modello di Rasch utilizzato dall’OCSE è da giudicarsi falso (“rejected‘). Ma questo non importa, perché gli esperti PISA ritengono irragionevole inchinarsi devotamente ai comuni criteri scientifici di significatività statistica. I comuni standard scientifici sono opzionali per chi pende “in the right direction”?

Sostenere che, in presenza di campioni numerosi, un modello, purché semplice, è utilizzabile, anche quando risulta contraddetto dall’evidenza sperimentale, fornirebbe una scorciatoia fin troppo comoda a chi volesse risparmiarsi la fatica di dimostrare la validità delle proprie ipotesi statistiche. Se adottassimo questo criterio, basterebbe raccogliere abbastanza dati per entrare in una zona franca in cui viene sdoganato qualsiasi modello, anche il più sgangherato e antiscientifico. Come scrive Kreiner:

We do not accept this point of view, because it implies that we should always collect a lot of data to avoid the trouble of testing and correcting statistical models.

Inutile dire che la replica di Adams non ha convinto Kreiner e Speigelhalter, che sono rimasti sulle loro posizioni.

3. Imparare dai risultati PISA? Meglio il Totocalcio

Ma chi non è un’esperto di statistica deve per forza rimettersi al parere di qualche luminare? È solo la parola di Spiegelhalter e Kreiner contro quella degli esperti OCSE-PISA? Possibile che non esista un argomento comprensibile anche ad un pubblico più vasto?

In realtà, l’argomento esiste. Anche se non è conclusivo, ha il pregio di essere visualizzabile con un semplice colpo d’occhio.

Infatti, David Spiegelhalter, da statistico smaliziato, ha notato un indizio, facile da vedere e da spiegare, che suggerisce la presenza di una significativa componente casuale nei risultati OCSE-PISA.

In un altro suo articolo, intitolato Why learning lessons from PISA is as hard as predicting who will win a football match, Spiegelhalter mostra la seguente figura, tratta dal PISA Summary report. Nel grafico sono messi a confronto i risultati dei test di matematica PISA-2012 con quelli PISA-2003.

Il grafico è diviso in quattro quadranti. A sinistra ci sono i “perdenti” del 2003 [PISA 2003 performance below OECD average] e a destra i “vincenti”, sempre del 2003 [PISA 2003 performance below OECD average]. Nella zona alta ci sono i “buoni”, ovvero le nazioni nel 2012 hanno migliorato i loro punteggi rispetto al 2003 [performance improved], e in quella bassa i “cattivi”, ovvero le nazioni che hanno perso punti [performance deteriorated]. Notiamo fin d’ora una maggiore densità di nazioni nei due quadranti bianchi. Incidentalmente, l’Italia è tra le nazioni che migliorano di più, ma, come vedremo tra un attimo, non è detto che sia vera gloria.

Si tratta del tipico risultato che scatena i più vari commenti, da quelli autocelebrativi di chi ha guadagnato terreno, fino ai severi sermoni che chiedono radicali riforme scolastiche per le nazioni che hanno fatto un passo indietro. Vediamo, invece, cosa ha colpito lo sguardo di Spiegelhalter:

… it is clear that those who did well in 2003 [le nazioni "above average" che stanno a destra] tended to go down (apart from the star Asian contenders), while those that did badly in 2003 [le nazioni "below average" che stanno a sinistra] tended to go up (correlation is -0.6). This is exactly the pattern expected when much of the influence on the ranking is due to random variation, and is known as ‘regression-to-the-mean’, which reinforces my feeling that the precision of the estimates is not as great as claimed. When this pattern is observed, one should be very cautious about ascribing reasons for changes. While, with hindsight, any pundit can construct a reason why a football team lost a match, it’s not so easy to say what will make them win the next one.

Why learning lessons from PISA is as hard as predicting who will win a football match

In altre parole, se i risultati hanno una forte componente casuale, quando si replica l’esperimento, per chi era finito casualmente sopra la media è più probabile peggiorare il proprio punteggio e, viceversa, ha maggiori probabilità di migliorare chi era finito sotto la media.

È un po’ come lanciare un dado due volte. Se il primo lancio ha dato “5″, con il secondo lancio è più probabile scendere che salire.

Che i punti nel grafico presentino proprio questa caratteristica non è un argomento conclusivo, ma di sicuro non depone a favore dell’affidabilità dei test. A maggior ragione, se le analisi degli esperti e le stesse ammissioni dell’OCSE ci dicono che la generazione dei dati (solo in parte frutto delle risposte dei gli studenti e in buona parte ottenuti mediante estrazioni casuali) poggia su un modello statistico smentito dall’evidenza sperimentale.

La conclusione di Spiegelhalter non è del tutto negativa, ma le sue raccomandazioni distano anni luce dal feticismo numerologico che caratterizza buona parte del dibattito pubblico sulla valutazione quantitativa dei sistemi educativi:

In summary, PISA is a very valuable resource and has a huge amount to offer educational research. But my personal feeling is that PISA is over-confident in their conclusions and there may be some cherry-picking of evidence, particularly of reasons for changes. While international comparisons can inspire fine aspirations, policies should not be imported wholesale without careful testing in the home environment.

La critica più pungente riguarda l’uso strumentale delle classifiche e delle loro variazioni per somministrare ricette, senza che ci sia evidenza, non solo della bontà delle cure, ma persino della correttezza delle diagnosi, basate su numeri molto più inaffidabili di quanto l’OCSE voglia far credere ai media e ai decisori politici.

P.S. Il modello di Rasch, la cui validità è messa in dubbio per i test OCSE-PISA, è la colonna portante anche dei test INVALSI italiani. Che la sua validità non possa essere data per scontata è questione sollevata da tempo da Giorgio Israel. Una questione che meriterebbe un approfondimento anche alla luce di analisi recenti, secondo le quali le ipotesi di applicabilità del modello di Rasch risulterebbero “strongly rejected” per i test INVALSI 2009 di Italiano e Matematica per le scuole medie (Gnaldi et al., Joint Assessment of the Differential Item Functioning and Latent Trait Dimensionality of Students’ National Tests, submitted).

Invia ad un amico

Stampa

FLC CGIL

Vai alla versione Desktop »