Capitolul-4-articol

Capitol 4
Psihometria pe înțelesul tuturor. Ce este, cum măsoară cunoașterea și de ce contează?
Dacă vrem să măsurăm lungimea unei bănci dintr-o sală de clasă, lucrurile sunt simple: luăm o ruletă. Indiferent cine face măsurătoarea (elevul, profesorul sau directorul), dacă folosesc același instrument, vor ajunge la același rezultat. În științele naturii, măsurarea este exactă pentru că se bazează pe unități de măsură universale, precum metrul sau kilogramul. Dar cum măsurăm câtă matematică știe un copil de clasa a V-a? Cum îi măsurăm gândirea critică sau capacitatea de a înțelege un text? Nu putem folosi o ruletă și, în mod clar, nu avem o unitate de măsură universală, un fel de „metru al cunoașterii". Aici intervine psihometria – știința măsurării atributelor psihologice și educaționale. Fără ea, proiectul de realizare a Standardelor Naționale de Evaluare nu ar fi fost o inovație științifică, ci doar o altă părere despre cum ar trebui evaluați copiii. Iată cum funcționează, pe înțelesul tuturor, această știință a evaluării.
Problema invizibilului: Cum măsurăm ceea ce nu se vede?
Cea mai mare provocare a testării educaționale este că măsurăm lucruri intangibile, care nu au o realitate fizică. Competența matematică, de exemplu, există doar în mintea elevului. Specialiștii numesc aceste concepte „trăsături latente" sau „constructe". Pentru că nu le putem extrage din mintea copilului pentru a le pune pe un cântar, trebuie să le măsurăm indirect. O facem prin intermediul unor indicatori vizibili: comportamentul elevului în fața unei sarcini. Fiecare întrebare dintr-un test (fiecare item) este un astfel de senzor. Când elevul rezolvă corect o problemă, noi inferăm (deducem) că abilitatea sa latentă este prezentă și dezvoltată la un anumit nivel. Așadar, un scor la un test nu este o măsurătoare perfectă a inteligenței sau a cunoștințelor, ci doar o estimare indirectă a acestora.
Anatomia unei note: De ce niciun test nu este perfect
Oricât de bun ar fi un profesor și oricât de inteligent ar fi un elev, trebuie să acceptăm un adevăr fundamental, pe care Teoria Clasică a Testelor  îl pune la baza oricărei măsurători: orice notă conține o eroare. Formula magică (și totuși foarte simplă) a evaluării ne spune că:
Scorul observat = Scorul adevărat + Eroarea de măsurare
Scorul observat
Este nota pe care o ia copilul în lucrare (de exemplu, un 8).
Scorul adevărat
Este nivelul pur, real, al competenței copilului (cât știe el de fapt).
Eroarea
Este tot zgomotul de fond care l-a împiedicat să ia nota exactă.
De unde provine eroarea? Din trei surse mari:
1
De la elev
Oboseala din ziua testului, lipsa de concentrare, stresul sau lipsa de motivație.
2
De la context
Un aparat de aer condiționat zgomotos, căldura prea mare, timp insuficient sau chiar un profesor care dă instrucțiuni neclare.
3
De la instrument (test)
Întrebări formulate ambiguu, un test prea scurt care nu acoperă toată materia sau exerciții care favorizează incorect doar anumiți elevi.
Scopul psihometriei în proiectul Standardelor Naționale de Evaluare nu a fost să pretindă că această eroare nu există. Dimpotrivă, scopul a fost să cuantifice eroarea și să o reducă la minimum. Un test standardizat de înaltă calitate diferă de un test încropit rapid la clasă prin faptul că este blindat împotriva erorilor, asigurând o măsurare precisă și obiectivă.
Trecerea la știința modernă: Teoria Răspunsului la Item 
Teoria clasică (bazată doar pe suma punctelor obținute la test) are însă o limitare uriașă. Să ne imaginăm doi elevi, Ana și Bogdan, care iau amândoi scorul de 6 din 10 la un test. Ana a răspuns corect la primele 6 întrebări (cele mai ușoare) și le-a greșit pe ultimele 4 (cele grele). Bogdan, în schimb, le-a greșit pe primele 4, dar a reușit să le rezolve pe cele mai dificile 6 probleme de la final. Au Ana și Bogdan aceeași competență? În sistemul clasic de notare, da: amândoi primesc nota 6. În realitate, abilitățile lor sunt complet diferite.
Aici intervine a doua mare inovație utilizată în construcția noilor evaluări: Teoria Răspunsului la Item (IRT = Item Response Theory în engleză). Modelele IRT sunt motorul care stă la baza celor mai mari evaluări globale (precum PISA sau TIMSS) și folosesc modele matematice avansate pentru a analiza fiecare întrebare în parte, nu doar scorul final.
IRT evaluează fiecare item pe baza unor parametri specifici:
Dificultatea (parametrul b)
Cât de grea este întrebarea de fapt? Ne ajută să aflăm la ce nivel de abilitate un elev are 50% șanse să răspundă corect.
Puterea de discriminare (parametrul a)
Cât de bine reușește o întrebare să îi separe pe elevii pregătiți de cei nepregătiți? O întrebare confuză, la care și elevii buni și cei slabi greșesc la fel de des, are o discriminare proastă și trebuie eliminată.
Probabilitatea de a ghici (parametrul c)
Care sunt șansele ca un elev care nu știe absolut nimic din materie să nimerească răspunsul corect pur și simplu din întâmplare (bifând la noroc)?
Prin utilizarea acestor parametri, sistemul nu mai adună mecanic niște puncte. El analizează patternul de răspunsuri al elevului și generează o estimare extrem de precisă a competenței sale reale (o valoare notată în psihometrie cu litera grecească Theta). Acest lucru permite ceva revoluționar: să obținem scoruri comparabile chiar dacă elevii primesc variante de test cu întrebări complet diferite!
De ce contează toate acestea pentru copiii noștri?
Răspunsul este unul singur: pentru echitate. Când ne bazăm doar pe intuiție sau pe un test făcut pe genunchi, evaluarea riscă să fie o loterie, în care nota depinde de norocul subiectelor, de toanele evaluatorului sau de capacitatea elevului de a decripta o întrebare ambiguă. Prin aplicarea psihometriei, am transformat evaluarea dintr-o chestiune de opinie într-un instrument științific, obiectiv.
Reducând eroarea de măsurare și înțelegând exact dificultatea și calitatea fiecărei întrebări, ne asigurăm că nota obținută de un elev de clasa a IV-a de la un sat din Moldova înseamnă exact același lucru cu nota unui elev de la un colegiu de top din Capitală.