Capitolul 6: Construcția itemilor de evaluare
Dacă arhitectura unui sistem național de evaluare ar fi o clădire, standardele de performanță ar reprezenta structura de rezistență, iar întrebările de pe foaia de examen ar fi cărămizile. În știința măsurării educaționale (psihometria), aceste „cărămizi” poartă un nume specific: itemi. Un item nu este doar o simplă întrebare aruncată pe o foaie, ci un senzor extrem de precis, construit pentru a capta o anumită competență din mintea elevului.
Dar cum se scrie, de fapt, o întrebare perfectă de examen? În acest capitol, vom explora procesul tehnic, aproape chirurgical, prin care o idee din programa școlară se transformă într-un instrument de măsurare validat.
1. Harta testului: Blueprint-ul și Specificațiile
Niciun test standardizat serios nu începe prin scrierea directă a întrebărilor. Dacă i-am cere unui grup de profesori pur și simplu să scrie „un test la matematică", am obține probabil o colecție dezechilibrată de exerciții, care ar reflecta doar preferințele personale ale acelor profesori. Pentru a preveni acest lucru, primul pas este crearea unui „Blueprint" (schița testului).
Blueprint-ul
Acesta este exact ca planul unui arhitect: un document care definește clar câte întrebări vor exista pentru fiecare capitol din materie și, mai ales, cum vor fi ele distribuite pe niveluri de complexitate cognitivă (Cunoaștere, Aplicare, Raționament) și pe niveluri de dificultate.
Specificațiile testului
Odată stabilită schița generală, experții coboară și mai adânc, redactând Specificațiile testului. Dacă blueprint-ul ne spune „ce și cât măsurăm", specificațiile ne spun exact „cum măsurăm". Acestea sunt manuale detaliate pentru autorii de itemi, indicând formatele acceptate, tipul de stimul și regulile stricte de redactare.
2. Anatomia unui item modern
Deși testele pot conține exerciții care cer redactarea unui eseu (itemi cu răspuns construit), testarea la scară largă se bazează masiv pe itemii cu răspuns selectat (item de tip alegere multiplă), datorită obiectivității lor absolute și eliminării erorilor de corectură umană. Totuși, un item de tip alegere multiplă modern, construit științific, este infinit mai complex decât un simplu test de cultură generală. Un astfel de item este format din patru elemente vitale:
1
Rădăcina itemului (stimulul)
Partea care expune problema: un text scurt, un grafic, o ecuație sau un caz practic.
2
Cerința
Sarcina clară pe care elevul trebuie să o rezolve.
3
Cheia
Răspunsul corect.
4
Distractorii
Variantele de răspuns incorecte.
3. Știința din spatele răspunsurilor greșite
Distractorii
Poate cea mai fascinantă parte a construcției unui item este scrierea răspunsurilor greșite – distractorii. Într-un test de calitate, o variantă incorectă nu este niciodată pusă la întâmplare și nu trebuie să fie absurdă sau ridicolă. Un distractor excelent este o „capcană diagnostică". El trebuie să fie complet plauzibil și să se bazeze pe greșelile tipice (erori de calcul frecvente sau concepții greșite) pe care le fac elevii care nu stăpânesc materia.

Exemplu matematic: cerința este calculul expresiei |4-2|-|2-5|
Varianta A — 13
Distractor pentru elevul care adună pur și simplu toate cifrele, crezând greșit că modulul transformă toate semnele „minus" în „plus".
Varianta B — 5
Distractor pentru elevul care realizează calculul ca și cum modulul ar fi o simplă paranteză rotundă.
Varianta C — -1 ✓
Răspunsul corect. Când un elev alege Varianta B, sistemul află exact ce anume nu a înțeles acel elev, oferind profesorului informația exactă de care are nevoie pentru o intervenție remedială.
4. Regulile de aur: Fără capcane și fără indicii
Pentru a se asigura că itemii măsoară strict competența vizată și nu capacitatea elevului de a ghici, experții din proiect folosesc taxonomii internaționale stricte de redactare (precum cele dezvoltate de T.M. Haladyna). Profesorii care scriu itemii sunt antrenați să respecte zeci de reguli de aur:
Fără întrebări capcană
Itemii nu trebuie să fie complicați artificial pentru a păcăli elevii.
Evitarea indiciilor neintenționate
Răspunsul corect nu trebuie să iasă în evidență (de exemplu, fiind singurul răspuns mult mai lung și mai detaliat decât celelalte).
Interzicerea variantelor „Toate cele de mai sus" sau „Niciuna din cele de mai sus"
Acestea sunt considerate practici slabe de testare, deoarece un elev poate ghici răspunsul corect prin simplă excludere parțială.
Eliminarea dublelor negații
O cerință stufoasă și negativă testează mai degrabă atenția la lectură decât cunoștințele reale.
5. „Supraviețuirea celui mai puternic item" — Pilotarea
Cine scrie aceste întrebări? Răspunsul este simplu: profesorii români cu experiență la clasă, dar numai după ce au fost riguros formați și certificați de către experții psihometricieni. Însă, indiferent cât de bine antrenat este un profesor, el nu poate ști cu adevărat cât de bun este un item până când acesta nu se confruntă cu realitatea.

Pentru a obține un test cu 30 de întrebări finale, echipele de experți trebuie să redacteze de fapt între 10 și 13 ori mai mulți itemi (adică sute de întrebări).
Acești itemi sunt trimiși în faza de pilotare (pretestare), fiind rezolvați de mii de elevi din școlile pilot, în condiții reale de testare. Datele sunt apoi analizate de supercomputere folosind Teoria Răspunsului la Item (IRT). Sistemul calculează pentru fiecare întrebare în parte:
Parametrul b
Cât de dificilă este de fapt întrebarea.
Parametrul a
Cât de bine discriminează între elevii pregătiți și cei nepregătiți.
Parametrul c
Care este șansa de a fi ghicită la noroc.
Doar itemii care trec de acest filtru matematic riguros (aproximativ jumătate din cei scriși inițial) sunt considerați cu adevărat calibrați și sunt păstrați în Banca Națională de Itemi. Aceștia vor fi folosiți pentru a genera formele finale, perfect echivalente și sigure, ale viitoarelor evaluări din România.