|
|
Grovsortering. Vi er vilde med test - i skolen og til jobsamtaler. Men hvordan sikrer vi, at en test måler det, vi vil måle og ikke noget helt andet? Og kan den nogensinde erstatte et nøjere blik på den testede person?
»METTEEEE!«
En skov af højt hævede fingre følger kaldet til dørs på Søndermarkskolens bibliotek. I Københavns eget bud på en Vatikanstat, Frederiksberg, er 3.a og 3.b samlet til premiere på folkeskolens nationale matematiktest. Godt fyrre elever fordelt ved computere langs væggene og et stort bord mit i lokalet har på hver sin skærm fulgt en nedtælling, som børnene på behørig vis har deltaget i fra ti og ned til nul, men i stedet for den første opgave springer en besked frem:
»Testen er ikke lukket op af din lærer eller sat på pause.«
For enden af det store midterbord må lærer- Mette i aktion med lærercomputeren. På skærmen er elevernes navne listet op med mulighed for at afbryde, pausere og forlænge testen for hver enkelt elev. Efter et par klik på Mettes skærm fungerer alt, som det skal, og den første opgave – der ligesom testens øvrige opgaver er hemmelig og derfor ikke refereres her – lægger beslag på elevernes opmærksomhed. En dreng i skibukser kører søgende en finger hen over sin skærm i et forsøg på at knække koden, men må til sidst give fortabt. Fingeren ryger i vejret efter hjælp, og det er faktisk ikke snyd.
»Jeg må gerne hjælpe jer med at forstå, hvad der står. Det er jo matematik og ikke en læseprøve, vi har,« har Mette forklaret.
Et par bedende øjne falder på journalisten, der forsøger at sno sig udenom med en bemærkning om, at han ikke er så god til matematik – der er andre og mere kompetente hjælpere i lokalet.
Lærer-Mette og skolens administrative leder, Charlotte, pendulerer mellem de spørgelystne elever, og får støtte fra en uventet kant, da Kim Foss Hansen melder sig til hjælperkorpset. Han er også i langt højere grad end journalisten kompetent til at hjælpe 3.a og 3.b på Søndermarkskolen. Kim Foss Hansen er uddannet cand.psyk. og testudvikler siden 1981, hvor han var med til at lave sin første matematiktest til skoleelever. I dag er han privatpraktiserende konsulent og har hjulpet Skolestyrelsen med at kvalitetssikre de nationale test i matematik; og så har han sagt ja til at mødes på Søndermarkskolen for med udgangspunkt i de nationale matematiktest at fortælle om det fænomen, som i begyndelsen var et redskab til sortering af soldater under Anden Verdenskrig.
De nationale test er ikke blevet modtaget positivt alle steder, og særligt ikke i lærerstanden. Kritikken har især rettet sig mod, at testene er obligatoriske, og at lærerne derfor mister ejerskab og selvbestemmelse, men som Kim Foss Hansen understreger, er de test, han selv har været med til at konstruere siden begyndelsen af 1981, et bevis på, at test i folkeskolen ikke er en ny foreteelse. Når eleverne i landets folkeskoler sætter sig til computeren for at lade sig teste, sker det midlertidigt under en række forudsætninger, som er fastlagt fra politisk side. En af de vigtigste er, at testene skal være adaptive: Opgaverne er delt ind i fem sværhedsgrader, og efter de fem første opgaver begynder testprogrammet at tildele eleverne opgaver efter niveauet i deres tidligere besvarelser. Svarer eleven rigtigt, bliver den næste opgave sværere, er svaret forkert, bliver testen nemmere.
Eleverne bliver testet i matematik på 3. og 6. klassetrin, fordi det er her, de såkaldt »Fælles Mål« for folkeskoleelevers kunnen, har specificeret trinmål. Fælles Mål inddrager blandt andet de kompetencer, de internationale PISA-test bygger på, og det er langt fra alle trinmål i Fælles Mål, som lader sig teste i de nationale test. Faktisk er det stort set kun en af de fire hovedoverskrifter i Fælles Mål, nemlig »Matematiske emner«, som de praktiske færdigheder inden for opgavetyper som algebra, matematik og statistik hedder, der dækkes af testen. De tre andre overskrifter, »Matematiske kompetencer«, »Matematiske arbejdsmåder« og »Matematik i anvendelse«, handler i højere grad end de praktiske færdigheder om elevernes evner til at anvende matematik i mere abstrakte sammenhænge og de falder uden for testens område. Hvis en test skal give en bredere faglig tilbagemelding om elevernes samlede matematikkunnen, kræver det mere end de 45 minutter, der er sat som ramme for, hvor hurtigt testen bør kunne gennemføres.
De politiske krav om, at testene skulle være adaptive og kunne afvikles på 45 minutter har været grundlæggende præmisser for de opgaveudviklere, som under overordnet ledelse af rådgivningsvirksomheden Cowi har stået for udarbejdelsen af de nationale test. De trinmål i Fælles Mål, som det har været muligt at teste adaptivt, er blevet bundet sammen til tre profi lområder, for eksempel området Tal & Algebra, der indebærer de fire klassiske regnearter dividere, multiplicere, addere og subtrahere – eller på mere almindeligt dansk: Dele, gange, plus og minus.
Eleverne i 3. klasse skal svare på 15 opgaver i hvert af de tre profi lområder, før testprogrammet kan lave en statistisk valid beregning af elevens niveau. Selvom testen i princippet skal kunne afvikles på 45 minutter, betyder det ikke, at elverne i 3.a og b på Søndermarkskolen kun har et minut per opgave. Læreren har mulighed for at forlænge testen for hver enkelt elev eller endda give en pause, hvis et af børnene i klassen er ved at gå kold.
Træthed eller dårlige læseevner kan være faktorer, som påvirker barnets besvarelse af en opgave, men der kan også gemme sig andre, uforudsete faktorer, som gør en opgave nemmere for en speciel aldersgruppe, etnisk gruppe eller køn. Når testen skal bruges til at diagnosticere, hvordan det er fat med den enkelte elevs matematiske evner, er det vigtigt, at læreren kan stole på, at Rasmus’ og Annes testresultater er udtryk for deres matematiske niveau, og ikke for hvor stor en del af opgaverne der har handlet om »drengeting«.
»Testudviklerne kan gøre sig nogle overvejelser inden: For eksempel om kageopskrifter favoriserer pigerne, og om fodbold favoriserer drenge. Men det, man typisk gør, er at lave enormt mange opgaver, som sendes ud i en enormt stor afprøvning blandt 700 elever, som er repræsentativt udvalgt,« fortæller Kim Foss Hansen.
Derefter underkastes resultaterne en såkaldt Rasch-analyse, opkaldt efter statistikeren Georg Rasch. Metoden bruges til mange typer af test – også af voksne – hvor man skal gardere sig mod faktorer, der kan give testen bias, som videnskaben kalder det, når der er en fejl i en test, så den favoriserer en bestemt gruppe af testdeltagere. Raschanalysen er ret omfattende, da den som oftest viser sig at sortere 40-50 procent af de oprindelige opgaver fra, fordi de har vist sig at have bias. Derfor kræver den også, at testudviklerne udarbejder rigtig mange opgaver, men det store antal diskvalificerede opgaver viser netop Rasch-analysens berettigelse, siger Kim Foss Hansen:
»Når vi ser resultaterne bagefter, er det meget svært at analysere sig frem til, hvorfor lige præcis den enkelte opgave blev sorteret fra. Men når man har brugt den meget omstændelige analyse, som Rasch er, så kan man være temmelig sikker på, at der ikke er sluppet opgaver igennem, som favoriserer én type på bekostning af en anden.«
På Søndermarkskolen er halvdelen af eleverne i computerlokalet sivet ud i relativ god ro og orden. Deres navne er markeret med grønt på lærerens computer, mens de fleste af de tilbageværende elevers navne lyser gult, og to navne stadig er markeret med rødt, som da testen begyndte.
Trafiklysfarverne har intet med børnenes matematiske evner at gøre; i stedet fortæller de læreren, om eleven har løst tilstrækkeligt med opgaver til at beregne niveauet. Er farven gul, kan systemet godt lave en beregning, men for at være statistisk valid skal eleven helst i grøn status. Lærercomputeren fortæller, at en pige i lyserød trøje stadig er i rød status efter at have brugt omkring halvanden time på at besvare 13 opgaver. Til sammenligning nåede en af klassens drenge gennem 53 opgaver, inden han forlod lokalet, men det lader dog ikke til at bekymre læreren. »Hun var en af de bedste, da vi var med til at afprøve systemet. Hun er bare meget omhyggelig med alle opgaverne,« siger hun om pigen i den lyserøde trøje.
Et kvarter senere vælger Mette og skolens administrative leder at afbryde testen for de sidste elever. Pigen i den lyserøde trøje er stadig i rød status, og en håndfuld andre elever er markeret med gult på Mettes computer, men trætheden er efterhånden ved at melde sig, og klassen skal også videre i dagens skema. Testystemet gemmer børnenes besvarelser, og derfor kan Mette booke computerlokalet en anden dag, så alle elever kan få svaret på nok spørgsmål til at komme i grøn status.
Kim Foss Hansen advarer dog om en faktor, som kan betyde, at særlig dygtige elever aldrig opnår grøn status – og rent faktisk kan ende med en dårligere testscore, end de har gjort sig fortjent til. Testystemet opgør løbende elevens dygtighed, men kan først give et validt resultat, når det ved, hvornår eleven ikke længere kan svare rigtigt. For pigen i den lyserøde trøje på Søndermarkskolen betyder det, at hun ikke vil få grøn status, hvis hun slet ikke svarer forkert, og da der ikke er et ubegrænset antal opgaver i hver sværhedsgrad, kan en elev komme til at tømme opgavebankens sværeste kategori. Herefter fortsætter testen med opgaver fra den næstsværeste kategori, og det er ret afgørende, da elevens niveau beregnes efter, i hvilken kategori eleven slutter.
»Faren er, at man bliver kategoriseret forkert, hvis man har tømt enten den letteste eller sværeste kategori. Det er ikke noget, som kommer til at ske særlig tit, men det er vigtigt, at læreren går ind og vurderer, om elevens resultat ikke svarer til lærerens normale opfattelse af eleven, og så skal man ind og finde grunden til det,« siger Kim Foss Hansen.
De nationale test er konstrueret som et evalueringsredskab til læreren, som er matematikkyndig, kender eleverne og er bevidst om, at testen kun fortæller om elevens færdigheder inden for et lille udsnit af matematikken. Det kan man til gengæld ikke forvente af den samlede befolkning, hvis testresultaterne bliver offentliggjort.
»Man havde konstrueret testen på en anden måde, hvis formålet havde været at offentliggøre den. Med de nationale test tester vi kun færdigheder, men det ved læreren også godt, og han kan så forbinde det med sin forståelse og indsigt i faget. I det øjeblik, resultatet bliver offentliggjort, bliver et snævert felt af matematikken i offentligheden ophøjet til at være billedet på barnets generelle matematiske kunnen,« siger Kim Foss Hansen.
Selvom – eller måske netop på grund af – sine mange års erfaringer som testudvikler er Kim Foss Hansen meget bevidst om, at test er et redskab med begrænsninger, og det er vigtigt at huske i en tid, hvor fænomenet har opnået en enorm popularitet.
»Test er gode til at foretage en grovsortering. Hele testudviklingen startede fordi, man skulle finde ud af, om folk skulle i artilleriet eller i flåden under Anden Verdenskrig. Når man så har fået smidt dem ud, som bare skal grave grøfter, er man nødt til at sætte sig ned og bruge nogle andre redskaber,« siger Kim Foss Hansen.
I dag er der en tendens til, at man lægger større vægt på testen end på det, der følger bagefter. Hvis man ser på den store brug af test, for eksempel når man ansætter ledere i industrien, bliver testresultaterne tillagt en kolossal værdi, mens den menneskelige dømmekraft i samtalen glider i baggrunden,« siger Kim Foss Hansen.
Så man kan bruge test til at barbere 200 ansøgere ned til ti, men derfra er det også vigtigt at snakke med de ti tilbageværende i stedet for at kigge på testresultater?
»Ja, det er det.«