Forskerfejde. Der kan være noget helt galt med de test, der skal måle, hvor klog den kunstige intelligens er blevet.
Testkaos i AI-land
Epoch AI er blevet ramt af en interessant skandale. Epoch AI er et tilsyneladende uafhængigt forskningscenter, der med værdier som videnskabelig excellence og integritet kaster lys over udviklingen inden for kunstig intelligens, AI. Centeret er kendt for at stå bag den krævende FrontierMath-prøve, der bliver brugt til at teste AI-modellers matematikevner. Prøven blev udviklet i samarbejde med mere end 60 matematikere og er så svær, at ingen AI har fået hul på opgaverne. Eller sådan så det i hvert fald ud, indtil OpenAIs nye o3-model i december scorede godt 25 procent af de mulige point i testen.
Det var et imponerende resultat. Måske lidt for imponerende. I midten af januar kom det frem, at Epoch AI ikke var så uafhængig, som de havde givet indtryk af. Det viste sig, at deres matematiktest var et bestillingsarbejde, der i det skjulte var sponseret af OpenAI.
Del: