Deși Inteligența Artificială pare să transforme tehnologia din jurul nostru, se confruntă cu mari limite în înțelegerea și rezolvarea problemelor avansate de matematică. Conform unui studiu realizat de Epoch AI, modelele ChatGPT și Gemini, lideri în domeniul AI, nu reușesc să rezolve mai mult de 2% din problemele incluse în benchmark-ul FrontierMath, un test conceput pentru a evalua capacitățile de raționare matematică la nivel de cercetare.
FrontierMath este un test complex care conține sute de probleme avansate, dezvoltate de un grup de peste 60 de matematicieni de renume. Testul solicită abilități superioare de raționare și creativitate, domenii în care modelele lingvistice actuale se dovedesc a fi extrem de slabe. În acest context, versiunile avansate ale ChatGPT și Gemini, cum ar fi ChatGPT-4 și Gemini 1.5 Pro, au înregistrat o rată de eșec de 98%, oferind răspunsuri inexacte.
Spre deosebire de alte domenii, unde Inteligența Artificială poate genera răspunsuri prin predicția cuvintelor următoare, problemele de matematică avansată necesită o structură logică clară și menținerea unei evidențe riguroase a datelor numerice. Modelele lingvistice sunt cunoscute pentru tendința lor de a „ghici” răspunsuri atunci când informațiile lipsesc, iar în testele FrontierMath, acest lucru a dus la rezultate profund eronate.
Problemele din FrontierMath sunt complet noi și nepublicate, eliminând astfel posibilitatea ca modelele să se antreneze cu date rezolvate anterior. Aceste provocări necesită nu doar calcule, ci și cunoștințe interdisciplinare avansate, la nivel de expert în matematică. Profesorul Terence Tao de la Universitatea din California subliniază că și studenții absolvenți pot întâmpina dificultăți în fața unor astfel de probleme, ceea ce ridică întrebări serioase despre capacitatea AI-ului de a ajunge la acest nivel de complexitate.