Wikipedia, una dintre cele mai mari surse de informații online, face un pas strategic spre viitorul inteligenței artificiale. Filiala germană a Fundației Wikimedia a anunțat lansarea Wikidata Embedding Project, o inițiativă care promite să facă datele enciclopediei mult mai ușor de folosit de către modelele AI.

Dacă până acum accesarea informațiilor se făcea prin căutări limitate la cuvinte-cheie sau interogări complicate, noul sistem adaugă căutare semantică pe bază de vectori, o tehnologie prin care algoritmii pot înțelege mai bine sensurile și relațiile dintre termeni. Rezultatul? O bază de date de peste 120 de milioane de intrări, capabilă să răspundă la întrebări formulate în limbaj natural și compatibilă cu metode moderne precum retrieval-augmented generation (RAG).

De ce contează acest pas pentru inteligența artificială

Proiectul, dezvoltat alături de Jina.AI și DataStax, nu transformă Wikipedia doar într-o colecție statică de articole, ci într-un ecosistem inteligent: căutările pentru „om de știință” nu returnează doar o listă de nume, ci și subcategorii (ex. „oameni de știință nucleari”), iar rezultatele includ imagini aprobate de Wikimedia și traduceri în mai multe limbi.

De asemenea, apar termeni înrudiți, precum „academic” sau „cercetător”, care dau context suplimentar. Prin comparație cu seturi de date precum Common Crawl, care pun accent pe volum, avantajul aici este acuratețea, informațiile fiind verificate constant de comunitatea Wikipedia.

Momentul lansării nu este întâmplător. Dezbaterile privind utilizarea conținutului protejat de copyright pentru antrenarea AI s-au intensificat, mai ales după ce Anthropic a plătit 1,5 miliarde de dolari pentru a închide un proces intentat de autori. În acest context, Wikidata Embedding oferă o alternativă transparentă și sustenabilă pentru dezvoltatori.

