Vďaka balíku FACTS Benchmark Suite mohol Google otestovať efektivitu a pravdivosť údajov populárnych AI chatbotov. Závery štúdie však nie sú pozitívne.
Údaje zo správy ukazujú, že ani jeden z 15 testovaných modelov neprekročil hranicu 70-percentnej faktickej presnosti. V praxi to znamená, že takmer jedna z troch odpovedí nie je v súlade so skutočnosťou.
Najlepším modelom sa podľa testov stal Gemini 3 Pro od Google, ktorý dosiahol presnosť 69 %. Za ním nasledujú Gemini 3.5 Pro a GPT 5. Tie ako jediné prekročili hranicu 60 %.
Výsledky jasne ukazujú, že vývojári majú pred sebou ešte dlhú cestu k dosiahnutiu skutočnej spoľahlivosti. Zároveň ide o varovanie, že všetky informácie poskytované týmito nástrojmi je nutné dôkladne overovať.
Tento článok pochádza z partnerského webu vydavateľstva Ringier.