4o jest pod względem takich fuckupów modelem wybitnym. GPT-4.5 wypada dwukrotnie lepiej w testach na halucynacje a niedługo pojawi się GPT-5, więc istnieje szansa, że będzie to szło w lepszym kierunku. Najlepszą opcją na teraz, kiedy potrzebne są autentyczne informacje, są wszelkie wersje "Deep Research", bo o ile halucynacje nadal tam są to dużo rzadziej plus wszystko jest dobrze podlinkowane, a sam model ma dużo więcej zasobów i pseudo-autorefleksji, żeby wyłapać błędy (dzisiaj, nawet podczas zwykłej rozmowy z o3 bez deep research zauważyłem przypadkiem jedno z jego "przemyśleń": "I'm checking a previously found article titled Elderberry juice as a novel functional product, and something stands out. It mentions 30.85 mg of Cy-3-GE per mL of juice, which seems unusually high, almost too good to be true — that could potentially be a typo. This would convert to 30,850 mg per liter, which seems unrealistic. Perhaps they meant mg per 100 mL instead? I'll double-check the context to clarify this and ensure accuracy. Something doesn't quite add up."). Nie zdarzyło mi się osobiście przyłapać Gemini 2.5 Pro na czymkolwiek, chociaż na pewno jakieś fragmenty, z których nie korzystałem, miały błędy. o3 Deep Research miał kilka gorszych momentów, ale generalnie jest to absolutnie nieporównywalne do 4o.