Skocz do zawartości
Forum Kopalni Wiedzy

Ranking


Popularna zawartość

Treść z najwyższą reputacją w 05.06.2025 uwzględniając wszystkie działy

  1. 2 punkty
    4o jest tragiczny pod względem "inteligencji", potrafi za to ładnie pisać i sprawia wrażenie, że ogarnia (chociaż w benchmarkach dot. kreatywności też wypada słabo). Nowa wersja R1 jest bardzo dobra. Wersja hostowana w USA jest dostępna za darmo na https://chat.together.ai/. Z amerykańskich darmowych najlepszy jest Gemini 2.5 Flash i Sonnet 4, pierwszy chyba nie ma limitu wiadomości, drugi na pewno tak. Benchmarki: https://scale.com/leaderboard, https://artificialanalysis.ai/, https://simple-bench.com/
  2. 1 punkt
    4o jest pod względem takich fuckupów modelem wybitnym. GPT-4.5 wypada dwukrotnie lepiej w testach na halucynacje a niedługo pojawi się GPT-5, więc istnieje szansa, że będzie to szło w lepszym kierunku. Najlepszą opcją na teraz, kiedy potrzebne są autentyczne informacje, są wszelkie wersje "Deep Research", bo o ile halucynacje nadal tam są to dużo rzadziej plus wszystko jest dobrze podlinkowane, a sam model ma dużo więcej zasobów i pseudo-autorefleksji, żeby wyłapać błędy (dzisiaj, nawet podczas zwykłej rozmowy z o3 bez deep research zauważyłem przypadkiem jedno z jego "przemyśleń": "I'm checking a previously found article titled Elderberry juice as a novel functional product, and something stands out. It mentions 30.85 mg of Cy-3-GE per mL of juice, which seems unusually high, almost too good to be true — that could potentially be a typo. This would convert to 30,850 mg per liter, which seems unrealistic. Perhaps they meant mg per 100 mL instead? I'll double-check the context to clarify this and ensure accuracy. Something doesn't quite add up."). Nie zdarzyło mi się osobiście przyłapać Gemini 2.5 Pro na czymkolwiek, chociaż na pewno jakieś fragmenty, z których nie korzystałem, miały błędy. o3 Deep Research miał kilka gorszych momentów, ale generalnie jest to absolutnie nieporównywalne do 4o.
  3. 1 punkt
    DeepSeek R1 został uaktualniony pod koniec maja i wypada dużo lepiej od poprzedniej wersji we wszystkich testach, jest porównywalny do najlepszych obecnie modeli w ich podstawowej formie, więc jak najbardziej możesz widzieć różnice. Gemini 2.5 Pro i o3 / o4-mini-high od OpenAI wypadają znacznie lepiej w praktyce w swoich aplikacjach, bo mają dodatkowe narzędzia - oba produkty mają Deep Research, generujący świetne raporty. o3 nawet w normalnej rozmowie potrafi myśleć kilka minut nad pojedynczą odpowiedzią, przeszukując wielokrotnie internet. W darmowym Gemini masz Deep Research z modelem 2.5 Flash, warto sprawdzić. Wersja 2.5 Pro robi obecnie najlepsze raporty moim zdaniem. Ale jeśli nie potrzebujesz takich narzędzi to DeepSeek / darmowe Gemini są świetną opcją.
Ten Ranking jest ustawiony na Warszawa/GMT+02:00
×
×
  • Dodaj nową pozycję...