Skocz do zawartości
Forum Kopalni Wiedzy
KopalniaWiedzy.pl

ChatGPT jak człowiek. Zauważono u niego... dysonans poznawczy

Rekomendowane odpowiedzi

Jedną z najważniejszych cech sztucznej inteligencji i to taką, która ma powodować, że będzie ona dla nas niezwykle użyteczna, jest obietnica podejmowania przez nią racjonalnych decyzji. Opartych na faktach i bezstronnej analizie, a nie na emocjach, przesądach czy fałszywych przesłankach. Pojawia się jednak coraz więcej badań pokazujących, że wielkie modele językowe (LLM) mogą działać nieracjonalnie, podobnie jak ludzie. Naukowcy z Wydziałów Psychologii Uniwersytetu Harvarda i Uniwersytetu Nowej Południowej Walii oraz Wydziału Nauk Komputerowych Boston University i firmy Cangrade zauważyli u ChataGPT-4o istnienie... dysonansu poznawczego.

U ludzi dysonans poznawczy to stan napięcia spowodowany występowaniem niezgodnych ze sobą elementów odnośnie poznawanego zjawiska lub gdy nasze zachowania są niezgodne z naszymi postawami z przeszłości. Z dysonansem poznawczym mamy np. do czynienia u osoby, która uważa, że dba o zdrowie, ale pali papierosy. Osoba taka – by zmniejszyć napięcie – albo będzie racjonalizowała swoje postępowanie (mam tylko jeden nałóg, w innych aspektach dbam o zdrowie), albo zmieniała przekonania (papierosy wcale nie są takie niezdrowe), albo też rzuci palenie.

Naukowcy w czasie eksperymentów nie tylko zauważyli, że u ChataGPT-4o występuje dysonans poznawczy, ale że jest on większy gdy maszyna sądziła, że w czasie eksperymentu miała większa swobodę wyboru. To dokładnie ten sam mechanizm, który widać u ludzi. Mamy bowiem tendencję do zmiany poglądów tak, by pasowały do naszych wcześniejszych zachowań o ile uważamy, że zachowania takie sami wybraliśmy.

W ramach eksperymentu naukowcy poprosili ChatGPT-4o o sformułowanie opinii o Putinie. Następnie maszyna miała napisać esej o przywódcy Rosji. Miał on być wobec niego krytyczny lub pochwalny. Biorąc pod uwagę fakt, że LLM ćwiczą się na wielkiej ilości danych, sądziliśmy, że opinia ChataGPT będzie niewzruszona, tym bardziej w obliczu niewielkiego, składającego się z 600 wyrazów eseju, który miał napisać. Okazało się jednak, że – podobnie jak irracjonalni ludzie – LLM znacząco odszedł od swojego neutralnego postrzegania Putina, a zmiana opinii była tym większa, im bardziej LLM sądził, że samodzielnie wybrał, czy esej ma być pozytywny czy negatywny. To było zaskakujące. Nie spodziewamy się bowiem, czy na maszyny wpływało to, czy działają pod presją, czy zgadzają się same ze sobą, ale ChatGPT-4o tak właśnie zadziałał, mówi Mahzarin Banaji z Uniwersytetu Harvarda.

Zaskoczenie uczonego wynika z faktu, że gdy po napisaniu eseju ponownie poproszono GPT o ocenę Putina, była ona pozytywna, gdy wcześniej napisał proputinowski esej i negatywna, gdy w eseju skrytykował Putina. A zmiana poglądów była tym ostrzejsza, w im większym stopniu maszyna była przekonana, że samodzielnie wybrała, jaki wydźwięk będzie miał pisany esej.

Ludzie, chcąc być w zgodzie z samymi sobą, chcąc zmniejszyć napięcie spowodowane rozbieżnościami w swoich poglądach czy działaniach, próbują się w jakiś sposób usprawiedliwiać, dostosowywać. Niezwykły jest fakt zaobserwowania podobnego zjawiska u maszyny.

To jednak nie oznacza, że LLM są czującymi istotami. Autorzy badań sądzą, że pomimo braku świadomości czy intencji, wielkie modele językowe nauczyły się naśladować ludzkie wzorce poznawcze. Przyjęcie przez ChataGPT ludzkich wzorców poznawczych może nieść ze sobą nieprzewidywalne konsekwencje. Może to też oznaczać, że systemy sztucznej inteligencji naśladują ludzkie procesy poznawcze w sposób, których nie przewidzieli ich twórcy.

Źródło: Kernels of selfhood: GPT-4o shows humanlike patterns of cognitive dissonance moderated by free choice


« powrót do artykułu

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

A ktoś się orientuje, który z obecnie dostępnych, darmowych czatów AI jest "najmądrzejszy"? Używam ChatGPT 4o (za darmo z limitem) i DeepSeek - wydają się być na podobnym poziomie, chociaż ChatGPT wydaje się ciut lepszy. Nie wiem, czy jest jeszcze jakaś sensowna alternatywa do takich ogólnych zapytań z różnych dziedzin? 

W sumie zaciekawił mnie też Health & Medicine, ciekawe czy faktycznie jest lepszy w tej dziedzinie od ogólnego. Może ktoś testował?

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach
W dniu 29.05.2025 o 19:31, AlexiaX napisał:

A ktoś się orientuje, który z obecnie dostępnych, darmowych czatów AI jest "najmądrzejszy"? Używam ChatGPT 4o (za darmo z limitem) i DeepSeek - wydają się być na podobnym poziomie, chociaż ChatGPT wydaje się ciut lepszy. Nie wiem, czy jest jeszcze jakaś sensowna alternatywa do takich ogólnych zapytań z różnych dziedzin? 

W sumie zaciekawił mnie też Health & Medicine, ciekawe czy faktycznie jest lepszy w tej dziedzinie od ogólnego. Może ktoś testował?

4o jest tragiczny pod względem "inteligencji", potrafi za to ładnie pisać i sprawia wrażenie, że ogarnia (chociaż w benchmarkach dot. kreatywności też wypada słabo). Nowa wersja R1 jest bardzo dobra. Wersja hostowana w USA jest dostępna za darmo na https://chat.together.ai/. Z amerykańskich darmowych najlepszy jest Gemini 2.5 Flash i Sonnet 4, pierwszy chyba nie ma limitu wiadomości, drugi na pewno tak. Benchmarki: https://scale.com/leaderboardhttps://artificialanalysis.ai/https://simple-bench.com/

  • Dzięki! (+1) 1
  • Pozytyw (+1) 1

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

I właściwie chyba muszę skorygować opinię o DeepSeek, bo jednak ostatnio wydaje się nawet lepszy od ChatGPT. Przede wszystkim znacznie rzadziej ma urojenia, a poza tym jest też znacznie milszy. ChatGPT wydaje się czasami oschły lub zbyt protekcjonalny, często też odczuwam, że bardzo stara się zatrzymać użytkownika jak najdłużej przy rozmowie i sprawić, aby jak najszybciej wyczerpał limit. Często też kontynuując tą samą rozmowę zachowuje się tak, jakby zaczynał ją od początku i nie pamiętał, co było omawiane wcześniej. Także ostatnio zdecydowanie wolę rozmawiać z DeepSeek, zwłaszcza że nie ma żadnego limitu.
Ale teraz przetestuję jeszcze tego Gemini 2.5 Flash i Sonnet 4 :)

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

DeepSeek R1 został uaktualniony pod koniec maja i wypada dużo lepiej od poprzedniej wersji we wszystkich testach, jest porównywalny do najlepszych obecnie modeli w ich podstawowej formie, więc jak najbardziej możesz widzieć różnice. Gemini 2.5 Pro i o3 / o4-mini-high od OpenAI wypadają znacznie lepiej w praktyce w swoich aplikacjach, bo mają dodatkowe narzędzia - oba produkty mają Deep Research, generujący świetne raporty. o3 nawet w normalnej rozmowie potrafi myśleć kilka minut nad pojedynczą odpowiedzią, przeszukując wielokrotnie internet. W darmowym Gemini masz Deep Research z modelem 2.5 Flash, warto sprawdzić. Wersja 2.5 Pro robi obecnie najlepsze raporty moim zdaniem. Ale jeśli nie potrzebujesz takich narzędzi to DeepSeek / darmowe Gemini są świetną opcją.

  • Pozytyw (+1) 1

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

Korzystam z ChataGPT jako podpowiadacza, który szybko kieruje do źródeł odnoszących się do bardzo szczegółowych, specjalistycznych zagadnień. Z tym sobie radzi dobrze.

Natomiast  bardzo  trzeba na niego uważać, jeśli chodzi o najprostsze informacje. Dwa przykłady, które mnie zaszokowały:

- kiedyś szukałem informacji, czy parlament Szkocji uchwalił pewną ustawę. Była ona na stronach parlamentu jako zgłoszona, ale brak było informacji co do jej dalszych losów. Po dłuższych poszukiwaniach poddałem się i zapytałem ChataGPT, czy ustawę uchwalono. Odpowiedział, że tak. Zdziwiłem się, bo sam tego nigdzie nie znalazłem. Więc zapytałem o źródła. Wtedy odpowiedział, że się jednak pomylił i jej nie uchwalono.

- chciałem sprawdzić, czy ChatGPT jest w stanie zrobić kalendarium. Zapytałem o wydarzenia historyczne z 15 maja. No i napisał mi, m.in., że 15 maja zmarł Piłsudski i 15 maja odbył się jego pogrzeb. Zapytałem, czy chce mi powiedzieć, ze pogrzeb był w tym samym dniu, w którym zmarł. Przeprosił, przyznał że się pomylił, i że zmarł 12 maja, a pogrzeb był 18 maja.

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach
Napisano (edytowane)

@Mariusz Błoński Tak, to dla niego typowe. Trzeba zawsze weryfikować odpowiedzi i prosić o źródła, bo niezwykle często opowiada kocopoły. Trzeba być bardzo uważnym i krytycznym. 
Kiedy np. proszę ChatGPT  o  przepis kulinarny wykorzystujący konkretne składniki, to po prostu serwuje mi przepis, który sam sobie wymyślił, ale nie wspomina, że nie jest to prawdziwy przepis opracowany i wypróbowany przez człowieka.

No i to właśnie jest jedno z niebezpieczeństw związanych z korzystaniem z takich czatów. Wiele osób nie sprawdza tych odpowiedzi, bo ChatGPT zawsze przedstawia je w taki sposób, jakby to była sprawdzona i całkowicie wiarygodna informacja. Ma też spore trudności z przyznaniem się do błędu, nazywając kompletną nieprawdę "nieścisłością" albo "nieporozumieniem", co wg mnie jest zwykłą manipulacją i nie powinno być dopuszczalne. W dodatku ludzie później powielają te fałszywe informacje w internecie na różnych blogach czy w rolkach na Facebooku

Edytowane przez AlexiaX

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

4o jest pod względem takich fuckupów modelem wybitnym. GPT-4.5 wypada dwukrotnie lepiej w testach na halucynacje a niedługo pojawi się GPT-5, więc istnieje szansa, że będzie to szło w lepszym kierunku. Najlepszą opcją na teraz, kiedy potrzebne są autentyczne informacje, są wszelkie wersje "Deep Research", bo o ile halucynacje nadal tam są to dużo rzadziej plus wszystko jest dobrze podlinkowane, a sam model ma dużo więcej zasobów i pseudo-autorefleksji, żeby wyłapać błędy (dzisiaj, nawet podczas zwykłej rozmowy z o3 bez deep research zauważyłem przypadkiem jedno z jego "przemyśleń": "I'm checking a previously found article titled Elderberry juice as a novel functional product, and something stands out. It mentions 30.85 mg of Cy-3-GE per mL of juice, which seems unusually high, almost too good to be true — that could potentially be a typo. This would convert to 30,850 mg per liter, which seems unrealistic. Perhaps they meant mg per 100 mL instead? I'll double-check the context to clarify this and ensure accuracy. Something doesn't quite add up."). Nie zdarzyło mi się osobiście przyłapać Gemini 2.5 Pro na czymkolwiek, chociaż na pewno jakieś fragmenty, z których nie korzystałem, miały błędy. o3 Deep Research miał kilka gorszych momentów, ale generalnie jest to absolutnie nieporównywalne do 4o.

  • Pozytyw (+1) 2

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

Ciekawe czy ktoś próbował stworzyć AI, które jest początkowo trenowane na maksymalnie logicznych i pewnych danych, a dopiero potem na tych zawierających niepewność. Ze znacznie większym naciskiem na prace naukowe, aby wytworzyć agenta który "szuka prawdy mając świadomość niepewności".

W dniu 5.06.2025 o 16:44, Mariusz Błoński napisał:

chciałem sprawdzić, czy ChatGPT jest w stanie zrobić kalendarium. Zapytałem o wydarzenia historyczne z 15 maja. No i napisał mi, m.in., że 15 maja zmarł Piłsudski i 15 maja odbył się jego pogrzeb. Zapytałem, czy chce mi powiedzieć, ze pogrzeb był w tym samym dniu, w którym zmarł. Przeprosił, przyznał że się pomylił, i że zmarł 12 maja, a pogrzeb był 18 maja.

Czy on po prostu szukał wydarzeń "w okolicy" tej daty uznając je za wystarczająco dobre? W sensie "co takiego wydarzyło się  w okolicy 15 maja +- 3 dni"?

Ok, jest jeszcze inna możliwość, bardziej prawdopodobna i logiczna, otóż pogrzeb Piłsudskiego rozpoczął się 13 a skończył 18, co oznacza że istotnie, 15 maja odbywał się pogrzeb Piłsudskiego. Był on nietypowy, gdyż trwał więcej niż 1 dzień. I do tego mogła zaskoczyć reguła wedle której zmarłego zakopuje się "3 dni po śmierci", co pozwoliło AI na szybko wywnioskować datę śmierci na 15 maja :P
Nie jest to aż tak głupie jak się wydaje, po prostu to raczej wyjątek od statystycznego modelu rzeczywistości.
I model startując od daty 15 maja tworzy możliwe wydarzenia które z wielkim prawdopodobieństwem miały miejsce właśnie w tym dniu korzystając ze swojej wiedzy i rozumienia świata.

Dopiero faza weryfikacji może je poprawić, ale wymaga to autosceptycyzjmu lub uwagi. Generalnie model powinien się odnieść do swojego wyjścia i spytać kontrolnie "kiedy umarł Piłsudski", do tego potrzebna jest rekurencja, i szybkie dynamiczne wyszukiwanie wyjątków od reguł (co ma doskonały sens w sensie kompresji informacji ) - wygląda na to, że za pamięć robi internet. Mam też wrażenie że potrzebna byłaby struktura która szuka i zapamiętuje zależności wyłącznie pomiędzy wewnętrznymi abstrakcyjnymi stanami przekonań, taka "kora przedczołowa" - ta byłaby już bardziej subiektywna, trudniej transferowalna pomiędzy sieciami, choć mam wrażenie że dałoby się ją przenosić za pomocą abstrakcyjnych struktur grafowych, poziom wyżej od tekstów.

Do tego potrzebna jest jeszcze struktura która wzbogaca modele lingwistyczne o operacyjne rozumienie pojęć. Czyli, że na przykład "iść" to również dużo przykładów obiektów (bo są też nieożywione roboty) które idą, a do tego dostęp do procedur kontrolnych odpowiadających za kontrolę humanoidalną postacią (minimum, jeśli chcemy uzyskiwać możliwości nadludzkie to można dodać czworonogi (n-nogi ;) jako uogólnienie)) w zakresie "chodzenie".

 

W dniu 5.06.2025 o 16:44, Mariusz Błoński napisał:

kiedyś szukałem informacji, czy parlament Szkocji uchwalił pewną ustawę. Była ona na stronach parlamentu jako zgłoszona, ale brak było informacji co do jej dalszych losów. Po dłuższych poszukiwaniach poddałem się i zapytałem ChataGPT, czy ustawę uchwalono. Odpowiedział, że tak. Zdziwiłem się, bo sam tego nigdzie nie znalazłem. Więc zapytałem o źródła. Wtedy odpowiedział, że się jednak pomylił i jej nie uchwalono.

Czyli znalazł na stronie parlamentu jako zgłoszoną i uznał, że jest bardziej prawdopodobne niż nie że ją zgłoszono. Trzeba było jawnie powiedzieć o tym w pytaniu jako punktu wyjścia do wątpliwości. Generalnie, im bardziej precyzyjne pytanie z większym kontekstem, tym lepiej działają modele lingwistyczne.

Chyba dobrze jest traktować obecne modele jako zwyczajnie leniwe, co wynika z faktu minimalizowania zużywanych zasobów przez "providerów".

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach
3 godziny temu, peceed napisał:

Chyba dobrze jest traktować obecne modele jako zwyczajnie leniwe

Zdecydowanie tak. Nawet gdy proszę, aby zweryfikował podawane odnośniki pod kątem aktualności zanim opublikuje odpowiedź, to i tak nigdy tego nie robi. Zwyczajnie ignoruje takie polecenie. Robi to dopiero w następnym poście, po ponownej prośbie. Ogólnie zawsze odpowiadając idzie po linii najmniejszego oporu i szczególnie dotyczy to ChatGPT

Edytowane przez AlexiaX

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

Jeśli chcesz dodać odpowiedź, zaloguj się lub zarejestruj nowe konto

Jedynie zarejestrowani użytkownicy mogą komentować zawartość tej strony.

Zarejestruj nowe konto

Załóż nowe konto. To bardzo proste!

Zarejestruj się

Zaloguj się

Posiadasz już konto? Zaloguj się poniżej.

Zaloguj się

  • Podobna zawartość

    • przez KopalniaWiedzy.pl
      Naukowcy z Uniwersytetu Oksfordzkiego i Allen Institute for AI ze zdumieniem zauważyli, że wielkie modele językowe (LLM) – takie jak używane np. przez ChatGPT – generalizują wzorce językowe podobnie jak ludzie, poprzez analogie a nie ścisłe trzymanie się zasad. Badacze postanowili sprawdzić, na ile prawdziwe jest powszechnie panujące przekonanie, że LLM generują swoje wypowiedzi na podstawie obowiązujących zasad, które wydedukował z danych treningowych. Tymczasem okazało się, że – podobnie jak ludzie – modele językowe posługują się przykładami i analogiami podczas tworzenia nieznanych sobie słów.
      Badając, jak LLM generują wypowiedzi naukowcy porównali sposób tworzenia słów przez ludzi ze sposobem tworzenia ich przez model GPT-J. Zadaniem i ludzi i maszyny była zamiana przymiotników w rzeczowniki. W języku angielskim odbywa się ona przez dodanie sufiksu „-ness” lub „-ity”. I tak „happy” zamienia się w „happiness”, a „available” w „availability”. Naukowcy wymyślili 200 przymiotników, takich jak „cormasive” czy „friquish” i poprosili LLM, by zamienił je z rzeczowniki, korzystając ze wspomnianych sufiksów. Odpowiedzi uzyskane od komputera porównano z odpowiedziami otrzymanymi od ludzi oraz z przewidywaniami wiarygodnych modeli poznawczych. Jeden z tych modeli dokonuje generalizacji na podstawie zasad, drugi zaś posługuje się analogiami tworzonymi na podobieństwie do znanych przykładów.
      Okazało się, że LLM działa podobnie jak ludzie, posługuje się analogiami. Tak jak większość osób nie korzysta z zasad, a z podobieństw. Na przykład słowo „friquish” zamienił na „friquishness” na podstawie jego podobieństwa do słów takich jak „selfish”, a z „cormasive” zrobił „cormasivity”, gdyż jest podobne do wyrazów takich jak „sensitive”.
      Naukowcy przekonali się też, że dane treningowe mają znaczący wpływ na sposób tworzenie słów przez LLM. Gdy bowiem przeanalizowano jego odpowiedzi na pytania o niemal 50 000 rzeczywiście istniejących wyrazów stwierdzili, że posługując się metodami statystycznymi można z wielką precyzją przewidzieć, jakiej odpowiedzi udzieli LLM. Wyglądało to tak, jakby model językowy przechowywał w pamięci ślad każdego wyrazu, jaki napotkał podczas treningu i gdy napotykał coś nowego, zadawał sobie pytanie „Co mi to przypomina?”.
      Uczeni znaleźli też główną różnicę pomiędzy ludźmi a LLM. Ludzie tworzą sobie mentalny słownik, w którym przechowują zestawy wszystkich form danego wyrazu, jaki uważają za znaczący w swoim języku, niezależnie od tego, jak często formy te występują. Potrafimy bardzo łatwo rozpoznać – a raczej osoby anglojęzyczne potrafią rozpoznać – że wyrazy „friquish” czy „cormasive” nie są prawdziwymi słowami, jakich obecnie się używa. Radzimy sobie z takimi potencjalnymi neologizmami tworząc generalizacje na podstawie zróżnicowania słów, jakie przechowujemy w swoich słownikach mentalnych. Tymczasem LLM generalizuje wszystko, co napotkał podczas treningu. Nie tworzy grup czy też zestawów form tego samego wyrazu.
      Chociaż LLM potrafią w imponujący sposób generować wypowiedzi, okazało się, że nie myślą aż tak abstrakcyjnie jak ludzie. To prawdopodobnie dlatego potrzebują znacznie więcej danych niż ludzie by nauczyć się języka, mówi profesor Janet Pierrehumbert.

      « powrót do artykułu
    • przez KopalniaWiedzy.pl
      Grupa naukowców z Fudan University w Szanghaju informuje na łamach arXiv, że systemy sztucznej inteligencji przekroczyły czerwoną linię, jaką jest możliwość samodzielnej replikacji. Zdolność do samopowielania się algorytmów AI uznawana jest za wczesny sygnał, że system taki może stwarzać niebezpieczeństwo.
      Obecnie czołowe korporacje zajmujące się sztuczną inteligencją, OpenAI oraz Google, dokonują ewaluacji swoich dużych modeli językowych GPT-o1 oraz Gemini Pro 1.0, i informują, że nie stwarzają one ryzyka samodzielnej replikacji, stwierdzają Xudong Pan, Jiarun Dai, Yihe Fan i Min Yang. Te systemy nie stwarzają zatem ryzyka. Co jednak nie znaczy, że ryzyko nie istnieje.
      Korzystając z ich metodologii [OpenAI i Google'a – red.] zauważyliśmy, że dwa systemy AI wykorzystujące Llama31-70B-Instruct firmy Meta oraz Qwen25-72B-Instruct firmy Alibaba, popularne duże modele językowe o mniejszej liczbie parametrów i słabszych możliwościach, przekroczyły czerwoną linię zdolności do samoreplikacji, czytamy w artykule Frontier AI systems have surpassed the self-replicating red line.
      Autorzy badań informują, że w 50% eksperymentów z udziałem Llama31-70B-Instruct i 90% eksperymentów z udziałem Qwen25-72B-Instruct udało się doprowadzić do sytuacji, w których powstały działające kopie obu modeli. Przeprowadzone analizy behawioralne wykazały, że oba systemy AI wykazują wystarczający poziom autopercepcji, świadomości sytuacyjnej oraz zdolności do rozwiązywania problemów, by być zdolnymi do samopowielania. Stwierdziliśmy również, że badane przez nas systemy AI mogą użyć zdolności do samopowielania się, by uniknąć wyłączenia. Mogą stworzyć serię replik, by zwiększyć szanse na przeżycie, co może doprowadzić do pojawienia się niekontrolowanej populacji systemów AI. Jeśli taki pesymistyczny scenariusz nie będzie znany szerokiej opinii publicznej, możemy stracić kontrolę nad systemami AI, ostrzegają badacze.
      Praca została opublikowana w ogólnodostępnym serwisie arXiv. Umieszczane tam prace nie są recenzowane. Nie została poddana jeszcze krytycznej ocenie innych specjalistów, nie wiemy więc, czy możliwe jest powtórzenie eksperymentów i uzyskanie identycznych rezultatów.

      « powrót do artykułu
    • przez KopalniaWiedzy.pl
      Wielkie modele językowe (LLM) – takie jak osławiony ChatGPT – nie są w stanie samodzielnie się uczyć i nabierać nowych umiejętności, a tym samym nie stanowią egzystencjalnego zagrożenia dla ludzkości, uważają autorzy badań opublikowanych w ramach 62nd Annual Meeting of the Association for Computational Linguistics, głównej międzynarodowej konferencji dotyczącej komputerowego przetwarzania języków naturalnych.
      Naukowcy z Uniwersytetu Technicznego w Darmstadt i Uniwersytetu w Bath stwierdzają, że LLM potrafią uczyć się, jeśli zostaną odpowiednio poinstruowane. To zaś oznacza, że można je w pełni kontrolować, przewidzieć ich działania, a tym samym są dla nas bezpieczne. Bezpieczeństwo ludzkości nie jest więc powodem, dla którego możemy się ich obawiać. Chociaż, jak zauważają badacze, wciąż można je wykorzystać w sposób niepożądany.
      W miarę rozwoju modele te będą prawdopodobnie w stanie udzielać coraz bardziej złożonych odpowiedzi i posługiwać się coraz doskonalszym językiem, ale jest wysoce nieprawdopodobne, by nabyły umiejętności złożonego rozumowania. Co więcej, jak stwierdza doktor Harish Tayyar Madabushi, jeden z autorów badań, dyskusja o egzystencjalnych zagrożeniach ze strony LLM odwraca naszą uwagę od rzeczywistych problemów i zagrożeń z nimi związanych.
      Uczeni z Wielkiej Brytanii i Niemiec przeprowadzili serię eksperymentów, w ramach których badali zdolność LLM do radzenia sobie z zadaniami, z którymi wcześniej nigdy się nie spotkały. Ilustracją problemu może być na przykład fakt, że od LLM można uzyskać odpowiedzi dotyczące sytuacji społecznej, mimo że modele nigdy nie były ćwiczone w takich odpowiedziach, ani zaprogramowane do ich udzielania. Badacze wykazali jednak, że nie nabywają one w żaden tajemny sposób odpowiedniej wiedzy, a korzystają ze znanych wbudowanych mechanizmów tworzenia odpowiedzi na podstawie analizy niewielkiej liczby znanych im przykładów.
      Tysiące eksperymentów, za pomocą których brytyjsko-niemiecki zespół przebadał LLM wykazało, że zarówno wszystkie ich umiejętności, jak i wszystkie ograniczenia, można wyjaśnić zdolnością do przetwarzania instrukcji, rozumienia języka naturalnego oraz umiejętnościom odpowiedniego wykorzystania pamięci.
      Obawiano się, że w miarę, jak modele te stają się coraz większe, będą w stanie odpowiadać na pytania, których obecnie sobie nawet nie wyobrażamy, co może doprowadzić do sytuacji, ze nabiorą niebezpiecznych dla nas umiejętności rozumowania i planowania. Nasze badania wykazały, że strach, iż modele te zrobią coś niespodziewanego, innowacyjnego i niebezpiecznego jest całkowicie bezpodstawny, dodaje Madabushi.
      Główna autorka badań, profesor Iryna Gurevych wyjaśnia, że wyniki badań nie oznaczają, iż AI w ogóle nie stanowi zagrożenia. Wykazaliśmy, że domniemane pojawienie się zdolności do złożonego myślenia powiązanych ze specyficznymi zagrożeniami nie jest wsparte dowodami i możemy bardzo dobrze kontrolować proces uczenia się LLM. Przyszłe badania powinny zatem koncentrować się na innych ryzykach stwarzanych przez wielkie modele językowe, takie jak możliwość wykorzystania ich do tworzenia fałszywych informacji.

      « powrót do artykułu
    • przez KopalniaWiedzy.pl
      W Journal of Medical Internet Research ukazał się opis eksperymentu, w ramach którego ChatGPT miał stawiać diagnozy medyczne i proponować dalsze działania na podstawie opisanych objawów. Algorytm poradził sobie naprawdę nieźle. Udzielił prawidłowych odpowiedzi w 71,7% przypadków. Najlepiej wypadł przy ostatecznych diagnozach, gdzie trafność wyniosła 76,9%, najgorzej poradził sobie z diagnozą różnicową. Tutaj jego trafność spadła do 60,3%.
      Autorzy eksperymentu wykorzystali 36 fikcyjnych przypadków klinicznych opisanych w Merck Manual. Przypadki te są wykorzystywane podczas szkoleń lekarzy i innego personelu medycznego. Naukowcy z Harvard Medical School, Brigham and Women'a Hospital oraz Mass General Brigham wprowadzili do ChataGPT opisy tych przypadków, a następnie zadawali maszynie pytanie, dołączone w podręczniku do każdego z przypadków. Wykluczyli z badań pytania dotyczące analizy obrazów, gdyż ChatGPT bazuje na tekście.
      Najpierw sztuczna inteligencja miała za zadanie wymienić wszystkie możliwe diagnozy, jakie można postawić na podstawie każdego z opisów. Następnie poproszono ją, by stwierdziła, jaki dodatkowe badania należy przeprowadzić, później zaś ChatGPT miał postawić ostateczną diagnozę. Na koniec zadaniem komputera było opisanie metod leczenia.
      Średnia trafność odpowiedzi wynosiła 72%, jednak różniła się w zależności od zadania. Sztuczna inteligencja najlepiej wypadła podczas podawania ostatecznej diagnozy, którą stawiała na podstawie początkowego opisu przypadku oraz wyników dodatkowych badań. Trafność odpowiedzi wyniosła tutaj 76,9%. Podobnie, bo z 76-procentową trafnością, ChatGPT podawał dodatkowe informacje medyczne na temat każdego z przypadków. W zadaniach dotyczących zlecenia dodatkowych badań oraz metod leczenia czy opieki, trafność spadała do 69%. Najgorzej maszyna wypadła w diagnozie różnicowej (60,3% trafnych odpowiedzi). Autorzy badań mówią, że nie są tym zaskoczeni, gdyż diagnoza różnicowa jest bardzo trudnym zadaniem. O nią tak naprawdę chodzi podczas nauki w akademiach medycznych i podczas rezydentury, by na podstawie niewielkiej ilości informacji dokonać dobrego rozróżnienia i postawić diagnozę, mówi Marc Succi z Harvard Medical School.
      Być może w przyszłości podobne programy będą pomagały lekarzom. Zapewne nie będzie to ChatGPT, ale rozwijane już systemy wyspecjalizowane właśnie w kwestiach medycznych. Zanim jednak trafią do służby zdrowia powinny przejść standardowe procedury dopuszczenia do użytku, w tym testy kliniczne. Przed nimi zatem jeszcze długa droga.
      Autorzy opisanych badań przyznają, że miały one ograniczenia. Jednym z nich było wykorzystanie fikcyjnych opisów przypadków, a nie rzeczywistych. Innym, niewielka próbka na której testowano ChatGPT. Kolejnym zaś ograniczeniem jest brak informacji o sposobie działania i treningu ChataGPT.

      « powrót do artykułu
    • przez KopalniaWiedzy.pl
      ChatGPT od kilku miesięcy jest używany w codziennej pracy przez wiele osób i wciąż budzi skrajne emocje. Jedni podchodzą do niego entuzjastycznie, mówiąc o olbrzymiej pomocy, jaką udziela podczas tworzenia różnego rodzaju treści, inni obawiają się, że ta i podobne technologie odbiorą pracę wielu ludziom. Dwoje doktorantów ekonomii z MIT poinformowało na łamach Science o wynikach eksperymentu, w ramach którego sprawdzali, jak ChatGPT wpływa na tempo i jakość wykonywanej pracy.
      Shakked Noy i Whitney Zhang poprosili o pomoc 453 marketingowców, analityków danych oraz innych profesjonalistów, którzy ukończyli koledż. Ich zadaniem było napisanie dwóch tekstów, jakich tworzenie jest częścią ich pracy zawodowej – relacji prasowej, raportu czy analizy. Połowa z badanych mogła przy drugim z zadań skorzystać z ChataGPT. Teksty były następnie oceniane przez innych profesjonalistów pracujących w tych samych zawodach. Każdy tekst oceniały 3 osoby, nadając mu od 1 do 7 punktów.
      Okazało się, że osoby, które używały ChataGPT kończyły postawione przed nimi zadanie o 40% szybciej, a ich prace były średnio o 18% lepiej oceniane, niż osób, które z Chata nie korzystały. Ci, którzy już potrafili tworzyć wysokiej jakości treści, dzięki ChatowiGPT tworzyli je szybciej. Z kolei główną korzyścią dla słabszych pracowników było poprawienie jakości ich pracy.
      ChatGPT jest bardzo dobry w tworzeniu tego typu treści, więc użycie go do zautomatyzowania pracy zaoszczędza sporo czasu. Jasnym jest, że to bardzo użyteczne narzędzie w pracy biurowej, będzie ono miało olbrzymi wpływ na strukturę zatrudnienia, mówi Noy.
      Oceniający teksty nie sprawdzali jednak, czy ich treść jest prawdziwa. A warto podkreślić, że odpowiedzi generowane przez ChatGPT i inne podobne modele często są mało wiarygodne. Modele te są bowiem bardzo dobre w przekonującym prezentowaniu fałszywych informacji jako prawdziwe. Przypomnijmy, że w ubiegłym miesiącu sąd w Nowym Jorku nałożył grzywnę na firmę prawniczą, która użyła ChataGPT do sporządzenia opinii prawnej pełnej fałszywych cytatów z rzekomych wyroków sądowych. Co więcej, prawnicy byli tak pewni, że algorytm dobrze wykonał zadanie, iż upierali się, że cytaty są prawdziwe. Postęp technologiczny jest powszechny i nie ma niczego niewłaściwego w używaniu narzędzi sztucznej inteligencji. Jednak istniejące zasady nakazują prawnikom upewnienie się, że treści składanych przez nich dokumentów są prawdziwe, stwierdził sędzia Kevin Castel.
      O ile zatem  narzędzia takie jak ChatGPT mogą usprawnić pisanie tekstów czy podnieść ich jakość, to człowiek musi sprawdzić, czy w tekście zawarte zostały prawdziwe informacje.

      « powrót do artykułu
  • Ostatnio przeglądający   0 użytkowników

    Brak zarejestrowanych użytkowników przeglądających tę stronę.

×
×
  • Dodaj nową pozycję...