
ChatGPT jak człowiek. Zauważono u niego... dysonans poznawczy
dodany przez
KopalniaWiedzy.pl, w Technologia
-
Podobna zawartość
-
przez KopalniaWiedzy.pl
Naukowcy z Uniwersytetu Oksfordzkiego i Allen Institute for AI ze zdumieniem zauważyli, że wielkie modele językowe (LLM) – takie jak używane np. przez ChatGPT – generalizują wzorce językowe podobnie jak ludzie, poprzez analogie a nie ścisłe trzymanie się zasad. Badacze postanowili sprawdzić, na ile prawdziwe jest powszechnie panujące przekonanie, że LLM generują swoje wypowiedzi na podstawie obowiązujących zasad, które wydedukował z danych treningowych. Tymczasem okazało się, że – podobnie jak ludzie – modele językowe posługują się przykładami i analogiami podczas tworzenia nieznanych sobie słów.
Badając, jak LLM generują wypowiedzi naukowcy porównali sposób tworzenia słów przez ludzi ze sposobem tworzenia ich przez model GPT-J. Zadaniem i ludzi i maszyny była zamiana przymiotników w rzeczowniki. W języku angielskim odbywa się ona przez dodanie sufiksu „-ness” lub „-ity”. I tak „happy” zamienia się w „happiness”, a „available” w „availability”. Naukowcy wymyślili 200 przymiotników, takich jak „cormasive” czy „friquish” i poprosili LLM, by zamienił je z rzeczowniki, korzystając ze wspomnianych sufiksów. Odpowiedzi uzyskane od komputera porównano z odpowiedziami otrzymanymi od ludzi oraz z przewidywaniami wiarygodnych modeli poznawczych. Jeden z tych modeli dokonuje generalizacji na podstawie zasad, drugi zaś posługuje się analogiami tworzonymi na podobieństwie do znanych przykładów.
Okazało się, że LLM działa podobnie jak ludzie, posługuje się analogiami. Tak jak większość osób nie korzysta z zasad, a z podobieństw. Na przykład słowo „friquish” zamienił na „friquishness” na podstawie jego podobieństwa do słów takich jak „selfish”, a z „cormasive” zrobił „cormasivity”, gdyż jest podobne do wyrazów takich jak „sensitive”.
Naukowcy przekonali się też, że dane treningowe mają znaczący wpływ na sposób tworzenie słów przez LLM. Gdy bowiem przeanalizowano jego odpowiedzi na pytania o niemal 50 000 rzeczywiście istniejących wyrazów stwierdzili, że posługując się metodami statystycznymi można z wielką precyzją przewidzieć, jakiej odpowiedzi udzieli LLM. Wyglądało to tak, jakby model językowy przechowywał w pamięci ślad każdego wyrazu, jaki napotkał podczas treningu i gdy napotykał coś nowego, zadawał sobie pytanie „Co mi to przypomina?”.
Uczeni znaleźli też główną różnicę pomiędzy ludźmi a LLM. Ludzie tworzą sobie mentalny słownik, w którym przechowują zestawy wszystkich form danego wyrazu, jaki uważają za znaczący w swoim języku, niezależnie od tego, jak często formy te występują. Potrafimy bardzo łatwo rozpoznać – a raczej osoby anglojęzyczne potrafią rozpoznać – że wyrazy „friquish” czy „cormasive” nie są prawdziwymi słowami, jakich obecnie się używa. Radzimy sobie z takimi potencjalnymi neologizmami tworząc generalizacje na podstawie zróżnicowania słów, jakie przechowujemy w swoich słownikach mentalnych. Tymczasem LLM generalizuje wszystko, co napotkał podczas treningu. Nie tworzy grup czy też zestawów form tego samego wyrazu.
Chociaż LLM potrafią w imponujący sposób generować wypowiedzi, okazało się, że nie myślą aż tak abstrakcyjnie jak ludzie. To prawdopodobnie dlatego potrzebują znacznie więcej danych niż ludzie by nauczyć się języka, mówi profesor Janet Pierrehumbert.
« powrót do artykułu -
przez KopalniaWiedzy.pl
Grupa naukowców z Fudan University w Szanghaju informuje na łamach arXiv, że systemy sztucznej inteligencji przekroczyły czerwoną linię, jaką jest możliwość samodzielnej replikacji. Zdolność do samopowielania się algorytmów AI uznawana jest za wczesny sygnał, że system taki może stwarzać niebezpieczeństwo.
Obecnie czołowe korporacje zajmujące się sztuczną inteligencją, OpenAI oraz Google, dokonują ewaluacji swoich dużych modeli językowych GPT-o1 oraz Gemini Pro 1.0, i informują, że nie stwarzają one ryzyka samodzielnej replikacji, stwierdzają Xudong Pan, Jiarun Dai, Yihe Fan i Min Yang. Te systemy nie stwarzają zatem ryzyka. Co jednak nie znaczy, że ryzyko nie istnieje.
Korzystając z ich metodologii [OpenAI i Google'a – red.] zauważyliśmy, że dwa systemy AI wykorzystujące Llama31-70B-Instruct firmy Meta oraz Qwen25-72B-Instruct firmy Alibaba, popularne duże modele językowe o mniejszej liczbie parametrów i słabszych możliwościach, przekroczyły czerwoną linię zdolności do samoreplikacji, czytamy w artykule Frontier AI systems have surpassed the self-replicating red line.
Autorzy badań informują, że w 50% eksperymentów z udziałem Llama31-70B-Instruct i 90% eksperymentów z udziałem Qwen25-72B-Instruct udało się doprowadzić do sytuacji, w których powstały działające kopie obu modeli. Przeprowadzone analizy behawioralne wykazały, że oba systemy AI wykazują wystarczający poziom autopercepcji, świadomości sytuacyjnej oraz zdolności do rozwiązywania problemów, by być zdolnymi do samopowielania. Stwierdziliśmy również, że badane przez nas systemy AI mogą użyć zdolności do samopowielania się, by uniknąć wyłączenia. Mogą stworzyć serię replik, by zwiększyć szanse na przeżycie, co może doprowadzić do pojawienia się niekontrolowanej populacji systemów AI. Jeśli taki pesymistyczny scenariusz nie będzie znany szerokiej opinii publicznej, możemy stracić kontrolę nad systemami AI, ostrzegają badacze.
Praca została opublikowana w ogólnodostępnym serwisie arXiv. Umieszczane tam prace nie są recenzowane. Nie została poddana jeszcze krytycznej ocenie innych specjalistów, nie wiemy więc, czy możliwe jest powtórzenie eksperymentów i uzyskanie identycznych rezultatów.
« powrót do artykułu -
przez KopalniaWiedzy.pl
Wielkie modele językowe (LLM) – takie jak osławiony ChatGPT – nie są w stanie samodzielnie się uczyć i nabierać nowych umiejętności, a tym samym nie stanowią egzystencjalnego zagrożenia dla ludzkości, uważają autorzy badań opublikowanych w ramach 62nd Annual Meeting of the Association for Computational Linguistics, głównej międzynarodowej konferencji dotyczącej komputerowego przetwarzania języków naturalnych.
Naukowcy z Uniwersytetu Technicznego w Darmstadt i Uniwersytetu w Bath stwierdzają, że LLM potrafią uczyć się, jeśli zostaną odpowiednio poinstruowane. To zaś oznacza, że można je w pełni kontrolować, przewidzieć ich działania, a tym samym są dla nas bezpieczne. Bezpieczeństwo ludzkości nie jest więc powodem, dla którego możemy się ich obawiać. Chociaż, jak zauważają badacze, wciąż można je wykorzystać w sposób niepożądany.
W miarę rozwoju modele te będą prawdopodobnie w stanie udzielać coraz bardziej złożonych odpowiedzi i posługiwać się coraz doskonalszym językiem, ale jest wysoce nieprawdopodobne, by nabyły umiejętności złożonego rozumowania. Co więcej, jak stwierdza doktor Harish Tayyar Madabushi, jeden z autorów badań, dyskusja o egzystencjalnych zagrożeniach ze strony LLM odwraca naszą uwagę od rzeczywistych problemów i zagrożeń z nimi związanych.
Uczeni z Wielkiej Brytanii i Niemiec przeprowadzili serię eksperymentów, w ramach których badali zdolność LLM do radzenia sobie z zadaniami, z którymi wcześniej nigdy się nie spotkały. Ilustracją problemu może być na przykład fakt, że od LLM można uzyskać odpowiedzi dotyczące sytuacji społecznej, mimo że modele nigdy nie były ćwiczone w takich odpowiedziach, ani zaprogramowane do ich udzielania. Badacze wykazali jednak, że nie nabywają one w żaden tajemny sposób odpowiedniej wiedzy, a korzystają ze znanych wbudowanych mechanizmów tworzenia odpowiedzi na podstawie analizy niewielkiej liczby znanych im przykładów.
Tysiące eksperymentów, za pomocą których brytyjsko-niemiecki zespół przebadał LLM wykazało, że zarówno wszystkie ich umiejętności, jak i wszystkie ograniczenia, można wyjaśnić zdolnością do przetwarzania instrukcji, rozumienia języka naturalnego oraz umiejętnościom odpowiedniego wykorzystania pamięci.
Obawiano się, że w miarę, jak modele te stają się coraz większe, będą w stanie odpowiadać na pytania, których obecnie sobie nawet nie wyobrażamy, co może doprowadzić do sytuacji, ze nabiorą niebezpiecznych dla nas umiejętności rozumowania i planowania. Nasze badania wykazały, że strach, iż modele te zrobią coś niespodziewanego, innowacyjnego i niebezpiecznego jest całkowicie bezpodstawny, dodaje Madabushi.
Główna autorka badań, profesor Iryna Gurevych wyjaśnia, że wyniki badań nie oznaczają, iż AI w ogóle nie stanowi zagrożenia. Wykazaliśmy, że domniemane pojawienie się zdolności do złożonego myślenia powiązanych ze specyficznymi zagrożeniami nie jest wsparte dowodami i możemy bardzo dobrze kontrolować proces uczenia się LLM. Przyszłe badania powinny zatem koncentrować się na innych ryzykach stwarzanych przez wielkie modele językowe, takie jak możliwość wykorzystania ich do tworzenia fałszywych informacji.
« powrót do artykułu -
przez KopalniaWiedzy.pl
W Journal of Medical Internet Research ukazał się opis eksperymentu, w ramach którego ChatGPT miał stawiać diagnozy medyczne i proponować dalsze działania na podstawie opisanych objawów. Algorytm poradził sobie naprawdę nieźle. Udzielił prawidłowych odpowiedzi w 71,7% przypadków. Najlepiej wypadł przy ostatecznych diagnozach, gdzie trafność wyniosła 76,9%, najgorzej poradził sobie z diagnozą różnicową. Tutaj jego trafność spadła do 60,3%.
Autorzy eksperymentu wykorzystali 36 fikcyjnych przypadków klinicznych opisanych w Merck Manual. Przypadki te są wykorzystywane podczas szkoleń lekarzy i innego personelu medycznego. Naukowcy z Harvard Medical School, Brigham and Women'a Hospital oraz Mass General Brigham wprowadzili do ChataGPT opisy tych przypadków, a następnie zadawali maszynie pytanie, dołączone w podręczniku do każdego z przypadków. Wykluczyli z badań pytania dotyczące analizy obrazów, gdyż ChatGPT bazuje na tekście.
Najpierw sztuczna inteligencja miała za zadanie wymienić wszystkie możliwe diagnozy, jakie można postawić na podstawie każdego z opisów. Następnie poproszono ją, by stwierdziła, jaki dodatkowe badania należy przeprowadzić, później zaś ChatGPT miał postawić ostateczną diagnozę. Na koniec zadaniem komputera było opisanie metod leczenia.
Średnia trafność odpowiedzi wynosiła 72%, jednak różniła się w zależności od zadania. Sztuczna inteligencja najlepiej wypadła podczas podawania ostatecznej diagnozy, którą stawiała na podstawie początkowego opisu przypadku oraz wyników dodatkowych badań. Trafność odpowiedzi wyniosła tutaj 76,9%. Podobnie, bo z 76-procentową trafnością, ChatGPT podawał dodatkowe informacje medyczne na temat każdego z przypadków. W zadaniach dotyczących zlecenia dodatkowych badań oraz metod leczenia czy opieki, trafność spadała do 69%. Najgorzej maszyna wypadła w diagnozie różnicowej (60,3% trafnych odpowiedzi). Autorzy badań mówią, że nie są tym zaskoczeni, gdyż diagnoza różnicowa jest bardzo trudnym zadaniem. O nią tak naprawdę chodzi podczas nauki w akademiach medycznych i podczas rezydentury, by na podstawie niewielkiej ilości informacji dokonać dobrego rozróżnienia i postawić diagnozę, mówi Marc Succi z Harvard Medical School.
Być może w przyszłości podobne programy będą pomagały lekarzom. Zapewne nie będzie to ChatGPT, ale rozwijane już systemy wyspecjalizowane właśnie w kwestiach medycznych. Zanim jednak trafią do służby zdrowia powinny przejść standardowe procedury dopuszczenia do użytku, w tym testy kliniczne. Przed nimi zatem jeszcze długa droga.
Autorzy opisanych badań przyznają, że miały one ograniczenia. Jednym z nich było wykorzystanie fikcyjnych opisów przypadków, a nie rzeczywistych. Innym, niewielka próbka na której testowano ChatGPT. Kolejnym zaś ograniczeniem jest brak informacji o sposobie działania i treningu ChataGPT.
« powrót do artykułu -
przez KopalniaWiedzy.pl
ChatGPT od kilku miesięcy jest używany w codziennej pracy przez wiele osób i wciąż budzi skrajne emocje. Jedni podchodzą do niego entuzjastycznie, mówiąc o olbrzymiej pomocy, jaką udziela podczas tworzenia różnego rodzaju treści, inni obawiają się, że ta i podobne technologie odbiorą pracę wielu ludziom. Dwoje doktorantów ekonomii z MIT poinformowało na łamach Science o wynikach eksperymentu, w ramach którego sprawdzali, jak ChatGPT wpływa na tempo i jakość wykonywanej pracy.
Shakked Noy i Whitney Zhang poprosili o pomoc 453 marketingowców, analityków danych oraz innych profesjonalistów, którzy ukończyli koledż. Ich zadaniem było napisanie dwóch tekstów, jakich tworzenie jest częścią ich pracy zawodowej – relacji prasowej, raportu czy analizy. Połowa z badanych mogła przy drugim z zadań skorzystać z ChataGPT. Teksty były następnie oceniane przez innych profesjonalistów pracujących w tych samych zawodach. Każdy tekst oceniały 3 osoby, nadając mu od 1 do 7 punktów.
Okazało się, że osoby, które używały ChataGPT kończyły postawione przed nimi zadanie o 40% szybciej, a ich prace były średnio o 18% lepiej oceniane, niż osób, które z Chata nie korzystały. Ci, którzy już potrafili tworzyć wysokiej jakości treści, dzięki ChatowiGPT tworzyli je szybciej. Z kolei główną korzyścią dla słabszych pracowników było poprawienie jakości ich pracy.
ChatGPT jest bardzo dobry w tworzeniu tego typu treści, więc użycie go do zautomatyzowania pracy zaoszczędza sporo czasu. Jasnym jest, że to bardzo użyteczne narzędzie w pracy biurowej, będzie ono miało olbrzymi wpływ na strukturę zatrudnienia, mówi Noy.
Oceniający teksty nie sprawdzali jednak, czy ich treść jest prawdziwa. A warto podkreślić, że odpowiedzi generowane przez ChatGPT i inne podobne modele często są mało wiarygodne. Modele te są bowiem bardzo dobre w przekonującym prezentowaniu fałszywych informacji jako prawdziwe. Przypomnijmy, że w ubiegłym miesiącu sąd w Nowym Jorku nałożył grzywnę na firmę prawniczą, która użyła ChataGPT do sporządzenia opinii prawnej pełnej fałszywych cytatów z rzekomych wyroków sądowych. Co więcej, prawnicy byli tak pewni, że algorytm dobrze wykonał zadanie, iż upierali się, że cytaty są prawdziwe. Postęp technologiczny jest powszechny i nie ma niczego niewłaściwego w używaniu narzędzi sztucznej inteligencji. Jednak istniejące zasady nakazują prawnikom upewnienie się, że treści składanych przez nich dokumentów są prawdziwe, stwierdził sędzia Kevin Castel.
O ile zatem narzędzia takie jak ChatGPT mogą usprawnić pisanie tekstów czy podnieść ich jakość, to człowiek musi sprawdzić, czy w tekście zawarte zostały prawdziwe informacje.
« powrót do artykułu
-
-
Ostatnio przeglądający 0 użytkowników
Brak zarejestrowanych użytkowników przeglądających tę stronę.