Sign in to follow this
Followers
0
Sztuczna inteligencja kontra ChatGPT. Test systemów do wykrywania tekstów napisanych przez SI
By
KopalniaWiedzy.pl, in Technologia
-
Similar Content
-
By KopalniaWiedzy.pl
Wielkie modele językowe (LLM) – takie jak osławiony ChatGPT – nie są w stanie samodzielnie się uczyć i nabierać nowych umiejętności, a tym samym nie stanowią egzystencjalnego zagrożenia dla ludzkości, uważają autorzy badań opublikowanych w ramach 62nd Annual Meeting of the Association for Computational Linguistics, głównej międzynarodowej konferencji dotyczącej komputerowego przetwarzania języków naturalnych.
Naukowcy z Uniwersytetu Technicznego w Darmstadt i Uniwersytetu w Bath stwierdzają, że LLM potrafią uczyć się, jeśli zostaną odpowiednio poinstruowane. To zaś oznacza, że można je w pełni kontrolować, przewidzieć ich działania, a tym samym są dla nas bezpieczne. Bezpieczeństwo ludzkości nie jest więc powodem, dla którego możemy się ich obawiać. Chociaż, jak zauważają badacze, wciąż można je wykorzystać w sposób niepożądany.
W miarę rozwoju modele te będą prawdopodobnie w stanie udzielać coraz bardziej złożonych odpowiedzi i posługiwać się coraz doskonalszym językiem, ale jest wysoce nieprawdopodobne, by nabyły umiejętności złożonego rozumowania. Co więcej, jak stwierdza doktor Harish Tayyar Madabushi, jeden z autorów badań, dyskusja o egzystencjalnych zagrożeniach ze strony LLM odwraca naszą uwagę od rzeczywistych problemów i zagrożeń z nimi związanych.
Uczeni z Wielkiej Brytanii i Niemiec przeprowadzili serię eksperymentów, w ramach których badali zdolność LLM do radzenia sobie z zadaniami, z którymi wcześniej nigdy się nie spotkały. Ilustracją problemu może być na przykład fakt, że od LLM można uzyskać odpowiedzi dotyczące sytuacji społecznej, mimo że modele nigdy nie były ćwiczone w takich odpowiedziach, ani zaprogramowane do ich udzielania. Badacze wykazali jednak, że nie nabywają one w żaden tajemny sposób odpowiedniej wiedzy, a korzystają ze znanych wbudowanych mechanizmów tworzenia odpowiedzi na podstawie analizy niewielkiej liczby znanych im przykładów.
Tysiące eksperymentów, za pomocą których brytyjsko-niemiecki zespół przebadał LLM wykazało, że zarówno wszystkie ich umiejętności, jak i wszystkie ograniczenia, można wyjaśnić zdolnością do przetwarzania instrukcji, rozumienia języka naturalnego oraz umiejętnościom odpowiedniego wykorzystania pamięci.
Obawiano się, że w miarę, jak modele te stają się coraz większe, będą w stanie odpowiadać na pytania, których obecnie sobie nawet nie wyobrażamy, co może doprowadzić do sytuacji, ze nabiorą niebezpiecznych dla nas umiejętności rozumowania i planowania. Nasze badania wykazały, że strach, iż modele te zrobią coś niespodziewanego, innowacyjnego i niebezpiecznego jest całkowicie bezpodstawny, dodaje Madabushi.
Główna autorka badań, profesor Iryna Gurevych wyjaśnia, że wyniki badań nie oznaczają, iż AI w ogóle nie stanowi zagrożenia. Wykazaliśmy, że domniemane pojawienie się zdolności do złożonego myślenia powiązanych ze specyficznymi zagrożeniami nie jest wsparte dowodami i możemy bardzo dobrze kontrolować proces uczenia się LLM. Przyszłe badania powinny zatem koncentrować się na innych ryzykach stwarzanych przez wielkie modele językowe, takie jak możliwość wykorzystania ich do tworzenia fałszywych informacji.
« powrót do artykułu -
By KopalniaWiedzy.pl
Dermatolog Harald Kittler z Uniwersytetu Medycznego w Wiedniu stanął na czele austriacko-australijskiego zespołu, który porównał trafność diagnozy i zaleceń dotyczących postępowania z przebarwieniami na skórze stawianych przez lekarzy oraz przez dwa algorytmy sztucznej inteligencji pracujące na smartfonach. Okazało się, że algorytmy równie skutecznie co lekarze diagnozują przebarwienia. Natomiast lekarze podejmują znacznie lepsze decyzje dotyczące leczenia.
Testy przeprowadzono na prawdziwych przypadkach pacjentów, którzy zgłosili się na Wydział Dermatologii Uniwersytetu Medycznego w Wiedniu oraz do Centrum Diagnozy Czerniaka w Sydney w Australii.
Testowane były dwa scenariusze. W scenariuszu A porównywano 172 podejrzane przebarwienia na skórze (z których 84 były nowotworami), jakie wystąpiły u 124 pacjentów. W drugim (scenariuszu B) porównano 5696 przebarwień – niekoniecznie podejrzanych – u 66 pacjentów. Wśród nich było 18 przebarwień spowodowanych rozwojem nowotworu. Testowano skuteczność dwóch algorytmów. Jeden z nich był nowym zaawansowanym programem, drugi zaś to starszy algorytm ISIC (International Skin Imaging Collaboration), używany od pewnego czasu do badań retrospektywnych.
W scenariuszu A nowy algorytm stawiał diagnozę równie dobrze jak eksperci i był wyraźnie lepszy od mniej doświadczonych lekarzy. Z kolei algorytm ISIC był znacząco gorszy od ekspertów, ale lepszy od niedoświadczonych lekarzy.
Jeśli zaś chodzi o zalecenia odnośnie leczenia, nowoczesny algorytm sprawował się gorzej niż eksperci, ale lepiej niż niedoświadczeni lekarze. Aplikacja ma tendencję do usuwania łagodnych zmian skórnych z zaleceń leczenia, mówi Kittler.
Algorytmy sztucznej inteligencji są więc już na tyle rozwinięte, że mogą służyć pomocą w diagnozowaniu nowotworów skóry, a szczególnie cenne będą tam, gdzie brak jest dostępu do doświadczonych lekarzy. Ze szczegółami badań można zapoznać się na łamach The Lancet.
« powrót do artykułu -
By KopalniaWiedzy.pl
W Journal of Medical Internet Research ukazał się opis eksperymentu, w ramach którego ChatGPT miał stawiać diagnozy medyczne i proponować dalsze działania na podstawie opisanych objawów. Algorytm poradził sobie naprawdę nieźle. Udzielił prawidłowych odpowiedzi w 71,7% przypadków. Najlepiej wypadł przy ostatecznych diagnozach, gdzie trafność wyniosła 76,9%, najgorzej poradził sobie z diagnozą różnicową. Tutaj jego trafność spadła do 60,3%.
Autorzy eksperymentu wykorzystali 36 fikcyjnych przypadków klinicznych opisanych w Merck Manual. Przypadki te są wykorzystywane podczas szkoleń lekarzy i innego personelu medycznego. Naukowcy z Harvard Medical School, Brigham and Women'a Hospital oraz Mass General Brigham wprowadzili do ChataGPT opisy tych przypadków, a następnie zadawali maszynie pytanie, dołączone w podręczniku do każdego z przypadków. Wykluczyli z badań pytania dotyczące analizy obrazów, gdyż ChatGPT bazuje na tekście.
Najpierw sztuczna inteligencja miała za zadanie wymienić wszystkie możliwe diagnozy, jakie można postawić na podstawie każdego z opisów. Następnie poproszono ją, by stwierdziła, jaki dodatkowe badania należy przeprowadzić, później zaś ChatGPT miał postawić ostateczną diagnozę. Na koniec zadaniem komputera było opisanie metod leczenia.
Średnia trafność odpowiedzi wynosiła 72%, jednak różniła się w zależności od zadania. Sztuczna inteligencja najlepiej wypadła podczas podawania ostatecznej diagnozy, którą stawiała na podstawie początkowego opisu przypadku oraz wyników dodatkowych badań. Trafność odpowiedzi wyniosła tutaj 76,9%. Podobnie, bo z 76-procentową trafnością, ChatGPT podawał dodatkowe informacje medyczne na temat każdego z przypadków. W zadaniach dotyczących zlecenia dodatkowych badań oraz metod leczenia czy opieki, trafność spadała do 69%. Najgorzej maszyna wypadła w diagnozie różnicowej (60,3% trafnych odpowiedzi). Autorzy badań mówią, że nie są tym zaskoczeni, gdyż diagnoza różnicowa jest bardzo trudnym zadaniem. O nią tak naprawdę chodzi podczas nauki w akademiach medycznych i podczas rezydentury, by na podstawie niewielkiej ilości informacji dokonać dobrego rozróżnienia i postawić diagnozę, mówi Marc Succi z Harvard Medical School.
Być może w przyszłości podobne programy będą pomagały lekarzom. Zapewne nie będzie to ChatGPT, ale rozwijane już systemy wyspecjalizowane właśnie w kwestiach medycznych. Zanim jednak trafią do służby zdrowia powinny przejść standardowe procedury dopuszczenia do użytku, w tym testy kliniczne. Przed nimi zatem jeszcze długa droga.
Autorzy opisanych badań przyznają, że miały one ograniczenia. Jednym z nich było wykorzystanie fikcyjnych opisów przypadków, a nie rzeczywistych. Innym, niewielka próbka na której testowano ChatGPT. Kolejnym zaś ograniczeniem jest brak informacji o sposobie działania i treningu ChataGPT.
« powrót do artykułu
-
-
Recently Browsing 0 members
No registered users viewing this page.