Jump to content
Forum Kopalni Wiedzy
Sign in to follow this  
KopalniaWiedzy.pl

Sztuczna inteligencja kontra ChatGPT. Test systemów do wykrywania tekstów napisanych przez SI

Recommended Posts

Wraz z rozwojem coraz doskonalszych generatorów tekstu, takich jak ChatGPT, coraz częściej pojawiają się głosy o potrzebie opracowania metod wykrywania tekstów stworzonych przez sztuczną inteligencję. Metody takie przydałyby się nauczycielom czy wykładowcom akademickim, którzy mogliby identyfikować prace pisemne przyniesione przez nieuczciwych uczniów i studentów, przedstawiających wygenerowany przez komputer tekst jako własne dzieło. Mówi się o kursach z wykrywania oszustw i o tworzeniu odpowiednich narzędzi. Takie narzędzia – bazujące na sztucznej inteligencji – już powstają. Problem w tym, że nie są one zbyt wiarygodne.

Naukowcy z Uniwersytetu Stanforda przyjrzeli się kilku algorytmom sztucznej inteligencji, które mają określać, czy zaprezentowany tekst został stworzony przez człowieka czy też przez inną sztuczną inteligencję. O ile jednak takie algorytmy sprawdzają się „niemal doskonale” podczas analizy tekstów pisanych przez 13-14-latków urodzonych w USA, to już zawodzą tam, gdzie mają do czynienia z angielskim tekstem napisanym przez osobę, dla której angielski nie jest językiem ojczystym. Okazało się bowiem, że gdy systemy te miały ocenić, kto jest autorem tekstu napisanego w ramach egzaminu TOEFL (Test of English as a Foreign Language), w aż 61,22% uznały, że to SI stworzyła tekst, który został napisany przez człowieka. W rzeczywistości jest jednak jeszcze gorzej. Aż 19% prac napisanych przez nastolatków, dla których angielski nie jest językiem ojczystym, zostało uznanych za stworzone przez SI przez wszystkie 7 badanych narzędzi do wykrywania fałszywek. A aż 97% napisanych przez ludzi prac zostało uznane za fałszywe przez co najmniej jeden z systemów.

Problem tkwi tutaj w sposobie pracy systemów wykrywających tekst napisany przez Si. Opierają się one bowiem na złożoności użytego języka. Oczywistym jest, że przeciętna osoba, która nie jest rodzimym użytkownikiem języka angielskiego ma mniejszy zasób słownictwa, a tworzone przez nią zdania są prostsze pod względem gramatycznym i składniowym od zdań rodzimego użytkownika angielskiego. Sztuczna inteligencja, próbując wykryć fałszywki, uznaje ten niższy poziom złożoności za znak, że tekst został stworzony przez sztuczną inteligencję. To poważny problem, gdyż uczeń czy student, który urodził się poza USA, może w ten sposób zostać uznany przez nauczyciela za oszusta, mimo że sam napisał pracę.

Co więcej, naukowcy ze Stanforda zauważyli, że takie systemy łatwo jest oszukać nawet rodzimemu użytkownikowi angielskiego. Okazuje się bowiem, że wystarczy wygenerować tekst za pomocą ChataGPT, a następnie wydać maszynie polecenie, by poprawiła ten tekst dodając doń słownictwo literackie.

Obecne wykrywacze są niewiarygodne i łatwo je oszukać, dlatego też należy używać ich bardzo ostrożnie w roli remedium na oszukiwanie za pomocą sztucznej inteligencji, mówi jeden z autorów badań, profesor James Zou.

Uczony uważa, że w najbliższej przyszłości nie należy ufać takim wykrywaczom, szczególnie w tych szkołach i uczelniach, gdzie mamy dużo uczniów, dla których angielski nie jest językiem macierzystym. Po drugie, twórcy narzędzi do wykrywania muszą zrezygnować ze złożoności jako głównego wyznacznika analizy tekstu i opracować bardziej zaawansowane techniki. Ponadto ich systemy powinny być bardziej odporne na obejście. Być może rozwiązanie problemu leży po stronie twórców takich systemów jak ChatGPT. Zou sugeruje, że tego typu generatory mogłyby dodawać do tekstu rodzaj znaku wodnego, którym byłyby subtelne sygnały, oczywiste dla systemów wykrywających, stanowiące niejako podpis generatora i wskazujące, że to on jest autorem.


« powrót do artykułu

Share this post


Link to post
Share on other sites

Przy takiej złożoności LLM, w tym ChatGPT, moim zdaniem nie ma szans wykryć, że to Chat jest autorem. Możesz mu kazać poprawić błędy, napisać w jakimś konkretnym stylu, itd.

Co do znaku wodnego, ciężki pomysł. Jak niby miało by się to odbywać, skoro LLM imituje "mowę" ludzką, jest na niej wytrenowany i generuje ciąg słów tak jak człowiek (aczkolwiek bez sensu). Można by technicznie dodawać coś w post-procesingu, ale co, steganografia? Jak niby to miało by wyglądać? Do tego musiało by być jawne, a więc również łatwe do wykrycia, a co za tym idzie do usunięcia. Uczniowie nauczyliby się tego zanim powstał by pierwszy wykrywacz dla nauczycieli :)

Share this post


Link to post
Share on other sites

Jak dla mnie edukacja to nie pisanie tekstów takich jak wypracowania zadane do domu. Szkoła nawet podstawowa jak dla mnie przestała uczyć przechodząc na tryb studiów.
Wykazanie posiadanej wiedzy można okazać w wiele innych sposobów a i tak podstawą jest jak najszybszy dostęp do posiadanej wiedzy.  
Teraz szkolnictwo zapędziło się w kozi róg i nauczyciele dalej brną w tym kierunku by się nie narobić sprawdzając wiedzę swoich uczniów.
Łatwiej im zadać cały program nauczania do domu a później na ładne oczy dać oceny.
Przypomina mi się ze studiów przykład jak z dwójką znajomych daliśmy praktycznie identyczne opracowania tego samego tematu bo mieliśmy pod ręką tą samą książkę. Traf chciał, że wykładowca wziął do ręki pierwszą pracę moją, bo następna miała ocenę mniej a trzecia niezaliczona.

 

Share this post


Link to post
Share on other sites

Na razie wszystkie generatory czatów AI mają jedną cechę: odpowiadając objaśniają teorię, co dla człowieka jest rzeczą zbędną, gdyż zakłada on że czytelnik ma oczywistą wiedzę. Bardzo często jest tak że ChatGPT pytany o konkret zaczyna się rozwodzić nad samą teorią danej problematyki. Z reguły ludzie po prostu mniej gadają. Wszelkie AI na razie gadają bardzo kwieciście. Weźmy choć Sophię - wystarczy spytać "jaka jest pogoda" - żeby usłyszeć co najmniej  z 5 długich zdań - podczas gdy człowiek odpowie "a, leje"

Edited by Ergo Sum

Share this post


Link to post
Share on other sites
W dniu 20.05.2023 o 22:01, Ergo Sum napisał:

Bardzo często jest tak że ChatGPT pytany o konkret zaczyna się rozwodzić nad samą teorią danej problematyki.

ChatGPT jest narzędziem jak wszystko inne. Nie wie czego oczekujesz "Ty", a jest nauczony/poinstruowany odpowiadać obszernie. Natomiast, nic nie stoi na przeszkodzie powiedzieć mu o tym zadając pytanie i wtedy już masz. Wygooglaj "prompt engineering", a dowiesz się jak prawidłowo z nim rozmawiać i zadawać pytania, a otrzymasz 100x lepsze wyniki. Ba, jego zapytaj o to jak poprawnie to robić, z tym, że polecam po angielsku jednak, po polsku kaleczy, dużo tłumaczy z angielskiego w tle co rodzi dziwne sytuacje.

Zresztą:

W dniu 20.05.2023 o 22:01, Ergo Sum napisał:

Z reguły ludzie po prostu mniej gadają... - podczas gdy człowiek odpowie "a, leje"

Zmień towarzystwo :D

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
Sign in to follow this  

  • Similar Content

    • By KopalniaWiedzy.pl
      Wielkie modele językowe (LLM) – takie jak osławiony ChatGPT – nie są w stanie samodzielnie się uczyć i nabierać nowych umiejętności, a tym samym nie stanowią egzystencjalnego zagrożenia dla ludzkości, uważają autorzy badań opublikowanych w ramach 62nd Annual Meeting of the Association for Computational Linguistics, głównej międzynarodowej konferencji dotyczącej komputerowego przetwarzania języków naturalnych.
      Naukowcy z Uniwersytetu Technicznego w Darmstadt i Uniwersytetu w Bath stwierdzają, że LLM potrafią uczyć się, jeśli zostaną odpowiednio poinstruowane. To zaś oznacza, że można je w pełni kontrolować, przewidzieć ich działania, a tym samym są dla nas bezpieczne. Bezpieczeństwo ludzkości nie jest więc powodem, dla którego możemy się ich obawiać. Chociaż, jak zauważają badacze, wciąż można je wykorzystać w sposób niepożądany.
      W miarę rozwoju modele te będą prawdopodobnie w stanie udzielać coraz bardziej złożonych odpowiedzi i posługiwać się coraz doskonalszym językiem, ale jest wysoce nieprawdopodobne, by nabyły umiejętności złożonego rozumowania. Co więcej, jak stwierdza doktor Harish Tayyar Madabushi, jeden z autorów badań, dyskusja o egzystencjalnych zagrożeniach ze strony LLM odwraca naszą uwagę od rzeczywistych problemów i zagrożeń z nimi związanych.
      Uczeni z Wielkiej Brytanii i Niemiec przeprowadzili serię eksperymentów, w ramach których badali zdolność LLM do radzenia sobie z zadaniami, z którymi wcześniej nigdy się nie spotkały. Ilustracją problemu może być na przykład fakt, że od LLM można uzyskać odpowiedzi dotyczące sytuacji społecznej, mimo że modele nigdy nie były ćwiczone w takich odpowiedziach, ani zaprogramowane do ich udzielania. Badacze wykazali jednak, że nie nabywają one w żaden tajemny sposób odpowiedniej wiedzy, a korzystają ze znanych wbudowanych mechanizmów tworzenia odpowiedzi na podstawie analizy niewielkiej liczby znanych im przykładów.
      Tysiące eksperymentów, za pomocą których brytyjsko-niemiecki zespół przebadał LLM wykazało, że zarówno wszystkie ich umiejętności, jak i wszystkie ograniczenia, można wyjaśnić zdolnością do przetwarzania instrukcji, rozumienia języka naturalnego oraz umiejętnościom odpowiedniego wykorzystania pamięci.
      Obawiano się, że w miarę, jak modele te stają się coraz większe, będą w stanie odpowiadać na pytania, których obecnie sobie nawet nie wyobrażamy, co może doprowadzić do sytuacji, ze nabiorą niebezpiecznych dla nas umiejętności rozumowania i planowania. Nasze badania wykazały, że strach, iż modele te zrobią coś niespodziewanego, innowacyjnego i niebezpiecznego jest całkowicie bezpodstawny, dodaje Madabushi.
      Główna autorka badań, profesor Iryna Gurevych wyjaśnia, że wyniki badań nie oznaczają, iż AI w ogóle nie stanowi zagrożenia. Wykazaliśmy, że domniemane pojawienie się zdolności do złożonego myślenia powiązanych ze specyficznymi zagrożeniami nie jest wsparte dowodami i możemy bardzo dobrze kontrolować proces uczenia się LLM. Przyszłe badania powinny zatem koncentrować się na innych ryzykach stwarzanych przez wielkie modele językowe, takie jak możliwość wykorzystania ich do tworzenia fałszywych informacji.

      « powrót do artykułu
    • By KopalniaWiedzy.pl
      Dermatolog Harald Kittler z Uniwersytetu Medycznego w Wiedniu stanął na czele austriacko-australijskiego zespołu, który porównał trafność diagnozy i zaleceń dotyczących postępowania z przebarwieniami na skórze stawianych przez lekarzy oraz przez dwa algorytmy sztucznej inteligencji pracujące na smartfonach. Okazało się, że algorytmy równie skutecznie co lekarze diagnozują przebarwienia. Natomiast lekarze podejmują znacznie lepsze decyzje dotyczące leczenia.
      Testy przeprowadzono na prawdziwych przypadkach pacjentów, którzy zgłosili się na Wydział Dermatologii Uniwersytetu Medycznego w Wiedniu oraz do Centrum Diagnozy Czerniaka w Sydney w Australii.
      Testowane były dwa scenariusze. W scenariuszu A porównywano 172 podejrzane przebarwienia na skórze (z których 84 były nowotworami), jakie wystąpiły u 124 pacjentów. W drugim (scenariuszu B) porównano 5696 przebarwień – niekoniecznie podejrzanych – u 66 pacjentów. Wśród nich było 18 przebarwień spowodowanych rozwojem nowotworu. Testowano skuteczność dwóch algorytmów. Jeden z nich był nowym zaawansowanym programem, drugi zaś to starszy algorytm ISIC (International Skin Imaging Collaboration), używany od pewnego czasu do badań retrospektywnych.
      W scenariuszu A nowy algorytm stawiał diagnozę równie dobrze jak eksperci i był wyraźnie lepszy od mniej doświadczonych lekarzy. Z kolei algorytm ISIC był znacząco gorszy od ekspertów, ale lepszy od niedoświadczonych lekarzy.
      Jeśli zaś chodzi o zalecenia odnośnie leczenia, nowoczesny algorytm sprawował się gorzej niż eksperci, ale lepiej niż niedoświadczeni lekarze. Aplikacja ma tendencję do usuwania łagodnych zmian skórnych z zaleceń leczenia, mówi Kittler.
      Algorytmy sztucznej inteligencji są więc już na tyle rozwinięte, że mogą służyć pomocą w diagnozowaniu nowotworów skóry, a szczególnie cenne będą tam, gdzie brak jest dostępu do doświadczonych lekarzy. Ze szczegółami badań można zapoznać się na łamach The Lancet.

      « powrót do artykułu
    • By KopalniaWiedzy.pl
      W Journal of Medical Internet Research ukazał się opis eksperymentu, w ramach którego ChatGPT miał stawiać diagnozy medyczne i proponować dalsze działania na podstawie opisanych objawów. Algorytm poradził sobie naprawdę nieźle. Udzielił prawidłowych odpowiedzi w 71,7% przypadków. Najlepiej wypadł przy ostatecznych diagnozach, gdzie trafność wyniosła 76,9%, najgorzej poradził sobie z diagnozą różnicową. Tutaj jego trafność spadła do 60,3%.
      Autorzy eksperymentu wykorzystali 36 fikcyjnych przypadków klinicznych opisanych w Merck Manual. Przypadki te są wykorzystywane podczas szkoleń lekarzy i innego personelu medycznego. Naukowcy z Harvard Medical School, Brigham and Women'a Hospital oraz Mass General Brigham wprowadzili do ChataGPT opisy tych przypadków, a następnie zadawali maszynie pytanie, dołączone w podręczniku do każdego z przypadków. Wykluczyli z badań pytania dotyczące analizy obrazów, gdyż ChatGPT bazuje na tekście.
      Najpierw sztuczna inteligencja miała za zadanie wymienić wszystkie możliwe diagnozy, jakie można postawić na podstawie każdego z opisów. Następnie poproszono ją, by stwierdziła, jaki dodatkowe badania należy przeprowadzić, później zaś ChatGPT miał postawić ostateczną diagnozę. Na koniec zadaniem komputera było opisanie metod leczenia.
      Średnia trafność odpowiedzi wynosiła 72%, jednak różniła się w zależności od zadania. Sztuczna inteligencja najlepiej wypadła podczas podawania ostatecznej diagnozy, którą stawiała na podstawie początkowego opisu przypadku oraz wyników dodatkowych badań. Trafność odpowiedzi wyniosła tutaj 76,9%. Podobnie, bo z 76-procentową trafnością, ChatGPT podawał dodatkowe informacje medyczne na temat każdego z przypadków. W zadaniach dotyczących zlecenia dodatkowych badań oraz metod leczenia czy opieki, trafność spadała do 69%. Najgorzej maszyna wypadła w diagnozie różnicowej (60,3% trafnych odpowiedzi). Autorzy badań mówią, że nie są tym zaskoczeni, gdyż diagnoza różnicowa jest bardzo trudnym zadaniem. O nią tak naprawdę chodzi podczas nauki w akademiach medycznych i podczas rezydentury, by na podstawie niewielkiej ilości informacji dokonać dobrego rozróżnienia i postawić diagnozę, mówi Marc Succi z Harvard Medical School.
      Być może w przyszłości podobne programy będą pomagały lekarzom. Zapewne nie będzie to ChatGPT, ale rozwijane już systemy wyspecjalizowane właśnie w kwestiach medycznych. Zanim jednak trafią do służby zdrowia powinny przejść standardowe procedury dopuszczenia do użytku, w tym testy kliniczne. Przed nimi zatem jeszcze długa droga.
      Autorzy opisanych badań przyznają, że miały one ograniczenia. Jednym z nich było wykorzystanie fikcyjnych opisów przypadków, a nie rzeczywistych. Innym, niewielka próbka na której testowano ChatGPT. Kolejnym zaś ograniczeniem jest brak informacji o sposobie działania i treningu ChataGPT.

      « powrót do artykułu
  • Recently Browsing   0 members

    No registered users viewing this page.

×
×
  • Create New...