Skocz do zawartości
Forum Kopalni Wiedzy
KopalniaWiedzy.pl

Sztuczna inteligencja kontra ChatGPT. Test systemów do wykrywania tekstów napisanych przez SI

Rekomendowane odpowiedzi

Wraz z rozwojem coraz doskonalszych generatorów tekstu, takich jak ChatGPT, coraz częściej pojawiają się głosy o potrzebie opracowania metod wykrywania tekstów stworzonych przez sztuczną inteligencję. Metody takie przydałyby się nauczycielom czy wykładowcom akademickim, którzy mogliby identyfikować prace pisemne przyniesione przez nieuczciwych uczniów i studentów, przedstawiających wygenerowany przez komputer tekst jako własne dzieło. Mówi się o kursach z wykrywania oszustw i o tworzeniu odpowiednich narzędzi. Takie narzędzia – bazujące na sztucznej inteligencji – już powstają. Problem w tym, że nie są one zbyt wiarygodne.

Naukowcy z Uniwersytetu Stanforda przyjrzeli się kilku algorytmom sztucznej inteligencji, które mają określać, czy zaprezentowany tekst został stworzony przez człowieka czy też przez inną sztuczną inteligencję. O ile jednak takie algorytmy sprawdzają się „niemal doskonale” podczas analizy tekstów pisanych przez 13-14-latków urodzonych w USA, to już zawodzą tam, gdzie mają do czynienia z angielskim tekstem napisanym przez osobę, dla której angielski nie jest językiem ojczystym. Okazało się bowiem, że gdy systemy te miały ocenić, kto jest autorem tekstu napisanego w ramach egzaminu TOEFL (Test of English as a Foreign Language), w aż 61,22% uznały, że to SI stworzyła tekst, który został napisany przez człowieka. W rzeczywistości jest jednak jeszcze gorzej. Aż 19% prac napisanych przez nastolatków, dla których angielski nie jest językiem ojczystym, zostało uznanych za stworzone przez SI przez wszystkie 7 badanych narzędzi do wykrywania fałszywek. A aż 97% napisanych przez ludzi prac zostało uznane za fałszywe przez co najmniej jeden z systemów.

Problem tkwi tutaj w sposobie pracy systemów wykrywających tekst napisany przez Si. Opierają się one bowiem na złożoności użytego języka. Oczywistym jest, że przeciętna osoba, która nie jest rodzimym użytkownikiem języka angielskiego ma mniejszy zasób słownictwa, a tworzone przez nią zdania są prostsze pod względem gramatycznym i składniowym od zdań rodzimego użytkownika angielskiego. Sztuczna inteligencja, próbując wykryć fałszywki, uznaje ten niższy poziom złożoności za znak, że tekst został stworzony przez sztuczną inteligencję. To poważny problem, gdyż uczeń czy student, który urodził się poza USA, może w ten sposób zostać uznany przez nauczyciela za oszusta, mimo że sam napisał pracę.

Co więcej, naukowcy ze Stanforda zauważyli, że takie systemy łatwo jest oszukać nawet rodzimemu użytkownikowi angielskiego. Okazuje się bowiem, że wystarczy wygenerować tekst za pomocą ChataGPT, a następnie wydać maszynie polecenie, by poprawiła ten tekst dodając doń słownictwo literackie.

Obecne wykrywacze są niewiarygodne i łatwo je oszukać, dlatego też należy używać ich bardzo ostrożnie w roli remedium na oszukiwanie za pomocą sztucznej inteligencji, mówi jeden z autorów badań, profesor James Zou.

Uczony uważa, że w najbliższej przyszłości nie należy ufać takim wykrywaczom, szczególnie w tych szkołach i uczelniach, gdzie mamy dużo uczniów, dla których angielski nie jest językiem macierzystym. Po drugie, twórcy narzędzi do wykrywania muszą zrezygnować ze złożoności jako głównego wyznacznika analizy tekstu i opracować bardziej zaawansowane techniki. Ponadto ich systemy powinny być bardziej odporne na obejście. Być może rozwiązanie problemu leży po stronie twórców takich systemów jak ChatGPT. Zou sugeruje, że tego typu generatory mogłyby dodawać do tekstu rodzaj znaku wodnego, którym byłyby subtelne sygnały, oczywiste dla systemów wykrywających, stanowiące niejako podpis generatora i wskazujące, że to on jest autorem.


« powrót do artykułu

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

Przy takiej złożoności LLM, w tym ChatGPT, moim zdaniem nie ma szans wykryć, że to Chat jest autorem. Możesz mu kazać poprawić błędy, napisać w jakimś konkretnym stylu, itd.

Co do znaku wodnego, ciężki pomysł. Jak niby miało by się to odbywać, skoro LLM imituje "mowę" ludzką, jest na niej wytrenowany i generuje ciąg słów tak jak człowiek (aczkolwiek bez sensu). Można by technicznie dodawać coś w post-procesingu, ale co, steganografia? Jak niby to miało by wyglądać? Do tego musiało by być jawne, a więc również łatwe do wykrycia, a co za tym idzie do usunięcia. Uczniowie nauczyliby się tego zanim powstał by pierwszy wykrywacz dla nauczycieli :)

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

Jak dla mnie edukacja to nie pisanie tekstów takich jak wypracowania zadane do domu. Szkoła nawet podstawowa jak dla mnie przestała uczyć przechodząc na tryb studiów.
Wykazanie posiadanej wiedzy można okazać w wiele innych sposobów a i tak podstawą jest jak najszybszy dostęp do posiadanej wiedzy.  
Teraz szkolnictwo zapędziło się w kozi róg i nauczyciele dalej brną w tym kierunku by się nie narobić sprawdzając wiedzę swoich uczniów.
Łatwiej im zadać cały program nauczania do domu a później na ładne oczy dać oceny.
Przypomina mi się ze studiów przykład jak z dwójką znajomych daliśmy praktycznie identyczne opracowania tego samego tematu bo mieliśmy pod ręką tą samą książkę. Traf chciał, że wykładowca wziął do ręki pierwszą pracę moją, bo następna miała ocenę mniej a trzecia niezaliczona.

 

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach
Napisano (edytowane)

Na razie wszystkie generatory czatów AI mają jedną cechę: odpowiadając objaśniają teorię, co dla człowieka jest rzeczą zbędną, gdyż zakłada on że czytelnik ma oczywistą wiedzę. Bardzo często jest tak że ChatGPT pytany o konkret zaczyna się rozwodzić nad samą teorią danej problematyki. Z reguły ludzie po prostu mniej gadają. Wszelkie AI na razie gadają bardzo kwieciście. Weźmy choć Sophię - wystarczy spytać "jaka jest pogoda" - żeby usłyszeć co najmniej  z 5 długich zdań - podczas gdy człowiek odpowie "a, leje"

Edytowane przez Ergo Sum

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach
W dniu 20.05.2023 o 22:01, Ergo Sum napisał:

Bardzo często jest tak że ChatGPT pytany o konkret zaczyna się rozwodzić nad samą teorią danej problematyki.

ChatGPT jest narzędziem jak wszystko inne. Nie wie czego oczekujesz "Ty", a jest nauczony/poinstruowany odpowiadać obszernie. Natomiast, nic nie stoi na przeszkodzie powiedzieć mu o tym zadając pytanie i wtedy już masz. Wygooglaj "prompt engineering", a dowiesz się jak prawidłowo z nim rozmawiać i zadawać pytania, a otrzymasz 100x lepsze wyniki. Ba, jego zapytaj o to jak poprawnie to robić, z tym, że polecam po angielsku jednak, po polsku kaleczy, dużo tłumaczy z angielskiego w tle co rodzi dziwne sytuacje.

Zresztą:

W dniu 20.05.2023 o 22:01, Ergo Sum napisał:

Z reguły ludzie po prostu mniej gadają... - podczas gdy człowiek odpowie "a, leje"

Zmień towarzystwo :D

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

Jeśli chcesz dodać odpowiedź, zaloguj się lub zarejestruj nowe konto

Jedynie zarejestrowani użytkownicy mogą komentować zawartość tej strony.

Zarejestruj nowe konto

Załóż nowe konto. To bardzo proste!

Zarejestruj się

Zaloguj się

Posiadasz już konto? Zaloguj się poniżej.

Zaloguj się

  • Podobna zawartość

    • przez KopalniaWiedzy.pl
      Dermatolog Harald Kittler z Uniwersytetu Medycznego w Wiedniu stanął na czele austriacko-australijskiego zespołu, który porównał trafność diagnozy i zaleceń dotyczących postępowania z przebarwieniami na skórze stawianych przez lekarzy oraz przez dwa algorytmy sztucznej inteligencji pracujące na smartfonach. Okazało się, że algorytmy równie skutecznie co lekarze diagnozują przebarwienia. Natomiast lekarze podejmują znacznie lepsze decyzje dotyczące leczenia.
      Testy przeprowadzono na prawdziwych przypadkach pacjentów, którzy zgłosili się na Wydział Dermatologii Uniwersytetu Medycznego w Wiedniu oraz do Centrum Diagnozy Czerniaka w Sydney w Australii.
      Testowane były dwa scenariusze. W scenariuszu A porównywano 172 podejrzane przebarwienia na skórze (z których 84 były nowotworami), jakie wystąpiły u 124 pacjentów. W drugim (scenariuszu B) porównano 5696 przebarwień – niekoniecznie podejrzanych – u 66 pacjentów. Wśród nich było 18 przebarwień spowodowanych rozwojem nowotworu. Testowano skuteczność dwóch algorytmów. Jeden z nich był nowym zaawansowanym programem, drugi zaś to starszy algorytm ISIC (International Skin Imaging Collaboration), używany od pewnego czasu do badań retrospektywnych.
      W scenariuszu A nowy algorytm stawiał diagnozę równie dobrze jak eksperci i był wyraźnie lepszy od mniej doświadczonych lekarzy. Z kolei algorytm ISIC był znacząco gorszy od ekspertów, ale lepszy od niedoświadczonych lekarzy.
      Jeśli zaś chodzi o zalecenia odnośnie leczenia, nowoczesny algorytm sprawował się gorzej niż eksperci, ale lepiej niż niedoświadczeni lekarze. Aplikacja ma tendencję do usuwania łagodnych zmian skórnych z zaleceń leczenia, mówi Kittler.
      Algorytmy sztucznej inteligencji są więc już na tyle rozwinięte, że mogą służyć pomocą w diagnozowaniu nowotworów skóry, a szczególnie cenne będą tam, gdzie brak jest dostępu do doświadczonych lekarzy. Ze szczegółami badań można zapoznać się na łamach The Lancet.

      « powrót do artykułu
    • przez KopalniaWiedzy.pl
      W Journal of Medical Internet Research ukazał się opis eksperymentu, w ramach którego ChatGPT miał stawiać diagnozy medyczne i proponować dalsze działania na podstawie opisanych objawów. Algorytm poradził sobie naprawdę nieźle. Udzielił prawidłowych odpowiedzi w 71,7% przypadków. Najlepiej wypadł przy ostatecznych diagnozach, gdzie trafność wyniosła 76,9%, najgorzej poradził sobie z diagnozą różnicową. Tutaj jego trafność spadła do 60,3%.
      Autorzy eksperymentu wykorzystali 36 fikcyjnych przypadków klinicznych opisanych w Merck Manual. Przypadki te są wykorzystywane podczas szkoleń lekarzy i innego personelu medycznego. Naukowcy z Harvard Medical School, Brigham and Women'a Hospital oraz Mass General Brigham wprowadzili do ChataGPT opisy tych przypadków, a następnie zadawali maszynie pytanie, dołączone w podręczniku do każdego z przypadków. Wykluczyli z badań pytania dotyczące analizy obrazów, gdyż ChatGPT bazuje na tekście.
      Najpierw sztuczna inteligencja miała za zadanie wymienić wszystkie możliwe diagnozy, jakie można postawić na podstawie każdego z opisów. Następnie poproszono ją, by stwierdziła, jaki dodatkowe badania należy przeprowadzić, później zaś ChatGPT miał postawić ostateczną diagnozę. Na koniec zadaniem komputera było opisanie metod leczenia.
      Średnia trafność odpowiedzi wynosiła 72%, jednak różniła się w zależności od zadania. Sztuczna inteligencja najlepiej wypadła podczas podawania ostatecznej diagnozy, którą stawiała na podstawie początkowego opisu przypadku oraz wyników dodatkowych badań. Trafność odpowiedzi wyniosła tutaj 76,9%. Podobnie, bo z 76-procentową trafnością, ChatGPT podawał dodatkowe informacje medyczne na temat każdego z przypadków. W zadaniach dotyczących zlecenia dodatkowych badań oraz metod leczenia czy opieki, trafność spadała do 69%. Najgorzej maszyna wypadła w diagnozie różnicowej (60,3% trafnych odpowiedzi). Autorzy badań mówią, że nie są tym zaskoczeni, gdyż diagnoza różnicowa jest bardzo trudnym zadaniem. O nią tak naprawdę chodzi podczas nauki w akademiach medycznych i podczas rezydentury, by na podstawie niewielkiej ilości informacji dokonać dobrego rozróżnienia i postawić diagnozę, mówi Marc Succi z Harvard Medical School.
      Być może w przyszłości podobne programy będą pomagały lekarzom. Zapewne nie będzie to ChatGPT, ale rozwijane już systemy wyspecjalizowane właśnie w kwestiach medycznych. Zanim jednak trafią do służby zdrowia powinny przejść standardowe procedury dopuszczenia do użytku, w tym testy kliniczne. Przed nimi zatem jeszcze długa droga.
      Autorzy opisanych badań przyznają, że miały one ograniczenia. Jednym z nich było wykorzystanie fikcyjnych opisów przypadków, a nie rzeczywistych. Innym, niewielka próbka na której testowano ChatGPT. Kolejnym zaś ograniczeniem jest brak informacji o sposobie działania i treningu ChataGPT.

      « powrót do artykułu
    • przez KopalniaWiedzy.pl
      ChatGPT od kilku miesięcy jest używany w codziennej pracy przez wiele osób i wciąż budzi skrajne emocje. Jedni podchodzą do niego entuzjastycznie, mówiąc o olbrzymiej pomocy, jaką udziela podczas tworzenia różnego rodzaju treści, inni obawiają się, że ta i podobne technologie odbiorą pracę wielu ludziom. Dwoje doktorantów ekonomii z MIT poinformowało na łamach Science o wynikach eksperymentu, w ramach którego sprawdzali, jak ChatGPT wpływa na tempo i jakość wykonywanej pracy.
      Shakked Noy i Whitney Zhang poprosili o pomoc 453 marketingowców, analityków danych oraz innych profesjonalistów, którzy ukończyli koledż. Ich zadaniem było napisanie dwóch tekstów, jakich tworzenie jest częścią ich pracy zawodowej – relacji prasowej, raportu czy analizy. Połowa z badanych mogła przy drugim z zadań skorzystać z ChataGPT. Teksty były następnie oceniane przez innych profesjonalistów pracujących w tych samych zawodach. Każdy tekst oceniały 3 osoby, nadając mu od 1 do 7 punktów.
      Okazało się, że osoby, które używały ChataGPT kończyły postawione przed nimi zadanie o 40% szybciej, a ich prace były średnio o 18% lepiej oceniane, niż osób, które z Chata nie korzystały. Ci, którzy już potrafili tworzyć wysokiej jakości treści, dzięki ChatowiGPT tworzyli je szybciej. Z kolei główną korzyścią dla słabszych pracowników było poprawienie jakości ich pracy.
      ChatGPT jest bardzo dobry w tworzeniu tego typu treści, więc użycie go do zautomatyzowania pracy zaoszczędza sporo czasu. Jasnym jest, że to bardzo użyteczne narzędzie w pracy biurowej, będzie ono miało olbrzymi wpływ na strukturę zatrudnienia, mówi Noy.
      Oceniający teksty nie sprawdzali jednak, czy ich treść jest prawdziwa. A warto podkreślić, że odpowiedzi generowane przez ChatGPT i inne podobne modele często są mało wiarygodne. Modele te są bowiem bardzo dobre w przekonującym prezentowaniu fałszywych informacji jako prawdziwe. Przypomnijmy, że w ubiegłym miesiącu sąd w Nowym Jorku nałożył grzywnę na firmę prawniczą, która użyła ChataGPT do sporządzenia opinii prawnej pełnej fałszywych cytatów z rzekomych wyroków sądowych. Co więcej, prawnicy byli tak pewni, że algorytm dobrze wykonał zadanie, iż upierali się, że cytaty są prawdziwe. Postęp technologiczny jest powszechny i nie ma niczego niewłaściwego w używaniu narzędzi sztucznej inteligencji. Jednak istniejące zasady nakazują prawnikom upewnienie się, że treści składanych przez nich dokumentów są prawdziwe, stwierdził sędzia Kevin Castel.
      O ile zatem  narzędzia takie jak ChatGPT mogą usprawnić pisanie tekstów czy podnieść ich jakość, to człowiek musi sprawdzić, czy w tekście zawarte zostały prawdziwe informacje.

      « powrót do artykułu
    • przez KopalniaWiedzy.pl
      Inżynierowie z Politechniki Federalnej w Lozannie (EPFL) wykorzystali ChatGPT-3 do zaprojektowania robotycznego ramienia do zbierania pomidorów. To pierwszy przykład użycia sztucznej inteligencji do pomocy w projektowaniu robotów. Eksperyment przeprowadzony przez Josie Hughes, dyrektor Laboratorium Obliczeniowego Projektowania i Wytwarzania Robotów na Wydziale Inżynierii EPFL, doktoranta Francesco Stellę i Cosimo Della Santinę z Uniwersytetu Technicznego w Delfcie, został opisany na łamach Nature Machine Intelligence.
      Naukowcy opisali korzyści i ryzyka związane z wykorzystaniem systemów sztucznej inteligencji (SI) do projektowania robotów. Mimo tego, że ChatGPT to model językowy i generuje tekst, to dostarczył nam on istotnych wskazówek odnośnie fizycznego projektu i wykazał się wielkim potencjałem pobudzania ludzkiej kreatywności, mówi Hughes.
      Naukowcy najpierw „przedyskutowali” z ChatGPT samą ideę robota, określili, czemu ma on służyć, opisali jego parametry i specyfikację. Na tym etapie rozmawiali z SI na temat przyszłych wyzwań stojących przed ludzkością oraz robotów-ogrodników, które mogą rozwiązać problem niedoborów siły roboczej przy uprawie roślin. Następnie, korzystając z faktu, że ChatGPT ma dostęp do danych naukowych, podręczników i innych źródeł, zadawali mu pytania o to na przykład, jakimi cechami powinien charakteryzować się przyszły robot-ogrodnik.
      Gdy już cechy te zostały opisane i zdecydowano, że chodzi o robotyczne ramię zbierające pomidory, przyszedł czas na zapytanie się sztucznej inteligencji o takie szczegóły jak np. kształt chwytaka oraz poproszenie jej o dane techniczne ramienia oraz kod, za pomocą którego byłoby ono kontrolowane. Przeprowadzone przez SI obliczenia posłużyły nam głównie do pomocy inżynierom w implementacji rozwiązań technicznych. Jednak po raz pierwszy sztuczna inteligencja sformułowała tutaj nowe pomysły, mamy tutaj zatem do czynienia ze zautomatyzowaniem procesów wyższych poziomów poznawczych. Rola człowieka w całym procesie przesunęła się bardziej w stronę techniczną, mówi Stella.
      Naukowcy zwracają też uwagę na problemy związane z wykorzystaniem podobnych systemów. Są to zarówno podnoszone już wątpliwości dotyczące plagiatów czy praw autorskich, jak i np. pytanie o to, na ile innowacyjna jest sztuczna inteligencja i na ile ulega schematom. ChatGPT zaproponował ramię do zbierania pomidorów, gdyż uznał pomidory za najbardziej wartościową uprawę, dla której warto zaprojektować robota. To zaś może po prostu oznaczać, że wybrał tą roślinę, która jest najczęściej opisywana, a nie tę, która jest najbardziej potrzebna.
      Pomimo różnych zastrzeżeń uczeni uważają, że podobne do ChatGPT modele językowe mogą spełniać niezwykle użyteczną rolę. Specjaliści od robotyki muszą się zastanowić, jak wykorzystać te narzędzia w sposób etyczny i przynoszący korzyść społeczeństwu, mówi Hughes.

      « powrót do artykułu
  • Ostatnio przeglądający   0 użytkowników

    Brak zarejestrowanych użytkowników przeglądających tę stronę.

×
×
  • Dodaj nową pozycję...