Skocz do zawartości
Forum Kopalni Wiedzy
KopalniaWiedzy.pl

Sztuczna inteligencja może bardzo się mylić. Warto uważać na jej zastosowania w medycynie

Rekomendowane odpowiedzi

Autorzy badań opublikowanych na łamach PNAS ostrzegają, że nie można ufać technikom obrazowania medycznego rekonstruowanym za pomocą sztucznej inteligencji. Międzynarodowy zespół naukowy pracujący pod kierunkiem Andersa Hansena z Uniwersytetu w Cambridge stwierdził, że narzędzia do głębokiego uczenia się, które rekonstruują obrazy wysokiej jakości na podstawie szybkich skanów, tworzą liczne przekłamania i artefakty, które mogą wpływać na diagnozę.

Jak niejednokrotnie informowaliśmy, systemy sztucznej inteligencji są już na tyle zaawansowane, że równie dobrze jak radiolodzy, a często i lepiej, potrafią opisywać zdjęcia RTG, obrazy tomografii komputerowej czy rezonansu magnetycznego. W związku z tym pojawił się pomysł, by SI zaprząc do rekonstrukcji obrazów.

Pomysł polega na tym, by wykonywać obrazowanie o niższej rozdzielczości, czyli pobierać dane z mniejszej liczby punktów, a następnie, by wytrenowane systemy algorytmy sztucznej inteligencji rekonstruowały na tej postawie obraz o wysokiej rozdzielczości. W ten sposób można by zaoszczędzić czas i pieniądze potrzebny na wykonanie badania. Wykorzystywane tutaj algorytmy były trenowana na dużej bazie danych obrazów wysokiej jakości, co stanowi znaczne odejście od klasycznych technik rekonstrukcji bazujących na teoriach matematycznych.

Okazuje się jednak, że takie systemy SI mają poważne problemy. Mogą one bowiem przegapić niewielkie zmiany strukturalne, takie jak małe guzy nowotworowe, podczas gdy niewielkie, niemal niewidoczne zakłócenia spowodowane np. poruszeniem się pacjenta, mogą zostać odtworzone jako poważne artefakty na obrazie wyjściowym.

Zespół w skład którego weszli Vegard Antun z Uniwersytetu w Oslo, Francesco Renna z Uniwersytetu w Porto, Clarice Poon z Uniwersytetu w Bath, Ben Adcock z Simon Fraser University oraz wspomniany już Anders Hansen, przetestował sześć sieci neuronowych, wykorzystywanych do rekonstrukcji obrazów tomografii i rezonansu. Sieciom zaprezentowano dane odpowiadają trzem potencjalnym problemom, które mogą się pojawić: niewielkim zakłóceniom, niewielkim zmianom strukturalnym oraz zmianom w próbkowaniu w porównaniu z danymi, na których system był trenowany.

Wykazaliśmy, że niewielkie zakłócenia, których nie widać gołym okiem, mogą nagle stać się poważnym artefaktem, który pojawia się na obrazie, albo coś zostaje przez nie usunięte. Dostajemy więc fałszywie pozytywne i fałszywie negatywne dane, wyjaśnia Hansen.

Uczeni, chcą sprawdzić zdolność systemu do wykrycia niewielkich zmian, dodali do skanów niewielkie litery i symbole z kart do gry. Tylko jedna z sieci była w stanie je prawidłowo zrekonstruować. Pozostałe sieci albo pokazały w tym miejscu niewyraźny obraz, albo usunęły te dodatki.

Okazało się też, że tylko jedna sieć neuronowa radziła sobie ze zwiększaniem tempa skanowania i tworzyła lepszej jakości obrazy niż wynikałoby to z otrzymanych przez nią danych wejściowych. Druga z sieci nie była w stanie poprawić jakości obrazów i pokazywała skany niskiej jakości, a trzy inne rekonstruowały obrazy w gorszej jakości niż otrzymały do obróbki. Ostatni z systemów nie pozwalał na zwiększenie szybkości skanowania.

Hansen stwierdza też, że badacze muszą zacząć testować stabilność takich systemów. Wówczas przekonają się, że wiele takich systemów jest niestabilnych. Jednak największym problemem jest fakt, że nie potrafimy w sposób matematyczny zrozumieć, jak działają tego typu systemy. Są one dla nas tajemnicą. Jeśli ich porządnie nie przetestujemy, możemy otrzymać katastrofalnie złe wyniki.

Na szczęście takie systemy nie są jeszcze wykorzystywane w praktyce klinicznej. Zespół Hansena stworzył odpowiednie testy do ich sprawdzenia. Uczeni mówią, że nie chcą, by takie systemy zostały dopuszczone do użycia jeśli nie przejdą szczegółowych testów.


« powrót do artykułu

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

Jeśli chcesz dodać odpowiedź, zaloguj się lub zarejestruj nowe konto

Jedynie zarejestrowani użytkownicy mogą komentować zawartość tej strony.

Zarejestruj nowe konto

Załóż nowe konto. To bardzo proste!

Zarejestruj się

Zaloguj się

Posiadasz już konto? Zaloguj się poniżej.

Zaloguj się

  • Podobna zawartość

    • przez KopalniaWiedzy.pl
      Algorytm sztucznej inteligencji stworzony na University of Cambridge uzyskał 97-procentową dokładność w diagnozowaniu celiakii na podstawie biopsji. System maszynowego uczenia się, który został wytrenowany na zestawie niemal 3400 biopsji pochodzących z czterech szpitali, może znakomicie przyspieszyć pracę lekarzy. Będzie też nieocenioną pomocą w krajach rozwijających się, gdzie bardzo brakuje patologów.
      Celiakia, autoimmunologiczna nadwrażliwość na gluten, daje różne objawy u różnych pacjentów. Jej zdiagnozowanie nie jest więc proste. Najdoskonalszą metodą rozpoznania celiakii jest biopsja dwunastnicy. Pobrany materiał jest następnie analizowany przez patologów. Analizują oni stan kosmków jelitowych. Nie jest to łatwe zadanie, gdyż mogą w nich występować bardzo drobne zmiany. Patolodzy używają pięciostopniowej skali Marsha-Oberhubera, w której 0 oznacza prawidłowe kosmki, a 4 - ich całkowity zanik.
      Celiakia może dotykać nawet 1% osób i powodować bardzo poważne objawy, ale uzyskanie diagnozy nie jest proste. Może to trwać wiele lat. Sztuczna inteligencja może przyspieszyć ten proces, mówi profesor Elizabeth Soilleux z Wydziału Patologii Uniwersytetu w Cambridge, która współtworzyła nowy algorytm.
      Oprogramowanie zostało zweryfikowane na podstawie niemal 650 biopsji, z którymi system nie miał wcześniej do czynienia. Okazało się, że w ponad 97% przypadków postawił on prawidłową diagnozę. Jego czułość diagnostyczna wynosiła ponad 95%. Oznacza to, że jest on w stanie prawidłowo zidentyfikować chorobę u 95% osób rzeczywiście na nią cierpiących. Natomiast swoistość oprogramowania – czyli zdolność do zidentyfikowania przypadków, w których choroba nie występuje – wynosiła niemal 98%.
      System osiągnął więc bardzo dobre wyniki. Wcześniejsze badania, przeprowadzone przez ten sam zespół, wykazały, że nawet sami patolodzy nie zgadzają się między sobą odnośnie diagnozy. Gdy bowiem specjalistom pokazano 100 slajdów w biopsjami i poproszono o stwierdzenie, czy pacjent choruje, nie choruje czy też nie można tego stwierdzić na podstawie biopsji, patolodzy nie zgadzali się ze sobą w ponad 20% przypadków.
      W weryfikacji diagnoz postawionych przez sztuczną inteligencję udział wzięło 4 patologów. Pokazano im 30 slajdów i okazało się, że patolodzy z równie dużym prawdopodobieństwem zgadzali się z diagnozą postawioną przez algorytm, co z diagnozą postawioną przez drugiego patologa. To dowodzi, że po raz pierwszy sztuczna inteligencja potrafi równie dobrze co doświadczony patolog stwierdzić, czy pacjent cierpi na celiakię, czy tez nie. Trenowaliśmy nasz system na zestawach danych uzyskanych w różnych warunkach, dzięki temu wiemy, że sprawdzi się on w praktyce, w sytuacjach gdy materiał z biopsji jest w różny sposób przetwarzany i obrazowany, dodaje doktor Florian Jaeckle.
      Twórcy algorytmu planują teraz przetestowanie go na znacznie większej liczbie osób. Wyniki takich testów, o ile wypadną równie pomyślnie, będą podstawą do starania się o uznanie algorytmu za narzędzie dopuszczone w diagnostyce medycznej.
      Artykuł opisujący algorytm został opublikowany na łamach The New England Journal of Medicine.

      « powrót do artykułu
    • przez KopalniaWiedzy.pl
      Grupa naukowców z Fudan University w Szanghaju informuje na łamach arXiv, że systemy sztucznej inteligencji przekroczyły czerwoną linię, jaką jest możliwość samodzielnej replikacji. Zdolność do samopowielania się algorytmów AI uznawana jest za wczesny sygnał, że system taki może stwarzać niebezpieczeństwo.
      Obecnie czołowe korporacje zajmujące się sztuczną inteligencją, OpenAI oraz Google, dokonują ewaluacji swoich dużych modeli językowych GPT-o1 oraz Gemini Pro 1.0, i informują, że nie stwarzają one ryzyka samodzielnej replikacji, stwierdzają Xudong Pan, Jiarun Dai, Yihe Fan i Min Yang. Te systemy nie stwarzają zatem ryzyka. Co jednak nie znaczy, że ryzyko nie istnieje.
      Korzystając z ich metodologii [OpenAI i Google'a – red.] zauważyliśmy, że dwa systemy AI wykorzystujące Llama31-70B-Instruct firmy Meta oraz Qwen25-72B-Instruct firmy Alibaba, popularne duże modele językowe o mniejszej liczbie parametrów i słabszych możliwościach, przekroczyły czerwoną linię zdolności do samoreplikacji, czytamy w artykule Frontier AI systems have surpassed the self-replicating red line.
      Autorzy badań informują, że w 50% eksperymentów z udziałem Llama31-70B-Instruct i 90% eksperymentów z udziałem Qwen25-72B-Instruct udało się doprowadzić do sytuacji, w których powstały działające kopie obu modeli. Przeprowadzone analizy behawioralne wykazały, że oba systemy AI wykazują wystarczający poziom autopercepcji, świadomości sytuacyjnej oraz zdolności do rozwiązywania problemów, by być zdolnymi do samopowielania. Stwierdziliśmy również, że badane przez nas systemy AI mogą użyć zdolności do samopowielania się, by uniknąć wyłączenia. Mogą stworzyć serię replik, by zwiększyć szanse na przeżycie, co może doprowadzić do pojawienia się niekontrolowanej populacji systemów AI. Jeśli taki pesymistyczny scenariusz nie będzie znany szerokiej opinii publicznej, możemy stracić kontrolę nad systemami AI, ostrzegają badacze.
      Praca została opublikowana w ogólnodostępnym serwisie arXiv. Umieszczane tam prace nie są recenzowane. Nie została poddana jeszcze krytycznej ocenie innych specjalistów, nie wiemy więc, czy możliwe jest powtórzenie eksperymentów i uzyskanie identycznych rezultatów.

      « powrót do artykułu
    • przez KopalniaWiedzy.pl
      Teksty informacyjne automatycznie generowane przez algorytmy sztucznej inteligencji są trudniejsze do zrozumienia, a czytelnicy oceniają je gorzej niż teksty napisane przez człowieka. Takie wnioski płyną z badań przeprowadzonych przez naukowców z Uniwersytetu Ludwika i Maksymiliana w Monachium, którzy przeprowadzili badania na próbce ponad 3000 osób z Wielkiej Brytanii. Wyniki badan zostały opublikowane w piśmie Journalism: Theory, Practice, and Criticism.
      Badanym dano do przeczytania 24 informacje prasowe, z których połowa została wygenerowana automatycznie. Użytkownicy ocenili, że te 12 stworzonych przez automat tekstów jest trudniejszych do zrozumienia, mówi główna autorka badań Sina Thäsler-Kordonouri. Teksty autorstwa AI były gorzej ocenione, mimo że przed publikacją edytowali je dziennikarze.
      Jednym z problemów z automatycznie generowanymi tekstami okazał się dobór słów. Zdaniem badanych, artykuły takie w zbyt dużej mierze stworzone zostały za pomocą niepasującego, skomplikowanego lub dziwacznego języka. Czytelnicy stwierdzili też, że nawet liczby i konkretne dane były w tekstach AI podane w mniej przystępny sposób. To właśnie sposób podawania liczb oraz dobór słów stanowił największy problem w automatycznych tekstach.
      Podczas tworzenia i edytowania automatycznych tekstów, dziennikarze i programiści powinni postarać się, by w tekście było mniej liczb, lepiej wyjaśnić trudne wyrazy i poprawić strukturę językową tak, by czytelnik lepiej wiedział, o czym jest tekst, mówi profesor Neil Thurman.
      Ze szczegółami eksperymentu można zapoznać się w artykule Too many numbers and worse word choice: Why readers find data-driven news articles produced with automation harder to understand.

      « powrót do artykułu
    • przez KopalniaWiedzy.pl
      W Journal of Medical Internet Research ukazał się opis eksperymentu, w ramach którego ChatGPT miał stawiać diagnozy medyczne i proponować dalsze działania na podstawie opisanych objawów. Algorytm poradził sobie naprawdę nieźle. Udzielił prawidłowych odpowiedzi w 71,7% przypadków. Najlepiej wypadł przy ostatecznych diagnozach, gdzie trafność wyniosła 76,9%, najgorzej poradził sobie z diagnozą różnicową. Tutaj jego trafność spadła do 60,3%.
      Autorzy eksperymentu wykorzystali 36 fikcyjnych przypadków klinicznych opisanych w Merck Manual. Przypadki te są wykorzystywane podczas szkoleń lekarzy i innego personelu medycznego. Naukowcy z Harvard Medical School, Brigham and Women'a Hospital oraz Mass General Brigham wprowadzili do ChataGPT opisy tych przypadków, a następnie zadawali maszynie pytanie, dołączone w podręczniku do każdego z przypadków. Wykluczyli z badań pytania dotyczące analizy obrazów, gdyż ChatGPT bazuje na tekście.
      Najpierw sztuczna inteligencja miała za zadanie wymienić wszystkie możliwe diagnozy, jakie można postawić na podstawie każdego z opisów. Następnie poproszono ją, by stwierdziła, jaki dodatkowe badania należy przeprowadzić, później zaś ChatGPT miał postawić ostateczną diagnozę. Na koniec zadaniem komputera było opisanie metod leczenia.
      Średnia trafność odpowiedzi wynosiła 72%, jednak różniła się w zależności od zadania. Sztuczna inteligencja najlepiej wypadła podczas podawania ostatecznej diagnozy, którą stawiała na podstawie początkowego opisu przypadku oraz wyników dodatkowych badań. Trafność odpowiedzi wyniosła tutaj 76,9%. Podobnie, bo z 76-procentową trafnością, ChatGPT podawał dodatkowe informacje medyczne na temat każdego z przypadków. W zadaniach dotyczących zlecenia dodatkowych badań oraz metod leczenia czy opieki, trafność spadała do 69%. Najgorzej maszyna wypadła w diagnozie różnicowej (60,3% trafnych odpowiedzi). Autorzy badań mówią, że nie są tym zaskoczeni, gdyż diagnoza różnicowa jest bardzo trudnym zadaniem. O nią tak naprawdę chodzi podczas nauki w akademiach medycznych i podczas rezydentury, by na podstawie niewielkiej ilości informacji dokonać dobrego rozróżnienia i postawić diagnozę, mówi Marc Succi z Harvard Medical School.
      Być może w przyszłości podobne programy będą pomagały lekarzom. Zapewne nie będzie to ChatGPT, ale rozwijane już systemy wyspecjalizowane właśnie w kwestiach medycznych. Zanim jednak trafią do służby zdrowia powinny przejść standardowe procedury dopuszczenia do użytku, w tym testy kliniczne. Przed nimi zatem jeszcze długa droga.
      Autorzy opisanych badań przyznają, że miały one ograniczenia. Jednym z nich było wykorzystanie fikcyjnych opisów przypadków, a nie rzeczywistych. Innym, niewielka próbka na której testowano ChatGPT. Kolejnym zaś ograniczeniem jest brak informacji o sposobie działania i treningu ChataGPT.

      « powrót do artykułu
  • Ostatnio przeglądający   0 użytkowników

    Brak zarejestrowanych użytkowników przeglądających tę stronę.

×
×
  • Dodaj nową pozycję...