Jump to content
Forum Kopalni Wiedzy
Sign in to follow this  
KopalniaWiedzy.pl

Nowy algorytm lepiej wyszuka produkt w sklepie i przetłumaczy nasz język na inny

Recommended Posts

Gdy robimy zakupy online zwykle wpisujemy kilka wyrazów i liczymy na to, że wyszukiwarka poda nam prawidłowy wynik. Od naszej strony wygląda to banalnie prosto, jednak dopasowanie odpowiedniego produktu wśród milionów innych to nie lada wyzwanie. Dla firm zajmujących się handlem on-line właściwy algorytm może być żyłą złota.

Badacze z Rice University i Amazona poinformowali właśnie o dokonaniu ważnego przełomu, dzięki któremu rozwiązanie problemów związanych z dopasowaniem, czy to w algorytmach do wyszukiwania towarów w sklepie czy algorytmach tłumaczenia pomiędzy językami, będzie wymagało znacznie mniej zasobów niż obecnie.

Czas treningu naszego algorytmu jest 7-10 razy krótszy, a potrzebna ilość pamięci 2-4 razy mniejsza niż w najlepszych podobnych systemach, mówi główny autor badań profesor Anshumali Shrivastava. Mamy milion słów w języku angielskim, ale z pewnością online dostępnych jest ponad 100 milionów produktów, informuje doktorant Tharun Medini.

Miliony ludzi codziennie dokonują zakupów, a każdy robi to na swój sposób. Niektórzy wpisują słowa kluczowe, inni zadają pytania. Wiele osób nie ma też sprecyzowanych oczekiwań. Jako że każdego dnia dokonywane są w ten sposób miliony wyszukiwań, firmy takie jak Google, Amazon czy Microsoft dysponują olbrzymimi bazami danych. Służą one m.in. do maszynowego uczenia algorytmów. Ich twórcy ciągle je udoskonalają, by jak najlepiej dopasować wynik wyszukiwania do potrzeb kupującego.

Systemy do głębokiego uczenia się, sieci neuronowe do olbrzymie zestawy równań, które przetwarzają dane wprowadzane przez użytkownika w dane wynikowe. Zestawy takie pogrupowane są w matryce, coraz bardziej uściślające wynik wyszukiwania. Dane trafiają do pierwszej matrycy, następnie do kolejnej i następnej. Modele takie zawierają miliardy różnych parametrów służących uzyskaniu jak najlepszych danych wyjściowych. Informacje, jakie w wyszukiwarce sklepu internetowego wprowadza użytkownik mogą dać wiele różnych wyników, dlatego też są przetwarzane w bardzo złożony sposób, by jak najlepiej dopasować wynik do oczekiwania użytkownika. Modele do głębokiego uczenia się tak bardzo rozbudowane i korzystają z tak olbrzymich zestawów danych, że trening przeprowadza się na maszynach, które można uznać z superkomputery.

Siec neuronowa, która przyjmuje dane wejściowe i dopasowuje je do 100 milionów możliwych danych wyjściowych, czyli produktów, zwykle zawiera 2000 parametrów na każdy produkt. Zatem ostateczna warstwa obliczeniowa tej sieci zawiera 200 miliardów parametrów. Przechowywanie tych 200 miliardów parametrów wymaga około 500 gigabajtów pamięci. Jeśli jednak przyjrzymy się współczesnym algorytmom uczącym, zobaczymy, że w słynnym algorytmie Adam na każdy parametr przypadają dwa dodatkowe służące monitorowaniu i statystykom. Robi nam się z tego 1,5 terabajta pamięci potrzebnej modelowi do pracy. A nie doszliśmy jeszcze do rozmiarów bazy danych. Najlepsze procesory graficzne, wykorzystywane do obliczeń tego typu, obsługują 32 gigabajty pamięci, więc trenowanie takiego modelu wymaga olbrzymiej liczby GPU i szybkiej komunikacji pomiędzy nimi, stwierdza Medini.

Uczeni z Rice'a opracowali nowy model o nazwie MACH (merged-average classifiers via hashing). To algorytm typu "dziel i zwyciężaj". Aby go zrozumieć, proponują eksperyment myślowy. Należy przypadkowo podzielić wspomniane 100 milionów produktów na trzy klasy. "Powiedzmy, że w wrzucę do jednego worka iPhone'y z t-shirtami. Ze 100 milionów danych wyjściowych robią mi się raptem trzy". W proponowanym eksperymencie myślowym mamy więc 3 worki z produktami. I dwa różne światy. Co oznacza, że w każdym ze światów każdy produkt może znajdować się w innym worku. System klasyfikujący jest trenowany tak, by podawane przez użytkownika dane wejściowe przypisywał do worka, a nie do konkretnego produktu.

Podajemy dane wejściowe dla wyszukiwania w świecie numer jeden i otrzymujemy wynik: „worek 3”. Następnie to samo wyszukiwanie jest dokonywane w świecie numer dwa i otrzymujemy wynik: „worek 1”. Co to oznacza? Że produkt, którego poszukuję, należy do klasy produktów znajdujących się w obu światach w obu wspomnianych workach. Jeśli policzymy liczbę możliwych rozwiązań to otrzymamy 3 w jednym świecie razy 3 w drugim świecie. W ten sposób redukujemy przestrzeń wyszukiwania 1:9 i tworzymy tylko sześć klas przedmiotów. Jeśli dodamy jeszcze jeden świat z kolejnymi trzema workami, trzykrotnie zwiększymy liczbę powiązań. Mamy więc teraz 27 możliwości, zmniejszyliśmy przestrzeń wyszukiwania do 1:27, ale koszt wyszukiwania to przeszukanie jedynie 9 klas. Zwiększamy więc koszt linearnie, ale możliwości wyszukiwania zwiększają się wykładniczo.

Specjaliści wykorzystali do swoich badań sklep Amazona, w którym znajduje się 49 milionów produktów. Podzielili te produkty na 10 000 klas (worków) i cały proces powtórzyli 32 razy. W ten sposób liczba parametrów wykorzystanych przez model zmniejszyła się z około 100 miliardów do 6,4 miliarda, a trening modelu wymagał mniej czasu i mniej dostępnej pamięci niż porównywalnych modeli, mówi Medini.

Naukowiec zauważa, że jedną z najważniejszych cech modelu MACH jest fakt, że nie wymaga on komunikacji pomiędzy procesorami. W naszym eksperymencie myślowym ten brak komunikacji jest reprezentowany przez oddzielne światy. One nie muszą wymieniać się danymi. Możemy przeprowadzić cały proces na pojedynczym GPU, czego nigdy wcześniej nie udało się dokonać, cieszy się Medini.

Ogólnie rzecz ujmując, trenowanie tego typu algorytmów wymaga ciągłej komunikacji pomiędzy parametrami, co oznacza, że wszystkie uruchomione procesory muszą dzielić się informacjami. Komunikacjach zużywa olbrzymie zasoby systemów do głębokiego uczenia się. Google ma ambicję stworzenia sieci korzystającej z biliona parametrów. MACH, w chwili obecnej, nie może być używany do rozwiązywania przypadków z niewielką liczbą klas, ale tam, gdzie mamy do czynienia z zagadnieniami ekstremalnej klasyfikacji udało nam się spowodować, by system działał bez potrzeby komunikacji pomiędzy procesorami, stwierdza Shrivastava.


« powrót do artykułu

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
Sign in to follow this  

  • Similar Content

    • By KopalniaWiedzy.pl
      Dr inż. Marcin Sieniek jest absolwentem Akademii Górniczo-Hutniczej w Krakowie i tamtejszego Uniwersytetu Ekonomicznego. Na AGH otrzymał również doktorat z informatyki za badania w dziedzinie nauk obliczeniowych. W Google Health zajmuje się pracą nad zastosowaniem sztucznej inteligencji w diagnozie raka piersi. Oprócz Google pracował w zespole Autopilota Tesli oraz prowadził w Polsce startup z dziedziny social learning. Prywatnie gra w zespole rockowym i prowadzi bloga expat-pozytywnie.pl.
      Jak trafia się do Google Health i dlaczego właśnie tam? To dość niszowa działka w działalności Google'a czy Alphabetu i wymagająca chyba szczególnych umiejętności?
      W Google Health pomocne są przede wszystkim różnorodne umiejętności i doświadczenia. W Google pracuję od ponad 5 lat, początkowo jako inżynier oprogramowania w polskim biurze firmy. Jednak już od samego początku pracowałem nad wykorzystywaniem sztucznej inteligencji, a konkretniej określonych technik - tzw. uczenia maszynowego. Później kontynuowałem pracę nad moimi projektami w amerykańskich biurach Google. Dopiero wtedy, szukając ciekawych wyzwań wewnątrz firmy, znalazłem możliwość dołączenia do Google Research - działu firmy skupiającego się na badaniach nad rozwojem sztucznej inteligencji i jej wykorzystaniem w różnych dziedzinach życia.
      Tam powstawał właśnie mały zespół badawczy zajmujący się zastosowaniem głębokiego uczenia maszynowego właśnie w radiologii. Proces selekcji do zespołu był wymagający - sprawdzano m.in. znajomość technik sztucznej inteligencji oraz udokumentowane doświadczenie w badaniach biotechnologicznych co akurat zupełnie przypadkiem było przedmiotem jednej z moich prac na studiach doktoranckich.
      Pod koniec 2018 roku mój zespół stał się częścią nowego działu Google Health - łączącego w sobie nie tylko inżynierów oprogramowania, ale także doświadczenie i wiedzę lekarzy, prawników, etyków i specjalistów od procedur medycznych.
      Jest Pan jednym ze współtwórców algorytmu, który lepiej diagnozuje raka piersi niż lekarze. Jak powstaje i działa taki algorytm?
      Algorytm taki powstaje podobnie jak np. technologia która pozwala rozpoznawać co znajduje się na zdjęciu. Algorytm sztucznej inteligencji jest „szkolony” na istniejącym zbiorze danych, gdzie obrazom (w tym wypadku medycznym, czyli zdjęciom z mammografii) towarzyszą oznaczenia (w tym wypadku: czy wykryto nowotwór złośliwy i ewentualna informacja o jego umiejscowieniu). Takie zbiory danych powstają w ramach normalnej praktyki w szpitalach i centrach programów przesiewowych, jednak często na tym ich zastosowanie się kończy.
      Takie algorytmy działają na bazie mechanizmu zwanego „sieciami neuronowymi”. Ich struktura inspirowana jest tym w jaki sposób informacje przetwarza ludzki mózg. Proces nauki przypomina w istocie proces w którym człowiek uczy się rozróżniać obrazy (np. dziecko rozpoznawać koty i psy, a radiolog rozpoznawać groźne guzy od nieszkodliwych zmian). W odróżnieniu jednak od radiologa, który w toku treningu może zobaczyć kilkadziesiąt-kilkaset nowotworów, komputer jest w stanie przetworzyć dziesiątki tysięcy przykładów w przeciągu jedynie kilku godzin.
      Taki „wytrenowany” algorytm stosuje się następnie do oceny osobnego, nowego zbioru danych. Następnie inżynierowie mogą wprowadzić poprawki w procesie uczenia się albo w budowie modelu i powtórzyć testy. Dopiero gdy wyniki działania modelu zadowalają jego twórców, sprawdza się go na kolejnym zbiorze danych, np. pochodzących z innej instytucji lub z innego źródła.
      Na tym właśnie etapie postanowiliśmy opublikować nasz artykuł w Nature.
      Na tym jednak nie kończymy pracy. Zanim taki model znajdzie praktyczne zastosowanie w szpitalach na całym świecie, muszą zostać przeprowadzone próby kliniczne i o na różnych populacjach pacjentów, musimy także ocenić skuteczność modelu na danych pochodzących z innych aparatów mammograficznych.
      Niejednokrotnie informowaliśmy o systemach SI radzących sobie w pewnych zadaniach lepiej od lekarzy. Skąd się bierze ta przewaga sztucznej inteligencji?
      Warto powiedzieć, że to „potencjalna” przewaga. Raczej patrzymy na to jako na wsparcie i usprawnienie procesów diagnostycznych lekarzy. To potencjalne usprawnienie bierze się kilku źródeł: po pierwsze, w procesie uczenia się algorytm może przeanalizować dużo więcej przypadków niż pojedynczy lekarz w procesie nauki (z drugiej strony ludzie wyciągają wnioski szybciej – maszyna potrzebuje więcej przykładów). Co więcej automat nie ma skłonności do zaspokojenia swoich poszukiwań jednym „znaleziskiem” i jest mniejsze ryzyko, że umknie mu inne, często ważniejsze. Wreszcie, system sztucznej inteligencji pozwala na „nastrojenie” go na pożądany przez daną placówkę medyczną poziom czułości i swoistości.

      « powrót do artykułu
    • By KopalniaWiedzy.pl
      Algorytmy sztucznej inteligencji znacznie lepiej niż ludzie przewidują, którzy ze skazanych popełnią w przyszłości przestępstwo. Przeprowadzone właśnie badania pokazują, że programy takie jak COMPAS mogą być niezwykle przydatnym narzędziem dla sędziów i innych pracowników systemu sprawiedliwości i więziennictwa.
      Co prawda ludzie w warunkach testowych również radzą sobie z tym zadaniem dobrze i gdy znają kilka podstawowych zmiennych, to nawet osoba bez odpowiedniego przygotowania jest w stanie, w kontrolowanym środowisku, dorównać złożonym narzędziom oceny ryzyka, mówią naukowcy z Uniwersytetu Stanforda i Uniwersytetu Kalifornijskiego w Berkeley.
      Jednak zupełnie inaczej ma się sprawa z rzeczywistymi wydarzeniami i problemami, z którymi mierzy się wymiar sprawiedliwości. Tutaj zmiennych jest olbrzymia liczba. A przeprowadzone właśnie badania wykazały, że algorytmy potrafią nawet z 90-procentową trafnością przewidzieć, który z podsądnych zostanie w przyszłości zatrzymany za inne przestępstwo. Ludzie potrafią to ocenić ze znacznie niższą, bo zaledwie 60-procentową trafnością.
      Ocena ryzyka od dawna jest częścią procesu podejmowania decyzji w sądownictwie kryminalnym. Ostatnio toczą się dyskusje na temat wykorzystywania narzędzi opierających się na algorytmach komputerowych. Nasze badania wykazały, że w sytuacji rzeczywistych przypadków karnych algorytmy sztucznej inteligencji dokonują często lepszej oceny ryzyka niż ludzie. Wyniki te są zgodne z wieloma innymi badaniami porównującymi wyniki uzyskiwane przez narzędzia statystyczne z wynikami uzyskiwanymi przez ludzi, mówi Jennifer Skeem, psycholog specjalizującą się w przestępczości kryminalnej.
      Sprawdzone narzędzia do oceny ryzyka mogą pomóc sędziom i innym pracownikom wymiaru sprawiedliwości w podejmowaniu lepszych decyzji. Na przykład narzędzia te mogą sędziemu wskazać, który ze skazanych stwarza niewielkie ryzyko i w związku z tym można go przedterminowo zwolnić z więzienia. Oczywiście, podobnie jak inne narzędzia, także i te do oceny ryzyka, muszą zostać połączone z rozsądną polityką oraz muszą być nadzorowane przez człowieka, dodaje Sharad Goel z Uniwersytetu Stanforda, statystyk specjalizujący się w dziedzinie nauk społecznych.
      Lepsze narzędzia do oceny ryzyka są niezwykle potrzebne, szczególnie w USA. Stany Zjednoczone mają bowiem największy na świecie odsetek liczby uwięziony i największą na świecie liczbę osób w więzieniach. Od lat toczy się tam dyskusja na temat zmiany tego stanu rzeczy, ale trzeba zrównoważyć to z potrzebą zapewnienia bezpieczeństwa. Ocena, którego z więźniów można bez ryzyka wypuścić, jest więc niezwykle istotna.
      Narzędzia do oceny ryzyka są w USA bardzo szeroko rozpowszechnione w medycynie, bankowości czy szkolnictwie wyższym. Od dawna też używane są w miarze sprawiedliwości. Jednak w 2018 roku Dartmouth College przeprowadzono badania, w których poddano w wątpliwość skuteczność takich narzędzi. Wynikało z nich bowiem, że i ludzie i algorytmy równie dobrze (z 66% trafnością) oceniają ryzyko. Badania były szeroko komentowane i wiele osób stwierdziło, że w takiej sytuacji nie powinno się używać algorytmów.
      Autorzy najnowszych badań powtórzyli badania przeprowadzone przez Dartmouth i stwierdzili, że posługiwano się podczas nich ograniczonym zestawem danych. Wzięto bowiem pod uwagę jedynie płeć oskarżonych, ich wiek, przestępstwo z które zostali ostatnio skazani oraz całą ich wcześniejszą kartotekę policyjną. Tymczasem sędziowie mają do dyspozycji znacznie więcej informacji. Korzystają z dokumentów ze śledztwa, opinii adwokatów, zeznań ofiar, na ich ocenę wpływa zachowanie i sposób bycia sprawców oraz ofiar. To często są informacje nie mające wpływu na ryzyko recydywy, są niespójne, z łatwością mogą powodować błędną ocenę, wyjaśniają autorzy najnowszych badań.
      Dlatego też rozszerzyli zestaw danych, którymi posługiwali się badacze z Dartmouth. Do wykorzystanych przez nich czynników, dodali 10 nowych, takich jak informacje o zatrudnieniu, zażywaniu używek czy zdrowiu psychicznym. Zmieniono też metodologię. Po każdym z eksperymentów nie mówiono ludziom, których wyniki porównywano z maszyną, czy dokonali dobrej oceny. Sędziowie nie mają przecież informacji o tym, czy osoba, której skrócili karę, popełni w przyszłości przestępstwo.
      Wyniki pokazały, że w takiej sytuacji, gdy zasady eksperymentu bardziej odpowiadają rzeczywistości, ludzie wypadają znacznie gorzej niż algorytm COMPAS. Takie narzędzia mogą być więc przydatnym uzupełnieniem pracy sędziów, kuratorów, lekarzy i innych osób, które mają wpływ na decyzję o wcześniejszym zwolnieniu przestępcy.

      « powrót do artykułu
    • By KopalniaWiedzy.pl
      Twócy online'owej gry Apex Legends wpadli na interesujący pomysł walki z oszustami. Zamiast – jak zwykle robią twórcy online'owych gier – blokować konta osób oszukujących w grze, zmodyfikowali algorytm gry tak, by osoby oszukujące... grały przeciwko sobie.
      Dotychczas walka z oszustami nie przynosiła większych skutków. O ile w płatnych online'owych grach zablokowanie oszusta skutkowało tym, że zakładał on nowe konto i ponownie płacił, to w grach darmowych – jak Apex Legends – oszust nie ponosi nawet tak minimalnej „kary”, jak konieczność ponownego wykupienia dostępu do gry. Oszuści zaś odbierają innym graczom całą przyjemność z gry, gdyż dzięki wykorzystywanym przez siebie nieuczciwym narzędziom, mają nad pozostałymi graczami olbrzymią przewagę.
      Apex Legends to bezpłatna gra udostępniona w bieżącym roku przez Electronic Arts. Gra nie była szeroko reklamowana, więc jej twórców zaskoczył fakt, że już w pierwszym miesiącu miała 50 milionów użytkowników. Gracze walczą w grupach po około 60 osób. Najpierw tworzone są zespoły po trzech graczy, następnie ich zadaniem jest przeszukanie okolicy, w celu znalezienia broni i innych zasobów, a w końcu dochodzi do walki pomiędzy zespołami.
      Gra szybko zyskała na popularności i szybko też popularność straciła. Częściowo za sprawą oszustów, którzy instalowali narzędzia pozwalające m.in. na poznanie dokładniej lokalizacji innych uczestników gry czy też narzędzia automatycznie celujące w przeciwnika podczas wymiany ognia.
      Twórcy Apex Legends postanowili więc, że zamiast bezproduktywnie kasować konta oszustów, lepiej spowodować, by ci dusili się we własnym sosie.

      « powrót do artykułu
    • By KopalniaWiedzy.pl
      Brytyjska policja wykorzystuje specjalny algorytm, który informuje śledczych, które sprawy można rozwiązać. Okazało się, że jednostki, które korzystają z tego algorytmu, prowadzą śledztwa w mniej niż połowie spraw, jakie do nich trafiają. Reszta jest od razu umarzana, gdyż algorytm stwierdza, że i tak nie uda się ich rozwiązać.
      Stosowanie algorytmu oszczędza czas i pieniądze, ale rodzi obawy o to, że policja w ogóle nie zajmuje się sprawami, które – wbrew temu co stwierdził algorytm – można by rozwiązać.
      Obecnie algorytm używany jest wyłącznie w przypadku bójek i innych zakłóceń porządku publicznego, jednak niewykluczone, że w przyszłości będzie stosowany też do innych rodzajów przestępstw.
      Zwykle, gdy policja dowiaduje się o przestępstwie, na miejsce wysyłani są śledczy, którzy zbierają dane i na ich podstawie, opierając się na własnym doświadczeniu, decydują, czy dalej prowadzić sprawę. Jednak w ostatnich latach wskutek zmian w sposobie raportowania, brytyjska policja ma do czynienia ze znacznie większą liczbą zgłaszanych przestępstw.
      Stąd też pomysł na wykorzystanie Evidence Based Investigation Tool (EBIT), algorytmu, który ocenia prawdopodobieństwo rozwiązania sprawy. Jest on od roku używany przez policję z Kent, gdzie pobicia i zakłócenia porządku publicznego stanowią około 30% zgłaszanych przestępstw.
      Jak informuje sama policja, przed wprowadzeniem EBIT funkcjonariusze prowadzili śledztwa w około 75% zgłaszanych spraw. Od czasu gdy używają EBIT odsetek prowadzonych śledztw spadł do 40%. Policjanci chcieliby prowadzić śledztwo w każdej sprawie i złapać sprawcę. Jeśli jednak analiza możliwości rozwiązania sprawy wskazuje, że śledztwo nie ma szans powodzenia, może lepiej użyć zasobów w innych, bardziej obiecujących, śledztwach, mówi Ben Linton z Metropolitan Police.
      Autorem EBIT jest Kent McFadzien z University of Cambridge. Trenował on swój program na próbce tysięcy napadów i zakłóceń porządku publicznego. Zidentyfikował osiem czynników decydujących o tym, czy sprawa może zostać rozwiązana, takich jak np. obecność świadków, nagrań z kamer przemysłowych czy znajomość nazwiska potencjalnego przestępcy. Jednak, jako że czynniki takie mogą się zmieniać, EBIT każdego dnia umieszcza w spisie spraw możliwych do rozwiązania jedną lub dwie takie sprawy, których rozwiązanie ocenia jako mało prawdopodobne. Policjanci nie wiedzą, które to sprawy, gdyż algorytm nie informuje ich o szczegółowej ocenie, wymienia tylko sprawy możliwe do rozwiązania. W ten sposób algorytm jest ciągle testowany i trenowany.
      Istnieją jednak obawy, że jako iż EBIT jest trenowany na już zakończonych śledztwach, pojawiające się błędy mogą być w nim wzmacniane. Jeśli na przykład w jakimś regionie nie ma kamer przemysłowych, algorytm może uznawać sprawy z tego regionu za trudne lub niemożliwe do rozwiązania, przez co mieszkańcy regionu będą poszkodowani, gdyż policja nie zajmie się przestępstwami mającymi tam miejsce.
      Jeśli trenujemy algorytm na historycznych danych dotyczących aresztowań i zgłoszeń przestępstw, wszelkie odchylenia i dysproporcje będą trafiały do algorytmu, który będzie się ich uczył i je wzmacniał, ostrzega Joshua Loftus z Uniwersytetu Stanforda.

      « powrót do artykułu
    • By KopalniaWiedzy.pl
      Opracowany na University of Michigan algorytm przewyższa ludzi w identyfikowaniu fałszywych informacji, tzw. fake news. Podczas testów algorytmu okazało się, że jest on w stanie wyłapać aż 76% fałszywych informacji. W przypadku ludzi efektywność wynosi 70%. Ponadto wykorzystywany przez algorytm mechanizm analizy lingwistycznej może zostać użyty do zidentyfikowania fake newsów nawet w przypadku, gdy są one zbyt świeże, by można było skonfrontować je z innymi źródłami.
      Profesor Rada Mihalcea, która stworzyła wspomniany algorytm, mówi, że przyda się on na przykład witrynom, które są zalewane fałszywymi informacjami po to, by generować kliknięcia lub manipulować opinią publiczną.
      Szczególną ważną rolę do odegrania mogą mieć w agregatorach treści, gdzie pracownicy takich witryn mogą nie być w stanie na czas wyłapać fałszywych informacji pobranych z innych witryn czy serwisów społecznościowych. Ponadto obecnie najczęściej weryfikuje się fake newsy poprzez ich skonfrontowanie z wieloma źródłami przez człowieka. To powolna metoda i zanim taka fałszywa informacja zostanie obnażona, wiele osób zdąży ją przeczytać, a do sprostowania większość z nich nigdy nie dotrze.
      Analiza lingwistyczna, polegająca na wyłapywaniu charakterystycznych zwrotów, struktur gramatycznych, słownictwa czy interpunkcji, działa szybciej niż ludzie i może znaleźć znacznie szersze zastosowanie. Narzędzie tego typu może np. nadawać poszczególnym informacjom rangę, informując czytelnika o ich wiarygodności. Może też posłużyć do oznaczenia treści, którą następnie pracownicy serwisu czy agregatora muszą sprawdzić.
      Profesor Mihalcea mówi, że obecnie istnieje sporo algorytmów służących analizie lingwistycznej. Problemem w opracowaniu wykrywacza fake newsów nie było zbudowanie algorytmu, ale znalezienie odpowiedniego zestawu danych, na których algorytm ten może być uczony.
      Algorytm taki nie może być np. trenowany z użyciem treści satyrycznych, które często opowiadają nieprawdziwe historie, jednak w szczególny sposób, który nie jest przydatny do nauki wykrywania fake newsów.
      Zespół Mihalcei stworzył więc własny zestaw fake newsów i przy pomocy dużej grupy ochotników dokonał czegoś na kształt inżynierii wstecznej, by przeanalizować, jak prawdziwa informacja może z czasem zostać przerobiona na typowy fake news. W ten bowiem sposób powstaje większość krążących po internecie fałszywych informacji.
      Początkowo naukowcy zwrócili się do społeczności Amazon Mechanical Turk i znaleźli tam chętne osoby, które na pieniądze stworzyły z krótkich prawdziwych informacji ich fałszywe wersje, naśladując przy tym styl prawdziwych informacji. Uczeni zebrali 500 par takich prawdziwych i fałszywych informacji,; oznaczyli je odpowiednio i wykorzystali je podczas nauki algorytmu.
      W końcu pobrali z internetu zestaw prawdziwych oraz fałszywych informacji i za jego pomocą je sprawdzali. Okazało się, że algorytm charakteryzuje się trafnością dochodzącą do 76 procent.

      « powrót do artykułu
×
×
  • Create New...