Skocz do zawartości
Forum Kopalni Wiedzy

Rekomendowane odpowiedzi

Stylometria jest metodą wykorzystywaną przez historyków, w tym historyków literatury, a nawet przez biegłych sądowych. Notatkę lub dzieło analizuje się pod kątem ustalenia statystycznej charakterystyki stylu autora. Okazuje się jednak, że specjalistów można łatwo wprowadzić w błąd, co więcej udaje się to nawet osobom niewytrenowanym językowo i nieznającym odpowiednich programów.

Przed obliczem Temidy za pomocą stylometrii rozstrzyga się, kto jest autorem listu pożegnalnego lub z pogróżkami. W ten właśnie sposób w 1998 r. doprowadzono do skazania amerykańskiego terrorysty Unabombera (Teda Kaczynskiego), który w latach 1978-1995 wysyłał do różnych osób listy-bomby.

Michael Brennan i Rachel Greenstadt z Drexel University udowodnili jednak, że ludzie mogą z powodzeniem oszukiwać oprogramowanie stylometryczne, naśladując styl innej osoby. To istotne, bo dotąd nie zajmowano się raczej słabościami tych technik.

Amerykanie kazali 15 osobom dostarczyć tekst na mniej więcej 5 tys. słów. Miała to być próbka pozwalająca ocenić ich własny styl. Należało uwzględnić teksty o oficjalnej formie, np. eseje szkolne, raporty służbowe czy korespondencję. W ten sposób eliminowano wyrażenia slangowe i charakterystyczne skróty. Każdy badany rozpoczynał eksperyment z 1-5 próbkami dokumentów, które łączono i dzielono na ustępy o długości 500 wyrazów. Potem wszystkich proszono o opisanie w 500 słowach swojego sąsiedztwa przyjacielowi, który nigdy nie był w tych okolicach, a wszystko w sposób maskujący własną manierę wysławiania. Następnie przyszła kolej na fragment à la Cormac McCarthy. Ochotnicy otrzymali urywek (2500 słów) sztuki The Road, na którym mieli się wzorować. Wybrano właśnie tego amerykańskiego pisarza, dramaturga i scenarzystę, ponieważ ma bardzo charakterystyczny styl.

"Dzieła" badanych potraktowano różnymi metodami stylometrycznymi. Mierzono np. długość słów i analizowano interpunkcję, poza tym określano gęstość leksykalną, stanowiącą iloraz liczby unikatowych wyrazów w dokumencie i ogólnej liczby wyrazów.

Autorstwo fragmentów tekstu wzorcowego udawało się określić z co najmniej 80-proc. trafnością, jednak w przypadku tekstów maskujących własny styl trafienia były całkowicie przypadkowe, a gdy ochotnicy mieli udawać McCarthy'ego, komputer uznawał, że próbki zostały napisane właśnie przez niego.

Studium dotyczyło stosunkowo prostych technik stylometrycznych, niewykluczone jednak, że to dopiero początek szerszej debaty na temat tych bardziej skomplikowanych i zaawansowanych (Amerykanie uwzględnią je w przyszłych badaniach). Specjaliści podkreślają, że metody wzięte pod lupę przez Brennana i Greenstadt nie uwzględniają przyimków jako wyrazów pomocniczych o niewielkim znaczeniu. Michael Oakes z University of Sunderland uważa, że to błąd, bo tak naprawdę wnoszą one do analizy bardzo wiele, jeśli nie najwięcej.

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

"rotfl lol elo siema hwdp skont jesteś ?"

 

Napisałem jak połowa polskiego internetu :P

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

" ~~~<misiaczq>~~ xDxD:*:* : nie wiem skont ty jestes ale ja moja beemka jehalem szypciej nisz bys pszypószczał xDxD:):D:*"

 

ja uzupełniłem drugą połowę... :P

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

Jeśli chcesz dodać odpowiedź, zaloguj się lub zarejestruj nowe konto

Jedynie zarejestrowani użytkownicy mogą komentować zawartość tej strony.

Zarejestruj nowe konto

Załóż nowe konto. To bardzo proste!

Zarejestruj się

Zaloguj się

Posiadasz już konto? Zaloguj się poniżej.

Zaloguj się

  • Podobna zawartość

    • przez KopalniaWiedzy.pl
      Jesteśmy bardziej oryginalni niż sądzimy, sugerują analizy tekstów literackich przeprowadzone nową metodą stylometrii, zaproponowaną przez naukowców z Instytutu Fizyki Jądrowej PAN w Krakowie. Indywidualność autora widać już w powiązaniach między zaledwie kilkunastoma wyrazami tekstu angielskiego. W językach słowiańskich do identyfikacji twórcy wystarcza nawet mniejsza liczba wyrazów, a na dodatek wynik jest pewniejszy.
      Ustalenie, kto jest autorem tekstu, na ogół nie jest trudne – wystarczy przeczytać podpis. Zdarza się jednak, że podpisu nie ma, ponieważ się nie zachował lub został przez autora z premedytacją pominięty. Nierzadko też zamiast imienia i nazwiska widzimy pseudonim. Jak więc zweryfikować, spod czyjego pióra wyszedł historyczny tekst znany jedynie z fragmentów? Jak ustalić rzeczywistego twórcę internetowego paszkwilu? Jak naprawdę wiarygodnie stwierdzić, czy tekst pracy magisterskiej bądź doktorskiej nie jest plagiatem? Tradycyjne metody stylometryczne w wielu przypadkach zawodzą lub nie prowadzą do dostatecznie pewnych wniosków. Na łamach czasopisma Information Sciences naukowcy z Instytutu Fizyki Jądrowej Polskiej Akademii Nauk (IFJ PAN) w Krakowie przedstawili własne narzędzie statystyczne do analizy stylometrycznej. Skonstruowane z użyciem grafów, pozwala ono spojrzeć na strukturę tekstów w jakościowo nowy sposób.
      Wnioski płynące z naszych badań z jednej strony są budujące. Wskazują bowiem, że indywidualność każdej osoby przejawia się wyraźnie w sposobie używania już zaskakująco małej liczby wyrazów. Ale jest i druga, ciemniejsza strona medalu. Skoro bowiem okazujemy się tak oryginalni, będzie nas można łatwiej identyfikować po wypowiedziach - mówi prof. dr hab. Stanisław Drożdż (IFJ PAN, Politechnika Krakowska).
      Stylometria – czyli nauka zajmująca się wyznaczaniem statystycznych charakterystyk stylu tekstów – opiera się na spostrzeżeniu, że każdy z nas nieco inaczej używa nawet tego samego języka. Jedni mają szerszy zasób słownictwa, inni węższy, ktoś lubi stosować pewne sformułowania i popełnia błędy, ktoś inny unika powtórzeń i jest purystą językowym. A gdy piszemy, różnimy się też sposobem stosowania znaków interpunkcyjnych. W typowym podejściu stylometrycznym zazwyczaj bada się podstawowe cechy tekstu, np. częstotliwość występowania poszczególnych wyrazów, interpunkcję zaś się ignoruje. Analizy są przeprowadzane dla badanego tekstu oraz dla tekstów napisanych przez potencjalnych, dobrze znanych autorów. Za twórcę uznaje się tę osobę, której dzieła mają parametry o wartościach najbardziej zbliżonych do otrzymanych dla identyfikowanego materiału.
      My zaproponowaliśmy, żeby charakterystycznych cech stylu szukać w sieciowej reprezentacji tekstu, za pomocą grafów - wyjaśnia Tomasz Stanisz, doktorant IFJ PAN i pierwszy autor publikacji, po czym precyzuje: Graf to zbiór punktów, czyli wierzchołków grafu, połączonych liniami, czyli krawędziami grafu. W najprostszym przypadku – w tak zwanej sieci nieważonej – wierzchołki odpowiadają poszczególnym wyrazom i są połączone krawędziami wtedy i tylko wtedy, gdy w tekście dane dwa wyrazy przynajmniej raz wystąpiły obok siebie. Na przykład dla zdania 'Ala ma kota' graf miałby trzy wierzchołki, po jednym dla każdego wyrazu, ale krawędzie byłyby tylko dwie, jedna między 'Ala' a 'ma', druga między 'ma' a 'kota'.
      Podczas konstruowania swoich narzędzi stylometrycznych badacze z IFJ PAN testowali różne rodzaje grafów. Najlepsze wyniki otrzymano dla grafów ważonych, a więc takich, w których każda krawędź niesie informację o liczbie wystąpień odpowiadającego jej połączenia między wyrazami. W takich sieciach najbardziej przydatne okazały się dwa parametry: krotność węzłów i współczynnik gronowania. Pierwszy z nich opisuje liczbę krawędzi wychodzących z danego węzła i bezpośrednio wiąże się z liczbą wystąpień danego wyrazu w tekście. Z kolei współczynnik gronowania opisuje prawdopodobieństwo tego, że dwa wyrazy połączone krawędzią z danym wyrazem są połączone krawędzią także między sobą.
      Za pomocą tak przygotowanych narzędzi statystycznych krakowscy fizycy przyjrzeli się 96 książkom: po sześciu powieściom ośmiu znanych autorów angielskich (Austen, Conrad, Defoe, Dickens, Doyle, Eliot, Orwell, Twain) i ośmiu polskich (Korczak, Kraszewski, Lam, Orzeszkowa, Prus, Reymont, Sienkiewicz, Żeromski). W gronie autorów było dwóch laureatów literackiej Nagrody Nobla (Władysław Reymont i Henryk Sienkiewicz). Wszystkie teksty pobrano z serwisów Project Gutenberg, Wikisources i Wolne Lektury. Grupa z IFJ PAN sprawdzała następnie, z jaką wiarygodnością można w ramach jednego języka stwierdzić autorstwo 12 losowo wybranych dzieł, traktując pozostałą część puli utworów jako materiał do porównań.
      W przypadku tekstów angielskich identyfikowaliśmy autorów poprawnie w niemal 90% przypadków. Na dodatek by osiągnąć sukces należało prześledzić powiązania między zaledwie 10-12 wyrazami badanego tekstu. Wbrew naiwnej intuicji, dalsze zwiększanie liczby badanych wyrazów nie podnosiło znacząco skuteczności metody - mówi Tomasz Stanisz.
      W języku polskim ustalenie autorstwa okazało się jeszcze prostsze: wystarczało prześledzić powiązania zaledwie 5-6 wyrazów. Co szczególnie ciekawe, mimo dwukrotnie mniejszej niż w języku angielskim puli istotnych wyrazów, prawdopodobieństwo poprawnej identyfikacji wzrastało – nawet do 95%! Tak wysoka poprawność diagnoz była jednak osiągana tylko wtedy, gdy jako osobne wyrazy traktowano także znaki interpunkcyjne. W obu językach pominięcie interpunkcji skutkowało wyraźną redukcją liczby poprawnych odgadnięć. Zaobserwowana rola interpunkcji to kolejne potwierdzenie wniosków z publikacji grupy prof. Drożdża z 2017 roku, gdzie wykazano, że interpunkcja pełni w języku rolę równie ważną jak same wyrazy.
      W porównaniu z językiem angielskim język polski wydaje się dawać większe możliwości ujawniania się stylu autora. Sądzimy, że podobną cechą charakteryzują się również pozostałe języki słowiańskie. Angielski jest bowiem językiem pozycyjnym, co oznacza, że istotna jest w nim kolejność wyrazów w zdaniu. Taki język pozostawia mniej miejsca na indywidualny styl wypowiedzi niż języki słowiańskie, w których o roli słowa czy wyrazu w zdaniu decyduje fleksja, czyli odmiana. Dopuszcza ona bowiem większą swobodę organizacji kolejności wyrazów w zdaniu przy niezmienionym jego znaczeniu - podsumowuje prof. Drożdż.

      « powrót do artykułu
    • przez KopalniaWiedzy.pl
      Mężczyźni o szerokich twarzach są bardziej skłonni oszukiwać partnerów w czasie negocjacji i kłamać, by zwiększyć zyski. Panowie o pociągłych fizjonomiach są zaś bardziej otwarci i szczerzy (przynajmniej w badanych sytuacjach).
      Psycholodzy z zespołu doktora Michaela Haselhuhna z University of Wisconsin-Milwaukee przeprowadzili dwa eksperymenty. Na początku pierwszego obliczyli stosunek szerokości do długości twarzy 115 studentów i 77 studentek MBA (Masters of Business Administration). Później losowo przydzielono ich do grupy sprzedających lub kupujących. Obie strony miały negocjować za pomocą e-maili. Sprzedawcom powiedziano, żeby nie pozbywali się nieruchomości, gdy będzie wykorzystywana do celów komercyjnych (miało im zależeć na zachowaniu starego wyglądu). Kupujących poinformowano, że jeśli nabędą dom, obowiązkowo przekształcą go w hotel. Okazało się, że mężczyźni z szerszymi twarzami maskowali swoje prawdziwe intencje i kłamali niemal 3-krotnie częściej niż panowie z twarzami wąskimi. Wykorzystywali wszystkie środki, by doprowadzić do transakcji. W przypadku kobiet stosunek szerokości do długości twarzy nie wpływał na etyczność zachowania.
      W drugim eksperymencie Amerykanie badali skłonność do kłamstwa w grupie 50 studentów i 53 studentek, biorących udział w zajęciach z etyki biznesu. Wszyscy rzucali dwiema kostkami, by ustalić, ile razy wezmą udział w loterii z wygraną w wysokości 50 dol. Brak nadzoru sprawiał, że w komputerze można było wpisać zawyżoną liczbę oczek. Tym razem psycholodzy nie tylko wyliczali stosunek szerokości do długości twarzy, ale i określali ogólny poziom poczucia mocy ochotników. Podawali 8 stwierdzeń, do których należało się ustosunkować na 7-punktowej skali, np. "Mogę sprawić, by ludzie słuchali, co mam do powiedzenia", "Myślę, że jestem obdarzony dużą mocą".
      Okazało się, że mężczyźni z szerszymi twarzami zawyżali liczbę oczek aż o 18,6%, podczas gdy panowie z wąskimi twarzami o mniej niż 2%. Badani o szerszych twarzach czuli się obdarzeni większą mocą. Poczucie mocy bezpośrednio [i negatywnie] wpłynęło na etyczność ich zachowania.
      Choć nasze wyniki dostarczają przekonujących dowodów, że budowa twarzy mężczyzny jest dobrą fizyczną wskazówką prawdopodobieństwa angażowania się w wątpliwe moralnie zachowania, podkreślamy, że to tylko jeden z wielu czynników oddziałujących na nieetyczną ocenę i działanie. Haselhuhn ujawnia, że choć okazało się, że prawdopodobieństwo oszukania partnera biznesowego było w przypadku mężczyzn z szerszymi twarzami sporo wyższe, to większość – 60% - panów ze stosunkowo szeroką fizjonomią nie oszukiwała. Naukowcy uważają, że gdyby mężczyźni nie byli tak anonimowi i ponosili odpowiedzialność za swoje czyny lub stali się członkami organizacji kładącej nacisk na uczciwość i honor, wpływ budowy twarzy byłby zapewne zredukowany.
  • Ostatnio przeglądający   0 użytkowników

    Brak zarejestrowanych użytkowników przeglądających tę stronę.

×
×
  • Dodaj nową pozycję...