Jump to content
Forum Kopalni Wiedzy
Sign in to follow this  
KopalniaWiedzy.pl

Państwowy Instytut Badawczy udostępnił dwa neuronowe modele języka polskiego

Recommended Posts

Naukowcy z Ośrodka Przetwarzania Informacji Państwowego Instytutu Badawczego (OPI PIB) udostępnili w tym roku dwa polskojęzyczne neuronowe modele języka – Polish RoBERTa v2 oraz GPT-2. Popularność takich modeli szybko rośnie. Zwiększają się też ich rozmiary czyli liczba parametrów. I chociaż większość osób nie zdaje sobie sprawy z ich istnienia, to wielu z nas na co dzień z nich korzysta.

Dzięki neuronowym modelom języka mamy dostęp do usług automatycznego tłumaczenia tekstu na różne języki, nasza poczta elektroniczna wykrywa spam, korzystają z nich systemy korekty tekstu i chatboty.

Modele takie mają olbrzymi potencjał, niż zatem dziwnego, że prace nad nimi trwają w wielu ośrodkach na całym świecie. Jednak ich opracowanie dużych mocy obliczeniowych oraz specjalistycznej infrastruktury. Niezbędne są też olbrzymie ilości danych.

W OPI PIB już dawno dostrzegliśmy potencjał, jaki posiadają neuronowe modele języka. Utworzyliśmy nawet Laboratorium Inżynierii Lingwistycznej (LIL), w którym nasi eksperci budują inteligentne narzędzia do odkrywania wiedzy z dużych korpusów danych tekstowych i internetowych. To właśnie oni opracowali i wdrożyli Jednolity System Antyplagiatowy (JSA), z którego korzystają wszyscy promotorzy prac dyplomowych w Polsce. Temat neuronowych modeli języka jest jednak tak innowacyjny i obszerny, że również w innych jednostkach OPI PIB pracujemy nad tym zagadnieniem. Bardzo ciekawe i innowacyjne prace realizuje największe z naszych laboratoriów, tj. Laboratorium Inteligentnych Systemów Informatycznych (LISI), jego zespół opracował m.in. model Polish RoBERTa large, który wytrenowano na największym w Polsce korpusie tekstów. W tym roku kontynuowaliśmy prace i udostępniliśmy dwa nowe modele – Polish RoBERTa base v2 oraz przeznaczony do zadań związanych z generowaniem tekstu model GPT-2, stwierdził dyrektor OPI PIB dr inż. Jarosław Protasiewicz.

Polish RoBERTa był trenowany na największym polskim korpusie tekstów, na który składa się 130 GB danych. Jego tegoroczna druga wersja jest mniejsza, nie wymaga więc równie dużych mocy obliczeniowych, a wyniki otrzymujemy szybciej.

Wykorzystany korpus danych składa się z dwóch zasadniczych części. Bazę stanowią teksty z takich źródeł jak Wikipedia, dokumenty parlamentu, książki, artykuły i dłuższe formy pisane. Z kolei w skład części internetowej stanowią teksty pozyskane za pomocą projektu CommonCrawl z witryn internetowych.

Modele udostępnione przez OPI PIB oparte są na sieciach transformer. Architektura ta jest stosunkowo nowa – stosowana jest od 2017 roku. Sieci typu transformer nie opierają się na sekwencyjnym przetwarzaniu danych, zamiast tego przetwarzają je w sposób jednoczesny. Modele opracowane w Laboratorium Inteligentnych Systemów Informatycznych OPI PIB doskonale nadają się do badania polskiego internetu, dodaje Sławomir Dadas z Laboratorium Inteligentnych Systemów Informatycznych w OPI PIB.

Najnowszym udostępnionym modelem jest GPT-2. Również i on korzysta z architektury transformer. Przeznaczony jest głównie do zadań związanych z generowaniem tekstu.

Trenowanie pojedynczego modelu trwa 3 do 4 miesięcy jednak, jak zapewniają w OPI PIB, wysiłek się opłaca.


« powrót do artykułu

Share this post


Link to post
Share on other sites

Czy wytworzymy kiedykolwiek system, który rozpoznaje styl danego czasu historycznego, danej grupy ludzi, czy nawet pojedynczych osób?

Share this post


Link to post
Share on other sites
1 godzinę temu, Ergo Sum napisał:

Czy wytworzymy kiedykolwiek system, który rozpoznaje styl danego czasu historycznego, danej grupy ludzi, czy nawet pojedynczych osób?

Już dawno takie są, nie wiem tylko czy dla j. polskiego.

  • Upvote (+1) 1

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
Sign in to follow this  

  • Recently Browsing   0 members

    No registered users viewing this page.

×
×
  • Create New...