15 mar 2024

Czym karmimy PLLuM-a

Jakie cechy muszą mieć dane tekstowe, które posłużą do wytrenowania polskiej sztucznej inteligencji

Modele językowe czerpią wiedzę z korpusów, czyli dużych zbiorów danych tekstowych. Ważne, żeby zawarte w nich teksty obejmowały różne gatunki, style czy odmiany języka. To jeden z czynników decydujących o jakości modelu.

Zróżnicowane dane

Sukces PLLuM-a zależy od zgromadzenia nie tylko obszernego, ale przede wszystkim zróżnicowanego zbioru danych. Aby model mógł sprostać wyzwaniom komunikacyjnym w najróżniejszych kontekstach, korpus musi opisywać jak najwięcej aspektów rzeczywistego użycia polszczyzny – od literatury po mowę potoczną; od dyskursu technicznego, treści urzędowe czy użytkowe – aż po zróżnicowane treści internetowe, które odzwierciedlają aktualne trendy i przemiany społeczne.

Teksty, które do tej pory zebraliśmy, spełniają to kryterium. Nasz korpus obejmuje różne rejestry i gatunki, między innymi akty prawne, książki, transkrypcje wypowiedzi ustnych, teksty naukowe czy prasę. To dane starannie wyselekcjonowane, transparentne i kilkukrotnie zweryfikowane.

Polszczyzna w centrum uwagi

Naszym celem jest, by model doskonale rozumiał polszczyznę, świetnie odnajdywał się w kulturze i historii Polski, a także generował trafne i sensowne odpowiedzi dostosowane do polskiej rzeczywistości. To odróżnia PLLuM-a od istniejących na rynku komercyjnych rozwiązań.

Nasze działania

Budowę korpusu rozpoczęliśmy od przeglądu i katalogowania zasobów tekstowych zebranych przez konsorcjantów projektu. Jednocześnie staramy się pozyskać jak najwięcej wysokiej jakości danych – zarówno z publicznych repozytoriów, jak i od wszystkich chętnych, którzy mogą zgłosić na naszej stronie, że chcieliby wesprzeć PLLuM-a.
Nasz korpus jest oczywiście głównie polskojęzyczny, ale – żeby umożliwić odpowiednie wytrenowanie i uogólnienie modelu – nie pomijamy danych w innych językach słowiańskich, bałtyckich oraz w języku angielskim. Tworzymy również dodatkowe korpusy (zwane korpusami instrukcji i preferencji), na bazie których model nauczy się interpretować polecenia i odpowiednio na nie reagować.

Metadane

Nieodłączną częścią tworzenia danych treningowych są metadane. Potrzebujemy ich, aby odpowiednio dobierać ilości tekstu o różnych charakterystykach przy trenowaniu modelu. Schemat metadanych opracowujemy na bazie doświadczeń zebranych podczas analizy istniejących już korpusów dla języka polskiego, a następnie dostosowujemy do specyfiki modelu oraz najnowszych standardów.

Jakość i legalność danych

W procesie zbierania i deponowania danych kierujemy się zarówno literą prawa, jak i dobrymi praktykami. Bierzemy pod uwagę aktualne przepisy, w tym regulacje Unii Europejskiej dotyczące sztucznej inteligencji oraz praw autorskich w świecie cyfrowym. Nasze działania opieramy ponadto na międzynarodowych standardach FAIR (akronim od ang. Findable, Accessible, Interoperable, Reusable), które promują otwartość, dostępność, interoperacyjność oraz możliwość ponownego użycia danych. Opracowujemy szczegółowe procedury kontroli jakości i przepływu danych, weryfikujemy również licencje i faktyczne możliwości ich wykorzystania.

Co dalej?

Prace nad tworzeniem PLLuM-a to system naczyń połączonych – złożony i wielowymiarowy proces, w który angażujemy osoby zajmujące się różnymi dziedzinami – lingwistyką, informatyką, analizą danych czy prawem. Obecnie kontynuujemy zbieranie i udoskonalanie danych. Ponieważ uczenie się na materiałach najwyższej jakości ma kluczowe znaczenie dla działania modelu, kolejnym ze stojących przed nami wyzwań jest przekształcenie nierzadko nieuporządkowanych danych w klarowny i spójny zbiór treningowy. Oznacza to ich gruntowne czyszczenie oraz pozbywanie się duplikatów. Następnie będziemy – z wykorzystaniem dobrej jakości danych – trenować PLLuM-a.
Kładąc szczególny nacisk na specyfikę języka polskiego oraz polski kontekst kulturowy i historyczny, chcielibyśmy poprzez projekt PLLuM nie tylko wzbogacić świat sztucznej inteligencji o polskojęzyczny model, ale także przyczynić się do rozwoju polskiej nauki i technologii.