Jak zostało zaprojektowane i stworzone LEPISZCZE, czyli kompleksowy benchmark zadań przetwarzania języka naturalnego dla języka polskiego

Zapraszamy na kolejne seminarium z cyklu AI/BigData w piątek, 16 grudnia 2022 r. o godz. 10.30. Tym razem będzie o narzędziach do trenowania modeli językowych.
Łukasz Augustyniak z Katedry Sztucznej Inteligencji (Wydział Informatyki i Telekomunikacji, Politechnika Wrocławska) wyjaśni Jak zostało zaprojektowane i stworzone LEPISZCZE, czyli kompleksowy benchmark zadań przetwarzania języka naturalnego dla języka polskiego.

Coraz szersza dostępność zasobów obliczeniowych i danych do trenowania dużych modeli językowych zwiększa zapotrzebowanie na tworzenie solidnych środowisk ewaluacyjnych pozwalających na rzetelne oszacowanie postępów w modelowaniu języka. W ostatnich latach zauważalny jest znaczący postęp prac nad standaryzacją środowisk ewaluacyjnych dla języka angielskiego. Środowiska takie jak GLUE, SuperGLUE czy KILT stały się standardowymi narzędziami do oceny modeli językowych. W tworzeniu środowisk dla innych języków wielu badaczy koncentrowało się na replikowaniu środowiska GLUE, czego przykładem jest polski benchmark KLEJ.

Podczas seminarium omówiona będzie praca poświęcona narzędziu LEPISZCZE. Autorzy przedstawiają przegląd prac nad tworzeniem środowisk ewaluacyjnych dla języków niskozasobowych. Pokazują, że wciąż wiele języków nie posiada wyczerpującego zestawu danych testowych do oceny modeli językowych. Wskazują obecne w środowiskach ewaluacyjnych luki i porównują dostępne w ramach tych środowisk zadania, odnosząc się przy tym do języka angielskiego i języka chińskiego – języków o licznych zasobach treningowo-testowych.

Głównym wynikiem pracy jest LEPISZCZE – nowe środowisko ewaluacyjne dla polskiej technologii językowej opartej na modelowaniu języka, z szerokim zestawem różnorodnych zadań testowych. Zaproponowane środowisko zostało zaprojektowane z myślą o elastyczności w dodawaniu zadań, wprowadzaniu nowych modeli językowych, nadsyłaniu wyników oraz wersjonowaniu danych i modeli. Autorzy wraz ze środowiskiem dostarczają również ocenę kilku nowych modeli językowych oraz dołączają zarówno poprawione zbiory istniejące w literaturze, jak również i nowe zbiory testowe dla nowych zadań. W środowisku zawarto 5 istniejących zbiorów danych i 8 nowych zbiorów danych, które dotychczas nie były używane w ewaluacji modeli językowych. W pracy zawarto również doświadczenia i wnioski wynikające z pracy nad tworzeniem środowiska ewaluacyjnego LEPISZCZE jako wskazówki dla projektantów podobnych środowisk w innych językach o ograniczonych zasobach językowych.