Artykuł w czasopiśmie
Brak miniatury
Licencja

ClosedAccessDostęp zamknięty

New Parallel Corpora of Baltic and Slavic Languages — Assumptions of Corpus Construction

Autor
Roszko, Danuta
Duszkin, Maksim
Roszko, Roman
Data publikacji
2021
Abstrakt (EN)

In this article, we describe the design principles of the ten newly published CLARIN-PL corpora of Slavic and Baltic languages. In relation to other non-commercial online corpora, we highlight the distinctive features of these CLARIN-PL corpora: resource selection, preprocessing, manual segmentation at the sentence level, lemmatisation, annotation and metadata. We also present current and planned work on the development of the CLARIN-PL Balto–Slavic corpora.

Dyscyplina PBN
językoznawstwo
Czasopismo
Lecture Notes in Computer Science
Strony od-do
172-183
ISSN
0302-9743
Licencja otwartego dostępu
Dostęp zamknięty