Licencja
Metody automatycznej retrospektywnej konwersji bibliografii. Przykład "Polskiej Bibliografii Literackiej"
ORCID
Abstrakt (PL)
Celem rozprawy doktorskiej jest opracowanie metod i narzędzi cyfrowych umożliwiających zautomatyzowaną retrospektywną konwersję dziedzinowych danych bibliograficznych do formatu zgodnego z modelem 5-star Open Data. Eksperyment z wykorzystaniem wytworzonych rozwiązań został przeprowadzony na przykładzie „Polskiej Bibliografii Literackiej” (PBL), opracowywanej przez Pracownię Bibliografii Bieżącej Instytutu Badań Literackich PAN. Praca została podzielona na dwie zasadnicze części: 1) teoretyczną, analityczno–krytyczną oraz 2) implementacyjną. W pierwszej części omówiono historię i rozwój PBL, a także przeanalizowano strukturę wybranych roczników oraz poszczególnych typów rekordów bibliograficznych i wzorcowych. Szczególną uwagę poświęcono problematyce retrospektywnej konwersji, analizując stan badań oraz dostępne metody i rozwiązania technologiczne. Część implementacyjna zawiera szczegółowy opis stworzonych metod i narzędzi, które umożliwiły transformację danych bibliograficznych dostępnych w formie drukowanej do postaci cyfrowej zgodnej z wymaganiami semantycznych baz danych. Opracowano rozwiązanie klasyfikujące poszczególne elementy opisu bibliograficznego wykorzystujące techniki rozpoznawania wzorców oraz przetwarzania języka naturalnego (NLP), prowadzące do osiągnięcia trzeciego poziomu modelu 5-star Open Data. Ponadto, skonstruowano model danych bazujący na istniejących systemach organizacji wiedzy, dostosowany równocześnie do potrzeb bibliografii dziedzinowych i współczesnych systemów grafowych, co pozwoliło na uzyskanie czwartego poziomu tego modelu. Finalnie, piąty poziom otwartości danych osiągnięto poprzez wzbogacenie rekordów bibliograficznych i wzorcowych o dodatkowe informacje pochodzące z zewnętrznych źródeł. Główną metodą badawczą zastosowaną w rozprawie było studium przypadku dotyczące konwersji danych „Polskiej Bibliografii Literackiej” do formatu zgodnego z zasadami semantycznych baz danych. W części teoretycznej wykorzystano systematyczny przegląd piśmiennictwa, który umożliwił szczegółowe rozpoznanie pola badawczego oraz identyfikację kluczowych projektów i narzędzi stosowanych w retrospektywnej konwersji. Wybrane rozwiązania cyfrowe zostały dodatkowo poddane analizie porównawczej. W części empirycznej zastosowano techniki przetwarzania danych tekstowych, ze szczególnym uwzględnieniem rozpoznawania wzorców i przetwarzania języka naturalnego (NLP). Algorytm NLP zbudowano przy użyciu metod nadzorowanego uczenia maszynowego, w tym rozpoznawania jednostek nazewniczych, co umożliwiło przypisanie poszczególnych elementów rekordów bibliograficznych do określonych klas. Model danych PBL opracowano w oparciu o metodę modelowania konceptualnego zgodnego z paradygmatem obiektowym. Integracja danych z zewnętrznymi źródłami przeprowadzona została przy użyciu metod wykrywania podobieństw łańcuchów znakowych oraz łączenia jednostek nazewniczych. Przyjęte w tej części pracy podejście jest zgodne z założeniami humanistyki cyfrowej koncentrującej się na zastosowaniu technologii do badań i udostępniania zasobów kultury analogowej oraz tworzeniu infrastruktur badawczych zgodnie z międzynarodowymi standardami i dobrymi praktykami promocji otwartej nauki. Wymiar praktyczny badań obejmował przekształcenie zawartości PBL z lat 1944–1988 z formy drukowanej do cyfrowej bazy danych, zgodnej z założeniami Linked Open Data i Sieci Semantycznej. Wyniki, obejmujące rekordy bibliograficzne, wzorcowe oraz kod źródłowy w języku Python, zostały udostępnione w otwartym repozytorium na platformie GitHub.
Abstrakt (EN)
The aim of the doctoral dissertation is to develop methods and digital tools for automated retrospective conversion of bibliographic data into a format compatible with the 5-star Open Data model. An experiment with the use of the developed solutions was carried out on the example of the ‘Polish Literary Bibliography’ (PBL), developed by the Department of Current Bibliography at Institute of Literary Research of the Polish Academy of Sciences. The work was divided into two main parts: 1) theoretical, analytical-critical and 2) implementational. The first part discusses the history and development of PBL, and analyses the structure of selected editions and particular types of bibliographic records. Particular attention was given to the problem of retrospective conversion, analysing the state of research and available methods and technological solutions. The implementational part includes a detailed description of the methods and tools developed that enabled the transformation of bibliographic data available in printed form into a digital form compliant with the requirements of semantic databases. A solution was developed to classify individual elements of the bibliographic description using pattern recognition and natural language processing (NLP) techniques, leading to the third level of the 5-star Open Data model. In addition, a data model based on existing knowledge organisation systems was constructed, simultaneously tailored to the needs of domain bibliographies and modern graph systems, leading to the fourth level of the model. Finally, the fifth level of data accessibility was achieved by enriching the PBL records with additional information from external sources. The main research method used in the dissertation was a case study on the conversion of the data of the ‘Polish Literary Bibliography’ into a format compliant with the principles of semantic databases. The theoretical part used a systematic review of the literature, which enabled a detailed exploration of the research field and the identification of key projects and tools used in retrospective conversion. Selected digital solutions were additionally benchmarked with use of the comparative analysis method. In the empirical part, textual data processing techniques were applied, with a focus on pattern recognition and natural language processing (NLP). The NLP algorithm was built using supervised machine learning methods, including the named entity recognition solutions, which enabled the classification of individual elements of bibliographic records. The PBL data model was developed based on a conceptual modelling method in line with the object-oriented paradigm. Data integration with external sources was carried out using text similarity detection and named entity linking methods. The approach taken in this part of the thesis is in line with the principles of digital humanities with a focus on the application of technology to research and sharing of analogue cultural resources and the creation of research infrastructures in compliance with international standards and good practices for the promotion of open science. The practical aspect of the research involved the transformation of the 1944-1988 PBL content from print to a digital database, in line with Linked Open Data and the Semantic Web. The results, including bibliographic and master records and source code in Python, were made available in an open repository on the GitHub platform.