Polsko-angielska terminologia Wojsk Specjalnych: Metodologia tworzenia branżowych leksykograficznych baz danych wraz z modelowaniem aplikacji sieciowej
Abstrakt (PL)
Na przestrzeni ostatnich dziesięcioleci można zaobserwować wyraźny wzrost tempa rozwoju technologicznego, coraz szybciej rozwija się nauka i sfera zawodowa. W dużej mierze do tego stanu rzeczy przyczyniły się media używane do komunikacji. Specjaliści zaczęli komunikować się częściej, nie tylko za pomocą tekstów naukowych, lecz również bezpośrednio. Na jakość tej komunikacji wpływają różne czynniki, które mogą ją zakłócać lub pomagać utrzymywać odpowiedni poziom kontaktu. Jednym z nich są różnorodne słowniki terminologiczne, w tym dwujęzyczne, w których można znaleźć odpowiednik terminu w języku docelowym oraz dokładny opis konceptu. Wydaje się jednak, że w pewnych dziedzinach brakuje takich pomocy dla specjalistów, szczególnie w najbardziej dostępnej formie - słowników elektronicznych. Niniejsza rozprawa ma na celu uzupełnienie tej luki oraz opis modelu elektronicznego branżowego słownika terminologicznego Wojsk Specjalnych w oparciu o leksykograficzne bazy danych i aplikację sieciową. Teoretyczne podstawy słownika zostały oparte na założeniach warszawskiej szkoły terminologicznej, przede wszystkim prac J. Lukszyna i W. Zmarzer. Żołnierze Wojsk Specjalnych są wyjątkowym środowiskiem specjalistów działających często w środowisku międzynarodowym. Dostępne dzieła leksykograficzne dotyczące wojskowości zostały wydane na tyle dawno, że ich zawartość nie zabezpiecza potrzeb komunikacyjnych. Dodatkowo należy zaznaczyć, że Wojska Specjalne charakteryzują się największą interdyscyplinarnością. Jest to wynikiem działania żołnierzy we wszystkich środowiskach oraz współpraca z pozostałymi rodzajami wojsk. Czynniki te powodują, że zbudowanie słownika terminologicznego opisującego dyscyplinę w sposób wystarczający wymagałoby zebrania licznego zespołu specjalistów mających odpowiednie doświadczenie. Kolejnym złożonym etapem byłoby zredagowanie i wydanie słownika w wersji papierowej. Ze względów utylitarnych słownik tego typu powinien być łatwo dostępny dla wszystkich potencjalnych użytkowników. Dziedzina, a zatem i słownictwo, które obejmuje słownik rozwija się bardzo dynamicznie, głównie ze względu na wykorzystywanie najnowszych rozwiązań technologicznych na polu walki. Kolejnym czynnikiem wpływającym na rozwój są liczne zadania wykonywane za granicą - misje zagraniczne, ćwiczenia międzynarodowe, warsztaty, szkolenia i kursy dla specjalistów. Taka działalność wymaga komunikacji w języku angielskim na odpowiednim poziomie, ponieważ od niej często w efekcie końcowym zależy bezpieczeństwo i życie uczestników oraz osób postronnych. Warto wspomnieć, że członkostwo naszego kraju w NATO narzuca komunikację w tym języku oraz standardy związane z terminologią funkcjonującą wewnątrz sojuszu. Organy odpowiedzialne za procesy terminologiczne w Siłach Zbrojnych zajmują się głównie terminologią występującą w oficjalnych dokumentach, takich jak np.: doktryny, standardowe procedury operacyjne itp. Zakres terminologii w tych tekstach nie zabezpiecza w pełni potrzeb żołnierzy na polu walki. Ponadto, przy tak dynamicznie rozwijającej się terminologii komórka zajmująca się standaryzacją powinna być liczniejsza i mieć lepsze wsparcie informatyczne. Powyższe czynniki narzuciły opracowanie systemu, który będzie: wydajny, dostępny oraz będzie umożliwiał szybkie wprowadzanie nowych elementów i zmian. Poza tym, szerokie spektrum dziedziny wymusza zaangażowanie odpowiedniego wachlarza specjalistów z właściwą znajomością języka angielskiego. Odpowiednim rozwiązaniem dla tych determinantów jest stworzenie portalu leksykograficznego, do którego będę mieli dostęp żołnierze i który będzie umożliwiał specjalistom z poszczególnych sfer wprowadzanie i modyfikowanie treści terminologicznych. W ten sposób słownik będzie mógł się rozwijać płynnie, a nie skokowo. Takie rozwiązanie wymaga nadzoru leksykografa, który będzie czuwał nad jakością treści, zachowywaniem zasad leksykograficznych oraz uprawnieniem odpowiednich osób do edycji treści. Prace nad słownikiem rozpoczęły się od analizy wszystkich funkcjonalności aplikacji obsługującej słownik. Większość funkcjonalności aplikacji oraz przebieg prac są zgodne z przyjętą obecnie praktyką tworzenia e-słowników opisaną przez Fuertesa-Olivere i Trapa [2014]. Należy nadmienić, że oprócz typowych funkcji słownikowych, takich jak wyszukiwanie, wyświetlanie czy edycja elementów, aplikacja została rozbudowana o dodatkowe mechanizmy mające ułatwić pracę użytkownikom oraz współtwórcom. Jednym z kluczowych elementów, które rzadko występują w dostępnych słownikach online, jest sieć semantyczna stanowiąca mapę wiedzy zawartej w słowniku. Kolejnym elementem wspierającym prace terminologiczne jest specjalistyczny korpus tekstowy, z którego terminologia jest ekscerpowana półautomatycznie. Warto również wspomnieć o rozbudowanej mediostrukturze, umożliwiającej tworzenie połączeń miejsc w tekstach, w których wystąpił dany element słownika. W wyniku wskazania potrzeb funkcjonalnych, a także podstawowych założeń funkcjonowania słownika, pojawiła się propozycja wykorzystania aplikacji sieciowej wykonanej w .NET, korzystającej z bazy danych MS SQL. Następnie należało wskazać biblioteki zawierające gotowe elementy, które mogą być wykorzystane w aplikacji. Oprócz tych dwóch głównych składowych projektu, koniecznym było użycie środowiska Python do przeprowadzania operacji na tekstach i korpusie tekstowym. W tym języku powstało wiele bibliotek do przetwarzania i analizy języków naturalnych. Reprezentacja sieci semantycznej jest interaktywną składową aplikacji, która umożliwia właściwe zobrazowanie wiedzy branżowej. Przy takiej różnorodności dziedzinowej ułatwia ona reprezentowanie i poruszanie się pomiędzy konceptami zawartymi w słowniku. Co więcej, tezaurusy mogą być używane do celów edukacyjnych dzięki zawartym informacjom o relacjach pomiędzy elementami. Połączenia semantyczne zostały wyselekcjonowane na podstawie analizy materiału terminologicznego. Kolejnym elementem wnoszącym dodatkowe informacje o opisywanych konceptach jest specjalistyczny korpus tekstowy. W skład repozytorium wchodzą instrukcje, podręczniki, dokumenty doktrynalne, prace naukowe i artykuły. Zbiór tekstów będzie się rozrastał, a kolejne elementy będą wskazywane przez współtwórców słownika, którzy mogą wskazać te najbardziej istotne dla danej sfery. Rolą administratora będzie ekscerpcja terminologii za pomocą narzędzi do przetwarzania tekstu. Otrzymane listy frekwencyjne zostaną przeanalizowane przez specjalistów w celu wskazania haseł, które powinny zostać opracowane i dodane do słownika. Zaprojektowanie funkcjonalności, procesów i mechanizmów słownika to ważny proces, ale równie ważnym aspektem projektów jest poziom ich użyteczności i intuicyjności. Znaczna część aplikacji komercyjnych przechodzi testy użyteczności w celu wykazania problemów i błędów. Należy pamiętać, że jeżeli użytkownik będzie miał problemy z obsługą aplikacji, nie będzie jej używał. Ze względu na tę zależność oraz na ograniczony czas użytkowników, zbadano poziom użyteczności aplikacji zgodnie z wybraną metodologią. Według jej głównych założeń, przy pięciu dobranych osobach testujących oraz właściwym scenariuszu testu można wskazać 85% problemów z użytecznością badanego produktu. Biorąc pod uwagę założenie, że to specjaliści z poszczególnych dziedzin będą rozbudowywać słownik, to niewątpliwie niski współczynnik użyteczności aplikacji będzie znacząco wpływał na jego rozwój. Warto zaznaczyć, że testy zostały przeprowadzone zarówno na użytkownikach jak i współtwórcach – specjalistach, ponieważ obie te grupy są równie istotne i korzystają ze wspólnych elementów interfejsu. Wyniki badań składały się z części opisowej oraz części pomiarowej, na którą złożyły się zestawienia założeń dotyczących czasu wykonania wskazanych zadań i wyniki testów. Znaczna część założeń czasowych scenariusza znalazła pokrycie w wynikach testów, co może świadczyć o właściwie przeprowadzonych analizach działania funkcjonalności słownika. Obszary problematyczne pokryły się w znacznym stopniu z uwagami w części opisowej. Uwagi dotyczyły głównie organizacji i wyglądu elementów interfejsu, które były niejasne dla użytkowników i wpływały na czas wykonania zadania. Zawierały one także kilka indykatorów do wprowadzenia poprawek związanych z funkcjonowaniem aplikacji. Poza zadaniami ze scenariusza testów użytecznościowych uczestnicy testów pozytywnie wyrażali się o przedstawionym rozwiązaniu. Niezależnie od wyników testów użyteczności, wybrane rozwiązanie technologiczne powinno być zmodyfikowane. Jedno środowisko do budowania aplikacji i przetwarzania tekstu wydaje się być zasadnym rozwiązaniem. Poza narzędziami do analizy tekstu, Python oferuje również biblioteki do tworzenia aplikacji WEB. Dodatkowo, jest jednym z najlepiej rozwijających się języków na przestrzeni ostatnich lat. Dzięki takiej integracji byłoby możliwe np.: zasilanie korpusu tekstowego bezpośrednio poprzez aplikację, tworzenie statystyk tekstów przez użytkowników na żądanie itp. Całość projektu miała wymiar praktyczny, którego cel został w znacznym stopniu zrealizowany. Warto podkreślić, że autor rozprawy sam pracował nad wszystkimi aspektami projektu. Ten fakt, jak również to, że autor nie ma wykształcenia informatycznego wydłużyły prace oraz powodowały konieczność dodatkowych konsultacji. Z drugiej strony leksykograf miał pełną kontrolę nad kodem i dobrze zna funkcjonowanie poszczególnych części aplikacji. Niemniej jednak, przy takich projektach zalecana jest praca zespołowa, ponieważ jest to złożone przedsięwzięcie i wymaga interdyscyplinarnej wiedzy. Dodatkowym utrudnieniem było docelowe środowisko funkcjonowania tego słownika. Jest to zamknięta sieć wojskowa, która ma wiele ograniczeń podyktowanych wymogami bezpieczeństwa. Pomimo złożoności wyzwania, wydaje się, że propozycja modelu słownika może sprawdzić się wśród specjalistów. Po uwzględnieniu poprawek, wskazanych w badaniach użyteczności, aplikacja będzie dostępna dla żołnierzy Wojsk Specjalnych. Co istotne, opracowany w rozprawie model słownika może być zaimplementowany w dowolnej dziedzinie po uprzednim opracowaniu makrostruktury oraz zestawu połączeń semantycznych.
Abstrakt (EN)
Over the past decades, there has been a significant increase in the pace of technological progress as well as science and industry development. The media used for communication largely contributed to this civilisational development. Scientists and specialists began to communicate more often, not only through scientific texts, but also directly. The quality of this communication is influenced by various factors, that can either degrade or help to maintain an appropriate level of discussion. One of them are terminological dictionaries where you can find in the target language an equivalent of a term and the exact description of its concept. It seems, however, that in some fields there is a lack of such tools for specialists, especially in the most accessible form - electronic dictionaries. The aim of this dissertation is to present the electronic model of the branch terminological dictionary for the Special Forces based on lexicographic databases and a web application. Special Forces soldiers constitute an unique community of specialists who often operate within international groups. The available lexicographic works, related to the military, were published long enough that their content does not meet modern communication requirements. Additionally, it should be underline that the Special Forces are characterized by the greatest interoperability, since soldiers operate in all environments and in cooperation with other types of forces. Due to these factors, building a terminological dictionary describing the field in a proper way, would require gathering a large team of specialists with adequate experience. The next complex stage would be the editing and publication of such dictionary on paper. For utilitarian reasons, a dictionary of this type should be easily accessible to all potential users. The field, and therefore the vocabulary, is developing very dynamically, mainly due to implementing the latest technological solutions on the battlefield. Another factor influencing the development are numerous tasks performed abroad - foreign missions, international exercises, workshops, trainings and courses for specialists. Such activities require communication in English at an appropriate level, because it often determines safety and life of participants as well as civilians. It is worth mentioning that our country's membership in NATO imposes not only communication in this language but also standards related to the terminology functioning within the alliance. The authorities responsible for terminological processes in the Armed Forces mainly deal with terminology included in official documents, such as doctrines, standard operating procedures, etc. The scope of terminology in these texts does not fully meet the needs of soldiers on the battlefield. Moreover, with such a dynamically developing terminology, the terminology standardization organisation should be more numerous and have better IT support. The above factors impose the development of a system that should be: efficient, accessible, and capable of immediate entry of new elements and changes. In addition, the wide spectrum of the field requires involvement of an appropriate range of specialists with proper English skills. A suitable solution for these determinants is to create a lexicographic web service to which soldiers will have access and which will enable specialists from particular fields to input or modify terminological content. Thus, the dictionary will develop smoothly. Such a solution requires also the supervision of a lexicographer, who will control quality of the content, adherence to the lexicographic rules and grant permissions to appropriate users to edit the content. Work on the dictionary has begun with the analysis of all the functionalities required in the dictionary application. It is worth noting that in addition to a regular dictionary functionalities, such as searching, displaying or editing items, the application has been enriched with additional functionalities to facilitate the work of users and contributors. One of the key elements, rarely found in available online dictionaries, is the semantic network which is a map of knowledge covered by the dictionary. Another element supporting the terminological processes is a specialized text corpus, from which terminology is semi-automatically extracted. It is also worth mentioning that the extensive mediostructure allows to link locations in texts with the dictionary items. As a result of indicating the functional needs and the basic assumptions of the dictionary, there was a proposal to use a web application developed in .NET, based on the MS SQL database. The next stage was to select libraries containing prefabricated elements that can be used in the development process. In addition to these two main parts of the project, it was necessary to use the Python environment in order to process texts and the specialized corpus. This programming language offers multiple libraries for processing and analysing natural languages. The representation of the semantic network is an interactive component of the application that constitutes representation of knowledge. With such domain diversity, it makes it easier to display and navigate between the concepts contained in the dictionary. Moreover, thesauruses can be used for educational purposes thanks to the information about the relations between the elements. Semantic connections types have been selected on the basis of the analysis of terminological material. Another element that contains additional information about a described concept is the specialized corpus. The repository includes manuals, operating manuals, doctrinal documents, research papers and articles. The collection of texts will grow and the next elements will be selected by the contributors of the dictionary, who can indicate the most important ones for a given field. The role of the administrator will be to extract terminology using text processing tools. The output frequency lists will be analysed by specialists in order to indicate entries that should be developed and added to the dictionary. Designing the functionalities, processes and mechanisms of the dictionary is an important part, but an equally important aspect of many projects is the level of their usability and user-friendliness. A significant part of commercial applications undergoes usability testing in order to point problems and bugs. Furthermore, it should be noted that if the user experiences problems with using an application, they will stop using it. Due to this relation and limited time of users, the level of the application usability was tested in accordance with the selected methodology. According to its main assumptions, only five suitably selected testers and a tailored test scenario, 85% of problems with the usability of the tested product can be identified. Taking into account the assumption that specialists in particular fields will expand the dictionary, undoubtedly, the low usability factor will disadvantage the application development. It is worth noting that the tests were carried out on both users and contributors, because both of these groups are equally important and share some interface elements. The test results are divided into a qualitive part and a quantitative part, which consist of assumptions regarding the time of performing the selected tasks and test results. A significant part of the scenario's time assumptions matched the test results, which may indicate that the dictionary functionality was properly analysed. The problematic areas largely coincided with the remarks in the descriptive part. The comments were mainly related to the organization and design of interface elements, which were unclear to users and influenced the time spent on tasks. They also contained several indicators for introducing modifications related to the functionality of the application. Apart from the usability test, participants expressed mostly positive opinions about the presented solution. Regardless of the usability test results, the selected technological solution should be modified. A single environment for building applications and text processing seems to be a viable approach. In addition to text analysis, Python also offers WEB application development tools. Furthermore, it is one of the most rapidly developing languages in recent years. Thanks to such integration, it would be possible, for example, to supply the text corpus directly through the application, create text statistics by users on demand, etc. The whole project had a strong practical dimension, the purpose of which was largely fulfilled. It is worth noting that the author of the thesis developed all aspects of the project himself. This fact, as well as the fact that the author has no IT education, extended the project time span and induced additional consultations. On the other hand, the lexicographer had full control of the code and has good understanding of the all functionalities. Nevertheless, teamwork is recommended for such projects as it is a complex undertaking and requires interdisciplinary knowledge. An additional difficulty was the target implementation environment of this dictionary. It is an enclosed military network with many limitations dictated by security regulations. Despite the complexity of the challenge, it seems that the dictionary model may work well among other group of specialists. After taking into account the corrections indicated in the usability tests, the application will be available to Special Forces soldiers. Importantly, the dictionary model developed in the dissertation can be implemented in any field after developing the macrostructure and a set of semantic connections types.