Open Source software and the network effects

Autor
Celińska-Kopczyńska, Dorota
Promotor
Dziuba, Dariusz
Kopczewski, Tomasz (promotor pomocniczy)
Data publikacji
2019-07-22
Abstrakt (PL)

W tej rozprawie zostanie przeanalizowana współpraca pomiędzy programistami tworzącymi oprogramowanie Open Source ze szczególnym uwzględnieniem kwestii efektu sieciowego. Pierwszym celem rozprawy jest redefinicja efektu sieciowego. W efekcie sieciowym według definicji używanej w rozprawie można wyodrębnić komponent związany z siecią potencjalną (klasyczne rozumienie terminu), ale również komponent wynikający z dostępnej informacji i jej jakości odnośnie lokalnej sieci, czyli sąsiedztwa konsumenta w skierowanym multigrafie. Drugim celem rozprawy jest próba odkrycia czynników, które warunkują siłę efektu sieciowego wśród programistów działających w serwisie GitHub. Zakładając obecność efektów sieciowych wśród programistów Open Source i dostrzegając, że skoro efekt sieciowy jest uzależniony od liczby i jakości powiązań w sieci, pytanie o czynniki sprzyjające efektowi sieciowemu sprowadza się do problemu, co sprzyja powstawaniu połączeń w sieci. Korzystając z danych pochodzących z serwisu GitHub, analizuję zachowanie użytkowników w ramach wielowarstwowej sieci. Wyodrębniam sieci (warstwy) związane ze śledzeniem użytkownika, dawaniem mu gwiazdek, kopiowaniem jego repozytorium, zgłaszaniem propozycji zmian, zgłaszaniem problemów oraz komentowaniem. W rozprawie sprawdzam, czy i w jaki sposób różnorodność oraz homofilia wpływają na współpracę (tworzenie się sieci) pomiędzy użytkownikami serwisu GitHub zajmującymi się oprogramowaniem Open Source. Wykorzystane techniki analizy obejmują modele regresji logistycznej, analizę sieci społecznych, techniki analizy wielowymiarowej, analizę tekstu oraz uogólnione sieci Kohonena. Rozprawa ma charakter interdyscyplinarny. Poza dyskusją problemu z teorii mikroekonomii uwagę poświęcam efektywnym metodom wizualizacji i przetwarzania danych o dużej objętości. Rozważam m.in., jaka rozmaitość najlepiej nadaje się do modelowania sieci tworzonych przez użytkowników serwisu GitHub. Otrzymane wyniki sugerują, że najmniej odpowiednie jest wykorzystanie płaszczyzny euklidesowej. Uzyskane wyniki wskazują, że zarówno różnorodność, jak i podobieństwo odgrywają ważną rolę w procesie tworzenia się sieci pomiędzy użytkownikami serwisu GitHub. Różnorodność wspomaga rozwój połączeń w sieciach związanych z wymianą informacji (zgłaszanie problemów, komentarze i śledzenie); współpraca w ramach kodu z reguły występuje pomiędzy osobami o podobnych charakterystykach. W projektach współpraca pomiędzy odmiennymi osobami częściej niż między podobnymi polega na zgłaszaniu błędów oraz problemów w użytkowaniu programu. Na zachowanie programistów ma również wpływ standaryzacja obecna wśród języków programowania. W rozprawie sugeruję nowe techniki badawcze do dotychczas niestawianych problemów (analiza sekwencji, uogólnione sieci Kohonena, analiza tekstu z wykorzystaniem geometrii hiperbolicznej). Uzyskane rezultaty są reprezentatywne dla populacji osób tworzących oprogramowanie Open Source w serwisie GitHub.

Abstrakt (EN)

In this dissertation, we will analyze the collaboration among Open Source developers in GitHub with a particular focus on the network effects. Our aims are twofold. First, we want to introduce a generalized definition of the network effects, which would allow for the inclusion of information generated by the underlying network structures while modeling. We separate the potential network effects (the traditional understanding) from the local network effects (related to the topology of the multidigraph). Secondly, we want to investigate the factors which influence the strength of network effects within the Open Source community. We assume the presence of network effects within the Open Source community of GitHub. We discuss how diversity and homophily affect the performance of the teams and the creation of links in social networks of GitHub. We combine the classical Social Network Analysis (e.g., assortativity, rich-club, structural characteristics) with the econometric analyses. Since the complete download of GitHub data is impossible, our dataset is combined from three sources: GHTorrent, GitHub Archive, and our data set obtained by web-scraping GitHub. Recently, it was shown that hyperbolic geometry is intrinsic in many real-world networks and especially useful while modeling large scale-free networks based on similarity and popularity. For this reason, we address similarity vs. diversity among developers with non-Euclidean Self-Organizing Maps. Exponential growth which characterizes hyperbolic geometry affects the visualization and modeling of the neighborhoods in data: objects sharing the same properties tend to be mapped close together. We investigate the impact of developers characteristics on the probability of collaborating with them with the logistic regression model. Additionally, we conduct text mining analyses on the content provided by GitHub users. We also show that the structures of networks in the service are not independent and find the temporal patterns in developers' behavior. Our findings suggest that diversity plays a crucial role in the creation of links among users who exchange information (e.g., in issues, comments, and following networks). On the contrary, similar users establish the connections in networks related to actual coding. Open Source developers are driven by various forms of the network effect, e.g., standardization or lock-in-effects. Reputation and mutuality also play an essential role in choosing with whom to collaborate. We also provide some new algorithmic solutions, especially in the area of applying hyperbolic geometry to economic research. The results are representative for the Open Source developers in GitHub.

Słowa kluczowe PL
inteligencja zbiorowa
współpraca
github
geometria hiperboliczna
sieci społeczne
oprogramowanie Open Source
efekt sieciowy
Inny tytuł
Oprogramowanie Open Source a efekty sieciowe
Data obrony
2019-04-17
Licencja otwartego dostępu
Dostęp zamknięty