Efficient large language models with conditional computation

Ta praca doktorska bada możliwości poprawy efektywności modeli językowych przy użyciu obliczeń warunkowych. W ostatnich latach głębokie sieci neuronowe zdominowały dziedzinę przetwarzania języka naturalnego (NLP). Szczególnie po publikacji Transformera, sieci neuronowe urosły do niespotykanych dotąd rozmiarów. Publikacje wprowadzające prawa skalowania pokazały istotną wagę liczby parametrów modelu oraz wielkości zbioru treningowego. Jest oczywiste, że z biegiem czasu będą trenowane coraz większe i większe modele. Obliczenia warunkowe mogą zapewnić tak potrzebną efektywność dla dużych modeli językowych (LLM). Najpierw, po opisaniu obecnego stanu modeli językowych oraz obliczeń warunkowych, wprowadzamy warianty standardowych warstw Transformera, które znacząco przyspieszają inferencję modelu, bez pogorszenia jego jakości. Następnie przedstawiamy drobnoziarnistą wersję Mixture of Experts (MoE), w której granularność ekspertów jest parametryzowana. Wyprowadzamy również nowe prawa skalowania dla modeli językowych z MoE, które uwzględniają granularność oraz pokazują efektywność drobnoziarnistego MoE. Ponadto korygujemy twierdzenia wcześniejszych prac na temat skalowania MoE oraz ich względnej efektywności. Następnie wprowadzamy Mixture of Tokens (MoT), wariant MoE z w pełni ciągłą i różniczkowalną architekturą, umożliwiając stabilniejszy trening. Ta technika jest dodatkowo wsparta wprowadzeniem specjalnej metody dotrenowywania, pokazując, że MoT może zostać przekształcone w standardowe MoE podczas fine-tuningu. Następnie prezentujemy SPLiCe, który wykorzystuje fine-tuning do poprawy efektywności wykorzystania długiego kontekstu, umożliwiając lepszą jakość inferencji na długich dokumentach. Na koniec, łączymy MoE z niedawno opracowaną architekturą Mamba, pokazując potencjał wprowadzania obliczeń warunkowych do modele SSM. Podsumowując, ta praca wprowadza wiele usprawnień do obliczeń warunkowych, zwiększając efektywność dużych modeli językowych. Ponadto, pokazuje wartość i stabilność obliczeń warunkowych przy różnych wielkościach oraz architekturach modeli. Ta praca nie tylko posuwa dziedzinę naprzód przez nowe techniki, ale także kwestionuje istniejące przekonania oraz koryguje wcześniejsze badania. W ostatnim czasie wiele dużych modeli językowych używało różne odmiany MoE, i jasno widać, że obliczenia warunkowe pozostaną istotną częścią modeli językowych w przyszłości.

Abstrakt (EN)

This PhD thesis examines the potential of improving the efficiency of language models by incorporating Conditional Computation into the architecture. Deep Learning methods have taken over the Natural Language Processing (NLP) field in recent years. Particularly after the invention of the Transformer architecture, these models have been scaled to unprecedented sizes. Research works, such as scaling laws, highlight the importance of the sheer number of parameters and the size of the dataset. It is evident that this trend of training larger and larger models will only continue. This is where Conditional Computation can provide the needed efficiency for training and running Large Language Models (LLMs). First, after describing the background of language models and Conditional Computation, we introduce sparse variants of standard Transformer layers, which enable considerable speedups during inference without impacting model quality. Then, we present a fine-grained Mixture of Experts (MoE), where the granularity of experts is parametrized. We also design new scaling laws, taking the new parameter into account and showing the improved efficiency of granular MoE. Furthermore, we correct claims made by prior works about the relative efficiency of MoE when scaling the model size. We then present Mixture of Tokens, a novel variant of Mixture of Experts with a fully continuous architecture enabling more stable training. This design is further strengthened by the introduction of transition tuning, showing that a Mixture of Tokens can be converted to a sparse Mixture of Experts during the fine-tuning phase. Subsequently, we introduce SPLiCe, which uses fine-tuning to improve the efficiency of long-context utilization, enabling better performance during inference on long documents. Finally, we incorporate Mixture of Experts into the recently developed Mamba architecture, demonstrating the strength of combining state space models with Conditional Computation. In summary, this thesis introduces multiple improvements to Conditional Computation, enhancing the efficiency of Large Language Models. It demonstrates the strength and resiliency of these techniques across different scales and architectures. The work not only advances the field with new insights but also challenges existing ideas and corrects previous research. With multiple recent Large Language Models using different flavors of Mixture of Experts, it is clear that Conditional Computation is likely to stay in language modeling for a long time.

Słowa kluczowe PL

Głębokie sieci neuronowe

Inny tytuł

Efektywne duże modele językowe przy użyciu obliczeń warunkowych