4 lipca 2025 r.

Zrozumienie position bias w dużych modelach językowych

W najnowszych badaniach przeprowadzonych przez zespół naukowców z MIT zajęto się kwestią position bias w działaniu dużych modeli językowych (large language models – LLM).

Wyniki badań zostały opublikowane w artykule pt. „On the Emergence of Position Bias in Transformers” autorstwa Xinyi Wu, Yifei Wang, Stefanie Jegelka i Ali Jadbabaie. Wynika z nich, że LLM mają skłonność do skupiania się na informacjach zawartych na początku lub końcu analizowanych treści, a także pokazały mechanizm tego działania.

W praktyce oznacza to, że np. w przypadku wykorzystania wirtualnego asystenta do wyszukiwania określonej frazy w tekście, LLM ma większe szanse na znalezienie właściwego fragmentu, jeśli znajduje się on na pierwszej lub ostatniej stronie analizowanych dokumentów.

Position bias jest wynikiem budowy architektury sieci neuronowych, tzw. transformerów, wykorzystywanych przez najpopularniejsze duże modele językowe takie jak Claude, Llama i GPT-4. Transformery są zaprojektowane do przetwarzania danych sekwencyjnych – zdania są kodowane we fragmentach nazywanych tokenami (którymi mogą być np. poszczególne słowa), a relacje pomiędzy tokenami pozwalają LLM przewidzieć, jakie słowa pojawią się w jakiej kolejności.

Transformery w dużych modelach językowych wykorzystują tzw. mechanizmy uwagi (attention mechanisms), które pozwalają tokenom na selektywne zwracanie uwagi na inne tokeny w tej samej sekwencji, co pozwala na zrozumienie kontekstu i poprawę zdolności LLM do przetwarzania zależności pomiędzy tokenami.

Jednakże im więcej stron w dokumencie, czyli im więcej tokenów, tym szybciej mechanizm ten staje się obliczeniowo trudny w obróbce. Dlatego też inżynierowie przy tworzeniu transformerów wykorzystują techniki ograniczające liczbę słów na które pojedynczy token może zwracać uwagę.

Do takich metod należą m.in. causal masking czyli mechanizm, w którym token zwraca uwagę tylko na słowa znajdujące się przed nim lub technika positional encoding (kodowania pozycyjnego), pozwalająca na ustalanie miejsca tokenów (np. słów) w sekwencji (np. tekście).

Opracowane przez ekspertów MIT ramy teoretyczne pokazują, w jaki sposób architektura uczenia maszynowego przetwarza dane, które stanowią podstawę dużych modeli językowych i jak wybory z tym związane, podjęte w trakcie projektowania LLM, mogą pogłębiać position bias.

Praktyczna część badania polegała na przeprowadzaniu wyszukiwania informacji przy pomocy LLM, w trakcie którego badacze zmieniali położenie prawidłowej odpowiedzi we fragmentach tekstu. W wyniku eksperymentu zaobserwowano, że modele osiągały najlepsze wyniki, jeśli poszukiwana odpowiedź znajdowała się na początku lub końcu sekwencji, natomiast dokładność wyszukiwania wyraźnie spadała im bliżej środka sekwencji znajdowała się poprawna odpowiedź.

Im większy model (czyli im więcej warstw mechanizmów uwagi zawiera), tym bardziej position bias jest wzmacniany poprzez częstsze wykorzystanie wcześniejszych danych wejściowych w procesie rozumowania modelu.

Wyniki badania pokazują również, że użycie causal masking skutkuje tendencyjnością powstałego modelu w kierunku informacji znajdujących się na początku danych wejściowych, nawet w przypadku kiedy same dane nie wykazują takiej skłonności.

Natomiast wykorzystanie positional encoding do tworzenia silniejszych połączeń pomiędzy sąsiadującymi ze sobą słowami pozwala na niwelowanie position bias. Jednakże efekt ten może zmniejszać się w większych modelach z większą liczbą warstw mechanizmów uwagi.

Tendencyjność może być również skutkiem użycia nieodpowiednio dobranych danych treningowymi używanych do dostrajania modelu, które uczą go jak ustalać priorytety słów w sekwencji.

Aby redukować position bias, artykuł sugeruje wykorzystanie innych technik maskowania, zmniejszanie liczby warstw w mechanizmie uwagi lub odpowiednie wykorzystanie kodowania pozycyjnego, co pozwoli na poprawę dokładności modelu.

Oprócz wskazania źródeł tendencyjności związanej z pozycją, powstałe ramy teoretyczne i wyniki badań mogą być wykorzystywane do diagnozowania i korygowania problemu w nowo powstających modelach. Zrozumienie działania LLM pozwoli na poprawę ich działania, dzięki czemu będzie można tworzyć bardziej niezawodne chatboty, systemy medyczne AI czy asystentów kodowania. Przeprowadzone badania pozwoliły na lepsze zrozumienie działania dużych modeli językowych i pokazują, w jaki sposób można łączyć teorię z praktyką w badaniu sztucznej inteligencji.

Źródło: news.mit.edu