Pomiń nawigację

28 kwietnia 2025 r.

Małe modele językowe – czym są i czy warto z nich korzystać?

Choć to duże modele językowe (large language models – LLMs) jak ChatGPT czy DeepSeek przyciągają uwagę i najczęściej pojawiają się w prasie, naukowcy i firmy z branży AI prowadzą również prace nad małymi modelami językowym (small language models – SLMs).

Aby poprawnie działać, duże modele językowe (w tym modele oferowane przez OpenAI, Meta, Google i DeepSeek) wykorzystują ogromne ilości parametrów (czyli wewnętrznych zmiennych dostosowywanych w trakcie treningu LLM, które określają połączenia między danymi). Im ich więcej w danym modelu, tym lepiej LLMs odnajdują wzory i połączenia, a co za tym idzie model jest dokładniejszy i bardziej wydajny.

Jednakże ogromna ilość parametrów przekłada się na koszty treningu i użytkowania modelu. Im ich więcej, tym szkolenie LLM wymaga więcej mocy obliczeniowych, a co za tym idzie jest coraz bardziej energochłonne. Według niektórych raportów, wytrenowanie modelu Gemini 1.0 Ultra kosztowało Google 191 milionów dolarów. Natomiast ChatGPT potrzebuje zużyć 10 razy więcej energii, żeby odpowiedzieć na jeden prompt, niż wyszukiwarka Google potrzebuje żeby przeprowadzić jedno wyszukiwanie.

Choć SLMs używają tylko niewielkiej części parametrów LLMs (kilka miliardów zamiast setek miliardów), ich wykorzystanie ma swoje zalety i w niektórych przypadkach jest lepszym rozwiązaniem.

Firmy takie jak IBM, Google, Microsoft i OpenAI prowadzą badania nad i wypuszczają na rynek małe modele językowe. Zmniejszenie liczby wykorzystywanych parametrów (obecnie działające SLMs wykorzystują do 10 miliardów parametrów) oznacza, że SLM nie mogą być wykorzystywane „do wszystkiego”, ale są przeznaczone do konkretnych, określonych zadań – tworzenia streszczeń, funkcjonowania jako chatbot w określonej dziedzinie, czy gromadzenia danych z inteligentnych urządzeń.

Zaletą SLM jest również to, że nie potrzebują one mocy obliczeniowych centrów danych (data centers), ale mogą działać bezpośrednio na urządzeniach takich jak laptop albo telefon komórkowy.

Dla badaczy zalety wykorzystania małych modeli kryją się właśnie w ich wielkości – SLMs pozwalają na tańsze testowanie nowych rozwiązań oraz zużycie mniejszej ilości zasobów (np. energii elektrycznej). Mniejsza ilość wykorzystywanych parametrów jest również zaletą w badaniach nad sposobem działania modeli językowych – to jak działają SLMs może być bardziej przejrzyste niż działanie LLMs, co pozwala badaczom na lepsze zrozumienie tych mechanizmów.

Dla firm korzyścią płynącą z małych modeli może być szybsze i tańsze opracowanie oraz wdrożenie tego typu rozwiązań, co pozwoli na tworzenie narzędzi dokładnie dopasowanych do potrzeb organizacji. Takie rozwiązania jest również łatwiej dostosować do wymagań firmy w zakresie bezpieczeństwa czy efektywności energetycznej. SLM sprawdzi się nie tylko jako samodzielne narzędzie – małe modele mogą także ze sobą współpracować. Przewiduje się, że agenci AI oparci na małych modelach open source w najbliższej przyszłości mogą zastąpić aplikacje w wykonywaniu wyspecjalizowanych zadań.

Według przewidywań duże modele językowe wciąż będą najlepszym rozwiązaniem do wybranych zastosowań takich jak m.in. generalne chatboty, generowanie obrazów czy symulacje w badaniach naukowych np. tworzenie nowych leków. Jednak dla wielu użytkowników, w tym firm, małe modele przeznaczone do konkretnych zadań będą bardziej opłacalnym i łatwiejszym we wdrożeniu narzędziem. Według opublikowanego niedawno raportu Deloitte „Trendy technologiczne 2025” małe modele językowe są przyszłościową technologią, na którą warto zwrócić uwagę.

 

Źródła:

www.quantamagazine.org

www2.deloitte.com

Może Cię zainteresować

Opublikowano: 28.04.2025 15:35
Poprawiono: 28.04.2025 13:35
Modyfikujący: sebastian_lodzinski
Udostępniający: sebastian_lodzinski
Autor dokumentów: