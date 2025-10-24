Aktualizacja: 24.10.2025 16:44 Publikacja: 24.10.2025 13:34
Nasza rodzima mowa wyprzedziła angielski – język, który jest wiodącym w kontekście szkolenia AI. W amerykańskim zestawieniu zajął dopiero szóstą pozycję
Foto: Bloomberg
Dotychczas język polski powszechnie uznawano za jeden z najtrudniejszych do nauki – na świecie za bardziej skomplikowane pod względem m.in. gramatyki i ortografii uznaje się np. islandzki, fiński, baskijski, chiński czy nawaho. Jak podaje organizacja Ethnologue, w sumie na Ziemi używa się ponad 7 tys. języków, ale to nasz, w różnego rodzaju rankingach, plasuje się w top 10 najtrudniejszych. Jak się jednak okazuje, kłopot z tym mają wyłącznie ludzie.
Naukowcy z University of Maryland oraz Microsoftu przeprowadzili test dużych modeli językowych (LLM), w którym sprawdzili, jak boty radzą sobie z poszczególnymi językami naturalnymi. Pod lupę wzięli 26 języków. Do testów zaangażowano modele OpenAI o3-mini-high, Google Gemini 1.5 Flash, Qwen2.5 (7B i 72B), Llama 3.1 (8B), Llama 3.3 (70B) i DeepSeek-R1. Pisali w nich zapytania (tzw. prompty), nie krótkie i zdawkowe, lecz wyjątkowo obszerne, kontekstowe (liczące nawet ponad 100 tys. tokenów). Na bazie wyników tego eksperymentu (zrozumienia zapytania, jakości odpowiedzi) opublikowali benchmark OneRuler. Efekt? Niewątpliwie duże zaskoczenie. Język polski zajął pierwsze miejsce. Nasza rodzima mowa wyprzedziła angielski – język, który naturalnie jest wiodącym w kontekście szkolenia AI, w tym zestawieniu zajął dopiero szóstą pozycję.
„Eksperymenty z modelami językowymi ujawniają powiększającą się lukę w wydajności między językami nisko- i wysokozasobowymi wraz ze wzrostem długości kontekstu z 8 tys. do 128 tys. tokenów. Co zaskakujące, angielski nie jest językiem o najwyższej wydajności w zadaniach o długim kontekście, a językiem czołowym okazał się polski” – piszą w opublikowanym niedawno raporcie równie zaskoczeni naukowcy.
Interesujący, choć już nie tak zaskakujący, okazał się również inny wniosek z badania – otóż wydajność modeli w językach tzw. wysokozasobowych (np. europejskich) jest wyższa niż w „niskich” (jak np. swahili czy sesotho). Co istotne, ta różnica wydajności powiększa się wraz ze wzrostem długości kontekstu – z 11 proc. przy 8 tys. tokenów do aż 34 proc. przy 128 tys. tokenów. To istotne, bo rozumienie języka w długim kontekście ma zasadnicze znaczenie dla rzeczywistych zastosowań dużych modeli językowych, takich jak streszczanie i odpowiadanie na zaawansowane pytania.
W badaniach modele oceniano na podstawie siedmiu syntetycznych zadań podzielonych na dwie kategorie: wyszukiwanie (zadania typu „igła w stogu siana”, w których poszukuje się informacji, która nie istnieje w tekście) oraz agregacja (ekstrakcja najczęściej występujących słów z długiej listy). Testy przeprowadzono dla czterech długości kontekstu: 8, 32, 64 oraz 128 tys. tokenów. Wnioski? Polski to najlepszy język do promptowania. Brzmi niewiarygodnie, tym bardziej, że AI ma z naszym językiem pewien kluczowy problem – chodzi o fakt „stosunkowo niewielkiej ilości zasobów” w naszym języku, które służą do trenowania LLM-ów. Mimo to badacze nie mają wątpliwości: boty, pracując w tym języku popełniają mniej błędów, potrafią trafniej odpowiedzieć i lepiej przeanalizować duże zbiory dokumentów. Opublikowane przez zespół naukowców (Yekyung Kim, Jenna Russell, Marzena Karpińska, Mohit Iyyer) badanie „One ruler to measure them all: Benchmarking multilingual long-context language models” pokazuje wprost: polski wypada najlepiej w zadaniach, gdzie wpisywana treść prompta jest bardzo długa, bo liczy od 64 do 128 tys. tokenów.
Czytaj więcej
Czy można zaufać botom? Ryzyko rośnie, nie tylko z uwagi na tzw. halucynacje AI, ale też możliwoś...
Wedle analiz osiągnął on średnio 88 proc. skuteczności. W przypadku jęz. angielskiego było to niecałe 84 proc. Co ciekawe, mimo że modele LLM często trenowane są na ogromnych ilościach danych chińskich, język ten wypadł bardzo słabo – zajął dopiero czwarte miejsce od końca (średnia skuteczność to 62 proc.).
Pełne zestawienie w rankingu znajduje się poniżej.
© Licencja na publikację
© ℗ Wszystkie prawa zastrzeżone
Źródło: rp.pl
Dotychczas język polski powszechnie uznawano za jeden z najtrudniejszych do nauki – na świecie za bardziej skomplikowane pod względem m.in. gramatyki i ortografii uznaje się np. islandzki, fiński, baskijski, chiński czy nawaho. Jak podaje organizacja Ethnologue, w sumie na Ziemi używa się ponad 7 tys. języków, ale to nasz, w różnego rodzaju rankingach, plasuje się w top 10 najtrudniejszych. Jak się jednak okazuje, kłopot z tym mają wyłącznie ludzie.
Wielu ekspertów od AI nazywa rok 2025 „rokiem agentów”. Andrej Karpathy, współzałożyciel Open AI, ujawnia, kiedy...
Dlaczego działalność małych i średnich przedsiębiorstw ma znaczenie. Wpływ przejęć MŚP na lokalne społeczności.
Naukowcy z Uniwersytetu Nankai opracowali specjalny elektrolit żelowy, który ma zwiększać żywotność tradycyjnych...
Ponad 700 osób, w tym laureaci Nobla, liderzy religijni, naukowcy i celebryci podpisali apel o zakaz rozwoju sup...
Zaskakujące odkrycie naukowców: pacjenci z nowotworami, którzy przyjęli szczepionkę mRNA przeciw COVID-19, żyją...
Rozbudowa szybkich sieci ładowania jest szczególnie ważna dla wzrostu sprzedaży samochodów ciężarowych, bez których trudno myśleć o dekarbonizacji – ocenia Małgorzata Kulis, dyrektor zarządzająca Volvo Trucks Polska.
W USA powstała sieć prywatnych szkół promujących się jako miejsce, w którym nauczanie bazuje na wykorzystaniu AI...
Jak LegalTech i AI realnie zmieniają pracę prawnika – od automatyzacji dokumentów i analizy danych po obsługę klienta i przygotowanie do procesów sądowych.
Masz aktywną subskrypcję?
Zaloguj się lub wypróbuj za darmo
wydanie testowe.
nie masz konta w serwisie? Dołącz do nas