Tokenization | Encyklopedia AI

Wprowadzenie

Tokenization (tokenizacja) to proces dzielenia tekstu na mniejsze jednostki zwane tokenami. Jest to jeden z pierwszych i najważniejszych etapów przetwarzania tekstu w dużych modelach językowych.

Metody Tokenizacji

Word-level Tokenization – dzielenie na całe słowa (proste, ale słabo radzi sobie z rzadkimi słowami)
Character-level Tokenization – dzielenie na pojedyncze znaki (bardzo długie sekwencje)
Subword Tokenization – najpopularniejsza obecnie (BPE, WordPiece, SentencePiece)

Popularne Algorytmy Subword Tokenization

BPE (Byte Pair Encoding) – używany m.in. w GPT
WordPiece – używany w BERT i ELECTRA
SentencePiece – bardzo dobry dla języków bez spacji (np. chiński, japoński, polski)
Unigram Language Model – elastyczna metoda probabilistyczna

Dlaczego Tokenizacja jest ważna?

Wpływa na długość kontekstu (context window)
Bezpośrednio wpływa na koszt użycia API (im więcej tokenów, tym drożej)
Ma ogromny wpływ na jakość rozumienia tekstu
Decyduje jak model radzi sobie z nowymi słowami i językami

Przykłady

Zdanie: „Sztuczna inteligencja rewolucjonizuje świat.”
Po tokenizacji (np. w Llama 3) może zostać podzielone na 8–12 tokenów.

Aktualny status (2026)

Tokenizacja jest nadal aktywnie rozwijana. Nowoczesne modele używają coraz większych i bardziej inteligentnych słowników. Pojawiają się też eksperymentalne metody, takie jak tokenizacja oparta na morfologii czy hybrydowe podejścia łączące tokeny słów z tokenami znaków. Dobra tokenizacja jest kluczowa dla wielojęzycznych i multimodalnych modeli.