Wprowadzenie
Tokenization (tokenizacja) to proces dzielenia tekstu na mniejsze jednostki zwane tokenami. Jest to jeden z pierwszych i najważniejszych etapów przetwarzania tekstu w dużych modelach językowych.
Metody Tokenizacji
- Word-level Tokenization – dzielenie na całe słowa (proste, ale słabo radzi sobie z rzadkimi słowami)
- Character-level Tokenization – dzielenie na pojedyncze znaki (bardzo długie sekwencje)
- Subword Tokenization – najpopularniejsza obecnie (BPE, WordPiece, SentencePiece)
Popularne Algorytmy Subword Tokenization
- BPE (Byte Pair Encoding) – używany m.in. w GPT
- WordPiece – używany w BERT i ELECTRA
- SentencePiece – bardzo dobry dla języków bez spacji (np. chiński, japoński, polski)
- Unigram Language Model – elastyczna metoda probabilistyczna
Dlaczego Tokenizacja jest ważna?
- Wpływa na długość kontekstu (context window)
- Bezpośrednio wpływa na koszt użycia API (im więcej tokenów, tym drożej)
- Ma ogromny wpływ na jakość rozumienia tekstu
- Decyduje jak model radzi sobie z nowymi słowami i językami
Przykłady
Zdanie: „Sztuczna inteligencja rewolucjonizuje świat.”
Po tokenizacji (np. w Llama 3) może zostać podzielone na 8–12 tokenów.
Aktualny status (2026)
Tokenizacja jest nadal aktywnie rozwijana. Nowoczesne modele używają coraz większych i bardziej inteligentnych słowników. Pojawiają się też eksperymentalne metody, takie jak tokenizacja oparta na morfologii czy hybrydowe podejścia łączące tokeny słów z tokenami znaków. Dobra tokenizacja jest kluczowa dla wielojęzycznych i multimodalnych modeli.