Tokenization

Wprowadzenie

Tokenization (tokenizacja) to proces dzielenia tekstu na mniejsze jednostki zwane tokenami. Jest to jeden z pierwszych i najważniejszych etapów przetwarzania tekstu w dużych modelach językowych.

Metody Tokenizacji

  • Word-level Tokenization – dzielenie na całe słowa (proste, ale słabo radzi sobie z rzadkimi słowami)
  • Character-level Tokenization – dzielenie na pojedyncze znaki (bardzo długie sekwencje)
  • Subword Tokenization – najpopularniejsza obecnie (BPE, WordPiece, SentencePiece)

Popularne Algorytmy Subword Tokenization

  • BPE (Byte Pair Encoding) – używany m.in. w GPT
  • WordPiece – używany w BERT i ELECTRA
  • SentencePiece – bardzo dobry dla języków bez spacji (np. chiński, japoński, polski)
  • Unigram Language Model – elastyczna metoda probabilistyczna

Dlaczego Tokenizacja jest ważna?

  • Wpływa na długość kontekstu (context window)
  • Bezpośrednio wpływa na koszt użycia API (im więcej tokenów, tym drożej)
  • Ma ogromny wpływ na jakość rozumienia tekstu
  • Decyduje jak model radzi sobie z nowymi słowami i językami

Przykłady

Zdanie: „Sztuczna inteligencja rewolucjonizuje świat.”
Po tokenizacji (np. w Llama 3) może zostać podzielone na 8–12 tokenów.

Aktualny status (2026)

Tokenizacja jest nadal aktywnie rozwijana. Nowoczesne modele używają coraz większych i bardziej inteligentnych słowników. Pojawiają się też eksperymentalne metody, takie jak tokenizacja oparta na morfologii czy hybrydowe podejścia łączące tokeny słów z tokenami znaków. Dobra tokenizacja jest kluczowa dla wielojęzycznych i multimodalnych modeli.