Architektura systemów

Tokenizacja (podział tekstu na cząstki dla LLM)

Proces przekształcenia tekstu wejściowego na sekwencję tokenów, czyli najmniejszych jednostek, którymi operuje model. Token to typowo część słowa, słowo, lub znak interpunkcyjny. Jeden token w języku angielskim odpowiada średnio 0,75 słowa, w języku polskim 0,5 słowa. Liczba tokenów determinuje koszt zapytania, limit context window i czas odpowiedzi.

Źródło pierwotne: Sennrich Byte-Pair Encoding paper 2016, OpenAI Tokenizer Documentation 2024, HuggingFace Tokenizers Library Reference 2025

Tokenizacja jest niewidoczną, ale kosztotwórczą warstwą każdego wdrożenia AI. Każde zapytanie, każda odpowiedź, każdy fragment kontekstu jest tokenowany. Cennik LLM jest podawany "za milion tokenów", nie za słowa. Bez zrozumienia tokenizacji nie da się sensownie estymować kosztu produkcyjnego wdrożenia.

Mechanizm techniczny

Dominującym algorytmem w 2025 jest BPE (Byte-Pair Encoding), opisany w fundamentalnej publikacji Senrich, Haddow, Birch z 2016 (Neural Machine Translation of Rare Words with Subword Units). Algorytm zaczyna od pojedynczych bajtów, łączy najczęstsze pary, aż słownik osiągnie zadaną wielkość (typowo 50 000 do 200 000 tokenów).

Konsekwencja praktyczna: częste słowa angielskie ("the", "and", "of") mają jeden token. Rzadkie słowa angielskie ("antidisestablishmentarianism") mają 5-7 tokenów. Słowa polskie mają znacznie więcej tokenów niż angielskie, bo modele są trenowane głównie na angielskim korpusie.

Wpływ na koszty

OpenAI Tokenizer Documentation z 2024 pozwala sprawdzić ilość tokenów dla dowolnego tekstu. Praktyczne dane dla GPT-4 tokenizera:

  • "Najpierw porządek, później AI" (29 znaków) = 12 tokenów
  • "Order first, AI second" (22 znaki) = 5 tokenów

Ten sam komunikat po angielsku kosztuje 2,4 raza mniej niż po polsku. Dla aplikacji obsługujących duże wolumeny zapytań polskich, koszt operacyjny jest istotnie wyższy.

Mityganty kosztowe

HuggingFace Tokenizers Library Reference z 2025 opisuje trzy podejścia. Pierwsze, lokalne LLM trenowane na polskim korpusie (Bielik, Trurl) mają znacznie efektywniejszą tokenizację polską niż GPT czy Claude. Drugie, prompt caching: te same fragmenty kontekstu (np. system prompt) liczone raz przy pierwszym zapytaniu, zniżki 50-90 procent przy kolejnych. Trzecie, summarization przed wysłaniem do modelu (kompromis jakości za koszt).

Praktyczna estymacja

Aplikacja chatbota obsługi klienta w polskim banku, 10 000 konwersacji miesięcznie, średnia konwersacja 8 tur, każda tura prompt 500 znaków, odpowiedź 800 znaków: 10 000 × 8 × 1 300 = 104 milionów znaków, około 52 milionów tokenów polskich. Koszt GPT-4o: około 750 dolarów miesięcznie. Koszt lokalnego Bielik na własnym GPU: 200 dolarów hostingu plus jednorazowy 30 000 dolarów hardware (amortyzacja 2 lata).

Estymacja kosztu operacyjnego AI w polskim kontekście jest standardową częścią AI Readiness Audit.