Ryzyko techniczne
Halucynacje LLM
Wytwarzanie przez model językowy odpowiedzi formalnie poprawnych syntaktycznie, ale faktycznie nieprawdziwych. Halucynacja nie jest błędem implementacji ani uszkodzeniem, jest cechą architektoniczną modeli probabilistycznych. Wskaźnik halucynacji w produkcyjnych zastosowaniach enterprise oscyluje od 3 do 27 procent zależnie od typu zapytania i benchmarku.
Źródło pierwotne: Stanford CRFM HELM, Vectara Hallucination Leaderboard 2025
Termin jest mylący językowo: model nie halucynuje w sensie psychologicznym, generuje statystycznie najbardziej prawdopodobną sekwencję tokenów dla danego promptu. Jeśli prawda jest mniej prawdopodobna niż wiarygodna fikcja, model wybiera fikcję. Dotyczy każdego LLM, nie tylko OpenAI.
Pomiar
Vectara Hallucination Leaderboard, aktualizowany kwartalnie, mierzy wskaźnik halucynacji w zadaniu summarization. Stan z Q1 2026:
- GPT-4o: 1,5 procent
- Claude 3.7 Sonnet: 0,8 procent
- Gemini 2.5 Pro: 2,4 procent
- Llama 3.3 70B: 4,1 procent
Te liczby dotyczą zadania kontrolowanego z dostarczonym kontekstem. W zadaniach otwartych (Q&A bez RAG) wskaźniki są pięcio do dziesięciokrotnie wyższe.
Typy halucynacji
Stanford CRFM wyróżnia trzy klasy. Pierwsza, faktualne błędy: model podaje konkretne dane (rok, nazwisko, kwota) i się myli. Druga, fabrykacja źródeł: model cytuje publikacje, które nie istnieją. Trzecia, niespójność wewnętrzna: model w obrębie jednej odpowiedzi przeczy sam sobie.
W zastosowaniach enterprise najbardziej kosztowna jest klasa druga. Klient prawniczy dostaje od chatbota orzecznictwo, którego nie ma w bazie. Klient finansowy dostaje cytat z raportu KNF, który nigdy nie został opublikowany.
Mityganty
Cztery techniczne podejścia stosowane w produkcji. RAG (retrieval-augmented generation) z verified sources obniża wskaźnik halucynacji do 0,5-3 procent dla zadań informacyjnych. Function calling z external validators (np. SQL przez bazę zamiast generowania liczb) eliminuje klasę faktualną. Constrained decoding ogranicza output do dozwolonej gramatyki. Multi-model verification, w którym drugi model weryfikuje output pierwszego, obniża wskaźnik o około 40 procent kosztem latencji.
Ograniczenie strukturalne
Halucynacji nie da się wyeliminować całkowicie bez zmiany architektury modelu. To znaczy, że każde zastosowanie AI w procesach o wysokiej wadze decyzji (medycyna, prawo, finanse) wymaga human-in-the-loop. Nie jako safety net na wszelki wypadek, jako element architektury, bez którego rozwiązanie nie jest gotowe do wdrożenia.
Ten temat jest częścią analizy ryzyka w audycie gotowości.