Human-in-the-loop (człowiek zatwierdzający decyzje AI), definicja i kontekst biznesowy, yesfor

Termin pochodzi z lat 70 XX wieku, z badań nad systemami sterowania lotniczego, w których pełna automatyzacja była technicznie możliwa, ale operacyjnie ryzykowna. W erze AI wzorzec wrócił z nową siłą jako odpowiedź na halucynacje LLM, bias modeli i nieprzewidywalność agentic AI.

Trzy poziomy interwencji

Human-on-the-loop. Człowiek monitoruje, system działa. Interwencja tylko, gdy alert. Najszybsze, najtańsze. Stosowane w marketingu, content moderation, predictive maintenance.

Human-in-the-loop. Każda decyzja wymaga aktywnego zatwierdzenia człowieka. AI proponuje, człowiek akceptuje lub odrzuca. Stosowane w medycynie, prawie, decyzjach finansowych powyżej progu, HR (zatrudnienie, awans, zwolnienie).

Human-on-the-system. Człowiek nie widzi pojedynczych decyzji, ale ma kontrolę nad polityką, parametrami, threshold'ami. Stosowane w systemach o bardzo wysokim wolumenie, gdzie HITL nie skaluje się.

Kiedy HITL jest wymagany prawnie

AI Act z lutego 2026, załącznik III, wprowadza obowiązek human oversight dla systemów wysokiego ryzyka. Dla branż regulowanych w Polsce: bankowość (Rekomendacja S KNF), medycyna (Ustawa o wyrobach medycznych, rozporządzenie MDR), prawo (Kodeks Etyki Radcy Prawnego). Naruszenie obowiązku oversight skutkuje sankcjami przewyższającymi koszt wdrożenia HITL kilkadziesiąt razy.

Skuteczność

FDA Software as Medical Device Guidance z 2025 raportuje że systemy z udokumentowanym HITL mają 47 procent mniej incydentów niż systemy w pełni autonomiczne, w zadaniach o porównywalnej kompleksowości. Stanford HAI z 2024 dodaje: w zadaniach kreatywnych (writing, design) HITL podnosi jakość output'u o 31-58 procent w testach blind.

Koszt HITL

Trzy elementy. Pierwszy, design UI dla human reviewer (interface, w którym łatwo zatwierdzić lub odrzucić). Drugi, training reviewerów (rozumieją, co oceniają, kiedy się zgadzać, kiedy nie). Trzeci, monitoring jakości reviewerów (czy odrzucają systematycznie określone typy, czy rubber-stamp'ują wszystko).

Typowy koszt HITL wzbogaca infrastrukturę AI o 15-30 procent CapEx i dodaje koszt operacyjny pracy reviewerów. Ten koszt jest często niedoszacowany w propozycjach dostawców AI, bo zaniża ROI propozycji.

Anti-pattern: rubber stamp

Częsty fail mode w organizacjach, które wdrażają HITL bez zaprojektowania incentivów reviewerów. Reviewer zatwierdza wszystko, bo zatwierdzenie nie generuje pracy, a odrzucenie generuje. Po sześciu miesiącach HITL staje się formalnością, decyzje są de facto autonomiczne, ale firma utrzymuje koszt operacyjny. Rozwiązanie: random audits, w których nadzorca weryfikuje 1-5 procent zatwierdzonych decyzji.

Decyzję, w którym miejscu w procesie HITL ma sens dla Twojej firmy, podejmujemy w ramach AI Readiness Audit.