Operacje AI

Model drift (degradacja modelu AI w czasie)

Pogarszanie się jakości predykcji modelu AI w produkcji wynikające ze zmiany w danych wejściowych (data drift) lub zmiany w relacji między danymi a wynikiem (concept drift). Bez monitoringu i retreningu model degraduje się typowo o 5-20 procent jakości rocznie. Model drift jest jedną z trzech najczęstszych przyczyn porażki wdrożeń AI po sześciu miesiącach od go-live.

Źródło pierwotne: Google Cloud AI Best Practices 2024, AWS SageMaker Model Monitor docs 2025, Microsoft Research Concept Drift Survey 2023

Termin pochodzi z literatury data mining lat 90 XX wieku, zyskał wagę enterprise dopiero w 2023-2024, kiedy firmy zaczęły mieć modele w produkcji wystarczająco długo, by zauważyć degradację. Wcześniej projekty kończyły się przed pojawieniem się problemu.

Dwa typy drift

Microsoft Research Concept Drift Survey z 2023 wyróżnia dwie kategorie. Data drift: dystrybucja danych wejściowych zmienia się w czasie. Przykład: model rekomendacji produktów trenowany na zachowaniach pre-pandemia napotyka post-pandemiczne zachowania, dystrybucja zapytań inna. Concept drift: relacja między danymi a etykietą zmienia się. Przykład: model klasyfikacji spamu, spammerzy ewoluują techniki, te same cechy emaila znaczą co innego w 2026 niż w 2024.

Skala problemu w produkcji

Google Cloud AI Best Practices z 2024 raportuje że 73 procent modeli ML w produkcji enterprise nie ma żadnego mechanizmu wykrywania drift. Z modeli, które mają monitoring, średnia degradacja jakości wynosi 8-12 procent rocznie. Z modeli bez monitoringu szacowana degradacja: 15-25 procent rocznie, ale nikt jej nie mierzy, więc problem jest zauważalny dopiero przy katastrofalnym spadku.

Cztery techniki mitygacji

AWS SageMaker Model Monitor docs z 2025 standaryzuje cztery praktyki. Pierwsza, baseline monitoring: snapshot dystrybucji danych w momencie deployment, porównywanie z bieżącą produkcją. Druga, performance metrics tracking: dokładność, precision, recall mierzone na zewnętrznym validation set. Trzecia, automated retraining: pipeline który automatycznie retrenuje model na świeżych danych przy przekroczeniu threshold drift. Czwarta, A/B testowanie wersji modelu w produkcji.

Cost implication

Monitoring drift kosztuje 5-15 procent kosztu wdrożenia oryginalnego modelu, rocznie. Retraining w odpowiedzi na drift kosztuje 20-40 procent kosztu pierwotnego treningu, średnio raz na rok-półtora dla modeli klasyfikacji. Łączny koszt utrzymania ML w produkcji wynosi typowo 25-50 procent kosztu wdrożenia rocznie, w czym drift management to znacząca część.

Polski kontekst

W polskich enterprise wdrożeniach 2025-2026 model drift monitoring jest standardem w mniej niż 18 procentach przypadków (szacunek własny). Większość projektów AI w polskich firmach jest jeszcze przed momentem, w którym drift staje się widoczny operacyjnie (zwykle 6-12 miesięcy w produkcji), więc problem dopiero nadciąga.

Plan monitoringu modelu jest standardową częścią Wdrożenia AI w procesy.