Людина в петлі AI: коли нагляд рятує рішення

У 2023 році одна з великих рекрутингових систем працювала кілька місяців, перш ніж хтось перевірив, чи модель не надає перевагу певним демографічним групам. Перевірка виявила систематичне відхилення. Жоден з автоматичних тестів цього не виявив, оскільки тести перевіряли точність прогнозів, а не справедливість. Людина в петлі, яка регулярно перевіряє результати на реальних зразках, була б дешевшою за вартість виправлення.

Що модель насправді робить, а чого не робить

Великі мовні моделі чудово розпізнають патерни в даних, на яких їх навчали. Вони слабкі в кількох конкретних аспектах:

Новизна — якщо ситуація не має прецеденту в тренувальних даних, модель інтерполює та часто помиляється з упевненістю.
Зміна розподілу — модель, впроваджена пів року тому, не знає, що ваша компанія змінила цінник, змінилося законодавство або стосунки з клієнтом мають історію поза корпусом знань.
Калібрування впевненості — модель, яка відповідає впевненим тоном, не завжди відповідає правильно. Впевненість тону та ймовірність правильності — це різні змінні.
Етика, невідома з даних — тренувальні дані відображають історичні патерни, включаючи історичну нерівність. Модель не коригує їх самостійно.

Ці обмеження не дискваліфікують AI як інструмент — вони диктують, де людина має залишатися в петлі.

Коли людська інтуїція є технічною цінністю

Слово «інтуїція» звучить м’яко, але за ним стоїть конкретна здатність: поєднання контекстних знань, які не зафіксовані в жодному документі, з оцінкою ситуації в реальному часі. Досвідчений кредитний аналітик бачить у заявці те, чого немає в жодному полі форми. Лікар пов’язує результати аналізів з тим, що почув від пацієнта п’ять хвилин тому. Рекрутер читає між рядками резюме кандидата крізь призму корпоративної культури, яку неможливо описати сотнею слів.

Жодне з цих спостережень не є «невимірним» у сенсі неможливості опису постфактум. Вони невимірні до прийняття рішення, в реальному часі — і саме це робить їх незамінними в ситуаціях, де наслідки помилки асиметричні.

Добра архітектура AI не усуває такі місця. Вона виявляє їх і направляє туди людину, перш ніж модель вчинить незворотну дію.

Human-gate: де людина входить у петлю

Human-gate — це архітектурний механізм, а не запис у регламенті. У наших впровадженнях це виглядає так:

Агент класифікує намір і оцінює вагу дії.
Для дій, позначених як незворотні або високого ризику, генерує токен підтвердження, підписаний HMAC.
Підтвердження надходить до людини (email, панель, push) з контекстом: що, чому, який буде ефект.
Людина схвалює або відхиляє. Саме твердження моделі, що «дія є OK», недостатньо.
Токен втрачає чинність через 24 години — відсутність відповіді = відсутність дії (fail-closed).

Цей патерн дорожчий за повну автоматизацію, але коштує частки інциденту, який станеться без нього. Ми застосовуємо його скрізь, де помилка важко виправна: зовнішні відправлення, зміна даних клієнта, фінансове рішення, публікація.

Explainability: людина має знати, що коментувати

Людський нагляд марний, якщо людина бачить лише результат, але не розуміє шляху. У системах високого ризику за AI Act explainability — це не опція, а вимога до документації.

На практиці це означає принаймні три речі:

Що має бути видимим	Навіщо це людині
Які документи або дані лежать в основі відповіді	Оцінка, чи джерело актуальне та релевантне
Які логічні кроки зробила модель (chain-of-thought)	Виявлення помилкового міркування до дії
Наскільки впевнена модель і де межі її знань	Калібрування довіри — коли запитувати далі

В архітектурі RAG слід джерел природний: кожна відповідь містить посилання на документи. Це базовий explainability, який одночасно обмежує галюцинації та дає людині точку опори для верифікації.

Упередження та AI Act: людський нагляд як юридичний обов’язок

Системи, які профілюють людей, оцінюють їх або приймають щодо них автоматичні рішення, потрапляють під категорію високого ризику AI Act. Обов’язки конкретні:

Технічна документація, що описує, як система працює і на чому навчалася.
Оцінка ризиків з урахуванням можливого дискримінаційного впливу.
Людський нагляд з можливістю скасування будь-якого автоматичного рішення.
Реєстр логів, що дозволяє відтворити, чому система прийняла певне рішення.

Стандартні тести точності прогнозів не виявляють дискримінації. Модель може мати 93% accuracy і водночас систематично надавати перевагу одній групі — бо ця точність не вимірюється окремо для кожної підгрупи. Людський нагляд тут означає: хтось регулярно переглядає результати не глобально, а в демографічних розрізах і шукає відхилення, які сумарна статистика не показує.

У наших пілотних впровадженнях у сферах високого ризику ми застосовуємо shadow mode: система працює паралельно з рішенням людини протягом перших тижнів. Лише коли порівняння покаже відповідність і відсутність систематичних відхилень, автоматизація розширює діапазон. Не навпаки.

Чотири шари нагляду на практиці

Людський нагляд — це не одна точка, а кілька шарів з різною деталізацією:

Шар 1 — проєктний. До впровадження системи людина вирішує, які дії входять до компетенції агента, а які безумовно вимагають підтвердження. Це allow-список, а не blacklist.

Шар 2 — операційний. Human-gate для незворотних дій, описаний вище. Працює в реальному часі при кожному рішенні вище порогу.

Шар 3 — оглядовий. Регулярне вибіркове перевіряння результатів експертом у предметній галузі — не технічних логів, а реальних рішень та їх наслідків. Саме тут виявляють дрейф моделі та систематичні помилки.

Шар 4 — структурний. Аудит відповідності AI Act, RODO та корпоративній політиці. Зазвичай щоквартально для систем високого ризику, щорічно для решти.

Кожен шар має свого власника. Без цієї структури людський нагляд існує формально, але не працює.

Коли менше нагляду є доречним

Наведене вище не означає, що кожна дія вимагає підтвердження. Надмірний нагляд руйнує цінність автоматизації та призводить до «alarm fatigue» — люди перестають читати сповіщення, бо їх забагато.

Правильний рівень нагляду залежить від трьох змінних:

Оборотність дії — дія, яку можна скасувати за хвилини, допускає більше автоматизації, ніж та, що викликає зовнішні наслідки.
Ставка помилки — різниця між вартістю автоматичної помилки та вартістю затримки рішення через людину.
Зрілість моделі — система після 3 місяців shadow mode з задокументованою відповідністю може мати ширший діапазон автономії, ніж нова система.

Ці три змінні мають бути формально оцінені перед кожним впровадженням — і переглядатися кожні кілька місяців, бо модель не є статичною.

Спробуй наживо

Опиши свою автоматизацію, а модель допоможе визначити, які дії потребують human-gate та який рівень нагляду пропорційний ризику (playground: PII маскуються, нульове збереження):

▶Оціни, де потрібен human-gatesandbox · reasoning

FAQ

Що таке human-in-the-loop і коли він потрібен?

Human-in-the-loop — це архітектурний патерн, у якому людина схвалює або коригує дію системи до або після конкретних кроків. Він потрібен скрізь, де помилка моделі важко виправна, ставки високі або AI Act класифікує систему як високого ризику. На практиці: не при кожній дії, а при кожній незворотній або такій, що безпосередньо впливає на права та ситуацію людини.

Хіба людський нагляд не нівелює сенс автоматизації?

Ні. Автоматизація працює з обсягами та регулярністю — завданнями, які людина виконала б так само, але повільніше та менш послідовно. Людський нагляд залишає людину для винятків, ситуацій, невідомих моделі, та рішень з асиметричними наслідками. Хороший проєкт мінімізує кількість необхідних підтверджень, максимізуючи їхню точність.

Як AI Act регулює людський нагляд у системах високого ризику?

Для систем високого ризику AI Act вимагає, щоб оператор забезпечив ефективний людський нагляд, який дозволяє принаймні: спостерігати за роботою системи, розуміти її можливості та обмеження, виявляти аномалії та мати можливість скасувати або зупинити систему. Саме логування без людини, яка регулярно переглядає логи, не відповідає цій вимозі.

Як перевірити, чи моя модель не дискримінує?

Стандартної метрики точності недостатньо. Потрібно вимірювати результати окремо для демографічних підгруп і шукати систематичні відхилення. У системах високого ризику AI Act вимагає документування цього аналізу. На практиці рекомендуємо shadow mode перед повним впровадженням та щоквартальні огляди результатів у розрізах, а не лише глобально. Деталі нашого підходу до систем високого ризику.

З чого почати впровадження людського нагляду в існуючій системі?

Спочатку інвентаризуйте дії, які виконує система, — і розділіть їх на оборотні та незворотні. Незворотні отримують human-gate як пріоритет. Потім впровадьте вибіркове перевіряння результатів: хтось переглядає 5–10% рішень щотижня та документує аномалії. Це мінімум, який дає основу для подальшої оптимізації. Інструмент для оцінки готовності вашої компанії: оцінка готовності AI.

Людина в петлі AI: коли нагляд рятує рішення

Що модель насправді робить, а чого не робить

Новизна — якщо ситуація не має прецеденту в тренувальних даних, модель інтерполює та часто помиляється з упевненістю.
Зміна розподілу — модель, впроваджена пів року тому, не знає, що ваша компанія змінила цінник, змінилося законодавство або стосунки з клієнтом мають історію поза корпусом знань.
Калібрування впевненості — модель, яка відповідає впевненим тоном, не завжди відповідає правильно. Впевненість тону та ймовірність правильності — це різні змінні.
Етика, невідома з даних — тренувальні дані відображають історичні патерни, включаючи історичну нерівність. Модель не коригує їх самостійно.

Ці обмеження не дискваліфікують AI як інструмент — вони диктують, де людина має залишатися в петлі.

Коли людська інтуїція є технічною цінністю

Human-gate: де людина входить у петлю

Human-gate — це архітектурний механізм, а не запис у регламенті. У наших впровадженнях це виглядає так:

Агент класифікує намір і оцінює вагу дії.
Для дій, позначених як незворотні або високого ризику, генерує токен підтвердження, підписаний HMAC.
Підтвердження надходить до людини (email, панель, push) з контекстом: що, чому, який буде ефект.
Людина схвалює або відхиляє. Саме твердження моделі, що «дія є OK», недостатньо.
Токен втрачає чинність через 24 години — відсутність відповіді = відсутність дії (fail-closed).

Explainability: людина має знати, що коментувати

На практиці це означає принаймні три речі:

Що має бути видимим	Навіщо це людині
Які документи або дані лежать в основі відповіді	Оцінка, чи джерело актуальне та релевантне
Які логічні кроки зробила модель (chain-of-thought)	Виявлення помилкового міркування до дії
Наскільки впевнена модель і де межі її знань	Калібрування довіри — коли запитувати далі

Упередження та AI Act: людський нагляд як юридичний обов’язок

Технічна документація, що описує, як система працює і на чому навчалася.
Оцінка ризиків з урахуванням можливого дискримінаційного впливу.
Людський нагляд з можливістю скасування будь-якого автоматичного рішення.
Реєстр логів, що дозволяє відтворити, чому система прийняла певне рішення.

Чотири шари нагляду на практиці

Людський нагляд — це не одна точка, а кілька шарів з різною деталізацією:

Кожен шар має свого власника. Без цієї структури людський нагляд існує формально, але не працює.

Коли менше нагляду є доречним

Правильний рівень нагляду залежить від трьох змінних:

Оборотність дії — дія, яку можна скасувати за хвилини, допускає більше автоматизації, ніж та, що викликає зовнішні наслідки.
Ставка помилки — різниця між вартістю автоматичної помилки та вартістю затримки рішення через людину.
Зрілість моделі — система після 3 місяців shadow mode з задокументованою відповідністю може мати ширший діапазон автономії, ніж нова система.

Спробуй наживо

▶Оціни, де потрібен human-gatesandbox · reasoning