Назад к кейсам

Automation · Systems Analyst / Business Analyst

Операционный SLA-контур эскалаций

Операционный сервис эскалаций: события задач классифицируются, маршрутизируются, доставляются и контролируются по SLA.

FlaskGunicornBitrix24TelegramGoogle APIs

00 · CASE IN 30 SECONDS

Кейс за 30 секунд

Бизнес-проблема

Критичные задачи терялись в общем потоке уведомлений: не было понятного правила срочности, владельца доставки и диагностики сбоев.

Что сделал

Описал правила классификации событий, mapping пользователей, delivery pipeline, диагностику ошибок и deployment через gunicorn.

Артефакты

Integration · Runbook · UAT

Результат

Критичные задачи получили отдельный SLA-маршрут с логом доставки и повторной отправкой

01 · КОНТЕКСТ

Бизнес-контекст

Сервис слушает события задач, проверяет автора, важность, дедлайн, маршрут эскалации и отправляет targeted Telegram-сообщение.

02 · ПРОБЛЕМА

Проблема

Критичные задачи терялись в общем потоке уведомлений: не было понятного правила срочности, владельца доставки и диагностики сбоев.

03 · РОЛЬ

Что я сделал

Описал правила классификации событий, mapping пользователей, delivery pipeline, диагностику ошибок и deployment через gunicorn.

04 · БИЗНЕС-ПРАВИЛА

Бизнес-логика и правила

  • Событие должно относиться к важной задаче.
  • Создатель задачи должен быть в списке руководителей.
  • Задача считается urgent по приоритету или близкому дедлайну.

05 · АРХИТЕКТУРА

Архитектура данных

Источники

  • Bitrix24 webhooks
  • user mapping file

Загрузка

  • Flask endpoint
  • event parser

Хранилище

  • mapping JSON
  • service logs

Витрина

  • Telegram notifications
ИсточникиBitrix24 webhooksuser mapping file
ЗагрузкаFlask endpointevent parser
Модель данныхmapping JSONservice logs
Dashboard / решениеTelegram notifications
Контроль качествасверки · допуски · UAT · владельцы исключений

06 · МОДЕЛЬ ДАННЫХ

Модель данных / витрины

leadersconfigсписок пользователей, чьи задачи эскалируются
telegram_chatsconfigсопоставление пользователя и Telegram chat

07 · МЕТОДОЛОГИЯ

Методология, процедуры, модель и эффект

Методология

  • Спроектировал поток как операционный SLA-контур: событие, классификация, routing, доставка, retry, диагностика.
  • Правила срочности вынесены из кода в явные критерии, чтобы их можно было проверять и менять без хаоса.
  • Ошибки mapping и доставки стали отдельным dashboard-сигналом, а не скрытым техническим логом.

Что перенесено в систему

  • Ручная проверка важных задач заменена маршрутом эскалации с контролем дедлайна и владельца.
  • Несопоставленные пользователи попадают в очередь диагностики, а не теряются в silent fail.
  • Повторная доставка фиксирует результат и не создает дубль уведомления.

Модель и критерии

  • Классификация urgency использует автора, приоритет, дедлайн и тип события.
  • SLA рассчитывается как время от входящего события до подтвержденной доставки.
  • Ошибки группируются по причине: mapping, Telegram response, parsing, retry exhausted.

Измеримый эффект

  • Медианный SLA доставки в demo-контуре показан как 18 секунд.
  • Доля доставленных срочных уведомлений контролируется как отдельный KPI.
  • Команда получает диагностику пропущенного уведомления по event id, а не ищет его вручную.

08 · ДЕМО DASHBOARD

Рабочий dashboard

У каждого кейса отдельный экран на mock data. Это не одинаковый шаблон с разными подписями, а презентационный слой поверх реальной логики проекта: метрики, контрольные правила, риски и управленческие действия.

Что должен решить руководитель?

Dashboard нужен не для красоты, а для решения

  • Какое управленческое решение должен поддержать dashboard?
  • Какие правила учета и контроля защищают расчет?
  • Какие исключения требуют владельца и SLA?
  • Что должно быть принято через UAT перед использованием?

BITRIX24 ALERT SERVICE

Bitrix24 notification monitor

Монитор webhook-событий: входящие задачи, правила срочности, доставка уведомлений, SLA и ошибки сопоставления пользователей.

только mock data · без закрытых данных
События12 480+7%
Срочные доставлены98,4%SLA в норме
Медианный SLA18 сек-42%
Ошибки mapping14watch
Успех повторов92%после повтора
Без владельца6нужна настройка

Событие → Telegram

Все события100%
12 480
Задачи55%
6 820
Для руководителя32%
2 210
Срочные53%
1 180
Доставлены98,4%
1 161

SLA по часам

09121518
Пн98%99%97%96%
Вт99%98%98%97%
Ср97%96%98%95%
Чт99%99%97%98%

Диагностика доставки

Разбор приоритетаОКприоритет и deadline разобраны до маршрутизации
Карта руководителейКонтрольнесопоставленные пользователи идут в очередь диагностики
Ответ TelegramОКответ Telegram связан с id события
Очередь повторовОКповторная доставка не создает дубль уведомления

09 · АРТЕФАКТЫ

Артефакты

Integration

Контракты событий, routing, retry, SLA, диагностика и сценарии отказа.

Проверка тестовых событий OnTaskAdd/OnTaskUpdate.
Runbook

Порядок запуска, проверки, диагностики и передачи процесса владельцу.

Проверка тестовых событий OnTaskAdd/OnTaskUpdate.
UAT

Чеклист приемки: сверки, граничные случаи, роли владельцев и критерии готовности.

Проверка тестовых событий OnTaskAdd/OnTaskUpdate.

10 · ВАЛИДАЦИЯ

Подход к валидации

  • Проверка тестовых событий OnTaskAdd/OnTaskUpdate.
  • Проверка фильтра important + leader + urgency.
  • Проверка доставки Telegram для mapped users.

11 · БИЗНЕС-ИМПАКТ

Бизнес-импакт

Критичные задачи получили отдельный SLA-маршрут с логом доставки и повторной отправкой

12 · ВЫВОДЫ

Выводы и улучшения

  • Правила эскалации надо делать явными, иначе webhook быстро становится шумным.
  • Mapping пользователей лучше отделять от кода.
  • Логи важны для разбора пропущенных уведомлений.