Обработка одновременных команд и гонка состояний

Урок 4 · Исполнительные устройства: интерлоки, таймауты · 30 мин · theory

Введение в "гонку состояний" (Race Condition)

В системах автоматизации гонка состояний (Race Condition) — это класс серьезных ошибок проектирования, при которых корректность работы системы зависит от непредсказуемой последовательности или времени выполнения параллельных или псевдо-параллельных событий. В контексте Node-RED, работающего на контроллере, это означает ситуацию, когда два или более сообщения, инициирующие какие-либо действия, поступают на обработку почти одновременно. Из-за этого система может "прочитать" состояние объекта управления (например, реверсивного двигателя) до того, как оно будет обновлено предыдущей командой, что приводит к непредсказуемому и зачастую опасному поведению.

Представьте себе сценарий управления гаражными воротами, реализованный на двух реле контроллера: `RL-01` для движения вверх и `RL-02` для движения вниз.

Пользователь нажимает кнопку "Открыть" в мобильном приложении. Контроллер получает MQTT-сообщение и активирует реле `RL-01`.

Сразу же после этого (через 50 миллисекунд) автоматический сценарий определяет, что по прогнозу ожидается сильный ветер, и решает закрыть ворота для безопасности. Он отправляет команду "Закрыть", пытаясь активировать реле `RL-02`.

Если логика блокировки между этими двумя командами не продумана, контроллер может попытаться включить оба реле одновременно.

> ⚠️ Внимание: Гонка состояний — это не теоретическая, а практическая угроза. В системах управления двигателями, клапанами или другими реверсивными механизмами она может привести к перегрузке по току, механическому заклиниванию и выходу оборудования из строя. Одновременная подача питания на обмотки прямого и обратного хода двигателя эквивалентна короткому замыканию через сам двигатель, что может сжечь обмотки, повредить блок питания или вызвать срабатывание автомата защиты.

Анализ последствий

Последствия гонки состояний варьируются от незначительных до катастрофических:

Логические сбои: Система переходит в некорректное состояние. Например, индикатор на панели управления показывает, что ворота закрываются, хотя на самом деле они остановились в промежуточном положении.
Недетерминированное поведение: При одних и тех же входных данных система ведет себя по-разному. Сегодня быстрая подача команд "Вперед" и "Назад" приводит к остановке, а завтра — к попытке реверса без паузы.
Повреждение оборудования: Наиболее опасный исход. Для реверсивных двигателей переменного тока одновременное включение двух фаз может привести к межфазному замыканию. Для DC-двигателей, управляемых через H-мост или реле, это вызовет сквозные токи, которые сожгут ключи или реле.
Угроза безопасности: Если речь идет о шлагбауме, подъемнике или мощном прессе, некорректная работа может нанести вред здоровью людей или повредить имущество.

Типичные причины возникновения

Несколько интерфейсов управления: Один пользователь нажимает настенный выключатель, а второй в тот же момент отдает команду из мобильного приложения.

Конфликт ручного и автоматического управления: Инженер вручную запускает привод для тестирования, а в это же время срабатывает таймер автоматического сценария, отдающий противоположную команду.

Быстрые повторные нажатия (дребезг): Пользователь быстро несколько раз нажимает одну и ту же кнопку, генерируя поток идентичных сообщений. Если система не защищена от этого, она может попытаться обработать каждое нажатие как новую, независимую команду.

Сетевые задержки: Две команды отправляются с разных устройств по сети. Из-за разной маршрутизации они приходят на контроллер в непредсказуемом порядке и с минимальным интервалом.

Противодействие гонке состояний — ключевая задача при проектировании надежных систем управления.

---

Ограничения простых блокировок на нодах Switch и Gate

> 🔗 Связанный материал: Для полного понимания данного раздела убедитесь, что вы освоили материал из уроков COURSE-05-M03-L02 и COURSE-05-M03-L03, где мы ввели `flow.context` и построили базовую блокировку с помощью нод `Switch` и `Gate`.

В предыдущем уроке мы реализовали базовый механизм взаимной блокировки (интерлока) для реверсивного двигателя. Его логика была проста и понятна:

Состояние двигателя (`stopped`, `moving_forward`, `moving_backward`) хранится в переменной потока, например, `flow.get('motor_state')`.

Перед выполнением любой команды (`FORWARD`, `BACKWARD`) нода `Switch` проверяет эту переменную.

Если двигатель уже находится в движении (`motor_state != 'stopped'`), новая команда блокируется.

Если двигатель остановлен, команда проходит дальше, и первая же нода в цепочке ее обработки (например, `Change` или `Function`) немедленно устанавливает новое состояние: `flow.set('motor_state', 'moving_forward')`.

Такая схема выглядит надежной и отлично работает в большинстве случаев. Однако она имеет фундаментальную уязвимость, которая проявляется при поступлении команд с очень малым интервалом.

Уязвимость "в один такт"

Однопоточная природа Node-RED означает, что в каждый конкретный момент времени выполняется код только одной ноды. Сообщения обрабатываются последовательно в рамках "тика" (tick) цикла событий (event loop). Это защищает от истинной параллельности, но не от гонки состояний между разными сообщениями, обработка которых разбита на несколько нод.

Рассмотрим проблему на временной шкале:

Начальное состояние: `flow.motor_state == 'stopped'`
Время T0: Поступает `msg1` с командой `FORWARD`.
Время T0 + 1мс: Нода `Switch` получает `msg1`. Она читает `flow.get('motor_state')` и видит `'stopped'`. Условие проходит, и `msg1` отправляется на выход 1.
Время T0 + 2мс: Поступает `msg2` с командой `BACKWARD` (например, от другого пользователя).
Время T0 + 3мс: Нода `Switch` получает `msg2`. Она снова читает `flow.get('motor_state')`. Поскольку `msg1` еще не дошел до ноды, которая меняет состояние, переменная все еще равна `'stopped'`. Условие снова проходит, и `msg2` отправляется на свой выход.
Время T0 + 4мс: `msg1` доходит до `Function` ноды, которая выполняет `flow.set('motor_state', 'moving_forward')` и активирует реле "Вперед".
Время T0 + 5мс: `msg2` доходит до своей `Function` ноды, которая выполняет `flow.set('motor_state', 'moving_backward')` и активирует реле "Назад".

Результат: Оба реле включены. Система находится в аварийном состоянии.

Проблема в том, что операция "проверить состояние и занять ресурс" разделена на две части, выполняемые в разных нодах (`Switch` и `Function`). Между этими двумя действиями вклинивается обработка второго сообщения, которое видит уже неактуальное состояние ресурса.

Этот пример наглядно демонстрирует, что для критически важных операций необходим механизм, гарантирующий атомарность — неделимость операции "проверки и установки" флага блокировки.

---

Практикум: Реализация семафора для атомарного управления

Чтобы решить проблему гонки состояний, нам нужно реализовать паттерн, известный в программировании как семафор или мьютекс (взаимное исключение). В нашем случае это будет простейший двоичный семафор — флаг, который может находиться в двух состояниях: `locked` (занято) или `unlocked` (свободно).

Идея заключается в том, чтобы любая команда, прежде чем получить доступ к общему ресурсу (двигателю), должна сначала "захватить" семафор. Если семафор уже захвачен другой командой, новая команда либо ждет его освобождения, либо отбрасывается.

Ключевое требование — операция "проверить, свободен ли семафор, и если да, то немедленно его захватить" должна быть атомарной, то есть неделимой. В Node-RED это идеально реализуется в рамках одной ноды `Function`, поскольку ее JavaScript-код выполняется синхронно от начала и до конца для каждого отдельного сообщения.

Пошаговая реализация семафора в ноде `Function`

Заменим нашу связку `Switch` -> `Change` на одну ноду `Function`, которая будет выполнять роль "диспетчера" команд. Эта нода будет стоять в самом начале потока обработки команд, сразу после `MQTT In` или другого узла-источника.

Задача ноды "Диспетчер команд":

Принять сообщение с командой.

Проверить флаг-семафор `flow.get('motor_locked')`.

Если флаг `false` (ресурс свободен), немедленно установить его в `true` и передать сообщение дальше для исполнения.

Если флаг `true` (ресурс занят), отбросить сообщение, вернув `null`.

Код для ноды `Function`:

/*
 * Атомарный диспетчер команд для реверсивного двигателя.
 * Реализует паттерн "Семафор" для предотвращения гонки состояний.
 *
 * Вход: msg с командой, например:
 * msg.payload = {"command": "FORWARD"}
 *
 * Выход 1: Сообщение проходит, если ресурс был свободен.
 * Выход 2: Сообщение с информацией об ошибке, если ресурс был занят.
*/

// Получаем текущее состояние блокировки.
// Используем || false, чтобы при первом запуске (когда переменная undefined)
// она считалась 'false' (свободно).
const isLocked = flow.get('motor_locked') || false;

// Извлекаем команду из полезной нагрузки
const command = msg.payload.command;

// Команда STOP имеет особый приоритет и всегда должна проходить,
// чтобы можно было остановить движение в любой момент.
if (command === "STOP") {
    // Важно: команда STOP также должна освобождать семафор.
    // Это будет сделано в логике обработки самой команды STOP.
    // Здесь мы просто пропускаем ее мимо блокировки.
    node.status({ fill: "yellow", shape: "dot", text: "STOP ignored lock" });
    return msg;
}

// Проверяем, заблокирован ли ресурс
if (isLocked) {
    // Ресурс ЗАНЯТ. Блокируем новую команду.
    node.warn(`Command '${command}' blocked, motor is busy.`);
    node.status({ fill: "red", shape: "ring", text: `Blocked: ${command}` });

    // Формируем сообщение об ошибке для логирования
    let errorMsg = {
        payload: {
            status: "ERROR",
            reason: "Resource is locked (motor is busy)",
            rejected_command: command,
            timestamp: Date.now()
        }
    };

    return [null, errorMsg]; // Отправляем ошибку на второй выход

} else {
    // Ресуर्स СВОБОДЕН. Захватываем его и пропускаем команду.

    // !!! АТОМАРНАЯ ОПЕРАЦИЯ !!!
    // Чтение (isLocked) и установка (flow.set) происходят в одном тике
    // для одного сообщения. Никакое другое сообщение не может вклиниться.
    flow.set('motor_locked', true);

    node.status({ fill: "green", shape: "dot", text: `Executing: ${command}` });

    // Добавляем флаг в сообщение о том, что оно захватило блокировку.
    // Это может быть полезно для дальнейшей логики.
    msg.lock_acquired = true;

    return [msg, null]; // Отправляем сообщение на первый выход
}

Не забудьте настроить у `Function` ноды два выхода. Первый будет вести к основной логике управления, второй — к потоку логирования ошибок.

Теперь, когда команда `STOP` или тайм-аут завершения движения отработают, они должны будут освободить семафор:

`flow.set('motor_locked', false);`

Эта простая, но мощная техника полностью исключает возможность одновременного выполнения конфликтующих команд.

---

Устранение дребезга и создание "периода остывания" с помощью ноды Trigger

Реализация семафора защищает нас от логической гонки состояний, но существует еще один класс проблем, связанных со временем: быстрые повторные команды и необходимость технологических пауз. Для их решения в Node-RED есть идеальный инструмент — нода `Trigger`.

> 💡 Подсказка: Комбинация семафора (в `function` ноде) и `trigger` ноды — это надежный и простой способ защитить большинство исполнительных устройств. `Trigger` обеспечивает временную защиту, а семафор — логическую.

Нода `Trigger` — это универсальный узел для управления потоком сообщений во времени. Ее основная логика:

При получении первого сообщения она немедленно отправляет его (или другое, заранее заданное сообщение).

После этого она "взводит таймер" и начинает игнорировать все последующие сообщения в течение заданного интервала.

По истечении интервала она может отправить второе, завершающее сообщение.

Рассмотрим два ключевых сценария ее применения.

1. Защита от дребезга контактов (Debounce)

Физические кнопки и выключатели редко замыкают контакт чисто. В момент нажатия происходит серия микро-вибраций, которые генерируют пачку быстрых импульсов. Это явление называется дребезгом контактов. Если не фильтровать его, система может воспринять одно нажатие как 5-10 команд.

`Trigger` отлично справляется с этой задачей. Установив ее сразу после ноды, читающей "сухой контакт" (`rpi gpio in`), мы можем отсечь весь лишний "шум".

Настройка ноды `Trigger` для Debounce:

Send: `the original message` (или `true`)
then wait for: `250` `milliseconds`
and then send: `nothing`
Handling: `ignore subsequent messages`

Логика работы:

Первый импульс от дребезга проходит через `trigger` и отправляется дальше.

`Trigger` блокирует себя на 250 мс.

Все остальные импульсы дребезга, приходящие в этот интервал, игнорируются.

Через 250 мс `trigger` снова готов к приему следующего "чистого" нажатия.

2. Создание "периода остывания" (Cooldown)

Для реверсивных механизмов крайне опасно мгновенно переключать направление движения. Это создает огромные пиковые нагрузки. Необходимо выдержать паузу, называемую периодом остывания (cooldown) или мертвым временем (dead-time).

Предположим, время полного хода нашего привода — 10 секунд. Мы можем использовать `Trigger` для блокировки любых новых команд на это время.

Поток:

`[MQTT In]` -> `[Function Семафор]` -> `[Trigger Cooldown]` -> `[Логика управления реле]`

Настройка ноды `Trigger` для Cooldown (10 секунд):

Send: `the original message`
then wait for: `10` `seconds`
and then send: `{"payload": {"command": "TIMEOUT_COMPLETE"}}` (сообщение для сброса семафора)
Handling: `ignore subsequent messages`

Логика работы:

Команда `FORWARD`, пройдя семафор, попадает в `trigger`.

`Trigger` немедленно пропускает ее дальше на исполнение. Двигатель начинает движение.

В течение следующих 10 секунд любые команды (`BACKWARD`, `STOP`, повторная `FORWARD`), которые могли бы просочиться, будут заблокированы на уровне `trigger`.

Через 10 секунд `trigger` отправит сообщение `TIMEOUT_COMPLETE`. Это сообщение используется для автоматического выключения реле и, что важно, для освобождения семафора: `flow.set('motor_locked', false)`.

Такой подход решает сразу две задачи:

Обеспечивает гарантированную временную блокировку.
Создает автоматический таймаут безопасности, который остановит двигатель, даже если концевой выключатель не сработает.

Выбор между `ignore subsequent messages` и `extend delay if new message arrives` зависит от задачи. Для `cooldown` обычно используется `ignore`, чтобы не продлевать время блокировки случайными нажатиями.

---

Итоги и лучшие практики

В этом уроке мы рассмотрели одну из самых коварных проблем в системах управления — гонку состояний. Мы выяснили, что она возникает, когда корректность работы зависит от случайного тайминга событий, и может приводить к серьезным, в том числе физическим, повреждениям оборудования.

> ⚠️ Внимание: Никогда не полагайтесь только на программные блокировки в системах, где отказ может угрожать жизни и здоровью. Для таких систем обязательны аппаратные защиты (концевые выключатели, реле безопасности, автоматы защиты двигателя). Программный интерлок — это первый и очень важный уровень защиты, но он не должен быть единственным.

Сравнение рассмотренных методов защиты

| ------------------------------ | --------------------------------------------------------------------------- | -------------------------------------------------------------------------- | ------------------------------------------------------------------------ |

| Простая блокировка (`Switch`) | Легко реализовать и понять. | Уязвима к гонке состояний. Не подходит для быстрых команд. | Некритичные сценарии, где нет реверсивных механизмов (например, вкл/выкл света). |

| Семафор (`Function`) | Атомарная операция. Надежно предотвращает гонку состояний. Гибкий. | Требует написания кода на JavaScript. | Обязателен для управления реверсивными двигателями, клапанами, шлагбаумами. |

| Cooldown (`Trigger`) | Прост в настройке. Обеспечивает временную защиту и защиту от дребезга. | Не защищает от логической гонки, если команды приходят после таймаута. | В паре с семафором для создания технологических пауз и фильтрации дребезга. |

Золотые правила защиты от гонки состояний:

Используйте семафор: Для любого ресурса, который не может использоваться двумя процессами одновременно (двигатель, шина данных), реализуйте механизм блокировки через семафор в ноде `Function`.

Централизуйте управление: Создайте единую точку входа ("диспетчер") для всех команд, управляющих одним устройством. Не позволяйте разным потокам напрямую дергать реле.

Применяйте "периоды остывания": Используйте ноду `Trigger` для создания принудительных пауз между сменой состояний реверсивных механизмов.

Обрабатывайте команду `STOP` как приоритетную: Логика блокировки не должна мешать экстренной остановке.

Всегда освобождайте ресурс: Убедитесь, что любой сценарий работы (успешное завершение, остановка, таймаут) корректно освобождает семафор (`flow.set('motor_locked', false)`), иначе система "зависнет" в заблокированном состоянии.

Тестируйте на реальном оборудовании: Перед вводом в эксплуатацию многократно протестируйте логику, имитируя все возможные сценарии: одновременные команды, быстрые нажатия, пропадание питания.

Что дальше?

Освоив принципы надежного управления отдельными исполнительными устройствами, в следующем модуле мы перейдем к их объединению в сложные, взаимосвязанные системы. Мы научимся создавать комплексные сценарии, где состояние одного устройства влияет на логику работы десятков других, и разберем паттерны для поддержания целостности всей системы автоматизации.