Пакетная обработка

18 Фев, 2026

## Основы адаптивной Batch-системы

### 1. Введение в архитектуру Batch-обработки

Batch-система, представленная в данном проекте, представляет собой высокопроизводительный, математически обоснованный механизм для эффективной обработки сетевых пакетов. В отличие от традиционных систем, обрабатывающих каждый пакет по отдельности, данный модуль накапливает входящие запросы в буферы (батчи) и обрабатывает их группами. Такой подход позволяет значительно снизить накладные расходы на переключение контекста, системные вызовы и криптографические операции, что критически важно для систем с высокой нагрузкой.

Основная сложность проектирования таких систем заключается в нахождении баланса между задержкой (latency) и пропускной способностью (throughput). Слишком маленький размер батча не позволяет достичь максимальной производительности, в то время как слишком большой батч приводит к недопустимому росту времени ожидания для отдельных запросов. Решение этой дилеммы достигается путем внедрения комплекса математических моделей, которые в реальном времени анализируют состояние системы и адаптируют её параметры.

### 2. Фундаментальная модель обработки

В основе системы лежит обобщенная модель времени обработки батча. Эта модель формализует зависимость времени обработки `T` от размера батча `B`. Аналитически она представляется следующим уравнением:

**T_process(B) = α/B + β + γ·B + δ·(B — B_opt)² + ε·I(B > L3_CACHE)**

Каждый член уравнения имеет строгое физическое обоснование:

* **`α/B` (Накладные расходы на батч):** Представляет собой фиксированные издержки на инициализацию батча (например, аллокация памяти, вызов функции), которые амортизируются с ростом размера батча. Коэффициент `α` измеряется в миллисекундах и характеризует «стоимость» формирования батча.
* **`β` (Минимальное время обработки):** Константа, отражающая неустранимую задержку, присутствующую даже при обработке минимального по размеру батча.
* **`γ·B` (Линейная составляющая):** Линейно растущая часть времени, пропорциональная размеру батча. Коэффициент `γ` (мс/B) характеризует стоимость обработки одного элемента.
* **`δ·(B — B_opt)²` (Квадратичный штраф за неоптимальность):** Параболический член, который вводит штраф за отклонение размера батча от оптимального значения `B_opt`. Этот член моделирует эффекты, связанные с неэффективным использованием внутренних буферов или алгоритмов, оптимизированных под конкретный размер данных.
* **`ε·I(B > L3_CACHE)` (Штраф за промахи кэша):** Дискретный штраф, активируемый, когда размер батча превышает объем L3-кэша процессора. `I(condition)` — это индикаторная функция, равная 1, когда условие истинно. Данный член моделирует резкое увеличение времени доступа к памяти из-за промахов кэша, что является критическим фактором производительности.

Эта модель служит основой для всех последующих оптимизаций. Задача адаптивной системы — непрерывно оценивать параметры `α`, `β`, `γ`, `δ`, `B_opt` и `ε` на основе наблюдаемых данных и, используя их, находить размер батча `B`, минимизирующий общее время обработки с учетом текущей нагрузки.

### 3. Оценка и прогнозирование нагрузки (λ)

Ключевым параметром для принятия решений является интенсивность входящего потока запросов, обозначаемая как `λ`. Система использует многоуровневый подход к оценке и прогнозированию этого параметра.

#### 3.1. Фильтр Калмана для сглаживания измерений

Для получения устойчивой оценки текущей интенсивности `λ` применяется дискретный фильтр Калмана. Измеренная пропускная способность (например, пакетов в секунду) содержит шум из-за флуктуаций трафика. Фильтр Калмана позволяет рекурсивно оценивать истинное значение `λ`, рассматривая его как скрытое состояние динамической системы.

Модель фильтра включает в себя:
* **Уравнение состояния:** `λ_t = λ_{t-1} + w_t`, где `w_t` — шум процесса с дисперсией `Q`. Предполагается, что нагрузка изменяется постепенно.
* **Уравнение измерения:** `z_t = λ_t + v_t`, где `v_t` — шум измерения с дисперсией `R`.

Алгоритм фильтра поочередно выполняет шаги предсказания (экстраполяции) и коррекции, обеспечивая оптимальную в смысле минимума среднеквадратичной ошибки оценку `λ`.

#### 3.2. Краткосрочное прогнозирование на основе вейвлет-преобразования

Для предсказания нагрузки на горизонте в несколько секунд используется дискретное вейвлет-преобразование (Discrete Wavelet Transform, DWT). Вейвлеты позволяют разложить временной ряд нагрузки на составляющие разного масштаба:
* **Аппроксимирующие коэффициенты (приближения):** Отражают низкочастотную составляющую, тренд нагрузки.
* **Детализирующие коэффициенты:** Отражают высокочастотные флуктуации и шум.

Анализируя исторические значения, система экстраполирует последние аппроксимирующие и детализирующие коэффициенты для получения прогноза на заданное число шагов вперед. Такой подход позволяет улавливать как общие тренды, так и повторяющиеся паттерны в трафике.

#### 3.3. Долгосрочное прогнозирование с цепями Маркова

Для предсказания наиболее вероятного состояния нагрузки на более длительную перспективу применяется цепь Маркова второго порядка. Пространство состояний нагрузки дискретизируется на фиксированное число уровней (например, 10). Модель хранит матрицу переходных вероятностей `P(λ_{t+1} | λ_t, λ_{t-1})`, то есть вероятность перехода в следующий уровень нагрузки, зависящую от двух предыдущих состояний. Это позволяет учитывать не только текущее значение, но и тенденцию (растет нагрузка или падает).

### 4. Динамическая оптимизация размера батча

Имея оценку текущей и будущей нагрузки, система приступает к главной задаче — вычислению оптимального размера батча. Эта задача решается комбинацией аналитических и численных методов.

#### 4.1. Аналитическое решение через кубическое уравнение

Минимизация полной задержки для одного запроса является сложной оптимизационной задачей. Приравнивая производную функции полной задержки `L(B) = B/λ + T_process(B)` к нулю, мы получаем условие оптимальности. Подставляя выражение для `T_process(B)`, приходим к кубическому уравнению относительно `B`:

`dL/dB = 1/λ — α/B² + γ + 2δ·(B — B_opt) = 0`

После приведения к стандартному виду `a·B³ + b·B² + c·B + d = 0`, система находит его действительные корни с помощью аналитического решателя (метод Кардано). Корни, лежащие в допустимом диапазоне `[B_min, B_max]`, являются кандидатами на оптимальный размер батча. Для каждого кандидата вычисляется итоговая задержка, и выбирается лучший.

#### 4.2. Упреждающее управление с моделью (MPC)

Для учета будущей динамики нагрузки применяется метод управления с прогнозирующей моделью (Model Predictive Control, MPC). На каждом шаге система:
1. Получает прогноз нагрузки `λ` на горизонте управления `N`.
2. Решает задачу оптимизации, минимизирующую взвешенную сумму задержек на всем горизонте, а также штрафы за резкое изменение размера батча и количества воркеров.
3. Применяет только первое вычисленное управляющее воздействие (новые значения `B` и `M`), а на следующем шаге повторяет расчет.

Это позволяет системе действовать проактивно, сглаживая переходные процессы при резких скачках нагрузки.

#### 4.3. ПИД-регулятор для коррекции по задержке

Несмотря на всю сложность моделей, они не могут учесть все недетерминированные факторы. Для компенсации остаточной ошибки используется классический ПИД-регулятор (Пропорционально-Интегрально-Дифференциальный). Ошибкой регулирования служит разница между целевой задержкой (`target_latency`) и фактически измеренной. Выходной сигнал регулятора (`correction`) используется как дополнительная поправка к размеру батча, полученному аналитически или через MPC.

### 5. Управление приоритетами (QoS)

Система поддерживает пять уровней приоритета (Critical, High, Normal, Low, Background), для каждого из которых гарантируются определенные показатели качества обслуживания (Quality of Service, QoS). Математической основой для этого служит модель обобщенного процессорного разделения (Generalized Processor Sharing, GPS).

#### 5.1. Модель GPS

В модели GPS для каждого класса приоритета `i` определен вес `φ_i`. Система гарантирует, что в любой момент времени доля пропускной способности, выделенная классу `i`, будет пропорциональна его весу: `C_i = (φ_i / Σφ_j) * C_total`, где `C_total` — общая пропускная способность системы.

На основе весов и текущей интенсивности поступления для каждого класса (`λ_i`) рассчитывается загрузка: `ρ_i = λ_i * B / C_i`. Это позволяет прогнозировать время ожидания в очереди для каждого приоритета, используя формулы теории массового обслуживания (модель M/M/1).

#### 5.2. Адаптация квот

Квоты приоритетов не являются статическими. Система периодически анализирует статистику отказов (rejection rate) и времени ожидания для каждого класса. Если, например, для высокого приоритета наблюдается недопустимо высокий уровень отказов, система динамически перераспределяет квоты, временно увеличивая долю высокого приоритета за счет низкого. Это реализует принцип справедливого распределения ресурсов в условиях перегрузки.

### 6. Обеспечение отказоустойчивости

Для предотвращения каскадных отказов при сбоях в работе downstream-сервисов или внутренних компонентов, система использует паттерн Circuit Breaker (автоматический выключатель).

#### 6.1. Марковская модель состояний

Состояние выключателя описывается цепью Маркова с тремя состояниями:
* **Closed (Замкнут):** Нормальный режим работы. Запросы передаются на обработку.
* **Open (Разомкнут):** Аварийный режим. Запросы немедленно отклоняются с ошибкой.
* **Half-Open (Полуоткрыт):** Режим проверки восстановления. Пропускается ограниченное число запросов для тестирования работоспособности.

Матрица интенсивностей переходов `Q` определяет вероятности перехода между состояниями. На основе решения системы уравнений равновесия `π·Q = 0` (с условием нормировки `Σπ = 1`) вычисляются стационарные вероятности нахождения системы в каждом состоянии, а также ключевые показатели надежности: среднее время до отказа (MTTF), среднее время восстановления (MTTR) и коэффициент готовности (Availability).

#### 6.2. Модель экспоненциального роста задержки восстановления

При переходе в состояние Open, система не пытается восстановиться мгновенно. Вместо этого используется стратегия экспоненциальной отсрочки (exponential backoff). Длительность нахождения в состоянии Open рассчитывается по формуле: `D_n = min(D_max, D_base * k^n)`, где `n` — номер неудачной попытки восстановления. Это позволяет дать проблемному компоненту время на стабилизацию, не перегружая его повторными попытками.

### 7. Заключение

Описанные теоретические модели образуют единую, когерентную систему управления, которая позволяет достичь высокой производительности и надежности в условиях переменной сетевой нагрузки. Комбинация методов оптимального управления, теории вероятностей, математической статистики и теории массового обслуживания обеспечивает не просто реактивную, а проактивную адаптацию системы к изменяющимся условиям работы.

Вернуться к блогу