Оценка сбоев железнодорожной информационной системы методами теории массового обслуживания. Estimation of the railway information system failures using queueing theory

 

Мишнев Б.Ф.,
Меликян А.В.,
Рижский институт транспорта и связи,
Латвия, г. Рига


 

В работе был проанализирован процесс эксплуатации информационной системы Латвийских железных дорог (в дальнейшем – ИС), как системы массового обслуживания (СМО). Подобный подход имеет очевидное преимущество перед методом учёта средних характеристик работы системы, поскольку даёт возможность учесть внештатные ситуации, такие, как аврал – случайное локальное увеличение интенсивности потока запросов, приводящее к необходимости задействовать резервные возможности СМО.


В процессе изучения работы ИС выяснилось, что время от времени различные её подсистемы отказывают и требуют устранения возникающих неполадок. Неполадки возникают достаточно редко и устраняются сравнительно быстро, так что не возникает необходимости выстраивать очередь из запросов на обслуживание. Поступивший запрос на устранение сбоя в работе ИС обслуживается немедленно, что дало основание в качестве базовой модели для анализа эксплуатации ИС выбрать бесконечнолинейную систему массового обслуживания [1, с.77]. Это значит, что любой поступивший запрос устраняется немедленно и недостатка в каналах обслуживания не возникает никогда.


Бесконечнолинейная система никогда не отказывает своим клиентам, таким образом, её относительная пропускная способность, т.е. доля обслуженных заявок из числа поступающих, равна 1. Наибольший интерес для практики представляет распределение числа занятых каналов такой системы и его среднее значение.


Таким образом, ИС рассматривается как источник запросов на устранение неполадок к бесконечнолинейной системе массового обслуживания. Для установления параметров такой системы анализируются фактические данные о сбоях и неисправностях некоторых информационных систем, используемых на латвийской железной дороге.


Первым делом при изучении работы СМО было необходимо определить качественные и количественные характеристики потока поступающих на неё заявок. Для решения этой задачи был использован журнал регистрации сбоев на ИС за последние три года . Записи в журнале содержат информацию о дате и времени происшествия, категории сложности возникшей проблемы, времени, потребовавшемся на ее устранение, названии подсистемы, вызвавшей сбой.


По датам происшествий t был построен ряд интервалов времени ti=ti–ti-1 между запросами на обслуживание ИС, содержащий n=223 наблюдения. Данные были сгруппированы по длительности интервалов между запросами в 18 группу. Результаты этой группировки представлены в таблице 1 (границы интервалов – в сутках)


Наиболее подходящим видом распределения длительности интервалов между запросами является экспоненциальное распределение.

                                                                                                           (1)


Параметр l этого распределения можно оценить, пользуясь тем фактом, что среднее значение экспоненциально распределённой случайной величины M[T] [2]. В свою очередь, собранная статистика даёт оценку средней длины интервала между запросами около 5,41 суток, так что . Для проверки гипотезы о виде распределения интервала между запросами была оценена частота попадания этой величины в выбранные интервалы , теоретическая вероятность попадания экспоненциально распределённой случайной величины с параметром 0,185 на эти интервалы pi и рассчитан выборочный критерий

                                                                       (2)


Данные для расчёта приведены в таблице 1.


Таблица 1. Распределение интервала между запросами

Интервал

ni

hi

pi

 

Интервал

ni

hi

pi

1

0-1

59

0,265

0,169

 

10

9-10

4

0,018

0,032

2

1-2

33

0,148

0,140

 

11

10-11

6

0,027

0,027

3

2-3

21

0,094

0,117

 

12

11-12

3

0,013

0,022

4

3-4

18

0,081

0,097

 

13

12-13

4

0,018

0,018

5

4-5

15

0,067

0,081

 

14

13-14

6

0,027

0,015

6

5-6

8

0,036

0,067

 

15

14-15

3

0,013

0,013

7

6-7

11

0,049

0,056

 

16

15-17

5

0,022

0,019

8

7-8

8

0,036

0,046

 

17

17-20

6

0,027

0,018

9

8-9

3

0,013

0,038

 

18

>20

10

0,045

0,025

 

Значение выборочного критерия оказалось равным 30,5, что меньше квантили распределения , т.е. при 0,01 уровне значимости принимается гипотеза о том, что интервал времени между запросами распределён по показательному закону с параметром 0,185. Таким образом, поток поступающих от ИС запросов можно считать пуассоновским – т.е. случайным ординарным потоком без последействия.


Для выяснения вопроса о стационарности этого потока был построен и изучен временной ряд частоты сбоев на ИС. Для построения этого ряда записи о сбоях ИС были сгруппированы по месяцам и категориям сложности. Подавляющее большинство происшествий квалифицировалось 1-ой категорией, так что дифференцирование по категориям оказалось излишним.


Анализ временного ряда показал отсутствие сезонной составляющей для частоты происшествий, автокорреляция оказалась в пределах уровня белого шума на всех лагах.


Однако, анализ суточных колебаний интенсивности сбоев показал, что существует ярко выраженная связь между частотой сбоев ИС и временем суток. Статистика суточных колебаний частоты сбоев была получена путем группировки записей журнала регистрации за три года по времени происшествия (рис. 1).

 

Рисунок 1 Частота сбоев ИС по часам (%).

 

Отчетливо видно, что больше всего сбоев происходит в утренние и дневные часы – 53% всех сбоев зарегистрировано с 7 до 14 часов. Пиковая нагрузка на ИС приходится на 8 и 12 часов. Локальный всплеск на фоне относительного спокойствия в вечерние и ночные часы наблюдается в районе полуночи.


Таким образом, мы имеем дело с нестационарным потоком заявок на устранение неисправностей ИС. Обозначая через h(t) долю числа сбоев за час с t по t+1 в общем количестве сбоев, интенсивность потока заявок как функцию времени суток можно описать как l(t)=l?h(t).


При оценке характеристик эффективности работы системы нестационарность потока заявок может учитываться с двух разных позиций. С одной стороны, суточные колебания интенсивности можно просто игнорировать, усредняя интенсивность потока запросов по времени. Такой подход позволяет получить простую, но приближённую модель системы массового обслуживания. С другой стороны, можно разбить сутки на несколько временных интервалов, характеризующихся постоянной интенсивностью потока заявок и проанализировать работу системы отдельно на каждом из этих интервалов. Такой подход предпочтителен в случае применения гибкого режима управления ресурсами обслуживающей системы.


С одной стороны, этот результат важен сам по себе – он указывает на слабые звенья в ИС, на которые следует обратить особое внимание при её эксплуатации. С другой стороны, он позволяет более дифференцированно подойти к описанию СМО, обслуживающей ИС, выделив несколько отдельных источников заявок, т.е. подсистем ИС, с различными количественными характеристиками, такими, например, как интенсивность порождаемого потока заявок.


Другой важнейшей характеристикой СМО является распределение времени обслуживания заявки. Для изучения вопроса о виде распределения времени устранения сбоя по датам и времени обращения обслуживающего персонала ИС за услугами ремонтной бригады t1 и времени устранения сбоя t2 был построен ряд времен ремонта ti=t2i–t1i , содержащий n=224 наблюдения.


Данные были сгруппированы по длительности интервалов между запросами в 11 групп.  В результате группировки статистики времени ремонта различных подсистем были получены картины, отдалённо напоминающие показательное распределение. Однако в полном соответствии с теорией, сумма большого числа независимых потоков обслуживаний с не вполне экспоненциальным распределением времени обслуживания породила поток, очень похожий на пуассоновский.


Была проверена гипотеза о том, что время устранения сбоя распределено по показательному закону , было оценено среднее время ремонта. В соответствии с имеющейся статистикой эта величина составила 4,09 часов, так что оценка параметра экспоненциального распределения  или 5,87 заявок в сутки.


В соответствии с данными был рассчитан выборочный критерий . Его значение оказалось равным 20,4, что меньше квантили распределения , т.е. при 0,01 уровне значимости гипотеза о том, что время устранения сбоя на ИС распределено по показательному закону с параметром 5,87, принимается. Таким образом, поток обслуживаний СМО так же, как и поток поступающих от ИС запросов, можно считать пуассоновским.


Приведённые выше выкладки позволяют рассматривать СМО, обслуживающую ИС латвийской железной дороги как бесконечнолинейную марковскую систему, состояние которой меняется под воздействием пуассоновских потоков заявок и обслуживаний.


В частности, при l=0,185 и m=5,87 заявок в сутки, что соответствует усреднённой по времени суток интенсивности потока заявок. Вероятность простоя системы составляет p0=96,9, вероятность того, что обслуживаться будет 1 заявка p1=3,1, а 2 заявки одновременно придётся обслуживать с вероятностью p2=0,05, что говорит о том, что аврал – т.е. в данном случае необходимость устранять более одного сбоя одновременно – явление на ИС крайне редкое.


Однако, в часы пиковой нагрузки, т.е. между 8 и 12 часами дня интенсивность потока заявок возрастает в 1,9 раза по сравнению со средним значением и достигает lkrit=0,355 заявок в сутки. Это приводит к тому, что в эти часы СМО простаивает p0=94,1 времени, устраняет 1 сбой p1=5,7 времени, а одновременно устранять 2 сбоя приходится с вероятностью p2=0,17. Последняя величина в 3,5 раз превышает аналогичную величину для усредненной интенсивности потока сбоев, однако по-прежнему весьма мала.


Приведённые выше расчёты, таким образом, показывают, что в сложившихся условиях одна ремонтная бригада вполне в состоянии справиться с большинством возникающих на ИС проблем, так что по сути обслуживающая ИС СМО может быть одноканальной, с чрезвычайно редкими авралами вполне можно справиться, допуская организацию очереди из заявок, средняя длина которой будет крайне мала.


Таким образом, в результате анализа собранной статистики сбоев на ИС латвийской железной дороги обоснована гипотеза о возможности рассматривать процесс устранения этих сбоев как марковский процесс массового обслуживания.


Изучена структура и оценены параметры ИС, выступающей в роли источника запросов на обслуживание. Исследованы временные характеристики процесса устранения сбоев. Оценены основные рабочие характеристики соответствующей СМО.

 

Библиографический список

  1. A. Ganesh., Neil O’Connell, D. Wischik, “Big Queues”, Springer 2004. 272 p.