sla проект что это

Что такое SLA в управлении?

Service Level Agreement или SLA (соглашение об уровне сервиса) — три слова, определяющие подходы компании к организации ИТ-процессов. Согласно ITIL (IT Infrastructure Library) SLA — это мини-договор, устанавливающий параметры качества предоставляемых бизнесу ИТ-услуг.
В SLA описываются условия предоставления услуг (сервисов), устанавливается перечень таких услуг, а также правила, по которым заказчик будет пользоваться этими сервисами. В то же время SLA — один из основных механизмов, позволяющих управлять качеством ИТ-услуг и управлять ожиданиями пользователей.

Что должно быть в SLA?

Говоря иными словами, для ИТ-подразделения SLA — это набор параметров ключевых ИТ-процессов, а соблюдение SLA — основной ключевой показатель эффективности (KPI) ИТ-отдела.

Целью любого SLA является закрепление правил игры с определенной категорией бизнес-пользователей, по которым ИТ-служба будет с ними играть. При этом важно понимать, что SLA — это не внутренний документ ИТ, а договор, который заключается совместно с представителями бизнеса, и о котором проинформированы все пользователи.

SLA: с чего начать

Чаще всего к разработке SLA приходят в контексте внедрения Service Desk-системы. Начиная внедрять у себя управление уровнем качества обслуживания пользователей, не стоит пытаться объять необъятное, начните двигаться вперед небольшими шагами.

Ищите способы оптимизации процессов, чтобы постепенно приближать, например, сроки в SLA к тем, которые нужны бизнесу. Этот процесс называется — Service Level Management, SLM.

Источник

Что такое Service Level Agreement

Что такое «Соглашение об уровне обслуживания», известное как SLA, какие метрики чаще всего содержит и почему будет полезно как компании-провайдеру услуг, так и организации-пользователю.

Как расшифровывается SLA

SLA (Service Level Agreement) дословно переводится как «Соглашение об уровне обслуживания (оказания услуги)», то есть это договор об уровне предоставляемого сервиса между компанией-провайдером и организацией-клиентом. Основное отличие SLA от обычного договора состоит в подробно прописанном уровне доступности сервиса и времени реакции на инциденты и раскрывает следующее:

В соглашении SLA в обязательном порядке должны быть указаны сроки для решения инцидентов и определяются штрафы, которые обязуется выплатить компания-провайдер в том случае, если значения метрик, определяющих качество услуги, окажутся ниже заявленного уровня. Все это поможет организации-заказчику минимизировать убытки в случае незапланированного простоя.

Важно помнить, что использование SLA выгодно обеим сторонам:

Происхождение термина SLA

Термин SLA появился из методологии ITIL (англ. IT Infrastructure Library – библиотека инфраструктуры информационных технологий), которая помогает IT-компаниям упорядочивать свои бизнес-процессы.

SLA подробнее всего описывается в стандартах ITIL и COBIT (от англ. Control Objectives for Information and Related Technologies – «Задачи управления для информационных и смежных технологий»), используя которые компании-провайдеры регламентируют большинство своих процессов и выстраивают процедуры дальнейшего контроля выполнением этих процессов и взаимодействием с клиентами.

Для чего нужно SLA

Соглашение об уровне обслуживания в числе первых помогает потребителям сервисов однозначно понимать, на каком уровне предоставляется услуга и оперировать теми же терминами, что и компания-провайдер. Например, IT-компания может составить SLA, в котором будут указаны:

Организация-заказчик в свою очередь сможет контролировать качество предоставления услуги и в случае инцидента не понесет убытки, более того его запрос будет решен точно в заданные сроки.

Что включает в себя типовой SLA

SLA также может быть как частью основного пользовательского соглашения, так и самостоятельным документом.

Чаще всего соглашение SLA включает в себя следующие пункты, каждый из которых рекомендуется прописывать как можно подробнее и однозначнее во избежание двоякого толкования:

При описании уровня качества сервиса, важно указать в SLA такие параметры, как:

Если речь идет об оплате сервиса, то указывается следующее:

Все пункты, описанные в SLA, должны быть иметь цифровые параметры, например, время простоя в минутах, необходимое для проведения плановых работ или перезагрузки сервиса.

Параметры, от которых зависит SLA

Параметры, из которых состоит SLA – это измеримые метрики, отвечающие за уровень качества предоставления услуги. Условно эти метрики можно называть «KPI» для SLA.

Такие метрики позволяют пользователям сервиса понимать, что именно и в каком объеме будет предоставляться. Главное условие соблюдения SLA — значения метрик должны быть известны всем заинтересованным сторонам, то есть находиться в открытом доступе, а описания метрик должны трактоваться однозначно.

В метриках могут указываться, например, время реакции на заявку от организации-заказчика, время решения инцидента и штрафы за явные нарушение соглашения компанией-провайдером.

В случае, когда одна и та же услуга предоставляется с разным уровнем качества (используются тарифные планы разной стоимости), в договоре SLA должны обязательно явно выделяться параметры для разных категорий пользователей.

Рекомендуется заранее определять критически важные сервисы, управление качеством которых будет осуществляться без каких-либо задержек, например:

Доступность услуги

Минимальное время, в течение которого услуга точно будет доступна, является метрикой доступности услуги. Доступность услуги обычно измеряется в абсолютных величинах (часах, минутах, секундах), например, за заданный промежуток времени (месяц, год) услуга будет точно доступна N часов, а время простоя составит X часов за тот же период. Доступность сервиса также может быть измерена в процентах и напрямую влияет на итоговую стоимость сервиса.

В качестве примера доступности услуги рассмотрим уровень надежности дата-центров Tier. Для каждого из четырех уровней дата-центров задана конкретная доступность в процентном эквиваленте.

Доступность сервиса невозможна на 100%. Значение доступности в процентах стремиться к 100% и выражается в виде количества «девяток» процента доступности. Например, доступность 99% и 99,999% может быть обозначена как «2 девятки» и «5 девяток», а доступность в 99,95% — может обозначаться как «три с половиной девятки».

Уровень надежности дата-центра	Уровень доступности (%)	Время простоя (часов в год)
Tier I	99,671%	28,8
Tier II	99,749%	22,0
Tier III	99,982%	1,6
Tier IV	99,995%	0,4 (24 минуты)

Кстати, на примере доступности дата-центров учитывается только время простоя, в то время как значения остальных основных параметров заданы по умолчанию. При размещении сервера в Selectel, в стоимость входят:

Время простоя для оборудования, размещенного в дата-центре обычно включает в себя время проведения плановых и ремонтных работ, то есть чтобы снизить длительность простоя компания-провайдер должна закладывать время на подготовку плановых работам. Финальное значение метрики Доступность сервиса показывает не только надежность конкретно используемого оборудования, но и его качество обслуживания.

Время реакции на инциденты

Измеренное время, прошедшее с момента поступления и/или регистрации заявки на обслуживание до момента выполнения самой заявки — это числовая метрика Время реакции на инциденты.

Важный момент, время реакции на инцидент в работе используемого сервиса — не равно времени простоя. Время реакции — одна из составляющих длительности простоя, в качестве другой составляющей может быть, например, время решения проблемы. А объединение совокупности времени всех составляющих является временем жизни инцидента, например, в простейшем случае это может выглядеть как:

В SLA рекомендуется прописывать неустойки за неисполнение указанных метрик, например, если было превышено время реакции на инцидент.

Оценка результата

Оценка результата управления инцидентами обычно определяется следующими метриками:

Время реакции на инциденты для оценки результата рекомендуется разделять на категории в зависимости от важности для работы всего сервиса в целом, например:

Чаще всего время реакции на инцидент в среднем составляет от 10 минут до 1 часа. Если при этом заранее были определены критически важные сервисы, то именно на сбои в их работе должна быть самая быстрая реакция.

SLI и SLO

SLI (Service Level Indicator) – это количественная оценка работы сервиса, которая является корреляцией между ожиданиями пользователей и действительной производительностью сервиса за указанный период времени (месяц, квартал, год).

SLI можно рассматривать в качестве индикатора пользовательского опыта, измеряя его в процентном эквиваленте, где:

Причем стоит помнить, что абсолютные минимум и максимум достижимы только в идеальных условиях, точно также, как и прописанные в SLA 100% доступности сервиса. При постановке целей рекомендуется реалистично смотреть на свой продукт и находить золотую середину.

Иногда измерять уровень обслуживания SLI, представляющий интерес, напрямую не получается и нужно измерять связанную метрику. Например, хотелось бы замерить задержки на клиентской стороне, но можно измерить только задержки на сервере.

SLO (Service Level Objectives) – это значение SLI, которого компания-провайдер хотела бы достичь. При установке SLO рекомендуется указывать реально достижимое значение для каждого конкретного SLI. SLO показывает, с каким качеством фактически работает сервис и/или приложение, в отличие от SLA, который используется для того, чтобы задать тот уровня доступности сервиса, на который смогут ориентироваться все пользователи.

Если у компании-провайдера имеется публично-доступный SLA, то обычно при подготовке SLO рассчитываются прописанные показатели SLA. Достижение показателей SLO напрямую зависит от достижения метрик, указанных в SLA. Если показатели SLO не будут достигаться, то становиться более вероятным и нарушение договорных обязательств, прописанных в SLA.

Плюсы использования SLA для заказчиков и исполнителей

Вместо заключения

SLA на сегодняшний день — один из основополагающих документов, влияющих на выбор большинства IT-услуг, так как отражает их качество предоставления и напрямую влияет на их стоимость.

В SLA указываются метрики предоставляемой услуги/сервиса, допускаемые колебания которых и есть уровень SLA. Например, в соглашении об уровне оказания услуг можно указать, что в случае возникновения инцидента заявка будет принята в течение одного часа в любой день недели или только по будним дням с 10 до 19, в зависимости от оплаченного уровня поддержки сервиса. Сами же метрики рекомендуется указывать близкими к реально достижимым, а не желаемым и рекламно-привлекательным, не забывая о необходимости проведения плановых работ.

Источник

Service Level Agreement (SLA): все о соглашении об уровне сервиса

Время чтения : 12 минут

Для повышения эффективности работы IT-компании стремятся упорядочить бизнес-процессы: постоянно улучшают разработку продуктов, оптимизируют кадровую политику, модернизируют техническую базу и стараются обеспечить максимально прозрачные отношения с заказчиками. В этом им помогает SLA. В статье мы расскажем, что такое SLA в IT, и познакомим с его ключевыми особенностями.

Что такое SLA-соглашение?

Грамотно составленное соглашение об уровне сервиса SLA уменьшает число формулировок с двояким толкованием. Заказчик и провайдер устанавливают ясные и понятные правила сотрудничества. Стороны четко знают свои обязанности и оперируют идентичными терминами.

Соглашение об уровне обслуживания SLA обязательно включает в себя сроки устранения последствий инцидентов. В договоре также прописываются штрафы, которые выплачивает провайдер, когда метрики качества услуги опускаются ниже заданного уровня. Во время простоев заказчик несёт минимальные убытки. Финансовые потери покрываются поставщиком услуг.

Соглашение об уровне услуг SLA выгодно обеим сторонам. Заказчики обретают уверенность в своевременном устранении инцидентов и эффективнее планируют бизнес-деятельность. Провайдеры избегают рисков от необоснованных требований к качеству услуг.

SLA в информационных технологиях

В сфере ИТ SLA означает договор на оказание IT-услуг. В стандартном соглашении обычно оговариваются следующие моменты:

Зачем бизнесу SLA?

SLA предоставляет заказчикам IT-услуг многочисленные преимущества. После заключения договора провайдер обеспечивает качество услуг на оговоренном в соглашении уровне. Всегда есть возможность сравнить ожидаемый и фактический результат. Например, проконтролировать время обработки заявок и сопоставить с заявленным в документе.

Наличие SLA гарантирует прозрачность оплаты. Заказчик точно знает, за что платит деньги. В зависимости от условий сотрудничества, стоимость услуг устанавливается за использование сервиса в целом или с разбивкой по отдельным уровням.

Понятный механизм формирования оплаты позволяет к тому же прогнозировать затраты на применение информационных технологий. Причём за расходы легко отчитаться перед налоговой службой. Провайдер предоставляет полный пакет отчётных документов.

Если случаются простои по вине провайдера, заказчик несёт минимальные финансовые потери. Расходы компенсируются поставщиком услуг. Размер компенсации устанавливается договором и зависит от конкретной ситуации.

Примечание
>SLA направляет сотрудничество с провайдером в цивилизованное русло. Стороны соглашения имеют четкое представление о своих правах и обязанностях. Между ними реже возникают споры и недопонимание.

Важно, что многие провайдеры, которые подписывают с заказчиками договоры SLA, закрепляют за ними персональных менеджеров. Взаимодействие с одними и теми же специалистами повышает эффективность сотрудничества. Со временем представители поставщика услуг начинают лучше понимать специфику клиентского бизнеса и подбирать наиболее подходящие для него решения.

Благодаря SLA провайдеры устраняют инциденты в рамках установленных договором параметров без согласования с заказчиками. Плюс вводят многоуровневое оказание услуг. Например, согласно срочности или выбранного тарифа.

Как правильно написать SLA

SLA составляется с учетом особенностей сервиса. В качестве ориентира можно воспользоваться следующим шаблоном.

Низкий	Проблема не считается критичной, но требует решения.
Нормальный	Проблема серьёзная, но решается с помощью ручного или другого подходящего способа обхода.
Высокий	Проблема критичная, но решение возможно без перехода на круглосуточный режим работы.
Высший	Проблема требует скорейшего разрешения. Специалисты работают круглые сутки до полного устранения последствий инцидента.

Пример классификации приоритетов в SLA-соглашении

SLA-соглашение начинается с вводной или определительной части. В самом начале договора приводится глоссарий. В словаре коротко описывается информационная система (ИС) и перечисляются роли участников.

Участники делятся на обычных и ключевых пользователей, а также сотрудников разных уровней поддержки (первая, вторая, третья и пр.). Для большей ясности стоит привести названия подразделений и роли их специалистов, которые вовлекаются в процесс.

На следующем этапе определяются границы действия Service Level Agreement (SLA). Территориальные устанавливают, как и где оказывается сервис. Например, в удалённом режиме или офисе заказчика. Временные отвечают на вопрос, когда предоставляются услуги – круглосуточно/определённое время, будние/выходные/праздничные дни.

В функциональных рамках задаётся мажорная версия системы, которая не изменяется после инсталляции обновлений. Если ИС относится к модульному типу, приводится перечень модулей. Наконец, указывается конфигурация и интерфейсы.

При составлении договора SLA описания услуг, которые формируют сервис, делаются краткими, но емкими и понятными. В будущем это уменьшает число вопросов от заказчиков.

Хорошая практика – приводить примеры услуг и сразу оговаривать, что в них входит или, наоборот, не включается. Услуги описываются компактно и нумеруются. В нумерованных списках гораздо проще ориентироваться.

Готовая определительная часть должна вызывать минимум вопросов. Чем меньше малопонятных моментов, тем лучше. Идеальный вариант – заказчик или его представитель понимает написанное с первого раза.

Метрики для SLA

Правильный выбор метрик для соглашения об уровне сервиса напрямую зависит от знания и понимания предметной области. В контексте информационных систем чаще всего оперируют 2 понятиями – время реакции на инцидент и целевое время решения проблемы.

Существуют и другие метрики:

Если провайдер регулярно проводит плановое ТО систем, которые отвечают за мониторинг, есть вероятность несвоевременного ответа на запрос. Во избежание конфликтных ситуаций в соглашение об уровне сервиса SLA вводится ограничение. Как вариант, гарантируется время реакции на обращение заказчика в течение 1 часа за исключением понедельников в период с 3 до 6 утра.

При указании времени поддержки оговаривается период, когда провайдер не имеет возможности поддерживать работоспособность сервиса. Многие организации работают с понедельника по пятницу и отвечают на запросы заказчиков с 9-10 утра до 18 вечера. Аналогичный график прописывается в договоре техподдержки SLA.

К описанию периодов простоя стоит подходить вдумчиво. Особенно если провайдер несёт финансовую ответственность перед заказчиком из-за недоступности сервиса. В некоторых ситуациях поставщик не может принимать адекватные меры – военные действия, стихийные бедствия, аварии магистральных каналов связи и т. п. Форс-мажоры нужно постараться спрогнозировать заранее.

Иногда для успешного решения вопроса провайдеру требуются дополнительные сведения от заказчика. Предоставление информации с задержкой нарушает временные метрики. Нарушения рассматриваются как допустимые, потому что лежат вне зоны ответственности поставщика услуг.

4 главных требования к метрикам SLA

Если в договоре техподдержки SLA или аналогичном документе указывается больше 1 метрики, один из параметров обозначается как основной. Иначе провайдеру придётся заниматься сопоставлением метрик, а не критически важными проблемами. Распространённой практикой считаются штрафы за отклонение от нормы именно главного параметра.

Чтобы соглашение об уровне услуг SLA отвечало ожиданиям заказчика и провайдера, метрика должна полностью зависеть от деятельности поставщика услуг. В противном случае она перестает работать. Контроль теряется, и SLA утрачивает всякий смысл.

Как мы видим, облака все больше и больше входят в повседневную жизнь как обычных людей, так и целых компаний. Облачные вычисления сильно упрощают, и главное – ускоряют процесс создания новых сервисов, что в свою очередь положительно сказывается на общих результатах компаний. Это гибкий инструмент, функционал которого совершенствуется год от года, позволяя переложить часть непрофильных задач на плечи провайдеров и сфокусироваться на своем основном бизнесе. Важной частью успешной работы является правильно составленный договор SLA. Михаил Тутаев, Лидер продуктового направления PaaS SberCloud

Чек-лист: важные моменты SLA

Итак, мы получили общее представление, что такое SLA в IT. Пришла пора рассмотреть, на какие моменты стоить обратить внимание при подготовке SLA.

Группы пользователей. Когда система большая, не пытайтесь объять необъятное. Для начала возьмите несколько групп. Допустим, привилегированные и обычные пользователи. С парой категорий работать проще и эффективнее. Заодно получите мощный фундамент знаний для дальнейших действий.

Критические сервисы. Яркий тому пример – подключение к CRM. Если компания ведёт активную торговую деятельность, отсутствие связи с CRM рискует обернуться убытками. Работа менеджеров по продажам остановится или сильно замедлится.

Нормы качества. Принимайте в расчёт функционал сервиса и так называемые «целевые показатели».

Параметры и нормативы качества сервисов. Характеристики должны отвечать 2 требованиям. Во-первых, сопоставляться с бизнес-целями, которые преследует компания. Во-вторых, отражать потребности бизнес-пользователей системы. Примеры параметров – время устранения инцидентов и восстановления работы.

Фиксация SLA. После того, как разберётесь с предыдущими вопросами, зафиксируйте SLA среди пользовательских групп с учетом нормативов качества для отобранных критических сервисов.

Информирование пользователей. Об SLA оповещаются все без исключения лица, которых касаются правила из соглашения.

Измерение соблюдения SLA. В отношении SLA нельзя полагаться на интуицию. Взвешенные управленческие решения возможны при комплексном подходе к отслеживанию выбранных параметров качества. Следите за выполнением или систематическими нарушениями процессов, чтобы принимать адекватные меры по улучшению услуг.

Анализ и оптимизация. Постоянно предпринимайте эффективные действия для достижения целевых показателей. Сервис должен на 100% удовлетворять потребности конечных пользователей.

Примеры готовых договоров SLA на английском языке

Резюме

SLA – это мощный инструмент регулировки взаимодействия между заказчиком и провайдером. SLA помогает минимизировать конфликтные ситуации, обеспечить надлежащее качество IT-услуг и внести ясность в деловые отношения. Обязательно используйте SLA, если хотите максимально упорядочить бизнес-процессы.

Источник

SLA на облако: как читать и на что обратить внимание

Сегодня хочу поговорить о том, как читать Service Level Agreement в договоре на облачные сервисы. SLA – это норма: клиенты требуют его на этапе запроса, провайдеры указывают заветные девятки во всех материалах. Отрицать не буду – без SLA плохо, но какие зоны ответственности затрагивает соглашение, не всегда понятно. Попробуем разобраться, что же это такое и когда бежать к провайдеру, размахивая договором, а когда искать проблему на месте.

Простой пример: у клиента перестает работать ВМ, клиент сразу думает, что проблема в инфраструктуре. И смотрит, что же там в SLA по поводу доступности. А может, на самом деле зависла ОС, клиентская сеть лагает, — предположить можно всё что угодно. Если проблема внутри ОС, то провайдер ресурсов тут не поможет.

Если мы не администрируем клиентские виртуальные машины, то и приложения внутри для нас – черный ящик. При этом самые частые отказы находятся как раз на стороне приложения. Может случиться что угодно: переполнятся диски, учетные записи заблокируются, DNS откажет, компоненты приложения перестанут взаимодействовать из-за неправильных настроек. А может оказаться, что системное время выставлено неверно или установилось ненужное обновление. Такие проблемы не являются нарушением SLA и решаются на стороне клиента. Так когда же он действует?

SLA – что это такое и для чего

SLA – это своего рода гарантийный талон на услугу. Но это не просто пункт с девятками в основном договоре. Это развернутое приложение, в котором фиксируются все параметры оказываемой услуги. Правильно составленное приложение страхует и клиента, и сервис-провайдера.

В SLA содержатся гарантированные значения основных параметров предоставления услуг. Важный момент: гарантированные – значит не ниже. Так, в SLA на виртуальную инфраструктуру учитываются показатели до операционной системы на клиентской ВМ. Операционная система и приложения внутри ВМ – забота администратора клиента. Если что-то сломалось, первым делом проверьте у себя. Поверьте, если поломается сама инфраструктура, то провайдер узнает об этом раньше вас через мониторинг.

В хорошем SLA на виртуальную инфраструктуру должны быть:

Доступность

Доступность – это те самые девятки, которые чаще всего выдаются за SLA. Проценты доступности переводятся в минуты и часы недоступности сервиса в месяц или год.

Доступность	Простой в месяц	Простой в год
99%	7 час. 18 мин. 17,5 сек.	3 дня 15 час. 39 мин. 29.5 сек.
99,9%	43 мин. 49,7 сек.	8 час. 45 мин. 57 сек.
99,95%	21 мин. 54,9 сек.	4 часа 22 мин. 58,5 сек.
99,982%	7 мин. 53,4 сек.	1 час 34 мин. 40,3 сек.

Все варианты можно посмотреть здесь.
Казалось бы, всё понятно, в чем же подвох?

Месяц или год. Не зря я наверху выбрал две колонки – месяц и год. Когда видите заветные девятки в SLA, обратите внимание, к какому периоду они относятся. Чаще всего провайдеры говорят о месяце. То есть при доступности 99% мы получаем 7 с лишним часов даунтайма в месяц, а не в год. Уточняйте этот момент, чтобы потом не было разочарований.

Девятки и инфраструктура. Если вам необходим определенный уровень отказоустойчивости сервиса, то и виртуальная инфраструктура должна быть построена таким образом, чтобы эту доступность обеспечивать. Так, для достижения уровня доступности 99,95% вам, как минимум, понадобится кластер active-passive. Если вы хотите перешагнуть за 99,982% (уровень доступности в дата-центрах Tier III), вам нужно строить систему, распределенную по нескольким ЦОД.

Выбирая конфигурацию виртуальной инфраструктуры, ответьте себе на вопрос: нужны ли вам пять девяток? Девятки не должны быть самоцелью. Во-первых, чем больше девяток, тем дороже для вас будет стоить система. Каждая следующая честная девятка будет добавлять нолик справа к стоимости! Во-вторых, не каждый сервис требует геораспределенного кластера.

Если вы выбираете облачные ресурсы, определитесь, какую задачу вы решаете сейчас: строите тестовую среду или холодный резерв или размещаете критические сервисы – интернет-магазин, платежную систему или CRM.

Совокупная доступность. Если ваше приложение имеет доступность 99,5%, облако имеет доступность 99,95%, а дата-центр, где оно развернуто, – 99,982%, то на выходе вы будете иметь доступность не выше 99,5%. Так как доступность всего сервиса не может быть выше доступности самого слабого его звена. Помните об этом при выборе сервиса и не пытайтесь лечить перелом подорожником. Защищенный геораспределенный кластер не спасет падающее через день приложение.

Не доступностью единой

Доступность для ИТ-сервисов – главный параметр. Но и при стопроцентном аптайме виртуальная машина может жестко тупить из-за сетевых задержек, недостаточного количества IOPS, высокой latency СХД и прочих проблем. Поэтому в правильном SLA должны быть все качественные метрики по инфраструктуре. На что смотреть и к чему стремиться?

секунды. Поэтому норма для этого параметра – в пределах от 0 до 1%. Как и в случае с сетевой задержкой, уточните у провайдера, где заканчивается его ответственность.

В SLA также следует прописать способы измерения и мониторинга по каждому параметру. Например, так:

Запросы, инциденты и технические работы

Сначала разведем понятия запрос и инцидент. Запрос – это заявки на штатные работы. Инцидент – когда что-то сломалось и не работает, например: машина сильно тупит или не пингуется. Если что-то сломалось у провайдера, то уведомление об инциденте приходит из системы мониторинга. Все запросы и инциденты разделяются по приоритетам. Это позволяет быстро реагировать на вопросы жизни и смерти и чинить все вовремя. Важно определить статус заявки на этапе ее регистрации. Как это устроено у нас, мы рассказывали в статье о службе поддержки.

Решение инцидентов. Все возможные поломки не предугадать. Но типовые причины недоступности сервиса должны быть прописаны в SLA. Еще раз отмечу, что соглашение затрагивает только неполадки на стороне провайдера и не распространяется на ошибки внутри ВМ. Все инциденты делятся по приоритетам, в зависимости от того, ведут они к полной недоступности сервиса или к частичной деградации. На каждый приоритет определяется максимальный срок устранения.

Если используете разные типы дисков, не забудьте прописать инциденты по каждому из них:

Пример инцидентов первого приоритета.

В нашем SLA на IaaS мы делим инциденты на три приоритета. Каждый обрабатывается в круглосуточном режиме, но время на исполнение разное.

Уточните у провайдера, как он считает время на исполнение инцидента, и проверьте, чтобы это было прописано в приложении. Как правило, временем исполнения считается время от уведомления клиента о регистрации инцидента и до момента его решения.

Кроме того, SLA может ограничивать число заявок, которое вы можете открыть у провайдера в месяц.

Обработка запросов. Все верно: в хорошем SLA прописано время на обработку запросов. Это нужно для того, чтобы правильно расставить приоритеты и не проморгать отключение сервиса за рутинными задачами. И защитить провайдера. Так как речь не идет об остановке сервиса, то в этот раздел часто не вчитываются, а зря. Именно здесь зафиксировано, что запросы принимаются в рабочие часы провайдера и на их решение отводится не меньше 12 часов.

Мы делим запросы на три типа, которые отличаются по характеру работ и времени исполнения:

Проведение регламентных работ и уведомление. Инфраструктура – это живой организм. Ее нужно обслуживать: апгрейдить, накатывать критические обновления, проводить плановые работы (например, обновлять прошивку на серверах). Не все работы можно сделать без остановки сервиса. Поэтому в SLA фиксируется порядок уведомления о таких работах, время проведения работ и возможное время перерыва в сервисе. Проверяйте, чтобы срок уведомления о плановых работах был достаточным и было зафиксировано максимальное время остановки сервиса.

У нас это выглядит так:

Наложение штрафных санкций. Штрафные санкции бывают двух типов: за превышение времени реакции на инцидент и за простой сервиса, в нашем случае виртуальной инфраструктуры. Чем подробнее описан порядок наложения санкций, тем безопаснее чувствуют себя и клиент, и провайдер. Если условия не понятны, задавайте провайдеру вопросы до подписания соглашения, чтобы не было сюрпризов и разочарований.

Если в SLA есть все описанные выше пункты, то вы получаете сервис с прозрачными гарантиями и уровнем доступности. Врать в SLA невыгодно, так как от штрафов отбрехаться не получится. Но и подогнать под SLA поломки из-за косных приложений или неправильной настройки ВМ не удастся.

Если есть вопросы, традиционно жду в комментариях. Здорового вам облака!

Источник