Publicação

Disponibilidade, confiabilidade e sustentabilidade do serviço

foto de
Fernando Palma CONTEÚDO EM DESTAQUE

Olá amigos do Portal GSTI!

Este é mais um artigo da série voltado para conceitos da biblioteca #ITIL, com foco em temas que geram dúvidas em quem está ganhando intimidade com os processos ou se preparando para o exame. 

Para quem se sentiu um pouco perdido ao ler o título, estamos falando de métricas do serviço que são apresentadas dentro do processo de Gestão da Disponibilidade, na etapa de Desenho de Serviços. Caso deseje ganhar um pouco mais de intimidade com ele antes de ler o artigo, recomendo ler seus conceitos básicos neste artigo: Desenho de serviços de TI da ITIL.

Não pretendo aqui apenas apresentar as definições, mas esclarecer estes aspectos do serviço através de ilustrações e comparações. Para isso, descrevo a seguir o conceito de cada um deles, um exemplo e a forma de cálculo. Por ultimo, faço uma comparação entre eles em uma tabela de resumo.

Disponibilidade do serviço

Conceito 

Habilidade de um serviço de TI ou item de configuração de desempenhar a sua função acordada quando requerida.

Forma de calculo

Simples. Basta subtrair o downtime (tempo em que ficou parado) do tempo total acordado do serviço e dividir pelo mesmo tempo acordado total do serviço.

Disponibilidade = (Tempo acordado do serviço – tempo que o serviço ficou indisponível) / Tempo acordado do serviço.
Ex:   Disponibilidade = 500h – 10h / 500h = 0.98 = 98%.

Aspectos importantes

Um aspecto relevante é que a métrica de disponibilidade deve estar bem definida entre você e seu cliente. Caso contrário, a entrega da disponibilidade pode ser interpretada de maneiras distintas por ambas as partes.

Um exemplo clássico do que eu citei no parágrafo anterior é a abertura de um incidente para o #Service Desk  por conta da "lentidão" de um sistema . Digamos que, neste cenário, o incidente em questão foi registrado por que o usuário do sistema está levando cerca de 15 segundos para "logar". Este evento pode ser considerado como indisponibilidade do serviço? Você registraria o incidente?

E se você faz uma manutenção preventiva em um serviço, precisando interrompê-lo por 15 minutos. É considerado indisponibilidade?

Respostas a estas perguntas só podem ser dadas se você tiver pontuado no acordo de nível de serviços com o cliente, questão como: performance requerida para o serviço e como serão tratadas mudanças programadas.
Dito de outra forma, você precisa definir o que é disponibilidade e indisponibilidade.

Confiabilidade do serviço

Conceito

Uma medida do tempo em que um serviço de TI ou item de configuração pode executar a sua função acordada sem interrupção.

Quanto maior o tempo em que o serviço funciona sem apresentar uma falha, maior é o nível de cofiabilidade deste serviço.

Dica: lembre-se sempre que serviço confiável é aquele livre de falhas.

Forma de calculo

Geralmente medida como TMEF (Tempo Médio Entre Falhas) ou TMEIS (Tempo Médio Entre Incidentes do Serviço).

Calculando o TMEF

Para calcular o TMEF, basta dividir o tempo total de uptime , pela quantidade de intervalos de uptimes . E

Exemplo: se 4 incidentes de 2,5 horas ocorreram em um serviço acordado para funcionar 100 horas, significa que o  uptime total é de  90 (já que 90 = 100 - 4*(2,5) )  .  Considerando-se 6 o número de períodos de  uptimes  , o TMEF = 90/6 =  15 horas.

Calculando o TMEIS

Basta dividir o tempo total do serviço pelo número de falhas.

Ex: se 5 incidentes ocorreram em um serviço que funciona por 500 horas, a confiabilidade é de 100 horas.

Aspectos importantes

A confiabilidade é um critério que também ajuda a medir a disponibilidade de um serviço, mas podemos notar que as métricas são distintas: um serviço com alto nível de disponibilidade pode apresentar baixos níveis de confiabilidade e vice-versa. Manter um acordo com o prestador de serviço em relação somente à disponibilidade pode não ser suficiente.

Ex: imaginemos que um sistema apresentou 30 interrupções de 1 segundo cada. O nível de confiabilidade acordado era de 200 horas e por conta das interrupções resultou em um nível de 100 horas. Considerando-se que o tempo total de limite de downtime acordado é de 02 horas, ele cumpriu a disponibilidade requerida, mas não a confiabilidade .

Sustentabilidade do Serviço

Conceito

Uma medida de quão rápido e eficaz um serviço de TI ou outro item de configuração pode ser restaurado à operação normal após uma falha. A sustentabilidade é frequentemente medida e reportada como TMPRS (Tempo Médio Para Restaurar o Serviço).

Calculando o TMPRS

basta somar os tempos em que todos os incidentes foram fechados e dividir pelo número de incidentes. TMPRS = downtime / número de incidentes.

Ex: se o o serviço ficou parado durante 10 horas em um mês em que 2 incidentes ocorreram, o TMRS é de 5 horas.

Aspectos importante

Assim como a confiabilidade este é distinto e não substituível. Em outras palavras, o que eu estou tentando afirmar é que cobrir o serviço com acordos para a disponibilidade e confiabilidade ainda não é o suficiente, pois a sustentabilidade deve ser também acordada.

Imaginem que o mesmo sistema ilustrado no item anterior fique disponível de maneira interrupta por todo o mês. No ultimo dia deste mês, entretanto, ocorre uma parada que demora 12 horas para ser recuperada. Pode ser que este tempo (12 horas), quando subtraído do tempo total do serviço resulte em um percentual que atenda ao tempo de disponibilidade acordado mas não a sustentabilidade, pois os impactos para 12 horas de parada do serviço não podem ser mitigados pela área de negócio.

Enfim, segue a tabela com o resumo destes conceitos:


Conceito
Descrição
Disponibilidade
Habilidade de um serviço de TI ou outro item de configuração de desempenhar a sua função acordada quando requerido.
Confiabilidade
Uma medida do tempo em que um serviço de TI ou item de configuração pode executar a sua função acordada sem interrupção. É a habilidade do serviço em manter-se livre de falhas. Quanto menor o número de falhas, maior a confiabilidade do serviço.
Sustentabilidade
Uma medida de quão rápido e eficaz um serviço de TI ou outro item de configuração pode ser restaurado à operação normal após uma falha. A sustentabilidade é frequentemente medida e reportada como TMPRS (Tempo Médio Para Restaurar o Serviço). Quanto mais rápido um serviço é restaurado após uma falha, maior o nível de sustentabilidade deste.

Continue estudando gestão da disponibilidade:

Comentários