Na vašem soukromí nám záleží!

Používáme soubory cookie ke zlepšení uživatelského prostředí a pro reklamní účely. Prohlášení o zásadách ochrany osobních údajů.

Co jsou metriky incidentů MTBF, MTTR, MTTA a MTTF? Jak je vypočítat?

Při diskusi o řízení incidentů někteří tvrdí, že na metrikách incidentů záleží méně než na pochopení toho, jak lze incidenty řešit, jaká preventivní opatření fungují a proč k incidentům vůbec dochází (tj. identifikace hlavní příčiny). Pojďme se v článku dozvědět, proč jsou tyto ukazatele vlastně v IT důležité.
Jana Mančíková

27. 6. 2024

V následujících kapitolách prozkoumáme, proč je měření metrik incidentů klíčové, zejména v oblasti správy IT služeb a IT majetku. Kromě toho se podíváme na to, jak se tyto metriky počítají a jaké výzvy při měření přinášejí.

Co je střední doba mezi poruchami (Mean Time Between Failure, MTBF)?

Střední doba mezi poruchami (MTBF) měří průměrně jak dlouho může operační systém nebo počítač běžet, než dojde k jeho selhání. Posuzuje, jak dlouho může systém hladce fungovat, než si vyžádá pozornost. MTBF je úzce spjata se spolehlivostí a dostupností.

  • Spolehlivost – Vyšší MTBF značí vyšší spolehlivost systému. Například, pokud server má zřídka výpadky, vykazuje vysokou hodnotu MTBF a je tedy považován za vysoce spolehlivý. To vede k vyšší spokojenosti uživatelů, kteří netrpí výpadky systému a jejich práce tím není přerušena.
  • Dostupnost – MTBF také ovlivňuje celkovou dostupnost systému. Delší intervaly mezi poruchami přinášejí vyšší uživatelskou produktivitu.

Praktické příklady MTBF

Zvažme třeba síťový směrovač (router) nainstalovaný v kanceláři. Pokud router udržuje stabilní připojení k internetu, vykazuje vysokou MTBF. Zaměstnancům umožňuje spojení s minimem přerušení, prostojů, výpadků a odstávek a jimi způsobených ztrát produktivity.

Jak vypočítat MTBF?

MTBF má jednoduchý výpočet podle následujícího vzorce:

MTBF = celková doba provozu / počet poruch 

  • Celková doba provozu (Total Operation Time, TOT) – je celková doba bezproblémového provozu. Zahrnuje dobu od posledního obnovení po selhání, do začátku dalšího výpadku.
  • Počet poruch – je celkový počet poruch během provozu systému.

Příklad: MTBF = 4000 hodin / 2 poruchy = 2000 hodin

MTBF je v tomto případě 2000 hodin.

Úskalí výpočtu MTBF

Teoreticky se výpočet MTBF zdá být jednoduchý ale přesto přináší některá úskalí, která přesnost výpočtu snižuje:

  • Dostupnost dat – Díky nepřesnosti a nedostupnosti dat společnosti často postrádají data potřebná pro výpočet MTBF.
  • Chybná konstantní poruchovost – MTBF počítá pouze s konstantní poruchovosti v průběhu času. Ve skutečnosti tento předpoklad nemusí platit, zejména u složitých systémů. U některých systémů dochází v raných fázích jejich životního cyklu k vyšší poruchovosti a může se v průběhu času měnit.
  • Nezohlednění doby opravy – MTBF se zaměřuje pouze na dobu mezi poruchami a nezohledňuje dobu opravy nebo údržby.
  • Variabilní typy systémů – metriky MTBF se mohou v různých případech použití výrazně lišit, takže přímé srovnání mezi různými systémy a komponentami je náročné a nepřesné.

Proč měřit MTBF v IT Service Managementu (ITSM)?

Většina společností se snaží maximalizovat MTBF, aby zvýšila spokojenost zákazníků a zajistila si spokojené uživatele. Zejména v IT je měření MTBF zásadní pro zajištění hladkého chodu IT služeb:

  • Predikce spolehlivosti – MTBF umožňuje IT profesionálům kvantitativně měřit spolehlivost, plánovat údržbu, řídit změny a správu incidentů a minimalizovat neočekávané prostoje.
  • Optimalizované workflow – Sledováním MTBF může IT zefektivnit pracovní postupy, efektivně alokovat zdroje a snižovat dopad selhání kritických IT služeb.
  • Efektivní řízení nákladů – Měření MTBF také pomáhá šetřit náklady na údržbu a snižuje potřebu oprav.
  • Smlouvy na úrovni služeb (Service Level Agreement, SLA) – MTBF se často používá jako klíčový ukazatel výkonu (KPI) ve smlouvách SLA, aby se zajistilo, že služby budou spolehlivé bez prostojů a splní očekávání zákazníků.

Se správným nástrojem ITSM se sledování MTBF stává lépe zvládnutelným, což umožňuje efektivní správu změn, incidentů a požadavků.

Chcete-li tuto metriku efektivně měřit, využijte efektivní správu IT majetku (IT Asset Management, ITAM) spolu s nástrojem Service Desk. Propojení těchto dvou nástrojů zajišťuje auditovatelnost, data pro sledování a a výpočet MTBF.

Banner s žádosti o demo pro ALVAO Service Desk a Asset Management

Co je střední doba opravy (Mean Time to Repair, MTTR)?

Střední doba opravy (MTTR) je základním měřítkem udržovatelnosti opravitelných položek. Je to průměrná doba potřebná k opravě vadné součásti nebo zařízení. MTTR měří, jak rychle lze obnovit plnou funkčnost systému poté, co dojde k selhání. Nízká MTTR znamená efektivní a rychlé řešení incidentů.

Praktický příklad MTTR

Zvažme počítačový systém, který náhle přestal fungovat. MTTR značí, za jak dlouho po selhání se systém znovu zprovozní. Dalším příkladem jsou softwarové chyby: Pokud dojde k selhání softwarové aplikace, doba potřebná k identifikaci chyby, opravě kódu a vydání aktualizace je souhrnná doba MTTR.

Jak vypočítat MTTR?

Pro kalkulaci MTTR potřebujete následující výpočty:

MTTR = Celkový čas strávený opravami / Počet oprav 

  • Celkový čas strávený opravami – jedná se o dobu od zjištění poruchy do opětovného zprovoznění systému. Zahrnuje dobu mezi odstávkou a skutečným procesem opravy.
  • Počet oprav – představuje celkový počet incidentů oprav pro konkrétní komponentu během definovaného období.

Příklad: MTTR = 4 hodiny / 2 opravy = 2 hodiny

Průměrná MTTR je v tomto případě 2 hodiny.

Úskalí výpočtu MTTR

Výpočet střední doby opravy (MTTR) může výzvy, které způsobují nepřesnost výpočtu:

  • Nekonzistentní sběr dat – Jako každá jiná metrika se MTTR spoléhá na konzistentní a vysoce kvalitní sběr dat. Přesná časová razítka detekce, doby vyřešení a dalších relevantních etap jsou zásadní pro přesné výpočty MTTR.
  • Zavádějící definice – Různé organizace mohou MTTR různě definovat. Jasné definice doby detekce, doby vyřešení a dalších relevantních etap jsou nezbytné pro zajištění přesných výpočtů MTTR.
  • Vícero poruch – Když u zařízení dojde k více poruchám najednou, může být stanovení jasných začátků a konců jednotlivých oprav složité. Výpočet MTTR je nutno v takových případech pečlivě zvážit.
  • Nestrukturovaná IT podpora a různorodé postupy evidence – Nekonzistentní data vyplývající z nestrukturovaných postupů IT podpory nebo selektivního tiketingu mohou mít vliv na spolehlivost metrik správy incidentů, včetně MTTR.

Proč měřit MTTR v IT Service Managementu (ITSM)? 

MTTR (Mean Time to Repair) je kritická výkonnostní metrika v oblasti ITSM, která poskytuje zásadní poznatky o účinnosti a efektivitě řešení incidentů:

  • Rychlá a efektivní správa incidentů – MTTR pomáhá IT týmům rychle reagovat na poruchy, minimalizovat prostoje a zajistit hladký provoz.
  • Minimalizace dopadu – Rychlé řešení incidentů snižuje negativní důsledky selhání systému a dalších poruch, předchází ztrátám produktivity a nespokojenosti uživatelů.
  • Zlepšování procesů – metriky MTTR umožňují IT týmům identifikovat opakující se problémy, i oblasti hodné pozornosti. Řešením těchto problémů mohou organizace zlepšit procesy, optimalizovat pracovní postupy a zvýšit celkovou efektivitu systému.

Stručně řečeno, sledování MTTR v ITSM zajišťuje včasné řešení incidentů, zkracuje prostoje a přispívá k celkové spolehlivosti systému.

Co je střední doba do potvrzení (Mean Time to Acknowledgement, MTTA)?

Střední doba do potvrzení (MTTA) měří schopnost reagovat na incidenty, selhání a stížnosti co nejdříve po jejich nahlášení. Čím nižší je MTTA, tím rychlejší je detekce a rychlejší odezva.

Praktický příklad MTTA

Když uživatel odešle tiket v Service Desku – například „Můj mobilní telefon přestal fungovat“ – MTTA sleduje, jak dlouho trvá, než agent daný tiket zareaguje a odpoví na něj. Jinými slovy, v tomto případě může být také označována jako metrika „Doba odezvy“.

Další příklad souvisí s bezpečnostními incidenty: Jak rychle dovede IT reagovat na incident a začít řešit hrozbu – to se měří metrikou MTTA.

Jak vypočítat MTTA?

MTTA = Celková doba mezi upozorněním a reakcí / Celkový počet incidentů 

Řekněme například, že IT tým zaznamenal 5 incidentů a celková doba mezi upozorněním a jejich reakcí byla pro všech 5 incidentů 25 minut.

MTTA = 25 / 5 = 5

Průměrná MTTA je v tomto případě 5 minut.

Úskalí výpočtu MTTA

Při výpočtu metrik MTTA hrozí několik překážek, které mohou způsobit nepřesné výpočty:

  • Definice potvrzení – Před výpočtem MTTA se týmy musí dohodnout na jasné definici toho, co znamená „reakce“ v jejich procesu řízení incidentů. Je-li například incident vznesen v Service Desku, pokud existuje odpovědná osoba, která přebírá odpovědnost za tiket, IT to může definovat jako první reakci, která bude zaznamenáno do historie incidentu (tiketu).
  • Období hodnocení – MTTA se může lišit v závislosti na období vyhodnocování. Kratší období poskytují rychlejší zpětnou vazbu, zatímco delší období poskytují stabilnější průměry.
  • Sběr dat – Mít přesná data, kupříkladu o času první reakce a informace o opravě, zajišťují spolehlivé výpočty MTTA.

Proč měřit MTTR v IT Service Managementu (ITSM)?

  • Včasné potvrzení incidentů – Čím rychlejší je potvrzení a reakce na incidenty a požadavky, tím lépe.
  • Spokojenost uživatelů – Když uživatelé nahlásí incidenty nebo založí tiket, očekávají okamžité potvrzení a ujištění, že se jejich problém řeší. Nízká MTTA přispívá k vyšší spokojenosti uživatelů a důvěře v proces IT podpory a jejich poskytovaných služeb.
  • Řízení eskalace – Pokud je potřeba eskalace, promptní MTTA zajistí, že proces eskalace začne co nejdříve.

Co je střední doba do selhání (Mean Time to Failure, MTTF)?

Střední doba do selhání (MTTF) je ukazatel primárně související s údržbou. Měří průměrnou dobu, po kterou může neopravitelné zařízení fungovat, než selže.

Monitorování MTTF pomáhá udržovat efektivní komunikaci s uživateli a připravuje půdu pro efektivní řešení incidentů.

Praktický příklad MTTF

Zvažme ony časté požadavky Service Desku – na výměnu klávesnic, myší, telefonů a dalšího hardwaru. Vzhledem k tomu, že tento typ IT majetku je opotřebováván, měl by být spíše nahrazován než opravován. Sledováním střední doby do selhání (MTTF) získává IT oddělení přehled o náhradních periferních zařízeních, což v konečném důsledku snižuje prostoje a požadavky uživatelů na IT.

Jak vypočítat MTTF?

MTFF = Celková doba provozu / Počet poruch 

Řekněme například, že IT tým zaznamenal 5 poruch a systém běží celkem 500 hodin.

MTTA = 500 / 5 = 100

Průměrná MTTF je v tomto případě 100 hodin.

Úskalí výpočtu MTTF

Při výpočtu střední doby do selhání (MTTF) může několik faktorů ovlivnit přesnost měření:

  • Kvalita dat – Zajištění konzistentního a vysoce kvalitního sběru dat je nezbytné pro přesné měření MTTF. Spolehlivá data, včetně počtu poruch a celkové doby provozu systému, jsou pro přesné výpočty rozhodující.
  • Předpoklad konstantní poruchovosti – Podobně jako střední doba mezi poruchami (MTBF) předpokládá MTTF konstantní poruchovost. Tento předpoklad však nemusí platit, zejména u složitých systémů, kde se poruchovost může měnit v průběhu času. Například některý systém může selhat jednou ročně nebo nepravidelně, z různých důvodů.
  • Trvání opravy – Stejně jako MTBF, MTTF nezohledňuje čas potřebný k opravě nebo údržbě. Zahrnutí doby opravy do hodnocení spolehlivosti poskytuje komplexnější pohled na výkon systému.

Proč měřit MTTF v IT Service Managementu?

Výpočet střední doby do selhání (MTTF) může významně pomoci při správě IT majetku v rámci společnosti, mimo jiné pochopením a zohledněním očekávané životnost majetku nebo systému. Tyto znalosti umožňují společnostem efektivně alokovat zdroje a efektivněji řídit životní cyklus IT majetku.

  • Hodnocení spolehlivosti – MTTF pomáhá optimalizovat postupy údržby a zkracuje prostoje. Díky znalosti očekávané doby do selhání mohou IT týmy naplánovat preventivní údržbu a řešit potenciální problémy dříve, než negativně ovlivní provoz.
  • Prediktivní údržba – Díky ukazateli MTTF může IT oddělení proaktivně řídit životní cyklus IT. Předvídání, kdy může zařízení selhat, umožňuje včasné zásahy, minimalizuje prostoje a zajišťuje plynulejší provoz.
  • Alokace zdrojů a neopravitelný majetek – Pochopení životnosti životního cyklu majetku IT týmům efektivně spravovat rozpočty. Místo toho, aby investovali do nákladných oprav, mohou plánovat pravidelné výměny na základě MTTF daného majetku. Tento přístup zajišťuje dostatečnou zásobu k opravě nevhodných kusů, při zachování kontinuity provozu.

Shrnutí

MTBF, MTTR, MTTA a MTTF obecně vedou ke zlepšení spolehlivosti, prodloužení doby provozuschopnosti, lepšímu řešení problémů, nákladové efektivitě a napomáhají informovanému rozhodování. Je však důležité si uvědomit, že společnosti by na těchto ukazatelích neměly bazírovat přespříliš, neboť by to mohlo vést k až moc úzkému zaměření na pouze kvantitativní měřítka.
Nicméně, aby společnosti získali smysluplné poznatky, potřebují kvalifikované analytiky, což jde ruku v ruce s kvalitním sběrem a přesností dat.

Zajímá vás, jak měřit metriky MTBF, MTTR, MTTA a MTTF incidentů pomocí řešení ALVAO ITSM a ITAM?

sjednat bezplatnou schůzku

Odebírejte CIO newsletter

  • to nejlepším z našeho blogu
  • tipy a triky z IT managmentu
  • inspirativní rozhovory s CIO českých i zahraničních firem
  • pozvánky na webináře a konference


Přihlaste se k odběru newsletteru