Przewidywany czas działania między uszkodzeniami: opis i standardy



Podobne dokumenty
Serwis rozdzielnic niskich napięć MService Klucz do optymalnej wydajności instalacji

Streszczenie: Zasady projektowania konstrukcji budowlanych z uwzględnieniem aspektów ich niezawodności wg Eurokodu PN-EN 1990

Porównywanie populacji

Inżynieria oprogramowania. Część 8: Metoda szacowania ryzyka - PERT

Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński

UTRZYMANIE RUCHU ZA POMOCĄ NARZĘDZIA EQUIPMENT CARE

166 Wstęp do statystyki matematycznej

Lean SIX SIGMA green belt

Borealis AB Serwis Techniczny i Rozwój Rynku Reinhold Gard SE Stenungsund Szwecja

zdarzenie losowe - zdarzenie którego przebiegu czy wyniku nie da się przewidzieć na pewno.

Rys Wykres kosztów skrócenia pojedynczej czynności. k 2. Δk 2. k 1 pp. Δk 1 T M T B T A

Elementy modelowania matematycznego

Modelowanie niezawodności prostych struktur sprzętowych

Szybkie prototypowanie w projektowaniu mechatronicznym

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań

Niezawodność elementów i systemów. Sem. 8 Komputerowe Systemy Elektroniczne, 2009/2010 1

Zarządzanie projektami. Wykład 2 Zarządzanie projektem

Określenie maksymalnego kosztu naprawy pojazdu

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

PROGRAM WSPÓŁPRACY TRANSGRANICZNEJ POLSKA BIAŁORUŚ UKRAINA

Modele i narzędzia optymalizacji w systemach informatycznych zarządzania

Modelowanie bilansu energetycznego pomieszczeń (1)

Wnioskowanie bayesowskie

WYMAGANIA EDUKACYJNE Z MATEMATYKI DLA KLASY III

<Nazwa firmy> <Nazwa projektu> Specyfikacja dodatkowa. Wersja <1.0>

Testy nieparametryczne

Audyt funkcjonalnego systemu monitorowania energii w Homanit Polska w Karlinie

Budżetowanie elastyczne

PROGRAM WSPÓŁPRACY TRANSGRANICZNEJ POLSKA BIAŁORUŚ UKRAINA

Budżetowanie elastyczne

Skuteczność => Efekty => Sukces

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Metodyka projektowania komputerowych systemów sterowania

Wprowadzenie do algorytmiki

Procedury pozwalające na uproszczenie procesu. projektowania. ZW3D CAD/CAM Biała księga

Zmienność wiatru w okresie wieloletnim

ROZPORZĄDZENIE MINISTRA GOSPODARKI 1) z dnia 17 grudnia 2010 r.

ZBIERANIE DANYCH NA POTRZEBY NIEZAWODNOŚCI

Trójfazowy, modułowy system UPS. DPA UPScale ST kw Najlepszy w swojej klasie modułowy system UPS

TPM kompleksowy system obsługi bezawaryjnej, w. którym uczestniczą wszyscy członkowie załogi. przedsiębiorstwa. Seiichi Nakajima

Systemy zarządzania bezpieczeństwem informacji: co to jest, po co je budować i dlaczego w urzędach administracji publicznej


Pobieranie, analizowanie i raportowanie danych o jakości zasilania

Tabela efektów kształcenia. Kształcenie zawodowe teoretyczne

Lean SIX SIGMA black belt

Komentarz Sesja letnia zawód: zawód: technik elektronik 311 [07] 1. Treść zadania egzaminacyjnego wraz z załącznikami.

Wykład 9 Wnioskowanie o średnich

Zwrot z inwestycji w IT: prawda czy mity

Spacery losowe generowanie realizacji procesu losowego

Opis znaczenia kryterium. Lp. Nazwa kryterium Opis kryterium

SLA ORAZ ZASADY ŚWIADCZENIA WSPARCIA I HELPDESK. Wykonawca zobowiązuje się do świadczenia Usług Wsparcia i Helpdesk w odniesieniu do Systemu.

Regulacja dwupołożeniowa (dwustawna)

Lean Maintenance. Tomasz Kanikuła

Technologie Oszczędzania Energii. w kooperacji z OSZCZĘDNOŚĆ TO NAJLEPSZY SPOSÓB NA ZARABIANIE PIENIĘDZY

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

ABERLE LIFE CYCLE SERVICE S24

O PEWNEJ ANOMALII W WYCENIE INSTRUMENTÓW DŁUŻNYCH

ANALIZA NIEZAWODNOŚCI DLA TERMINÓW REALIZACJI ZADAŃ PRODUKCYJNYCH

PYTANIA PRÓBNE DO EGZAMINU NA CERTYFIKAT ZAAWANSOWANY REQB KLUCZ ODPOWIEDZI. Część DODATEK

Opis znaczenia kryterium. Lp. Nazwa kryterium Opis kryterium. 1. Wnioskodawca przeprowadził inwentaryzację zasobów nauki objętych projektem.

Standard określania klasy systemu informatycznego resortu finansów

Wyznaczanie minimalnej odważki jako element kwalifikacji operacyjnej procesu walidacji dla wagi analitycznej.

METODA AKTUALIZACJI WSKAŹNIKA KOSZTÓW NAPRAW MASZYN ROLNICZYCH NOWEJ GENERACJI

Diagramy ERD. Model struktury danych jest najczęściej tworzony z wykorzystaniem diagramów pojęciowych (konceptualnych). Najpopularniejszym

Plan zarządzania projektem

Definicje PN ISO Definicje PN ISO 3951 interpretacja Zastosowanie normy PN-ISO 3951:1997

Przykłady wybranych fragmentów prac egzaminacyjnych z komentarzami Technik awionik 314[06]

* tworzenie kryteriów oceny i nagradzania; * redukcję kosztów. Zasady kaizen Filozofia kaizen opiera się na dwóch zasadniczych

OPROGRAMOWANIE WSPOMAGAJĄCE ZARZĄDZANIE PROJEKTAMI. PLANOWANIE ZADAŃ I HARMONOGRAMÓW. WYKRESY GANTTA

Zarządzanie bezpieczeństwem Laboratorium 3. Analiza ryzyka zawodowego z wykorzystaniem metody pięciu kroków, grafu ryzyka, PHA

ROZPORZĄDZENIE KOMISJI (UE) NR

Model przepływów międzygałęziowych (model Leontiewa)

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Projektowanie systemu krok po kroku

WARUNKI GWARANCJI I SERWISU GWARANCYJNEGO

Podręcznik najlepszych praktyk w zakresie efektywności energetycznej

Zarządzanie eksploatacją w elektroenergetyce

Zmienne zależne i niezależne

Zarządzanie bezpieczeństwem Laboratorium 2. Analiza ryzyka zawodowego z wykorzystaniem metody trzypunktowej

Teoria błędów. Wszystkie wartości wielkości fizycznych obarczone są pewnym błędem.

Zajęcia wprowadzające W-1 termin I temat: Sposób zapisu wyników pomiarów

Process Analytical Technology (PAT),

Ramowy program zajęć dydaktycznych Standardy ISO i zarządzanie przez jakość (TQM) (nazwa studiów podyplomowych)

Metody numeryczne Technika obliczeniowa i symulacyjna Sem. 2, EiT, 2014/2015

Moduł Z9 Praktyka zawodowa

Psychometria PLAN NAJBLIŻSZYCH WYKŁADÓW. Co wyniki testu mówią nam o samym teście? A. Rzetelność pomiaru testem. TEN SLAJD JUŻ ZNAMY

POISSONOWSKA APROKSYMACJA W SYSTEMACH NIEZAWODNOŚCIOWYCH

Napędy urządzeń mechatronicznych

Bezpieczeństwo i koszty wdrażania Informatycznych Systemów Zarządzania Hubert Szczepaniuk Wojskowa Akademia Techniczna im. Jarosława Dąbrowskiego

Matryca efektów kształcenia dla programu studiów podyplomowych ZARZĄDZANIE I SYSTEMY ZARZĄDZANIA JAKOŚCIĄ

Analiza ilościowa w przetwarzaniu równoległym

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Przykładowy szkolny plan nauczania* /przedmiotowe kształcenie zawodowe/

Liczby są ważne w ewaluacji, ale nie zawsze pokazują pełny obraz

Funkcje wymierne. Jerzy Rutkowski. Działania dodawania i mnożenia funkcji wymiernych określa się wzorami: g h + k l g h k.

1. Wprowadzenie do dokumentu Moduł polityki zarządzania

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

KILKA SŁÓW O ROLI PRODUCT MANAGERA

... prognozowanie nie jest celem samym w sobie a jedynie narzędziem do celu...

Algorytm. Krótka historia algorytmów

Transkrypt:

Przewidywany czas działania między uszkodzeniami: opis i standardy Autorzy: Wendy Torell Victor Avelar White Paper 78

Streszczenie MTBF (Mean Time Between Failure) to termin dotyczący niezawodności, wykorzystywany od czasu do czasu w wielu gałęziach przemysłu, natomiast w niektórych branżach szeroko nadużywany. Przez lata pierwotne znaczenie tego terminu uległo zmianie, co doprowadziło do pewnego zamieszania i cynicznego stosunku względem niego. Współczynnik MTBF opiera się w głównej mierze na założeniach i definicji awarii. Jednak do prawidłowej interpretacji koniecznie wymagane jest szczegółowe zrozumienie tych informacji. W tym dokumencie wyjaśniono trudności oraz błędne założenia związane ze współczynnikiem MTBF oraz dostępne metody stosowane do jego wyznaczania. 2

Wstęp Współczynnik MTBF (Time Between Failure) jest w użyciu od 60 lat jako podstawowy czynnik brany pod uwagę przy różnych decyzjach. W ciągu wielu lat opracowano ponad 20 metod i procedur do przewidywania cykli życia. Dlatego nie dziwi, że współczynnik MTBF jest od dłuższego czasu tematem niekończącej się dyskusji. Obszar, gdzie jest to szczególnie widoczne, to projektowanie obiektów o znaczeniu krytycznym, w których znajduje się sprzęt IT i telekomunikacyjny. Gdy minuty przestoju mogą mieć negatywny wpływ na wartość rynkową firmy, kluczowe znaczenie ma niezawodność fizycznej infrastruktury obsługującej otoczenie sieciowe. Może się okazać, że docelowej niezawodności biznesowej nie osiągnie się bez pełnego zrozumienia współczynnika MTBF. W tym dokumencie wyjaśniono każdy aspekt współczynnika MTBF. W całym artykule zamieszczono przykłady, aby uprościć złożone zagadnienia i wyjaśnić błędne założenia. Co to jest awaria? Co to są założenia? Te pytania należy zadać natychmiast w momencie rozpoczęcia przeglądu wartości współczynnika MTBF. Bez odpowiedzi na nie merytoryczna wartość dyskusji jest niewielka. Współczynnik MTBF często cytuje się bez zamieszczenia definicji awarii. Taka praktyka zarówno prowadzi do błędnych wniosków, jak i jest całkowicie bezużyteczna. Podobną praktyką byłoby zamieszczanie danych o zużyciu paliwa przez samochód jako liczba kilometrów na zbiornik, bez podania pojemności zbiornika w litrach czy galonach. Aby rozwiązać tę niejasność, zazwyczaj przyjmuje się, że istnieją dwie podstawowe definicje awarii: 1) Niezdolność produktu jako całości do wykonywania wymaganych funkcji. 1 2) Niezdolność poszczególnych elementów do wykonywania wymaganych funkcji, jednak produkt jako całość wciąż może wykonywać wymagane funkcje. 2 Poniższe dwa przykłady stanowią ilustracje tego, jak poszczególny tryb awarii w produkcie może nie zostać zaklasyfikowany jako awaria, w zależności od wybranej definicji. Przykład 1: Awaria dysku nadmiarowego w macierzy RAID nie sprawia, że macierz RAID przestaje wykonywać w dowolnym czasie wymagane funkcje związane z dostarczaniem danych o znaczeniu krytycznym. Jednak awaria dysku sprawia, że element macierzy dysków przestaje spełniać wymaganą funkcję przechowywania danych. Dlatego też przypadek ten zgodnie z definicją 1 nie jest awarią, natomiast definicja 2 klasyfikuje go jako awarię. 1 IEC -50 2 IEC -50 3

Przykład 2: Jeżeli inwerter zasilacza UPS ulega awarii i zasilacz UPS przełącza się w tryb obejściowy, mimo tej awarii zasilacz UPS może wciąż wykonywać wymagane funkcje związane z zasilaniem urządzenia krytycznego. Jednak awaria inwertera sprawia, że element zasilacza UPS przestaje spełniać wymaganą funkcję związaną z dostarczaniem odpowiedniej mocy. Podobnie jak w poprzednim przypadku jest to awaria tylko według drugiej definicji. W przypadku tylko dwóch definicji, zdefiniowanie awarii wydaje się być raczej proste. Niestety, gdy w grę wchodzi reputacja produktu, sprawa staje się prawie tak skomplikowana, jak sam współczynnik MTBF. W rzeczywistości istnieje więcej niż jedna definicja awarii praktycznie ich liczba jest nieskończona. W zależności od typu produktu producenci mogą ustalać wiele definicji awarii. Producenci, którym zależy na jakości, śledzą wszystkie tryby awarii, aby zapewnić kontrolę nad procesem, co oprócz innych korzyści, usuwa usterki produktów. Dlatego też, aby dokładnie zdefiniować awarię, konieczne jest postawienie dodatkowych pytań. Czy nieprawidłowe stosowanie przez klienta uznaje się za awarię? Może okazać się, że projektanci przeoczyli tzw. czynnik ludzki, co w rezultacie daje użytkownikom możliwość nieprawidłowego stosowania produktu. Czy utraty zasilania spowodowane przez pracownika serwisu sprzedawcy można uznać za awarię? Czy możliwe jest, że sam projekt produktu zwiększa prawdopodobieństwo awarii wynikającej z wykonania procedury, która sama w sobie jest ryzykowna? Czy awarię diody LED (Light Emitting Diode) w komputerze uznaje się za awarię, mimo że nie ma to żadnego wpływu na działanie komputera? Czy oczekiwane zużycie materiału eksploatacyjnego, na przykład akumulatora, można traktować jako awarię, jeżeli wystąpiło to przed czasem? Czy uszkodzenia powstałe podczas transportu to awarie? Może to wskazywać na niskiej jakości projekt opakowania. W związku z powyższym zrozumiałe jest, że zdefiniowanie awarii ma duże znaczenie i należy to uwzględniać podczas interpretowania dowolnych wartości współczynnika MTBF. Pytania takie jak te zamieszczone powyżej stanowią podstawę do podejmowania decyzji dotyczących niezawodności. Mówi się, że inżynierowie nigdy się nie mylą, tylko przyjmują nieprawidłowe założenia. To samo można powiedzieć o osobach wyznaczających wartości współczynnika MTBF. Założenia są konieczne do uproszczenia procesu wyznaczania współczynnika MTBF. Jest rzeczą prawie niemożliwą, aby zebrać dane wymagane do obliczenia dokładnej wartości. Jednak wszystkie założenia muszą być realistyczne. W tym dokumencie opisano popularne założenia używane podczas wyznaczania współczynnika MTBF. 4

Definicja niezawodności, dostępności, współczynnika MTBF oraz współczynnika MTTR Współczynnik MTBF ma wpływ zarówno na niezawodność, jak i dostępność. Przed wyjaśnieniem metod odnośnie współczynnika MTBF ważne jest, aby ustalić solidne podstawy dla tych pojęć. Różnica między niezawodnością a dostępnością jest często nieznana lub nieprawidłowo rozumiana. Wysoka dostępność i wysoka niezawodność często idą w parze, jednak terminów tych nie należy stosować zamiennie. Niezawodność to zdolność systemu lub elementu do wykonywania żądanych funkcji w danych warunkach przez określony czas [IEEE 90]. Innymi słowy jest to prawdopodobieństwo, że system lub element pomyślnie zrealizuje swoje zadanie w określonym czasie bez awarii. Misja samolotu to doskonały przykład ilustrujący to pojęcie. Gdy samolot wylatuje na misję, istnieje tylko jeden cel: ukończyć lot zgodnie z planem i bezpiecznie (bez katastrofalnych awarii). Dostępność to natomiast stopień działania i gotowość systemu lub elementu, gdy ich użycie jest wymagane [IEEE 90]. Można to traktować jako prawdopodobieństwo, że system lub element znajduje się w stanie, aby wykonywać wymaganą funkcję w danych warunkach w danym momencie. Na dostępność ma wpływ niezawodność systemu oraz czas naprawy po wystąpieniu awarii. W przypadku, gdy system cechuje się długimi ciągłymi czasami działania (na przykład 10-letnie centrum danych), awarie są nieuniknione. Dostępność jest często brana pod uwagę, ponieważ w momencie wystąpienia awarii krytyczną zmienną staje się szybkość naprawy systemu. W centrum danych niezawodność projektu systemu to najważniejsza zmienna o znaczeniu krytycznym, jednak gdy dojdzie do awarii, najważniejszym czynnikiem jest jak najszybsze ponowne uruchomienie sprzętu IT oraz procesu biznesowego w celu zminimalizowania przestoju. Współczynnik MTBF (Mean Time Between Failure) to podstawowa miara niezawodności systemu. Zazwyczaj jest wyrażana w godzinach. Im wyższa wartość współczynnika MTBF, tym wyższa niezawodność produktu. Równanie 1 ilustruje tę zależność. Czas MTBF Niezawodno ść = e Równanie 1 5

Popularnym nieprawidłowym założeniem odnośnie współczynnika MTBF jest postawienie znaku równości między tym współczynnikiem a tzw. okresem eksploatacji szacunkową liczbą godzin działania, po których dochodzi do awarii systemu. Nierzadko jednak podaje się współczynnik MTBF o wartości 1 miliona godzin przeświadczenie, że system może bezawaryjnie działać bez przerwy przez 100 lat jest nieracjonalne. Wartości te są tak wysokie, ponieważ liczy się je na podstawie współczynnika awarii produktu w ich czasie użytkowania lub normalnym czasie eksploatacji. Zakłada się także, że współczynnik ten będzie obowiązywać w nieskończoność. Jednak w tej fazie cyklu eksploatacji produktu produkt cechuje się najniższym (i stałym) współczynnikiem awarii. W rzeczywistości tryby zużycia produktu ograniczyłyby czas jego eksploatacji znacznie wcześniej niż wartość współczynnika MTBF. Dlatego też nie należy tworzyć żadnego bezpośredniego powiązania między okresem eksploatacji a współczynnikiem awarii lub współczynnikiem MTBF. Produkt z niezwykle wysoką niezawodnością (MTBF) jednak niskim szacowanym okresem eksploatacji nie jest niczym nadzwyczajnym. Weźmy na przykład człowieka: Populacja przykładowa obejmuje 500 000 osób w wieku 25 lat. W ciągu całego roku zbierane są dane na temat awarii (zgonów) dla tej populacji. Okres eksploatacji populacji wynosi 500 000 x 1 rok = 500 000 osobolat. W ciągu roku 625 osób uległo awarii (zmarło). Współczynnik awarii to 625 awarii / 500 000 osobolat = 0,125 %/rok. Współczynnik MTBF jest odwrotnością współczynnika awarii, czyli 1 / 0,00125 = 800 lat. Tak więc, nawet jeśli 25-letni ludzie mają wysoki współczynnik MTBF, ich oczekiwana żywotność (okres eksploatacji) jest znacznie krótszy i nie jest powiązany. Praktycznie ludzie nie cechują się stałymi współczynnikami awarii. Wraz ze starzeniem się ma miejsce więcej awarii. Dlatego też jedynym wiarygodnym sposobem na obliczenie współczynnika MTBF, który byłby równy okresowi eksploatacji, byłoby odczekanie, aż cała badana populacja dwudziestopięciolatków zakończy życie. Następnie możliwe byłoby obliczenie średniej okresów życia. Większość zgodziłaby się, że liczba ta wyniosłaby 75 80 lat. Tak więc jaki jest współczynnik MTBF dwudziestopięciolatka 80 czy 800? Obie te wartości są prawdziwe! Jednak dlaczego ta sama populacja może cechować się dwoma tak skrajnie różnymi wartościami współczynnika MTBF? Wszystkiemu winne są założenia! Jeżeli współczynnik MTBF wynoszący 80 lat lepiej odzwierciedla długość życia produktu (w tym przypadku ludzi), czy jest to lepsza metoda? Najwyraźniej jest bardziej intuicyjna. Istnieje jednak wiele zmiennych ograniczających praktyczne zastosowanie tej metody w przypadku produktów komercyjnych, takich jak systemy zasilaczy UPS. Największym ograniczeniem jest czas. Aby można było dokonać obliczeń, należałoby poczekać na śmierć całej badanej populacji; w przypadku wielu produktów cykl ten wynosi 10 15 lat. Oprócz tego nawet jeżeli taki okres oczekiwania na obliczenie współczynnika MTBF byłby racjonalnie uzasadniony, wystąpiłyby problemy ze śledzeniem produktów. Na przykład, skąd producent może wiedzieć, czy produkty są dalej w użyciu, czy też może zostały one wycofane z użycia i ten fakt nie został nigdy zaraportowany? 6

W końcu nawet jeżeli wszystkie wymienione powyżej czynniki byłyby możliwe, technologia zmienia się tak szybko, że w momencie, gdy można byłoby obliczyć tę wartość, byłaby ona bezużyteczna. Kto potrzebuje wartości współczynnika MTBF produktu, który został zastąpiony kilkoma generacjami aktualizacji technologicznych? Współczynnik MTTR [Mean Time to Repair (or Recover)] to szacunkowy czas naprawy systemu po awarii. Może on uwzględniać czas wymagany na zdiagnozowanie problemu, czas wymagany na przyjazd inżyniera pomocy technicznej oraz czas fizycznej naprawy systemu. Podobnie jak w przypadku współczynnika MTBF, współczynnik MTTR jest wyrażany w godzinach. Tak jak zostało to przedstawione za pomocą równania 2, współczynnik MTTR ma wpływ na dostępność, ale nie na niezawodność. Im większa wartość współczynnika MTTR, tym gorszy jest system. Po prostu naprawa systemu po awarii zajmuje więcej czasu; system będzie miał mniejszą dostępność. Poniższe równanie ilustruje, w jaki sposób współczynniki MTBF oraz MTTR mają wpływ na ogólną dostępność systemu. Im wyższy współczynnik MTBF, tym większa dostępność. Im wyższy współczynnik MTTR, tym mniejsza dostępność. Dostepnosc MTBF ( MTBF + MTTR ) = Równanie 2 Aby przedstawione powyżej równania 1 i 2 były prawdziwe, należy przyjąć podstawowe założenie podczas analizowania współczynnika MTBF systemu. W przeciwieństwie do systemów mechanicznych większość systemów elektronicznych nie ma ruchomych części. W wyniku tego ogólnie przyjmuje się, że systemy lub elementy elektroniczne cechują się stałymi współczynnikami awarii podczas ich okresu eksploatacji. Rysunek 1, przedstawiający krzywą współczynnika awarii, ilustruje pochodzenie tego wymienionego wcześniej założenia o stałym współczynniku awarii. Czas normalnej pracy lub czas użytkowania na tej krzywej to etap, w którym produkt jest użytkowany. Jest to okres, w którym jakość produktu wyrównuje się ze stałym współczynnikiem awarii względem czasu. Źródła awarii na tym etapie to między innymi niewykryte usterki, niskiej jakości projekt pod względem bezpieczeństwa, większe przypadkowe obciążenia niż zakładano, czynnik ludzki oraz awarie losowe. Dodatkowe okresy wygrzewania produktów przeprowadzane przez producentów, prawidłowa konserwacja oraz zapobiegawcza wymiana zużytych części powinna zapobiec temu typowi gwałtownego spadku krzywej widocznemu w okresie zużycia. Powyższa dyskusja daje podstawowe informacje dotyczące pojęcia i różnic odnośnie niezawodności oraz gotowości, co pozwala na prawidłową interpretację współczynnika MTBF. W następnej części omówiono różne metody przewidywania współczynnika MTBF. 7

Rysunek 1 Krzywa wannowa ilustrująca stały współczynnik awarii Okres uszkodzeń wczesnych Okres normalnej pracy Okres zużycia Współ czynnik awarii Region stałego współczynnika awarii względem czasu 0 Czas Metody przewidywania i obliczania współczynnika MTBF Czasami terminy przewidywanie i oszacowanie są używane zamiennie, jednak ta praktyka nie jest prawidłowa. Metody przewidywania współczynnika MTBF obliczają wartość na podstawie projektu systemu, zazwyczaj stosowane są na początku cyklu eksploatacji produktu. Metody przewidywania są użyteczne w przypadku małej ilości lub braku danych roboczych, tak jak ma to miejsce w przypadku promu kosmicznego lub projektów nowych produktów. Jeżeli dostępna jest wystarczająca liczba danych roboczych, nie należy usuwać metod przewidywania. Zamiast tego należy użyć metod szacowania współczynnika MTBF, ponieważ odzwierciedlają one rzeczywiste pomiary awarii. Metody szacowania współczynnika MTBF obliczają wartość na podstawie obserwowanej próbki podobnych systemów. Zazwyczaj wykonuje się to po wdrożeniu dużej populacji produktów. Oszacowanie współczynnika MTBF jest najczęściej używaną metodą obliczania współczynnika MTBF, głównie ponieważ wykonuje się je na podstawie rzeczywistych produktów, które oddano do użytku. Wszystkie te metody są z natury statystyczne, co oznacza, że dają one przybliżoną wartość rzeczywistego współczynnika MTBF. Żadna metoda nie jest standardem w całym przemyśle. Dlatego tak ważne jest, aby producenci zrozumieli zasady działania tych metod i wybrali najlepszą odpowiednio do danego zastosowania. Metody opisane poniżej, mimo że ich lista jest niepełna, stanowią ilustrację, na jak wiele sposobów można uzyskać współczynnik MTBF. 8

Metody przewidywania niezawodności Pierwsze metody przewidywania niezawodności zostały opracowane w 1940 roku przez niemieckiego naukowca o nazwisku Von Braun oraz niemieckiego matematyka Erica Pieruschka. Próbując rozwiązać wiele problemów związanych z niezawodnością rakiety V-1, Pieruschka pomagał Von Braunowi przy modelowaniu niezawodności i w ten sposób utworzył pierwszy udokumentowany nowoczesny predyktywny model niezawodności. Później wraz ze wzrostem przemysłu nuklearnego NASA przyczyniła się do dalszego rozwoju analizy niezawodności. Obecnie istnieje wiele metod przewidywania współczynnika MTBF. MIL-HDBK 217 Opublikowany przez armię amerykańską w 1965 roku model Military Handbook 217 utworzono w celu zapewnienia standardu oceny niezawodności systemów elektronicznych i sprzętu wojskowego w celu zwiększenia niezawodności projektowanego sprzętu. Ustanawia on wspólną płaszczyznę porównywania niezawodności między dwoma lub więcej podobnymi projektami. Model Military Handbook 217 jest również określany jako Mil Standard 217 lub po prostu 217. W tym modelu istnieją dwa sposoby przewidywania niezawodności: prognozowanie na podstawie liczebności części (ang. Parts Count Prediction) oraz prognozowanie na podstawie analizy narażeń części (ang. Parts Stress Analysis Prediction). Metoda przewidywania liczby części służy ogólnie do przewidywania niezawodności produktu na początku cyklu opracowywania produktu w celu uzyskania przybliżonej oceny niezawodności względem docelowej niezawodności lub specyfikacji. Współczynnik awarii oblicza się poprzez zliczenie podobnych elementów produktu (np. kondensatorów) i pogrupowanie ich na różne typy elementów (np. kondensator foliowy). Liczba elementów w każdej grupie zostaje wtedy pomnożona przez ogólny współczynnik awarii oraz czynnik jakości określony w modelu 217. Na koniec dodaje się współczynniki awarii wszystkich różnych grup części, aby uzyskać końcowy współczynnik awarii. Według definicji metoda zliczania części zakłada, że wszystkie elementy występują w seriach i wymaga oddzielnego obliczania wskaźników awarii dla elementów nieseryjnych. Metoda przewidywania obciążenia części jest używana znacznie później w cyklu opracowywania produktu, tuż przed wprowadzeniem projektu rzeczywistych obwodów i sprzętu do produkcji. Jest ona podobna do metody zliczania części pod względem sposobu sumowania wskaźników awaryjności. Jednak w przypadku korzystania z metody obciążenia części wskaźnik awaryjności dla każdego elementu jest obliczany osobno na podstawie określonych poziomów obciążenia, które działa na element (tzn. wilgotność, temperatura, wibracje, napięcie). Aby przypisać odpowiednie poziomy obciążenia dla każdego elementu, projekt produktu i jego oczekiwane środowisko muszą być odpowiednio udokumentowane i zrozumiałe. Metoda obciążania części generuje zwykle mniejszy wskaźnik awaryjności niż metoda zliczania części. Z powodu wymaganego poziomu analizy ta metoda jest bardzo czasochłonna w porównaniu z innymi metodami. 9

Obecnie model 217 jest rzadko używany. W 1996 roku armia amerykańska ogłosiła, że należy zaprzestać używania modelu MIL-HDBK-217, ponieważ okazał się być zawodny i jego używanie może doprowadzić do błędnego i mylącego oszacowania niezawodności 3. Model 217 został odrzucony z wielu powodów, z których większość jest związana z faktem, iż niezawodność elementów przez ostatnie lata znacznie wzrosła do punktu, w którym nie jest już traktowana jako główna przyczyna awarii produktu. Wskaźniki awaryjności modelu 217 są bezpieczniejsze (wyższe) niż w przypadku dostępnych obecnie elementów elektronicznych. Dokładna analiza awarii obecnie używanych urządzeń elektronicznych pokazuje, że przyczyną większości awarii było najprawdopodobniej błędne zastosowanie (błąd ludzki), sterowanie procesami lub projekt produktu. Telcordia Model przewidywania niezawodności Telcordia został opracowany w przemyśle telekomunikacyjnym i na przestrzeni lat ulegał wielu zmianom. Najpierw został opracowany przez firmę Bellcore Communications Research pod nazwą Bellcore jako metoda umożliwiająca oszacowanie niezawodności urządzeń telekomunikacyjnych. Mimo, że model Bellcore był oparty na modelu 217, jego modele niezawodności (równania) zostały zmienione w 1985 roku, tak aby odzwierciedlały doświadczenia dotyczące urządzeń telekomunikacyjnych. Ostatnia wersja modelu Bellcore to TR-332 Issue 6 z grudnia 1997 roku. Następnie w roku 1997 firma SAIC zakupiła model Bellcore i zmieniła jego nazwę na Telcordia. Ostatnia wersja modelu Telcordia Prediction Model to SR-332 Issue 1, opublikowana w maju 2001 roku, która dodatkowo oferuje różne metody obliczeń poza tymi w modelu 217. Obecnie model Telcordia nadal jest stosowany jako narzędzie do projektowania produktów w tej branży. HRD5 HRD5 to model opracowany na podstawie podręcznika danych o niezawodności elementów elektronicznych (Handbook for Reliability Data for Electronic Components) używany w systemach telekomunikacyjnych. Model HRD5 został opracowany przez firmę British Telecom i jest używany głównie w Wielkiej Brytanii. Jest podobny do modelu 217, ale nie obejmuje tak wielu zmiennych środowiskowych i zawiera model przewidywania niezawodności obejmujący szerszy zakres elementów elektronicznych, włącznie z telekomunikacyjnymi. RBD (Reliability Block Diagram) Schemat blokowy niezawodności (Reliability Block Diagram RBD) jest reprezentatywnym narzędziem do kreślenia i obliczeń używanym do modelowania gotowości i niezawodności systemu. Struktura schematu blokowego niezawodności definiuje wzajemne logiczne oddziaływanie awarii w systemie, ale niekonieczne ich logiczne lub fizyczne połączenie. Każdy blok może przedstawiać pojedynczy element, podsystem lub inną reprezentatywną awarię. Schemat może przedstawiać cały system, dowolny podzbiór lub kombinację tego systemu, która wymaga analizy awarii, niezawodności lub gotowości. Służy również jako narzędzie do analiz, które przedstawia sposób działania każdego elementu systemu oraz wpływ każdego elementu na działanie całego systemu. 3 Cushing, M., Krolewski, J., Stadterman, T., and Hum, B., 1996, "U.S. Army Reliability Standardization Improvement Policy and Its Impact", IEEE Transactions on Components, Packaging, and Manufacturing Technology, Part A, Vol. 19, No. 2, pp. 277-278. 10

Model Markowa Modelowanie Markowa umożliwia analizę złożonych systemów, takich jak architektury elektryczne. Modele Markowa są znane również jako schematy przestrzeni stanu lub wykresy stanu. Przestrzeń stanu jest zdefiniowana jako zbiór wszystkich stanów, w których system może się znajdować. W przeciwieństwie do schematów blokowych, wykresy stanów stanowią dokładniejszą reprezentację systemu. Wykresów stanów uwzględniają zależności awarii elementów, jak również różnych stanów, których nie można przedstawić za pomocą schematów blokowych, takich jak zasilacz UPS zasilany z baterii. Poza współczynnikiem MTBF, modele Markowa udostępniają różne inne pomiary systemu, włącznie z dostępnością, współczynnikiem MTTR, prawdopodobieństwem wystąpienia danego stanu w określonym czasie i wiele innych. FMEA / FMECA Analiza FMEA (Failure Mode and Effects Analysis) jest procesem używanym do analizy trybów awarii produktu. Te informacje są następnie używane do określania wpływu każdej awarii na produkt, co prowadzi do ulepszenia projektu produktu. Analizę można przyspieszyć, przypisując do każdego trybu awarii poziom ważności. W przypadkach tego typu można ją nazwać analizą FMECA (Failure Mode, Effects and Criticality Analysis). W analizie FMEA używane jest podejście wstępujące. Na przykład w przypadku zasilacza UPS analiza zaczyna się od elementu na poziomie płyty drukowanej, a kończy się na poziomie całego systemu. Poza używaniem jej jako narzędzia do projektowania produktu, może ona również służyć do obliczania niezawodności całego systemu. Dane dotyczące prawdopodobieństwa potrzebne podczas obliczeń mogą być trudne do uzyskania w przypadku różnych części sprzętu, szczególnie jeśli mają wiele stanów lub trybów pracy. Drzewo uszkodzeń Analiza za pomocą drzewa uszkodzeń jest techniką opracowaną przez Bell Telephone Laboratories, która służy do przeprowadzania oceny bezpieczeństwa systemu Minuteman Launch Control System. Później zastosowano ją do analizy niezawodności. Drzewa awarii mogą być pomocne w szczegółowym określeniu ciągu zdarzeń, normalnych i dotyczących awarii, które prowadzą do analizowanej awarii lub niepożądanego zdarzenia na poziomie elementu (analiza od góry do dołu ). Niezawodność jest obliczana przez konwersję pełnego drzewa awarii na odpowiedni układ równań. Można to zrobić, wykorzystując algebrę zdarzeń nazywaną również algebrą Boolowską. Podobnie jak w przypadku analizy FMEA, dane dotyczące prawdopodobieństwa potrzebne do obliczeń mogą być trudne do uzyskania. HALT Metoda HALT (Highly Accelerated Life Testing) służy do zwiększania ogólnej niezawodności projektu produktu. Metoda HALT służy do określania czasu potrzebnego na wystąpienie awarii produktu, poddając go szczegółowym pomiarom i kontrolowanemu obciążeniu, takiemu jak temperatura i wibracje. Rzeczywista ilość czasu do wystąpienia awarii produktu szacowana jest z wykorzystaniem modelu matematycznego. Chociaż za pomocą metody HALT można oszacować współczynnik MTBF, jego główną funkcją jest zwiększanie niezawodności projektu produktu. 11

Metody szacowania niezawodności Metoda prognozowania na podstawie podobieństwa elementów Ta metoda umożliwia szybkie oszacowanie niezawodności na podstawie wcześniejszych danych dotyczących niezawodności podobnego elementu. Efektywność tej metody zależy głównie od stopnia podobieństwa sprzętu nowego do istniejącego, dla którego dostępne są zebrane dane robocze. Podobne powinny być procesy produkcyjne, środowiska pracy, funkcje produktu i projekty. Ta metoda przewidywania jest szczególnie użyteczna w przypadku produktów odpowiadających określonej ścieżce rozwoju, ponieważ wykorzystuje wcześniejsze doświadczenia. Jednak w ostatecznym przewidywaniu należy dokładnie przeanalizować i uwzględnić różnice między nowymi projektami. Metoda pomiaru danych eksploatacyjnych Metoda pomiaru danych eksploatacyjnych jest oparta na rzeczywistych doświadczeniach związanych z produktami. Ta metoda jest prawdopodobnie najczęściej używana przez producentów, ponieważ stanowi integralną część programu kontroli jakości. Programy te często noszą nazwę Zarządzanie wzrostem niezawodności. Śledząc wskaźnik awaryjności używanych produktów, producent może szybko określić i rozwiązać problemy, usuwając dzięki temu usterki produktów. Ponieważ metoda ta opiera się na rzeczywistych awariach w trakcie pracy, uwzględnia ona tryby awarii pomijane czasami przez metody przewidywania. Ta metoda obejmuje śledzenie przykładowej grupy nowych produktów i zbieranie danych dotyczących awarii. Po zebraniu danych obliczane są współczynniki awaryjności i MTBF. Współczynnik awaryjności stanowi procent grupy jednostek, których awaria jest spodziewana w roku kalendarzowym. Oprócz kontroli jakości dane te są używane również w celu udostępnienia klientom i partnerom informacji dotyczących procesów związanych z niezawodnością i jakością. Ponieważ metoda ta jest powszechnie używana przez producentów, zapewnia wspólną płaszczyznę porównywania wartości współczynnika MTBF. Porównania te umożliwiają użytkownikom oszacowanie różnic dotyczących niezawodności produktów, co stanowi narzędzie ułatwiające podejmowanie decyzji dotyczących specyfikacji lub zakupu. Podobnie jak w przypadku innych porównań, bardzo ważne jest, aby krytyczne zmienne były takie same dla wszystkich porównywanych systemów. W przeciwnym razie istnieje prawdopodobieństwo podjęcia niewłaściwej decyzji, która może spowodować straty finansowe. Wnioski Współczynnik MTBF jest modnym terminem używanym powszechnie w branży IT. Wiele wartości używanych jest bez zrozumienia ich rzeczywistego znaczenia. Współczynnik MTBF, będąc wskaźnikiem niezawodności, nie oznacza szacowanego okresu eksploatacji produktu. Ostatecznie wartość współczynnika MTBF jest bez znaczenia, jeśli nie zdefiniowano awarii i jeśli założenia odbiegają od rzeczywistości lub nie są w ogóle określone. 12

Materiały referencyjne 1. Pecht, M.G., Nash, F.R., Predicting the Reliability of Electronic Equipment, Proceedings of the IEEE, Vol. 82, No. 7, July 1994 2. Leonard, C., MIL-HDBK-217: It s Time To Rethink It, Electronic Design, October 24, 1991 3. http://www.markov-model.com 4. MIL-HDBK-338B, Electronic Reliability Design Handbook, October 1, 1998 5. IEEE 90 Institute of Electrical and Electronics Engineers, IEEE Standard Computer Dictionary: A Compilation of IEEE Standard Computer Glossaries. New York, NY: 1990 O autorach: Wendy Torell jest zatrudniona w firmie APC jako Inżynier ds. dostępności w W. Kingston, RI. Doradza klientom w sprawach dotyczących naukowych analiz i praktyk projektowania związanych z optymalizacją dostępności centrów danych. Tytuł inżyniera w zakresie inżynierii mechanicznej uzyskała na Union College w Schenectady, NY. Wendy pracuje na stanowisku ASQ Certified Reliability Engineer. Victor Avelar jest zatrudniony w firmie APC jako Inżynier ds. dostępności. Jest odpowiedzialny za doradztwo dotyczące dostępności i oraz analizy architektury elektrycznej stosowanej przez klientów i projektowania centrów danych. Victor uzyskał tytuł inżyniera w zakresie inżynierii mechanicznej w Rensselaer Polytechnic Institute w 1995 roku i jest członkiem Amerykańskiego Towarzystwa Inżynierów Ogrzewania, Chłodzenia i Klimatyzacji (ASHRAE) oraz Amerykańskiego Towarzystwa Kontroli Jakości (American Society for Quality). 13