Prace Naukowe Instytutu Organizacji i Zarządzania Nr 80 Politechniki Wrocławskiej Nr 80 Studia i Materiały Nr 22 2006 Justyna UZIAŁKO * ss. 33-47 TEORIA A RZECZYWISTOŚĆ PROCES POZYSKIWANIA I ANALIZY DANYCH W ŚWIETLE BUDOWANIA MODELU SYMULACYJNEGO OBSŁUGI KLIENTÓW BANKU W pracy poruszono istotne kwestie dotyczące prowadzenia badań na obiekcie rzeczywistym w celu uzyskania i przeanalizowania danych wejściowych potrzebnych do budowy modelu symulacyjnego banku. Omówiono typowe problemy, które pojawiły się podczas gromadzenia danych, a następnie przedstawiono proces analizy napływu zgłoszeń do systemu oraz ich obsługi w tymże systemie. Przeprowadzono eksperymenty symulacyjne mające na celu ukazanie wpływu stopnia szczegółowości gromadzonych danych wejściowych, a także zastosowania różnych metod dobierania do nich rozkładów prawdopodobieństwa na otrzymane z eksperymentów wyniki. 1. WPRPOWADZENIE Proces pozyskiwania i analizy danych źródłowych to niezwykle ważny etap podczas budowy modelu symulacyjnego. Jest to kolejny krok występujący już po sformułowaniu problemu decyzyjnego oraz dogłębnym poznaniu badanego systemu [Sadoun 2000], [Seila i in. 2003]. Spójne realizowanie tych początkowych prac nad modelem ma znaczący wpływ na jego całokształt. Gruntowne przeanalizowanie działania systemu obsługi klientów, jakim jest bank powinno skutkować pozyskaniem takich kategorii informacji jak: dane jakościowe sposób zaprojektowania sali operacyjnej w banku, harmonogram pracy poszczególnych stanowisk, sposób rejestracji, a następnie obsługi klientów oraz dane ilościowe czasy przybywania klientów do banku, czasy ich oczekiwania na obsługę oraz czasy obsługi. Niezmiernie ważnym zagadnieniem jest tu również ustalenie, jaki horyzont czasowy oraz jak dużą liczbę klientów objąć badaniem, aby przeprowadzona analiza była wiarygodna w sensie od- * Politechnika Wrocławska, Instytut Organizacji i Zarządzania; justyna.uzialko@pwr.wroc.pl
34 Justyna Uziałko dania istoty działania systemu (pozytywne przejście etapu walidacji) oraz w sensie możliwości stawiania i testowania hipotez statystycznych. Przed przystąpieniem do etapu gromadzenia i interpretacji potrzebnych danych, należy sobie odpowiedzieć na pytanie, w jakim celu badacz symulacyjny będzie je pozyskiwał. W niniejszej pracy zaproponowano i krótko scharakteryzowano trzy kierunki prowadzenia badań symulacyjnych. Jak zasugerowano wcześniej, jednym z celów może być zbudowanie modelu przedstawiającego badany proces (np. obsługi klientów w banku), a następnie wykorzystanie go do analizy pracy systemu i zaproponowanie ewentualnych usprawnień [cel pierwszy]. Ponadto zebrane dane można wykorzystać także jako podstawę do zaprezentowania możliwości narzędzia, jakim jest model symulacyjny do zbadania działania systemu (co nie jest jednoznaczne z budowaniem modelu symulacyjnego na konkretne zamówienie ) [cel drugi] oraz aby przedstawić wpływ sposobu pozyskiwania danych i wyboru metody ich interpretacji na uzyskiwane wyniki z eksperymentów przeprowadzanych na danym modelu symulacyjnym [cel trzeci]. W przypadku realizowania celu pierwszego, czyli wówczas, gdy badacz symulacyjny ma za zadanie stworzenie konkretnego modelu symulacyjnego, który dokładnie i jak najbardziej wiarygodnie powinien przedstawiać działanie systemu rzeczywistego, konieczne jest ścisłe trzymanie się wszelkich statystycznych wymogów. Należy więc objąć badaniem taką ilość dni oraz taką liczbę klientów, jaką wskazuje metoda reprezentacyjna, a po zbudowaniu modelu i przeprowadzeniu jego weryfikacji i walidacji konieczne jest poprawne pod względem statystycznym przeanalizowanie wyników otrzymanych z przeprowadzonych eksperymentów. Nieco inaczej postąpić można natomiast w dwóch pozostałych przypadkach. Zalecane jest oczywiście wykonywanie kolejnych kroków pełnego badania symulacyjnego, jednak w przypadku pojawienia się różnych trudności, np. związanych z niewystarczającą ilością danych, ograniczonym czasem badania, jego zbyt wysokimi kosztami, realizuje się kolejne etapy, mając świadomość, że uzyskane wyniki stosowane mogą być jedynie do interpretacji poglądowych, a nie jako na przykład gotowe narzędzie do wspomagania procesu podejmowania decyzji dla danego systemu, w tym przypadku w banku. Badania analizowane w niniejszym artykule zostały przeprowadzone w roku 2004/2005 w jednym z polskich banków podczas przygotowywania pracy magisterskiej autorki. Obejmowały one automatyczny system kierowania przybywaniem i obsługą klientów, określanego dalej jako system kolejkowy. Głównie z uwagi na niewystarczający dostęp do danych ich celem nie było zbudowanie modelu symulacyjnego procesu obsługi klientów banku służącego jako gotowe narzędzie wykorzystywane do podejmowania decyzji, a jedynie jako zaprezentowanie szerokich możliwości symulacji w usprawnieniu procesu obsługi w banku; działania te opisano w artykule [Uziałko 2005]. W tej natomiast pracy skupiono się na trzecim z wymienionych wcześniej celów, czyli omówieniu różnych sposobów przedstawienia oraz analizy danych i ich wpływie na wyniki przeprowadzanych eksperymentów symulacyjnych.
Teoria a rzeczywistość proces pozyskiwania i analizy danych... 35 2. CHARAKTERYSTYKA MODELU SYMULACYJNEGO PRZEDSTAWIAJĄCEGO PROCES OBSŁUGI KLIENTÓW BANKU X Zbudowany model symulacyjny przedstawia proces obsługiwania klientów w banku za pomocą zautomatyzowanego systemu kolejkowego. Rozpoczyna się on rejestracją w kolejce z użyciem zainstalowanego w badanym oddziale automatu z biletami. Ponieważ jest on połączony z poszczególnymi stanowiskami przypisanymi pracownikom banku, po obsłużeniu kolejnego klienta pracownicy przekazują tę informację do systemu i przydzielana jest im następna osoba do obsługi. W związku z tym, że analizowany system charakteryzuje się orientacją zdarzeniową, więc omawiany w niniejszym artykule model zbudowano z użyciem symulacji dyskretnej, z wykorzystaniem oprogramowania Arena 5.0 na poziomie ufności 0,95 [Kelton i in. 2002]. Wśród operacji realizowanych we wspomnianym banku (schematyczny przebieg procesu obsługi klientów przedstawiono na rys.1) wyróżnić można dwie podstawowe kategorie: operacje gotówkowe przeprowadzane przede wszystkim w trzech pierwszych polach A-C (takie jak np. wpłata i wypłata gotówki w walucie polskiej, skup i sprzedaż walut obcych) oraz operacje bezgotówkowe przeprowadzane w kolejnych czterech obszarach D-G (takie jak np. obsługa rachunków bankowych, obsługa spraw związanych z użytkowaniem kart płatniczych). Należy tu także zaznaczyć, że wśród pól realizujących operacje gotówkowe polem gromadzącym największą liczbę klientów jest pole A (około 85%-90%), natomiast wśród pól świadczących operacje bezgotówkowe jest pole D (około 60%-65%). Szczegółowe informacje dotyczące omawianego modelu, takie jak rodzaje operacji realizowanych w poszczególnych polach, założenia przyjęte do budowy modelu czy sprawdzenie poprawności jego działania zawarto w pracy [Uziałko 2005]. 3. OMÓWIENIE PROCESU POZYSKIWANIA DANYCH WEJŚCIOWYCH 3.1. NAJWAŻNIEJSZE PROBLEMY Z DANYMI Jednym z najistotniejszych problemów z danymi w analizowanym systemie były pewne nieścisłości wynikające przede wszystkim z rozbieżności pomiędzy okresem, w którym przeprowadzano prace modelowe, a okresem z którego pozyskiwano dane. Wymienić tu można na przykład zmiany w organizacji poszczególnych pól, czyli dodawanie kolejnych pól lub ich redukcja, zmiany w godzinach otwarcia oddziału, zmiany harmonogramów pracy pracowników, błędy w działaniu automatu kolejkowego (np. niezgodność pomiędzy danymi na poziomie zbiorczym a na poziomie szczegółowym).
36 Justyna Uziałko Przybycie klientów ABC Przybycie klientów DEFG Jaki rodzaj grup operacji wybrano? Oczekiwanie na obsługę w polach ABC Oczekiwanie na obsługę w polach DEFG Czy stanowisko A, B lub C wolne? TAK Czy stanowisko D, E, F lub G wolne? TAK NIE NIE TAK Obsługa w polu A Obsługa w polu B Obsługa w polu C Wyjście z systemu klientów obsłużonych w polach A, B, C Czy dalsze czekanie? NIE Rezygnacja z obsługi w polach A - G Obsługa w polu D Obsługa w polu E Obsługa w polu F Obsługa w polu G Wyjście z systemu klientów obsłużonych w polach D, E, F, G Rys.1. Schemat obsługi klientów w banku X Źródło: Opracowanie własne Kolejnym problemem dotyczącym gromadzonych danych była ich niedostateczna ilość. Przede wszystkim zostały one pozyskane ze zbyt krótkiego okresu. Co prawda, w przypadku danych dotyczących napływania klientów a także danych zbiorczych
Teoria a rzeczywistość proces pozyskiwania i analizy danych... 37 opisujących pracę w dwóch grupach pól: A-C oraz D-G, ich ilość była odpowiednia, co stwierdzono na podstawie metody reprezentacyjnej, jednak na dalszym etapie prac modelowych pojawiła się konieczność uzyskania informacji bardziej szczegółowych i właśnie te dane, opisujące pracę w poszczególnych polach, zebrano już tylko z określonego odgórnie okresu trzech dni. Źródłem trudności okazała się też konieczność wyboru właściwych dni do badania. Pojawiały się bowiem takie, w których obsłużono zdecydowanie zbyt niską w porównaniu z innymi dniami liczbę klientów, co mogło na przykład wynikać z pewnych prac reorganizacyjnych w banku czy też konkretnej pory roku, a być może również w związku z usterkami technicznymi automatu rejestrującego proces przybywania i obsługi klientów. Nie bez znaczenia jest tu również fakt, że gromadzone dane pochodziły przede wszystkim z gotowych wydruków z banku i nie było możliwości osobistego zweryfikowania poprawności otrzymanych danych. Można tu oczywiście zastanowić się nad odrzuceniem dni wykazujących określoną anomalię (decyzja taka mogłaby na przykład polegać na analizowaniu danych ze zredukowanej liczby dni w przypadku wybranych pól, tych gdzie nieprawidłowości te były najbardziej znaczące), trzeba tu jednak postępować ostrożnie z uwagi na całkowitą niewielką ilość danych. Innym problemem były wspomniane już niezgodności pomiędzy raportami zbiorczymi a szczegółowymi i wynikająca z tego konieczność właściwego dopasowania zebranych danych do otrzymanego harmonogramu pracy pracowników banku; dane te wymagały wnikliwej analizy i samodzielnych obserwacji systemu tak, aby kierować się zarówno faktyczną liczbą obsłużonych klientów, jak i liczbą pracowników w poszczególnych polach. Omówione powyżej problemy wskazują na to, że podjęte decyzje dotyczące analizy różnych rodzajów danych w kwestii relacji pomiędzy zbudowanym modelem a systemem rzeczywistym przemawiają bardziej za potraktowaniem badanego systemu jako możliwego do zaistnienia w rzeczywistości, niż jednego konkretnego oddziału banku, w związku z czym przedstawiono go po prostu jako bank X. 3.2. ZASIĘG PRAC MODELOWYCH METODA REPREZENTACYJNA Dane ilościowe, które zebrano w celu budowy modelu symulacyjnego obejmowały czasy przybywania klientów do systemu, ich oczekiwania na obsługę oraz samego procesu obsługi. Początkowo zebrano zbiorcze dane czyli dotyczące dwóch kategorii klientów przybywających do pól A-C i D-G oraz procesu ich obsługi w tych grupach pól z okresu 17 dni; czyli pozyskano 68 raportów w formie papierowej, które następnie wprowadzono do arkusza kalkulacyjnego. Łączną ilość dni, z których pobierano dane konieczne do zbudowania poprawnego pod względem statystycznym modelu symulacyjnego wyznaczono na podstawie metody reprezentacyjnej. Za jednostki badania przyjęto zgłoszenia klientów do banku, natomiast jako cechy zgłoszeń rozpatrywano czas przybycia klientów do systemu oraz
38 Justyna Uziałko czasy ich obsługi zarówno w jednej jak i drugiej grupie pól. Przeprowadzone losowanie to losowanie zespołowe (brano pod uwagę pełne dni z całego ich zbioru w badanym okresie, co skutkowało włączeniem do próby wszystkich klientów, którzy przybyli w tych dniach do banku), nieograniczone (nie dzielono zbioru danych na poszczególne warstwy), zależne (nie wybierano ponownie wylosowanego już dnia). Ponadto przyjęto, że poziom ufności w przeprowadzanym badaniu będzie wynosił 0,95, czyli dopuszczalny błąd nie przekroczy 5%. Na podstawie uzyskanych raportów, w których zawarto informację dotyczącą liczby klientów przybyłych do banku w dziesięciominutowych przedziałach od godziny 7:30 do 20:00, możliwe było wyznaczenie średniego czasu, jaki upływał pomiędzy przybyciem następujących po sobie zgłoszeń do systemu w ciągu danego dnia, a następnie średniej ze wszystkich (w tym wypadku siedemnastu) dni. Analogiczną analizę przeprowadzono także dla średniego czasu upływającego pomiędzy obsłużeniem kolejnych klientów. W następnym kroku, wykorzystując takie informacje jak: liczebność jednostek losowania (liczba dni roboczych w danym roku), przeciętną liczbę przybyłych (i obsłużonych) klientów podczas analizowanej ilości dni, średni czas upływający pomiędzy przybyciem (i obsłużeniem) kolejnych klientów, wyznaczono konieczną ilość dni, z których pobiera się dane do badania. Przeprowadzona analiza wykazała, że potrzebne są dane z okresu przynajmniej 8 dni. Na tej podstawie ze zgromadzonych raportów dotyczących przybywania klientów i ich obsługi w ciągu 17 różnych dni wybrano raporty z 10 dni. 4. ANALIZA PROCESU DOBORU ROZKŁADÓW DO ZEBRANYCH DANYCH 4.1. ROZKŁAD OPISUJĄCY PROCES PRZYBYWANIA KLIENTÓW DO BANKU Proces przybywania klientów do banku to zagadnienie charakterystyczne dla systemów masowej obsługi. Ponieważ zgłoszenia w takim systemie jak bank pojawiają się w nim losowo i czas nadejścia zgłoszenia jest niezależny od poprzednich zgłoszeń, a także prawdopodobieństwo pojawienia się zgłoszenia w określonym przedziale czasu jest proporcjonalne do jego długości, więc dla potrzeb budowanego modelu można było przyjąć, że czas upływający pomiędzy przybyciem do banku dwóch kolejnych klientów ma rozkład wykładniczy. Ponadto, przy stwierdzeniu wykładniczego charakteru czasów pomiędzy kolejnymi pojawieniami się zgłoszeń w systemie, prawdopodobieństwo przybycia tam określonej liczby zgłoszeń można opisać za pomocą dyskretnego rozkładu Poissona. Należy tu także zdawać sobie sprawę z różnicy pomiędzy stacjonarnym a niestacjonarnym rozkładem Poissona; choć w obydwu przypadkach zgłoszenia powinny napływać do systemu pojedynczo, a czas przybycia kolejnego nie może zależeć od przybycia poprzedniego, to w tym pierwszym przypadku musi być również zachowane stałe średnie tempo napływania zgłoszeń w czasie, drugi
Teoria a rzeczywistość proces pozyskiwania i analizy danych... 39 natomiast opisuje zmienne tempo ich przybywania [Gordon 1974] i [Law i Kelton 1991]. Ze względu na swoją istotę (większość klientów zwykle przybywa we wczesnych godzinach rannych oraz w godzinach popołudniowych) sposób przychodzenia klientów do banku można opisać za pomocą niestacjonarnego rozkładu Poissona. Ponieważ model symulacyjny analizowanego procesu budowano z wykorzystaniem specjalistycznego oprogramowania symulacyjnego, możliwe było uwzględnienie niestacjonarności w napływaniu klientów. W tym celu połączono dane pochodzące z przedziałów dziesięciominutowych do okresów godzinnych odpowiednio dla pól A-C oraz D-G, następnie biorąc pod uwagę dane z 10 dni wyliczono średnie dla każdego jednogodzinnego przedziału i tak stworzone schematy przybywania klientów włączono do odpowiednich modułów programu. 4.2. ROZKŁADY OPISUJĄCE PROCES OBSŁUGI KLIENTÓW W realizowanej pracy sposób obsługi klienta w banku przedstawiono za pomocą dwóch podejść; z jednej strony poprzez analizę liczby klientów udających się do danego pola, a z drugiej strony na podstawie różnych rozkładów prawdopodobieństwa charakteryzujących upływające w poszczególnych obszarach czasy obsługi. Jak już wcześniej wspomniano, obsługa klientów w analizowanym banku odbywać się może w dwóch grupach pól operacji gotówkowych i operacji bezgotówkowych. Dlatego też, w zależności od rodzaju danych, jakimi dysponuje badacz symulacyjny, możliwe jest przedstawienie sposobu obsługi albo za pomocą tzw. rozkładów zbiorczych, stworzonych na podstawie wspólnych danych dla obydwu grup pól, albo z użyciem tzw. rozkładów szczegółowych (w przypadku możliwości pozyskania odpowiednich danych) zbudowanych na podstawie osobnych grup danych dla każdego z pól. Przeprowadzona obserwacja systemu zasygnalizowała, że traktowanie obsługi klienta w sposób ujednolicony, bez rozróżnienia przynajmniej na kategorie operacji, mogłoby zaburzyć obraz badanego procesu. Można by tu więc postawić hipotezę, że długości czasów obsługi w poszczególnych grupach pól są zależne od typu grupy, w której realizowana jest dana operacja. Przypuszczenia te potwierdza przeprowadzony dla takiego zestawienia danych rodzaj testu chi-kwadrat Chi Square Contingency Test [Hoover i Perry 1989]. Za pomocą tego testu zweryfikowano hipotezę H 0, że długość czasu obsługi nie zależy od typu operacji charakterystycznej dla określonego pola wobec hipotezy alternatywnej H 1, że czas trwania obsługi jest zależny od rodzaju wykonywanej operacji bankowej realizowanej w danym polu. Po wyznaczeniu odpowiednich wartości średnich podanych w tab.1. oraz wartości oczekiwanych przedstawionych w tab.2., wyliczono kwadraty różnic pomiędzy kolejnymi rzeczywistymi o ) a oczekiwanymi e ) czasami obsługi w poszczególnych ( ij ( ij
40 Justyna Uziałko przedziałach, podzielono je przez odpowiednie wartości oczekiwanego czasu obsługi i dokonano ich zsumowania. Obliczoną w ten sposób statystykę: n A n B 2 ( o ) 2 ij eij χ = = 38,61 (1) e i= 1 j= 1 porównano z kwartylem o (11-1)(2-1) stopniach swobody na poziomie ufności 0,95 równym χ 2 (0,95;10) = 18, 307 i ponieważ wyznaczona statystyka przewyższą tę wartość, w związku z tym należy odrzucić hipotezę H 0 na korzyść hipotezy H 1. Tab. 1. Średnia liczba klientów obsłużonych w kolejnych dziesięciominutowych przedziałach czasu w podziale na dwie grupy operacji z okresu 10 dni ij Liczba klientów Przedziały czasu w minutach 0-10 10-20 20-30 30-40 40-50 50-60 60-70 70-80 80-90 90-100 Ponad Suma Pola A- 646,1 78,0 25,5 11,6 6,4 3,2 1,5 1,2 0,4 0,2 1,1 775,2 C Pola D- G 227,2 63,6 23,2 10,5 7,0 3,6 1,6 0,9 0,6 0,5 1,0 339,7 SUMA 873,3 141,6 48,7 22,1 13,4 6,8 3,1 2.1 1,0 0,7 2,1 1114,9 Tab. 2. Wyznaczona liczba klientów obsłużona w kolejnych dziesięciominutowych przedziałach czasu w podziale na dwie grupy operacji Liczba klientów Przedziały czasu w minutach 0-10 10-20 20-30 30-40 40-50 50-60 60-70 70-80 80-90 90-100 Ponad Pola A-C 607,2 98,5 33,9 15,4 9,3 4,7 2,2 1,5 0,7 0,5 1,5 Pola D-G 266,1 43,1 14,8 6,7 4,1 2,1 0,9 0,6 0,3 0,2 0,6 Oznacza to, że długość czasu trwania obsługi zależy od rodzaju grupy pól, do której zalicza się realizowaną operację. Dysponując odpowiednią liczbą danych można by również przeprowadzić analogiczne badanie dotyczące zależności pomiędzy czasem obsługi a rodzajem już nie tylko grupy, ale i każdego z siedmiu pól możliwych operacji bankowych. Podczas wstępnych prac nad modelem postanowiono posłużyć się danymi zbiorczymi dla dwóch kategorii operacji i na ich podstawie, wykorzystując gotowe narzę-
Teoria a rzeczywistość proces pozyskiwania i analizy danych... 41 dzie w pakiecie symulacyjnym o nazwie Input Analyzer, dokonać dopasowania rozkładów czasów obsługi. Posłużono się wówczas danymi empirycznymi jako podstawą do przyjęcia rozkładu teoretycznego przedstawiającego losowe procesy obsługi klientów w badanym systemie. Zdecydowanie się na rozkłady teoretyczne mogłoby znacznie usprawnić dalsze prace modelowe, choćby ze względu na stosunkowo łatwe ich zmodyfikowanie w zależności od zmieniających się warunków eksperymentów. Istniało tu oczywiście niebezpieczeństwo zbytniego wygładzenia analizowanych procesów pojawiające się podczas stosowania rozkładów teoretycznych. Wątpliwości zostały rozwiane przez uzyskane wyniki prac nad doborem rozkładów, gdyż dla tych zbiorczych danych próba dopasowania teoretycznego nie powiodła się. Mimo bowiem zachowania relacji w wielkościach grup klientów udających się do poszczególnych pól, poprzestanie tylko na tym i posługiwanie się jedynie rozkładami zbiorczymi dla dwóch grup pól nie dało zadowalających rezultatów. Nie tylko bowiem napotkano na znaczne trudności w dobraniu rozkładów do zgromadzonych danych (zbyt niska wartość wskaźnika zwanego p-value), ale także po zdecydowaniu się na rozkłady empiryczne oparte na bezpośrednich obserwacjach systemu zbudowany model nie był w stanie zrealizować zaplanowanej ilości eksperymentów. Sytuacja ta została dokładnie opisana jako jeden z przeprowadzonych eksperymentów w dalszej części artykułu. Aby móc zbudować model symulacyjny, który pomyślnie przeszedłby proces weryfikacji oraz walidacji i mógłby zostać wykorzystany do przeprowadzenia eksperymentów symulacyjnych, zdecydowano się na pozyskanie dodatkowych danych, tym razem dotyczących czasów obsługi klientów osobno dla każdego z siedmiu pól. Ze względu na różne czynniki, m.in. ograniczony okres czasu przeprowadzanego wówczas badania czy znaczny wzrost skali badania wynikający ze zwiększenia jego szczegółowości, dane dotyczące czasów obsługi w poszczególnych polach pozyskano jedynie za okres 3 dni. Odpowiadająca temu okresowi ilość danych mogłaby być niewystarczająca do budowy modelu symulacyjnego, który miałby funkcjonować jako poprawne pod względem statystycznym narzędzie do wspomagania decyzji. Jednakże dla celów realizowanych w pracy [Uziałko 2005], gdzie skupiono się na możliwościach symulacji w usprawnianiu procesu obsługi klientów banku oraz w niniejszym artykule, w którym nacisk położono na omówienie skutków zastosowania różnych sposobów przedstawienia i analizy danych wejściowych, przyjęto wspomnianą długość okresu badania. Należy tu oczywiście mieć świadomość, że w zbiorze składającym się z niewielkiej ilości dni zgromadzone mogą być przez przypadek dane z okresów nietypowych dla całości procesu i w związku z tym przy doborze rozkładów zdecydować się, czy analizować dane ze wszystkich 3 dni. Takie modyfikacje również świadczą za tym, by nie traktować budowanego modelu jak dokładnego obrazu analizowanego banku, a jedynie jako system poglądowy, który mógłby zaistnieć w rzeczywistości. Na podstawie uzyskanych danych można było stworzyć albo rozkłady empiryczne w arkuszu kalkulacyjnym, albo rozkłady teoretyczne, używając do tego narzędzia
42 Justyna Uziałko Input Analyzer. W pierwszym przypadku proces dopasowywania rozkładów polegał na stworzeniu dystrybuanty empirycznej dla każdego z pól, w drugim natomiast próbowano dobrać różne rozkłady teoretyczne. Ten ostatni można było zrealizować na dwa sposoby: albo samodzielnie wybrać kilka rozkładów i sprawdzić jak zostaną one ocenione przez wspomniane narzędzie, albo też zdecydować się na opcję Fit All i oczekiwać, że program sam dokona optymalnego wyboru. Uzyskane wyniki dla prawie wszystkich pól okazały się zadowalające. Jedynie w polu o największej liczebności klientów zaistniała konieczność posłużenia się empirycznym rozkładem dyskretnym. Natomiast powodem zaakceptowania rozkładów w sześciu polach od B do G była wysoka wartość wskaźnika p-value albo dla testu Kołomogorowa-Smirnowa, albo dla testu chi-kwadrat, albo dla obydwu. Wskaźnik ten określa poprawność dopasowania danego rozkładu do zebranych danych poprzez ocenę wyników obydwu wspomnianych testów. Może on przyjmować wartości od 0 do 1 i im wyższą osiągnie wartość, tym dobranie rozkładu do danych okazuje się trafniejsze (przy czym wartość p-value na poziomie 0,05 lub niższym powoduje odrzucenie danego rozkładu). Oczywiście należy mieć świadomość, że w przypadku przeprowadzania badania symulacyjnego na potrzeby zbudowania modelu w pełni obrazującego analizowany system i stanowiącego podstawę do podejmowania różnych decyzji, opieranie się jedynie na wartości p-value może nie być wystarczające. W związku z tym, że rozkłady są tworzone w oparciu o losowo wybraną próbkę, wskaźnik ten może przyjmować różne wielkości dla różnych próbek wybranych z jednej populacji. Jednakże, jak już wielokrotnie zaznaczano, dla potrzeb prowadzonego badania zdanie się na tego typu statystykę testową uznano za wystarczające. Po takim przygotowaniu danych możliwe było zbudowanie modelu symulacyjnego procesu obsługi klientów banku, sprawdzenie poprawności jego działania i przeprowadzenie eksperymentów symulacyjnych, które dotyczyły różnych propozycji usprawnień funkcjonowania badanego systemu (naczelne kryterium odnosiło się do zwiększenia satysfakcji klientów z obsługi); wybrane eksperymenty zostały omówione w pracy [Uziałko 2005]. 5. PRZEPROWADZENIE EKSPERYMENTÓW SYMULACYJNYCH Dla potrzeb niniejszego artykułu zrealizowano trzy eksperymenty, których celem było przedstawienie wpływu stopnia szczegółowości pozyskiwanych danych wejściowych oraz wyboru różnych metod dopasowania do nich rozkładów prawdopodobieństwa na uzyskane z eksperymentów wyniki. Dane wykorzystane do przeprowadzenia kolejnych eksperymentów zostały zebrane z tego samego okresu losowo wybrano dni od poniedziałku do piątku w roku 2004/2005 i dotyczyły one tego samego procesu obsługi klientów banku. Należy tu także wspomnieć, że analizie pod-
Teoria a rzeczywistość proces pozyskiwania i analizy danych... 43 dano dane z pominięciem rzadko się pojawiających, najdłuższych czasów obsługi (stanowiły ostatnie 3% całości danych). Oczywiste jest, że w przypadku budowania modelu symulacyjnego służącego do wspomagania procesu podejmowania decyzji, należałoby się zastanowić nad braniem pod uwagę także tzw. ogonów rozkładów, czyli ekstremalnych zachowań systemu. Trudno jednak mówić o wyłapywaniu tego typu zjawisk w przypadku danych za okres trzech dni; w tej sytuacji nawet uwzględnianie takich resztkowych danych mogłoby negatywnie wpłynąć na relację pomiędzy poprawnością przedstawienia działania systemu, a zbudowanym dla niego rozkładem. Analiza wyników z przeprowadzonych eksperymentów powinna dać odpowiedź na pytanie, czy sposób przedstawienia danych wejściowych w kwestii stopnia ich szczegółowości oraz procedura określania dla nich rozkładu spowoduje różnice w otrzymywanych wynikach. W związku z charakterem pracy zaprezentowano jedynie dane wygenerowane z modelu dotyczące takich wartości, dla których istnieje możliwość porównania z wielkościami rzeczywistymi, czyli przedstawiające liczbę obsłużonych klientów w poszczególnych polach. Inne grupy danych wyjściowych, które zbudowany model jest w stanie wygenerować, takie jak m.in. wykorzystanie poszczególnych stanowisk roboczych czy średnie czasy oczekiwania w kolejkach do poszczególnych pól zostały przedstawione w artykule [Uziałko 2005]. Tab. 3. Przedstawienie średniej liczby osób obsłużonych w poszczególnych polach modelu (wraz z przypadkami rezygnacji z obsługi) Poszczególne pola Średnia liczba osób obsłużonych w modelu Przedział ufności i rezygnujących z obsługi (*) (Eksp.1) POLE A 597,90 7,89 POLE B 30,57 2,42 POLE C 60,53 3,19 POLE D 181,67 3,97 POLE E 11,93 1,33 POLE F 77,13 2,70 POLE G 13,37 1,63 POLE A* 80,33 10,93 POLE D* 34,60 5,21 Eksperyment 1 W celu otrzymania rozkładu prawdopodobieństwa opisującego proces obsługi klientów w banku posłużono się narzędziem Input Analyzer. Dopasowania rozkładów dokonywano w podziale nie tylko na grupy operacji, ale też na poszczególne pola. W wyniku analizy danych i dobierania do nich różnych rozkładów teoretycznych zadowalające wyniki otrzymano dla sześciu z siedmiu pól od B do G. W przypadku natomiast pola A, z powodu zbyt niskiej wartości wskaźnika p-value w proponowanych
44 Justyna Uziałko dla niego rozkładach, zdecydowano się na empiryczny rozkład dyskretny. Po dopasowaniu rozkładów przeprowadzono 30 powtórzeń symulacyjnych. Eksperyment 2 Podobnie, jak w poprzednim eksperymencie, dopasowania rozkładów dokonywano w podziale nie tylko na grupy operacji, ale też na poszczególne pola. W tym przypadku jednak, aby uzyskać rozkład prawdopodobieństwa charakteryzujący proces obsługi klientów w banku, wykorzystano arkusz kalkulacyjny i stworzono dystrybuanty rozkładu empirycznego dla każdego z siedmiu pól. Po dopasowaniu rozkładów przeprowadzono 30 powtórzeń symulacyjnych. Tab. 4. Przedstawienie średniej liczby osób obsłużonych w poszczególnych polach modelu (wraz z przypadkami rezygnacji z obsługi) Poszczególne pola Średnia liczba osób obsłużonych w modelu Przedział ufności i rezygnujących z obsługi (*) (Eksp.2) POLE A 593,30 7,88 POLE B 32,67 2,04 POLE C 59,93 2,94 POLE D 172,90 4,03 POLE E 11,83 1,27 POLE F 74,57 2,13 POLE G 13,77 1,42 POLE A* 86,40 8,81 POLE D* 43,17 5,38 Wyniki otrzymane w dwóch pierwszych eksperymentach można porównać testem dla dwóch prób zależnych [Nawojczyk 2002], gdzie analizie będą poddane różnice pomiędzy wszystkimi parami średnich z próby. Zagadnienie, które będzie tu rozpatrywane to wpływ sposobu analizy danych na uzyskane wyniki końcowe; przyjęcie hipotezy H 0 wskazywałoby na brak różnicy pomiędzy sposobami analizy danych w obydwu eksperymentach na otrzymane wyniki ( µ D = 0 ), a hipotezy alternatywnej H na jej istnienie. Zastosowana w teście statystyka ma postać: 1 t = s D D µ / N 1 p D (2) gdzie N p to ilość par w próbie, D średnia różnic wskazań w próbie, s D odchylenie standardowe różnic wskazań w próbie, wyliczane na podstawie wzoru:
Teoria a rzeczywistość proces pozyskiwania i analizy danych... 45 ( D D) sd = N p 2 (3) D to różnica pomiędzy wartościami z obydwu eksperymentów; w naszym przypadku różnice dla każdego z pól, natomiast µ D to średnia różnic wskazań dla możliwych par w populacji (przy postawionej w powyższy sposób hipotezie H 0 założono, że parametr ten będzie równy zero), ponadto ilość stopni swobody wynosi df N 1. = p Tab. 5. Analiza wyników z eksperymentów nr 1 oraz nr 2 Eksperyment 1 Eksperyment 2 D D D 2 ( D D) 597,90 593,30-4,6000-4,6552 21,67089 30,57 32,67 2,1000 2,0448 4,181207 60,53 59,93-0,6000-0,6552 0,429287 181,67 172,90-8,7700-8,8252 77,88416 11,93 11,83-0,1000-0,1552 0,024087 77,13 74,57-2,5666-2,6218 6,873835 13,37 13,77 0,4000 0,3448 0,118887 80,33 86,40 6,0667 6,0115 36,13813 34,60 43,17 8,5667 8,5115 72,44563 Na tej podstawie wyliczono statystykę t=0,032 i wobec przyjętego zbioru krytycznego (, 2,306 > < 2,306, ) (dla 025 α 2 = 0, oraz 8 stopni swobody) można stwierdzić, że nie ma podstaw do odrzucenia hipotezy H 0, czyli w tym przypadku wybór jednego z dwóch przedstawionych sposobów analizy danych nie wpływa istotnie na otrzymane wyniki dotyczące średniej liczby osób opuszczających określone pola obsługi klientów. Eksperyment 3 W przeciwieństwie do dwóch poprzednich eksperymentów, w tym przypadku dopasowania rozkładów dokonano jedynie w podziale na dwie zbiorcze grupy operacji, bez uwzględniania obsługi w poszczególnych polach. Do zbudowania rozkładów prawdopodobieństwa opisujących proces obsługi klientów w banku, wykorzystano arkusz kalkulacyjny i stworzono dystrybuanty empiryczne dla jednej i drugiej kategorii operacji (rozkład wspólny dla pól A-C oraz rozkład wspólny dla pól D-G). Po dopasowaniu rozkładów tak jak we wcześniejszych eksperymentach planowano przeprowadzić 30 powtórzeń symulacyjnych. Niestety, udało się wykonać jedy-
46 Justyna Uziałko nie 23 pełne powtórzenia, podczas wykonywania powtórzenia nr 24, program zakomunikował błąd przeciążenia modelu. Tab. 6. Przedstawienie średniej liczby osób obsłużonych w poszczególnych polach modelu (wraz z przypadkami rezygnacji z obsługi) Poszczególne pola Średnia liczba osób obsłużonych w modelu Przedział ufności i rezygnujących z obsługi (*) (Eksp. 3) POLE A 550,29 12,33 POLE B 30,04 2,50 POLE C 61,17 2,98 POLE D 175,00 5,43 POLE E 12,37 1,23 POLE F 60,29 4,03 POLE G 12,87 1,92 POLE A* 126,38 10,63 POLE D* 36,37 6,18 Porównując wyniki otrzymane w powyższych badaniach symulacyjnych, przede wszystkim widać znaczną różnicę pomiędzy liczbą osób, które zrezygnowały z obsługi (szczególnie w polu A) w modelach z dwóch pierwszych eksperymentów w porównaniu z liczbą tego typu osób w eksperymencie ostatnim. Ma to też oczywiście przełożenie na mniejszą liczbę osób obsłużonych w tym polu w modelu z eksperymentu trzeciego w porównaniu z analogicznymi rezultatami dwóch pierwszych eksperymentów. Nie bez znaczenia jest również fakt, że model z ostatniego eksperymentu nie był w stanie wykonać wszystkich zaplanowanych powtórzeń, co przyczyniło się do większych niż w poprzednich badaniach przedziałów ufności i w efekcie mniej dokładnych wyników. 6. PODSUMOWANIE PRZEPROWADZONYCH EKSPERYMENTÓW Zrealizowane eksperymenty podkreślają wagę etapu gromadzenia i analizy danych wejściowych. W wyniku ich przeprowadzenia okazało się, że uzyskane wyniki zależą nie tyle od rodzaju użytego narzędzia wykorzystanego w procesie doboru rozkładów (w tym przypadku wybór pomiędzy gotowym narzędziem z pakietu symulacyjnego a arkuszem kalkulacyjnym), a od dogłębnego poznania badanego systemu. Ogromnie ważne w przypadku analizowanego w niniejszej pracy modelu było rozpoznanie, że czasy obsługi ściśle zależą od rodzaju pola, w którym są świadczone. Nie wystarczyło tu tylko rozgraniczenie realizowanych operacji bankowych na dwie kategorie (A-C oraz D-G); kluczowe dla możliwości wykorzystania modelu okazało się pozyskanie danych osobno dla każdego z pól i ujęcie wynikających z tego faktu różnic pomiędzy rozkładami w budowanym modelu.
Teoria a rzeczywistość proces pozyskiwania i analizy danych... 47 Ponadto, należy też mieć świadomość, że nie mniej ważne od samego procesu gromadzenia i analizy danych jest także odpowiednie sformułowanie celu realizowanego badania symulacyjnego, tak by przeprowadzone badania i uzyskane wyniki spełniły nasze oczekiwania. LITERATURA GORDON, G. 1974. Symulacja systemów. WNT, Warszawa. HOOVER, S.V., PERRY, R.F. 1989. Simulation. A Problem-Solving Approach. Addison-Wesley Publishing Company, Inc., New York. KELTON, W. D., SADOWSKI, R. P., SADOWSKI, D. A. 2002. Simulation with Arena. McGraw- Hill Companies, Inc., New York. LAW, A. M., KELTON, W. D. 1991. Simulation modeling & analysis. McGraw-Hill, Inc., New York. NAWOJCZYK, M. 2002. Przewodnik po statystyce dla socjologów. SPSS Polska, Kraków. SADOUN, B. 2000. Applied system simulation: a review study; [w:] Information Sciences 124; ss. 173-192. SEILA, A.F., CERIC, V., TADIKAMALLA, P. 2003. Applied simulation modeling. Thomson Learning Inc. USA, Belmont. UZIAŁKO, J. 2005. Zastosowanie modelowania symulacyjnego w usprawnieniu zarządzania procesem obsługi klientów banku. Praca magisterska. Wydział Informatyki i Zarządzania Politechniki Wrocławskiej. UZIAŁKO, J. 2005. Zastosowanie modelowania symulacyjnego w usprawnieniu procesu obsługi klientów banku; [w:] Symulacja systemów społeczno-gospodarczych. Oficyna Wydawnicza Politechniki Wrocławskiej, Wrocław, ss. 45-60.