CO WIE SMARTFON? ROZPOZNAWANIE AKTYWNOŚCI CZŁOWIEKA METODAMI KLASYFIKACYJNYMI STATISTICA DATA MINER



Podobne dokumenty
Wprowadzenie do analizy dyskryminacyjnej

Elementy statystyki wielowymiarowej

ALGORYTM RANDOM FOREST

ZASTOSOWANIE TECHNIK DATA MINING W BADANIACH NAUKOWYCH

Wprowadzenie do analizy korelacji i regresji

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

KLASYFIKACJA. Słownik języka polskiego

Analiza składowych głównych. Wprowadzenie

PROGNOZOWANIE Z WYKORZYSTANIEM METOD DATA MINING

5. Analiza dyskryminacyjna: FLD, LDA, QDA

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Drzewa decyzyjne i lasy losowe

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

PRZEWIDYWANIE WŁAŚCIWOŚCI PRODUKTU Z WYKORZYSTANIEM UCZENIA MASZYN

Klasyfikacja LDA + walidacja

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

10. Redukcja wymiaru - metoda PCA

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

PRZYKŁAD PROGNOZOWANIA Z WYKORZYSTANIEM METOD DATA MINING

Agnieszka Nowak Brzezińska

DRZEWA KLASYFIKACYJNE W BADANIACH SATYSFAKCJI

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych

Agnieszka Nowak Brzezińska Wykład III

Zmienne zależne i niezależne

MODELOWANIE KOSZTÓW USŁUG ZDROWOTNYCH PRZY

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Agnieszka Nowak Brzezińska Wykład III

Ekonometria, lista zadań nr 6 Zadanie 5 H X 1, X 2, X 3

Sposoby prezentacji problemów w statystyce

JAK EFEKTYWNIE I POPRAWNIE WYKONAĆ ANALIZĘ I RAPORT Z BADAŃ BIEGŁOŚCI I WALIDACJI PRAKTYCZNE WSKAZÓWKI

Szkolenie Analiza dyskryminacyjna

Metody systemowe i decyzyjne w informatyce

TWORZENIE I STOSOWANIE MODELU PROGNOSTYCZNEGO Z WYKORZYSTANIEM STATISTICA ENTERPRISE

Statystyka i Analiza Danych

Metoda Karnaugh. B A BC A

ANALIZA SYSTEMU POMIAROWEGO (MSA)

Elementy modelowania matematycznego

Sterowanie wielkością zamówienia w Excelu - cz. 3

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

PDF created with FinePrint pdffactory Pro trial version

LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU

Sterowanie procesem i jego zdolność. Zbigniew Wiśniewski

ALGORYTMY SZTUCZNEJ INTELIGENCJI

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Zachowania odbiorców. Grupa taryfowa G

STATISTICA DATA MINER I STATISTICA ENTERPRISE SPOSÓB NA SZYBKĄ BUDOWĘ I WDRAŻANIE MODELI

Systemy uczące się Lab 4

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VIII: Analiza kanoniczna

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Analiza regresji - weryfikacja założeń

Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński

Badanie zależności skala nominalna

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Metoda określania pozycji wodnicy statków na podstawie pomiarów odległości statku od głowic laserowych

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Statystyka w pracy badawczej nauczyciela

Analiza wariancji - ANOVA

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Analiza wariancji. dr Janusz Górczyński

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium X: Analiza dyskryminacyjna

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Metody klasyfikacji danych - część 1 p.1/24

Regresja linearyzowalna

Analiza danych. TEMATYKA PRZEDMIOTU

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Analiza współzależności zjawisk

Analiza korespondencji

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Wprowadzenie. Metody bayesowskie Drzewa klasyfikacyjne i lasy losowe Sieci neuronowe SVM. Klasyfikacja. Wstęp

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne)

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Rozkłady zmiennych losowych

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Spacery losowe generowanie realizacji procesu losowego

DATA MINING W STEROWANIU PROCESEM (QC DATA MINING)

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Metoda Automatycznej Detekcji Interakcji CHAID

Szkice rozwiązań z R:

Wykład 2: Tworzenie danych

PRAKTYCZNY SKORING - NIE TYLKO KREDYTOWY

Projekt Sieci neuronowe

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Testy nieparametryczne

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Transkrypt:

CO WIE SMARTFON? ROZPOZNAWANIE AKTYWNOŚCI CZŁOWIEKA METODAMI KLASYFIKACYJNYMI STATISTICA DATA MINER Michał Kusy, StatSoft Polska Sp. z o.o. W bardzo krótkim czasie urządzenia mobilne stały się ogólnodostępne. Smartfony, oprócz podstawowej funkcji telefonu, oferują wiele dodatkowych możliwości wynikających z wprowadzenia systemu operacyjnego i zastosowania różnych czujników mechanicznych. Już teraz urządzenia mogą śledzić nasze działania i uczyć się naszych zachowań. Informacje uzyskane z analizy zebranych sygnałów mogą być wykorzystane przykładowo w celu dopasowania środowiska do naszych upodobań lub poprawy bezpieczeństwa. Określenie aktywności użytkownika na podstawie informacji gromadzonych w smartfonach jest możliwe dzięki zastosowaniu modeli klasyfikacyjnych. W artykule przedstawimy przykład analizy takich danych wykorzystujący metodę klasyczną (analizę dyskryminacyjną) oraz metody data mining (drzewa klasyfikacyjne i losowy las). Rozpoznawanie aktywności Badania aktywności człowieka prowadzone są w wielu obszarach, między innymi w ochronie zdrowia. Informacje o badanej osobie i jej otoczeniu mogą być gromadzone przez czujniki przymocowane do ciała. Dzięki temu można w sposób ciągły monitorować wiele czynników fizjologicznych. Aktywność badanych można również obserwować, wykorzystując urządzenia mobilne, np. smartfony. Między innymi w celu wykrywania ich ułożenia przestrzennego oraz sterowania nimi za pomocą ruchu, smartfony wyposażone zostały w akcelerometry, żyroskopy i inne czujniki, które pozwalają zbierać informacje o aktywności osoby. Przykład eksperymentu wykorzystującego możliwości smartfonów został opisany szczegółowo w pracy [Błąd! Nie można odnaleźć źródła odwołania.]. Badanie przeprowadzono w grupie 30 ochotników w wieku 19-48 lat. Każda z osób wykonywała sześć czynności (chodzenie, wchodzenie po schodach, schodzenie ze schodów, siedzenie, stanie, leżenie) ze smartfonem umieszczonym na pasie. W eksperymencie wykorzystano smartfon Samsung Galaxy S2 ze względu na akcelerometr oraz żyroskop umożliwiające pomiary odpowiednio trójosiowego przyspieszenia liniowego i prędkości kątowej z częstotliwością 50 Hz, co wystarcza do zarejestrowania ruchu ludzkiego ciała. Copyright StatSoft Polska 2013 www.statsoft.pl/czytelnia.html 47

Otrzymane informacje zostały następnie przetworzone, a zbiory danych zawierające ponad 560 zmiennych podzielono losowo na dwie grupy: 70% przeznaczono na zbiór uczący, a 30% na zbiór testowy. Zbiory te wykorzystywane będą w naszej analizie. Analiza dyskryminacyjna Liniowa analiza dyskryminacyjna (Linear Discriminant Analysis, LDA) to jedna z klasycznych metod, których celem jest przypisanie badanych obiektów do jednej z dwóch lub więcej kategorii, w oparciu o pewne cechy obiektów. Jest to metoda uczenia z nauczycielem. Oznacza to, że wymaga próby, na podstawie której model może nauczyć się struktury danych, czyli powiązania cech z przynależnością do poszczególnych klas. Analiza zakłada, że znamy prawdopodobieństwa a priori przynależności do poszczególnych kategorii. W praktyce do oszacowania tych prawdopodobieństw wykorzystuje się udział poszczególnych grup w próbie lub zakłada się jednakowe prawdopodobieństwo dla każdej z nich. W podejściu parametrycznym przyjmujemy pewne założenia co do postaci rozkładu (zmienne mają wielowymiarowy rozkład normalny, a macierze kowariancji dla poszczególnych klas są równe). Łatwiej jest wtedy znaleźć taki układ danych określony przez wartości poszczególnych cech, który najbardziej różnicuje przynależność do klas. Ostatecznie analiza pozwala oszacować prawdopodobieństwa a posteriori przynależności konkretnego obiektu do poszczególnych kategorii. Rys. 1. Klasyfikacja obiektów z punktu widzenia zmiennej X i Y. Jednym z wyników analizy dyskryminacyjnej są liniowe funkcje klasyfikacyjne, które na podstawie wartości zmiennych charakteryzujących obiekt wskazują, do której klasy należy go przypisać. Obiekty przedstawiamy jako układ punktów w przestrzeni rozpiętej na wybranych zmiennych. Aby można było wyznaczyć funkcje klasyfikacyjne, w pierwszej kolejności określany jest taki kierunek w przestrzeni, który uwzględniając zmienność wewnątrz grup, najbardziej je różnicuje. Najprostsza z możliwych sytuacji to przypadek, gdy chcemy 48 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2013

rozróżnić dwie grupy na podstawie wartości jednej cechy. Analiza sprowadza się wtedy do znalezienia optymalnego punktu odcięcia dla wartości tej zmiennej. Na rysunku rys. 1. przedstawiony został przykład analizy dla dwóch klas (B i C) i dwóch zmiennych charakteryzujących obiekty (X i Y). Przerywaną linią zaznaczono dwa kierunki rzutowania układu punktów odpowiednio na oś Y i X. Dodatkowo wyznaczone zostały zakresy wskazujące wartości brzegowe średniej i odchylenia standardowego w klasach. Rzutowanie na oś X daje lepszą klasyfikację w porównaniu do pierwszego rzutowania, jednak w obu przypadkach mamy do czynienia ze stosunkowo dużą liczbą błędnych klasyfikacji, tzn. przypisania obiektu do niewłaściwej grupy. Rys. 2. Rzutowanie punktów zapewniające najlepsze zróżnicowanie klas. Analiza dyskryminacyjna wyznacza w tym przypadku kierunek rzutowania przedstawiony na powyższym rysunku. Następnie zgodnie z nim rzutowane są środki rozkładów w grupach i poszczególne punkty. Obiekt jest przypisywany do grupy B, jeśli zmierzona w ten sposób odległość punktu od środka grupy B jest mniejsza niż odległość od środka grupy C. Linia przerywana oddzielająca klasy B i C wskazuje miejsce, gdzie prawdopodobieństwo przynależności do każdej z nich jest jednakowe. Jeżeli rozważalibyśmy trzy cechy (X, Y, Z) i trzy klasy (A, B, C), analogiczne rozumowanie prowadziłoby do wskazania takiej płaszczyzny, na której zrzutowane klasy są najlepiej zróżnicowane. Dodanie kolejnych zmiennych powoduje zwiększenie wymiaru analizowanej przestrzeni. W przypadku dużej liczby zmiennych ciężko wyobrazić sobie i zilustrować układ punktów w takiej przestrzeni. Wykonujemy wtedy analizę kanoniczną, która pozwala zredukować wymiar przestrzeni opisującej badane obiekty. Na podstawie wskazanych cech wyznaczane są zmienne kanoniczne. Obrazują one kolejne istotne składowe ukrytej w zmiennych informacji o klasyfikacji obiektów. Zmienne kanoniczne są kombinacjami liniowymi cech obiektów. Ich liczba jest równa liczbie klas pomniejszonej o jeden lub liczbie zmiennych, w zależności od tego, która z tych wartości jest mniejsza. Copyright StatSoft Polska 2013 www.statsoft.pl/czytelnia.html 49

Rys. 3. Rzutowanie punktów w przestrzeni trójwymiarowej. Często okazuje się, że część zmiennych uwzględnionych w modelu nie wpływa na klasyfikację. Przykładowo w rozważanym powyżej przypadku zmienna Z nie poprawia klasyfikacji obiektów na tyle, żeby warto było włączać ją do modelu. Sytuacja taka występuje często, jeśli analizujemy wiele cech opisujących obiekty. Do wskazania zmiennych, które wnoszą najwięcej informacji do klasyfikacji, można wykorzystać wtedy krokowe metody budowy modelu. Inny problem, który wiąże się z liczbą zmiennych w analizie, to ich nadmierna korelacja. Silne powiązanie cech może prowadzić do błędnego oszacowania wpływu tych zmiennych, a nawet uniemożliwić wykonanie analizy. Rys. 4. Klasyfikacja obiektów na podstawie wyników analizy dyskryminacyjnej. 50 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2013

Oprócz wskazania cech, które najsilniej różnicują badane obiekty, analiza dyskryminacyjna daje również reguły, które pozwalają przypisać konkretny obiekt do jednej z klas. Dla każdej kategorii wyznaczana jest liniowa funkcja klasyfikacyjna uwzględniająca zmienne wybrane w modelu. Następnie obiekt przypisywany jest do klasy z największą wartością funkcji klasyfikacyjnej. Na rys. 4. za pomocą linii oddzielających poszczególne grupy przedstawione zostały miejsca, w których odpowiednie funkcje klasyfikacyjne są równe. Dodatkowo zaznaczone zostały cztery przypadki błędnych klasyfikacji przykładowo jeden obiekt należący do klasy A został przypisany do klasy B. Na podstawie odsetka poprawnych klasyfikacji możemy powiedzieć, jak dobrze model dopasował się do danych uczących. Skuteczność funkcji klasyfikacyjnych będziemy jednak sprawdzać na wydzielonym wcześniej zbiorze danych testowych. Ogólnie spodziewamy się, że klasyfikacja obiektów nieużywanych przy budowie modelu będzie gorsza niż ta uzyskana na zbiorze uczącym. Drzewa klasyfikacyjne, losowy las Związek pomiędzy zmiennymi wejściowymi a klasą, do której należy obiekt, może być nieliniowy i skomplikowany. Nie zawsze można podać wprost jego postać. Jest jednak wiele metod, które same dobierają nieliniowe podziały przestrzeni cech tak, aby otrzymać jak najlepszą jakość modelu klasyfikacyjnego. Bardzo popularną metodą są drzewa klasyfikacyjne. W wyniku takiej analizy otrzymujemy graficzny obraz reguł klasyfikacyjnych, na podstawie których możemy później przyporządkować obiekt do odpowiedniej klasy. Drzewo powstaje w wyniku stopniowego podziału zbioru obserwacji na rozłączne podzbiory. W kolejnych etapach budowy drzewa analizuje się wszystkie zmienne i wybiera tę, która zapewnia najlepszy podział węzła, czyli wydziela najbardziej jednorodne podzbiory. W związku z tym każdy kolejny podział układu danych może wykorzystywać inną cechę obiektów. Przykład drzewa klasyfikacyjnego C&RT (Classification And Regression Trees) przedstawiono na rysunku rys. 5. Jest to drzewo binarne, tzn. w każdym etapie węzły dzielone są na 2 podzbiory. Drzewo składa się z 7 węzłów dzielonych i 8 węzłów końcowych nazywanych liśćmi. Liczba liści określa wielkość drzewa, a liczba krawędzi między wierzchołkiem a najbardziej odległym liściem (tu równa 5) mówi o głębokości drzewa. Często o jakości drzewa nie decyduje wyłącznie trafność klasyfikacji, ale również przydatność wygenerowanych przez nie reguł. Cechą charakterystyczną metody C&RT jest nadmierny rozrost drzewa, a następnie przycinanie poszczególnych gałęzi. Model rozbudowany porównywany jest z modelem ze zredukowaną liczbą węzłów. Sprawdza się różnicę między błędem klasyfikacji całego drzewa i drzewa z usuniętą gałęzią. W kolejnym etapie wybierane jest drzewo, dla którego różnica ta jest najmniejsza itd. Ważną zaletą algorytmu jest przycinanie drzewa z jednoczesnym uwzględnieniem współczynnika błędu obliczonego dla próby uczącej i testowej. Copyright StatSoft Polska 2013 www.statsoft.pl/czytelnia.html 51

Rys. 5. Drzewo klasyfikacyjne C&RT. Na podstawie reguł wyznaczonych przez drzewo klasyfikacyjne w przestrzeni tworzone są podziały wyodrębniające z układu punktów rozważane klasy. Na poniższym rysunku zaznaczono linie odpowiadające regułom przedstawionym wcześniej na drzewie C&RT. Widzimy również przypadki błędnych klasyfikacji. Rys. 6. Klasyfikacja obiektów na podstawie reguł drzewa klasyfikacyjnego. 52 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2013

Poniżej umieszczony został z kolei przykład podziału obiektów na podstawie drzewa nadmiernie dopasowanego do danych. W tym przypadku każdy z obiektów trafia do właściwej klasy. Cały czas rozważamy jednak zbiór uczący. Zadaniem drzewa nie jest wyłącznie opis danych uwzględnionych w analizie, ale również dostarczenie reguł klasyfikacyjnych, które umożliwią przypisanie nowych obiektów do klas. Z tego względu zwracamy szczególną uwagę na stopień dopasowania modelu do danych uczących. Niewłaściwie przygotowane drzewo może charakteryzować się stuprocentową trafnością na zbiorze uczącym, okaże się jednak zdecydowanie mniej przydatne do klasyfikacji nowych danych od drzewa gorzej klasyfikującego dane uczące. Rys. 7. Klasyfikacja obiektów na podstawie drzewa nadmiernie dopasowanego do danych. Rozwinięciem metody drzew klasyfikacyjnych są na przykład metody losowy las (random forest) i wzmacniane drzewa (stochastic gradient boosting trees). Są to zespoły prostych drzew realizujące ideę głosowania modeli. Okazuje się, że zespół prostych drzew daje zazwyczaj zdecydowanie trafniejsze przewidywania niż pojedyncze, nawet bardzo złożone drzewo. W przypadku losowego lasu dodatkową zaletą jest korzystanie z losowego podzbioru zmiennych przy tworzeniu nowego podziału w drzewie. Podzbiory zmiennych są niezależne i wybierane spośród wszystkich dostępnych zmiennych, a sam ich wybór dla poszczególnych drzew odbywa się ze zwracaniem. Podejście to bardzo dobrze się sprawdza w problemach, gdy liczba analizowanych obiektów jest mniejsza od liczby badanych cech. Wyniki analizy Aby przygotować model rozróżniający sześć rodzajów aktywności rejestrowanych przez smartfon wykorzystamy na początku moduł Ogólne modele dyskryminacyjne w programie STATISTICA. W trakcie wstępnej analizy danych wskazane zostały grupy zmiennych Copyright StatSoft Polska 2013 www.statsoft.pl/czytelnia.html 53

nadmiernie skorelowanych. W każdej z grup wyznaczona została jedna zmienna, reprezentująca daną cechę. W celu wskazania zmiennych najsilniej dyskryminujących rozważane klasy aktywności wykorzystujemy metodę krokową postępującą. W każdym kroku program analizuje wszystkie zmienne i ocenia, która z nich najbardziej przyczynia się do dyskryminacji grup. Ta zmienna zostaje następnie włączona do modelu i program przechodzi do następnego kroku. Zmienna uwzględniona w modelu może zostać z niego wyłączona, jeśli na pewnym etapie przestanie istotnie różnicować klasy. Rys. 8. Wyznaczanie zmiennych najsilniej dyskryminujących klasy. Do oceny mocy dyskryminacyjnej modelu wykorzystuje się statystykę nazywaną lambdą Wilksa. Jej wartość mieści się w zakresie od 1,0 (brak mocy dyskryminacyjnej) do 0,0 (doskonała moc dyskryminacyjna). Wartość lambda w drugiej kolumnie powyższego arkusza określa cząstkowy wkład danej zmiennej do dyskryminacji grup. Im mniejsza wartość w tej kolumnie, tym większa moc dyskryminacyjna danej zmiennej. Rys. 9. Średnie poziomy wybranej zmiennej dla poszczególnych rodzajów aktywności. 54 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2013

Na wykresie ramkowym powyżej przedstawione zostały średnie poziomy jednej ze zmiennych uwzględnionych w modelu w rozbiciu na poszczególne klasy aktywności. Po wyznaczeniu zmiennych, które najsilniej rozróżniają analizowane aktywności, sięgamy do funkcji klasyfikacyjnych. Wartości funkcji klasyfikacyjnych wyznaczane są na podstawie wartości zmiennych uwzględnionych w modelu. Dzięki nim możemy przypisać poszczególne przypadki do konkretnej klasy. Program pozwala między innymi utworzyć raport z przypisaniem obiektów do grup i określić prawdopodobieństwo przynależności do każdej z klas aktywności. Ze względu na dużą liczbę zmiennych wykorzystanych w modelu nie jesteśmy w stanie przedstawić wyników na wykresie rozrzutu uwzględniającym wszystkie wymiary. Możemy natomiast wykonać analizę kanoniczną i wyznaczyć przestrzeń o mniejszej liczbie wymiarów, w której taka wizualizacja będzie możliwa. Analiza kanoniczna daje nam w tym przypadku 5 (liczba klas pomniejszona o 1) zmiennych kanonicznych, z których każda kolejna ma coraz mniejszy wkład w dyskryminację grup. Dla przykładu na poniższym rysunku przedstawiono punkty zrzutowane na płaszczyzny określone przez różne zmienne kanoniczne. Pierwsza zmienna kanoniczna rozróżnia przemieszczanie się od stanów spoczynku. Druga zmienna oddziela głównie leżenie od siedzenia i stania. Trzecia zmienna przyczynia się do dyskryminacji chodzenia, wchodzenia po schodach i schodzenia ze schodów. Rys. 10. Obiekty w płaszczyznach określonych przez różne zmienne kanoniczne. Model analizował różnice między sześcioma rodzajami aktywności na podstawie próby uczącej, która stanowiła 70% wyników eksperymentu. Aby sprawdzić trafność modelu, Copyright StatSoft Polska 2013 www.statsoft.pl/czytelnia.html 55

wdrażamy go na próbie uczącej i testowej. Następnie tworzymy macierze błędnych klasyfikacji, które dają informację o jakości stworzonego modelu klasyfikacyjnego. Rys. 11. Macierze błędnych klasyfikacji dla próby uczącej i testowej. Utworzony model klasyfikacyjny sprawdza się w 98% przypadków na zbiorze uczącym i 94% na zbiorze testowym. Najwięcej problemów pojawia się przy rozróżnianiu osób siedzących od stojących. Na zbiorze testowym liczba błędnie sklasyfikowanych osób siedzących wynosi około 16%. Sprawdzimy teraz, czy klasyfikacje uzyskane w analizie dyskryminacyjnej uda się poprawić, korzystając z drzew klasyfikacyjnych i metody losowy las. W obu metodach uwzględnimy dodatkowo zmienne kanoniczne wyznaczone w analizie dyskryminacji. Pojedynczą analizę wykonujemy zwykle w środowisku interakcyjnym. Cały projekt analityczny składa się jednak z wielu etapów związanych z przygotowaniem danych, ich analizą i raportowaniem. Aby wygodnie zestawić wykonywane analizy, wykorzystamy przestrzeń roboczą systemu STATISTICA Data Miner. W przestrzeni roboczej możemy stworzyć ścieżkę definiującą przebieg procesu analitycznego: od wprowadzenia danych, przez przekształcanie danych dla potrzeb analiz, przeprowadzenie samej analizy oraz wizualizację wyników i raportowanie. Procedury analityczne znajdujemy w przeglądarce węzłów. Umieszczamy je w przestrzeni roboczej w postaci węzłów, które następnie łączymy ze sobą, tworząc strukturę projektu. Tworzenie ścieżki procesu rozpoczynamy od wskazania zbioru danych i dodania węzła umożliwiającego podział danych na zbiór uczący i testowy. Następnie dodajemy i definiujemy węzły odpowiadające analizie dyskryminacyjnej, drzewom C&RT i metodzie losowy 56 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2013

las. Węzły te łączymy ze zbiorem uczącym. Z kolei zbiór testowy łączymy z węzłem umożliwiającym wdrożenie wyznaczonych modeli na nowych danych. W celu porównania klasyfikacji poszczególnych modeli wstawiamy dodatkowo węzeł oceniający dobroć dopasowania. Poniżej przedstawiono utworzoną w ten sposób przestrzeń roboczą obrazującą przebieg całego procesu analitycznego. Rys. 12. Przestrzeń robocza STATISTICA DataMiner z węzłami GDA, Drzewo C&RT i Losowy las. Po uruchomieniu przestrzeni roboczej otrzymujemy wyniki dla trzech modeli klasyfikacyjnych. Na poniższym rysunku przedstawiono uzyskane w ten sposób drzewo C&RT. Drzewo ma 18 liści, z których połowa jednoznacznie wskazuje rodzaj aktywności. Podobnie jak w przypadku analizy dyskryminacyjnej drzewo najsłabiej poradziło sobie z rozróżnieniem stanu siedzenia od stania. 75 spośród 1286 osób siedzących zostało uznanych przez drzewo za stojące. Metoda dała wyniki zbliżone do analizy dyskryminacyjnej, przy czym procent błędnych klasyfikacji okazał się w tym przypadku minimalnie większy niż w metodzie klasycznej. Copyright StatSoft Polska 2013 www.statsoft.pl/czytelnia.html 57

Rys. 13. Wyniki drzewa klasyfikacyjnego C&RT. Model uzyskany metodą losowy las składa się z wielu drzew przedstawiających reguły klasyfikacyjne. Każde z nich oddzielnie klasyfikuje rozważane obiekty. Następnie obiekty są przypisywane do poszczególnych klas aktywności na podstawie głosowania wszystkich drzew modelu. Model wykorzystujący losowy las pozwolił zwiększyć procent poprawnych klasyfikacji. W porównaniu do analizy dyskryminacyjnej widocznej poprawie uległa klasyfikacja osób siedzących (spadek z 16% do 12% błędnych klasyfikacji). Porównanie udziału błędnych klasyfikacji w poszczególnych modelach przedstawiono poniżej. Rys. 14. Udział błędnych klasyfikacji w utworzonych modelach. Podsumowanie Urządzenia mobilne są w stanie coraz inteligentniej reagować na zachowanie ich użytkowników. Jest to możliwie między innymi dzięki wykorzystaniu czujników mechanicznych i systemu operacyjnego. Na postawie danych rejestrowanych przez czujniki możemy 58 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2013

budować modele, które z zadowalającą trafnością potrafią rozróżnić zachowania użytkownika. Aby rozpoznać rodzaj aktywności, wykorzystaliśmy trzy metody klasyfikacyjne klasyczną analizę dyskryminacyjną, drzewa klasyfikacyjne C&RT i losowy las. Trafność klasyfikacji uzyskana w analizie dyskryminacyjnej została poprawiona w analizie metodą losowy las. W kolejnym etapie reguły klasyfikacyjne mogłyby zostać wykorzystane do budowy aplikacji instalowanej na smartfonie i pozwalającej rozpoznawać aktywność jego użytkownika. Zastosowanie praktyczne wymagałoby oczywiście uwzględnienia sytuacji bardziej złożonej niż ta rozważana w warunkach eksperymentalnych. W rzeczywistości smartfon nie musi być umieszczony w okolicach pasa, a użytkownik, korzystając z niego, zmienia jego położenie i nachylenie. Jeśli weźmiemy pod uwagę coraz większą dostępność urządzeń mobilnych, badanie to pokazuje duży potencjał podobnych rozwiązań z punktu widzenia wykorzystania ich przykładowo w ochronie zdrowia. Literatura 1. Davide Anguita, Alessandro Ghio, Luca Oneto, Xavier Parra and Jorge L. Reyes-Ortiz. Human Activity Recognition on Smartphones using a Multiclass Hardware-Friendly Support Vector Machine. International Workshop of Ambient Assisted Living (IWAAL 2012). Vitoria-Gasteiz, Spain. Dec 2012. 2. Harańczyk G., Zastosowanie technik data mining w badaniach naukowych; Zastosowania statystyki i data mining w badaniach naukowych, Materiały z seminariów, StatSoft Polska 2010. 3. Hastie, T., Tibshirani, R., Friedman, J. H. (2008). The elements of statistical learning: Data mining, inference, and prediction. New York: Springer Verlag. 4. Koronacki J., Ćwik J., Statystyczne systemy uczące się, wydanie drugie, Exit, Warszawa, 2008. 5. Łapczyński M., Drzewa klasyfikacyjne w badaniach satysfakcji i lojalności klientów, Analiza satysfakcji i lojalności klientów, Materiały z seminariów, StatSoft Polska 2003. 6. StatSoft, Inc. (2011). STATISTICA (data analysis software system), version 10. www.statsoft.com. Copyright StatSoft Polska 2013 www.statsoft.pl/czytelnia.html 59