PodejÊcie regresyjne w budowie drzew klasyfikacyjnych CART

Wielkość: px
Rozpocząć pokaz od strony:

Download "PodejÊcie regresyjne w budowie drzew klasyfikacyjnych CART"

Transkrypt

1 Zeszyty Naukowe nr 680 Akademii Ekonomicznej w Krakowie 2005 Mariusz apczyƒski Katedra Analizy Rynku i Badaƒ Marketingowych PodejÊcie regresyjne w budowie drzew klasyfikacyjnych CART 1. Wprowadzenie Drzewa klasyfikacyjne i regresyjne to narzędzia data mining służące do budowy modeli deskryptywnych i predykcyjnych. O drzewach klasyfikacyjnych można mówić wtedy, gdy zmienna zależna znajduje się na nominalnym lub porządkowym poziomie pomiaru, natomiast o drzewach regresyjnych wtedy, gdy poziom pomiaru tej zmiennej jest co najmniej przedziałowy. Czasem metody te nazywa się ogólnie drzewami klasyfikacyjnymi, które, w zależności od poziomu pomiaru zmiennej objaśnianej, pozwalają budować modele dyskryminacyjne bądź regresyjne. Za najbardziej zaawansowany algorytm budowy drzew klasyfikacyjnych i regresyjnych uznaje się CART (Classification and Regression Trees). Mimo że narzędzie to powstało na początku lat 80. ubiegłego stulecia, to do dziś doczekało się nieznacznych modyfikacji i stanowi odrębną rodzinę algorytmów drzewkowych. 2. Zasady budowy drzew regresyjnych Analiza z zastosowaniem drzew regresyjnych jest zbliżona do analizy z zastosowaniem drzew dyskryminacyjnych. Także i tutaj dokonuje się rekurencyjnego podziału zbioru obserwacji na rozłączne podzbiory, przy czym poziom pomiaru zmiennej zależnej jest co najmniej przedziałowy, a jej przewidywana wartość w węzłach końcowych jest stała. Drzewkowe podejście do regresji ma kilka zalet:

2 136 Mariusz Łapczyński nie trzeba przekodowywać wielokategorialnych jakościowych zmiennych niezależnych na zmienne zerojedynkowe (dummy variables) 1, nie ma potrzeby standaryzowania różnoimiennych predyktorów, związki między zmiennymi nie muszą być liniowe, rozkłady zmiennych nie muszą być normalne (nie ma także obowiązku przekształcania zmiennych, które utrudnia interpretację). Trzeba tu jednak podkreślić, że jeśli spełnione są wymogi regresji wielorakiej, to należy wybrać ten właśnie sposób analizy danych. Drzewa regresyjne w wypadku liniowych związków dają gorsze wyniki 2. Podczas budowy drzew regresyjnych, niską wartość kosztu resubstytucji zapewniają wartości zmiennej zależnej, których wartość jest bliska lub równa średniej w danym liściu. Najlepszy podział danego węzła to taki, w którym występuje największy spadek kosztu resubstytucji. Podsumowując: drzewo regresyjne jest tworzone przez iteracyjne podziały zbioru obserwacji minimalizujące koszt resubstytucji. W przeciwieństwie do drzew klasyfikacyjnych, nie chodzi wyłącznie o minimalizację błędu klasyfikacji, ale także o to, aby na danym etapie podziału rozdzielić wysokie i niskie wartości zmiennej zależnej. Należy tu dodać, że w poprawnie zbudowanym modelu zawsze do jednego wydzielonego węzła trafiają wartości wyższe, a do drugiego niższe od wartości w węźle macierzystym (rys. 1) Rys. 1. Przykład wartości w węźle macierzystym i węzłach potomkach Etapy analizy z użyciem drzew regresyjnych są następujące: 1) wybór reguły podziału, 2) wybór kryterium stopu (określenie, kiedy węzeł drzewa staje się liściem), 3) oszacowanie jakości modelu, 4) określenie reguły przydzielającej obserwacje do liści drzewa. 1 Zaleca się przekodowanie dopiero wówczas, gdy liczba wariantów zmiennej jakościowej przekracza L. Breiman i in., Classification and Regression Trees, Chapman & Hill/CRC, New York 1998, s. 264.

3 Podejście regresyjne w budowie drzew klasyfikacyjnych CART 137 Najczęściej stosowanymi w praktyce regułami podziału 3 są wariancja i odchylenie przeciętne. W pierwszym wypadku liczy się średnią wartość zmiennej zależnej w liściu i podaje wariancję znajdujących się w nim przypadków (czasem także odchylenie standardowe). W drugim wypadku szacowana jest mediana zmiennej zależnej oraz średnie odchylenie bezwzględne obserwacji znajdujących się w liściu. Węzeł staje się maksymalnie homogeniczny w sytuacji, gdy wszystkie znajdujące się w nim przypadki są równe odpowiednio: średniej lub medianie. Wybór reguły podziału ma wpływ na ostateczną postać modelu. Odchylenie przeciętne jest odporne na przypadki odstające i asymetryczne rozkłady zmiennych, jednak wariancja zapewnia wyższą trafność predykcji. W wypadku drzew regresyjnych nie ma potrzeby ustalania prawdopodobieństw a priori pojawienia się klas. Podobnie jak w odniesieniu do drzew klasyfikacyjnych, podział drzewa zaczyna się od całego zbioru obserwacji i kończy teoretycznie wtedy, gdy każdy przypadek trafi do odrębnego liścia. Gdyby takie rozwiązanie uznać za ostateczne, to błąd predykcji wynosiłby 0, ale liczba reguł typu jeżeli, to byłaby równa liczbie obserwacji, co powodowałoby, że praktyczne wykorzystanie modelu byłoby niemożliwe. Przyjmuje się zazwyczaj 4, że minimalna liczebność węzła końcowego jest równa 5. Ogólnie rzecz biorąc, koszt resubstytucji maleje wraz ze wzrostem liczby węzłów końcowych modelu, co najłatwiej przedstawić na rysunku (rys. 2). 1,00 Błąd predykcji 0,75 0,50 0, Liczba węzłów końcowych Rys. 2. Schemat zależności między wielkością drzewa a błędem predykcji 3 E. Gatnar, Nieparametryczna metoda dyskryminacji i regresji, PWN, Warszawa 2001, s L. Breiman i in., op. cit., s. 233.

4 138 Mariusz Łapczyński W wypadku drzew klasyfikacyjnych podział zbioru kończył się wtedy, gdy węzeł był czysty, tzn. zawierał przypadki należące tylko do jednej kategorii zmiennej zależnej lub gdy jego liczebność zrównała się z minimalną przyjętą liczebnością (ew. frakcją obiektów). Jeśli chodzi o drzewa regresyjne, również obowiązuje minimalna liczebność liścia, a ponadto zasada czystości węzła końcowego (purity condition for regression tree), która mówi, że węzeł jest jednorodny, jeśli wszystkie przypadki mają jednakową wartość. Miary służące do oceny jakości modelu regresyjnego są podobne do tych z modeli dyskryminacyjnych. W najprostszym ujęciu jest to koszt resubstytucji, choć uważa się, że szacowanie błędu jedynie na podstawie próby uczącej prowadzi do nazbyt optymistycznych wyników. W celu bardziej dokładnego oszacowania trafności predykcji stosuje się prostą walidację lub wielokrotną walidację krzyżową. Wybierając ostateczny wynik można wykorzystać wykres, na którym zestawia się koszt resubstytucji (RE) i współczynnik błędu po wielokrotnej walidacji krzyżowej (RE CV ) 5 jednocześnie (rys. 3). 1,00 Błąd predykcji 0,75 0,50 0,25 współczynnik błędu po wielokrotnej walidacji krzyżowej koszt resubstytucji Liczba węzłów końcowych Rys. 3. Jednoczesne zestawienie kosztu resubstytucji i współczynnika błędu po wielokrotnej walidacji krzyżowej Proces przycinania w drzewach regresyjnych jest nieco inny niż w wypadku drzew klasyfikacyjnych w jednym kroku usuwane są tylko dwa węzły końcowe (w drzewach klasyfikacyjnych przycinanie dotyczyło nawet całych kilkuwęzłowych gałęzi). Powoduje to, że sekwencja przyciętych drzew regresyjnych, z których wybiera się drzewo właściwych rozmiarów, jest znacznie dłuższa. Inna 5 skróty RE i RE CV związane są z angielską terminologią, RE oznacza resubstitution estimate, a RE CV cross-validated resubstitution estimate.

5 Podejście regresyjne w budowie drzew klasyfikacyjnych CART 139 różnica dotyczy kształtu krzywej obrazującej RE CV jest dłuższa i bardziej płaska niż w modelach dyskryminacyjnych. Oznacza to, że wybór drzewa właściwych rozmiarów staje się arbitralny, gdyż zbyt wiele drzew posiada zbliżoną wartość RE CV. Różnicę tę przedstawiono na rys. 4, gdzie odcieniem szarości zaznaczono obszar obejmujący potencjalne drzewa właściwych rozmiarów. model regresyjny model dyskryminacyjny RE CV RE CV RE RE Rys. 4. Wykres współczynników błędu w modelach regresyjnych i dyskryminacyjnych Przycinając drzewo ma się na celu redukcję jego wielkości (zmniejszenie liczby liści), przy jak najmniejszym przyroście błędu predykcji. Znalezienie takiego kompromisu w drzewach regresyjnych jest możliwe dzięki zasadzie jednego odchylenia standardowego (1 SE rule). Za optymalne uznaje się to drzewo, dla którego błąd predykcji (RE TS ) 6 jest mniejszy (lub równy) od najmniejszego błędu predykcji (RE CV ) powiększonego o jedno odchylenie standardowe w sekwencji drzew. Zasadę tę zilustrowano przykładem (tabela 1). Widać, że drzewem o najmniejszym błędzie predykcji jest drzewo nr 167 (RE CV ± SE = 0,17 ± 0,02). Błąd predykcji RE TS sąsiadujących z nim drzew wynosi 0,18 dla drzewa nr 166 i 0,17 dla drzewa nr 168. Oznacza to, że drzewem właściwych rozmiarów staje się rozwiązanie nr 168, ponieważ 0,17 < 0,17 ± 0,02. Wprawdzie RE TS dla drugiego rozwiązania również spełnia ten warunek (0,18 < < 0,17 ± 0,02), ale w takiej sytuacji wybiera się wartość najniższą. W regresji wielorakiej miarą oceniającą jakość rozwiązania jest współczynnik determinacji R 2, który informuje o tym, jaka część wariancji zmiennej zależnej jest wyjaśniana przez zestaw predyktorów. W przypadku drzew regresyjnych zaleca się wykorzystanie współczynnika błędu po wielokrotnej walidacji krzyżowej (RE CV ) zamiast trafności predykcji po wielokrotnej walidacji krzyżowej R CV. 6 Oszacowany w czasie prostej walidacji i oznaczony symbolem RE TS (od angielskiego terminu: Test Sample).

6 140 Mariusz Łapczyński Tabela 1. Przykład wyboru drzewa optymalnego na podstawie zasady jednego odchylenia standardowego Numer drzewa Liczba liści RE RE CV ± SE RE TS ,00 0,25 ± 0,03 0, ,00 0,25 ± 0,03 0, ,01 0,25 ± 0,03 0, ,12 0,18 ± 0,02 0, a 14 0,13 0,17 ± 0,02 0, b 13 0,13 0,17 ± 0,02 0, ,27 0,32 ± 0,03 0, ,00 1,00 1,00 a drzewo o najmniejszym błędzie predykcji; b drzewo optymalne Źródło: L. Breiman, op. cit., s Zdaniem autorów algorytmu CART 7, mimo że RE CV i R CV sumują się do jedności, to nie można mówić, że 1 RE CV to współczynnik R 2 informujący o proporcji wariancji zmiennej zależnej wyjaśnianej przez model. Proponują szacowanie błędu po wielokrotnej walidacji krzyżowej i przyjęcie, że to właśnie jest miara dokładności modelu. Ważną zaletą drzew regresyjnych CART jest sposób postępowania z brakującymi wartościami zmiennych oraz z przypadkami odstającymi. W klasycznych metodach statystycznych często usuwa się przypadki z brakami danych, co ma wpływ na pogorszenie wyników analizy. Propozycja Breimana i in. polega na wykorzystaniu tzw. zmiennej zastępczej (surrogate) lub zmiennej konkurencyjnej (competitors). Zmienną zastępczą jest ten predyktor, który zapewnia podział węzła zbliżony do pierwotnego podziału dokonanego na podstawie najlepszego w danym etapie predyktora. W każdym kroku analizy budowany jest ranking zmiennych zastępczych, gdzie o kolejności decyduje wielkość wskaźnika asocjacji. Zmienne zastępcze i zmienne konkurencyjne omówione będą w dalszej części pracy. Na rys. 5 pokazano, w jaki sposób algorytm CART znajduje zastosowanie w przypadkach odstających. W węźle macierzystym znajduje się 30 przypadków, dla których wartość średnia zmiennej zależnej wynosi 45,1; a odchylenie standardowe 6,1. Dokonano podziału węzła tak, że do lewego węzła potomnego trafiło 29 przypadków, dla których średnia wynosi 45,9 przy odchyleniu standardowym równym 4,3; natomiast w prawym węźle potomnym znalazł się tylko jeden przypadek o wartości zmiennej zależnej równej 21,9. Ogólnie rzecz biorąc, przypadki 7 L. Breiman, op. cit., s. 225.

7 Podejście regresyjne w budowie drzew klasyfikacyjnych CART 141 odstające są izolowane do osobnych liści, o ile pozwala na to kryterium stopu mówiące o minimalnej liczebności węzła końcowego. 45,1 6, ,9 4,3 21,9 0,0 Rys. 5. Przykład odizolowania przypadku odstającego w metodzie CART Źródło: L. Breiman, op cit., s Interpretacja liści w modelu regresyjnym różni się w zależności od liczby zmiennych niezależnych wykorzystanych w podziale węzłów drzewa. Jeśli w drzewie pojawiłby się tylko jeden predyktor (rys. 6), to reguły można rozpisać w tabeli (tabela 2) lub sporządzić wykres funkcji schodkowej (rys. 7). 15 dochód < 1500 zł 13 dochód < 1000 zł 20 dochód < 2500 zł dochód < 2000 zł Rys. 6. Drzewo regresyjne z jedną zmienną niezależną

8 142 Mariusz Łapczyński Tabela 2. Wartości parametrów modelu regresyjnego z jedną zmienną niezależną Węzeł końcowy Dochód (zł) Wydatki na dobro x (zł) 1 <0; 1000) 15 2 <1000; 1500) 10 3 <2500; 3000) 25 4 <1500; 2000) 5 5 <2000; 2500) 12 Jeśli jednak w podziale drzewa bierze udział kilka predyktorów (rys. 8), to interpretacja jest analogiczna do opisu reguł w drzewach klasyfikacyjnych (tabela 3). Jedyna różnica sprowadza się do tego, że tam był to procent danej klasy w węźle, a tutaj jest to średnia wartość zmiennej zależnej z wyliczoną wariancją (ew. odchyleniem standardowym) bądź mediana ze średnim odchyleniem bezwzględnym. 20 Wydatki na dobro x Dochód Rys. 7. Prezentacja modelu regresyjnego z jedną zmienną niezależną w postaci funkcji schodkowej

9 Podejście regresyjne w budowie drzew klasyfikacyjnych CART dochód < 1500 zł 13 kobieta 20 wykształcenie wyższe wiek do 20 lat Rys. 8. Drzewo regresyjne z kilkoma zmiennymi niezależnymi Tabela 3. Wartości parametrów modelu regresyjnego z kilkoma zmiennymi niezależnymi Węzeł końcowy Wydatki na dobro x (zł) Reguła typu jeżeli, to 1 15 jeżeli wynagrodzenie < 1500 zł i płeć = kobieta 2 10 jeżeli wynagrodzenie < 1500 zł i płeć = mężczyzna 3 25 jeżeli wynagrodzenie 1500 zł i wykształcenie wyższe jeżeli wynagrodzenie 1500 zł i wykształcenie = wyższe, i wiek < 20 lat jeżeli wynagrodzenie 1500 zł i wykształcenie = wyższe, i wiek 20 lat Stabilność modelu regresyjnego można szacować przez zbudowanie kilku drzew dla tej samej liczby fałd w wielokrotnej walidacji krzyżowej, ale z różnymi ustawieniami generatora liczb losowych. Następnie porównuje się struktury drzewa i rankingi ważności predyktorów. Ich zbieżność świadczy o tym, że model jest stabilny. W innym razie oznacza to skorelowanie zmiennych niezależnych lub istnienie alternatywnych reguł predykcyjnych opisujących liście drzewa.

10 144 Mariusz Łapczyński 3. Porównanie drzew zbudowanych na podstawie wariancji i odchylenia przeci tnego Przykład opisany w niniejszym artykule będzie dotyczył predykcji cen samochodów osobowych dostępnych na rynku polskim. W analizie wykorzystano zbiór 803 nowych pojazdów 8 dostępnych w sprzedaży w 1999 r. Zmiennymi niezależnymi są: moc silnika (KM), pojemność silnika (cm 3 ), segment według SAMAR (np. small, upper medium, lower medium itp.), kraj pochodzenia marki, wersja nadwozia (np. sedan, hatchback, kombi), liczba drzwi, typ silnika (benzynowy, diesel) i zestaw zmiennych binarnych typu: posiada nie posiada (ABS, klimatyzacja, elektrycznie sterowane szyby, poduszki powietrzne, wspomaganie kierownicy, centralny zamek. Modele regresyjne zbudowano w programie CART firmy Salford Systems przy użyciu dwóch reguł podziału: średniej z wariancją i mediany ze średnim odchyleniem bezwzględnym. Celem badania nie jest poznanie struktury cenowej rynku motoryzacyjnego w Polsce, ale analiza porównawcza tych dwóch sposobów konstruowania drzew regresyjnych. Pierwszy model ( ze średnią ) powstał w ciągu niespełna 7 sekund, podczas gdy konstrukcja drugiego ( z medianą ) trwała 18 minut i 36 sekund (!). Względny błąd predykcji dla obu modeli różni się znacznie (rys. 9). Dla drzewa zbudowanego na podstawie średniej wynosi on 0,147, zaś dla drzewa zbudowanego na podstawie mediany aż 0,351. Liczba węzłów końcowych w obu przypadkach jest równa 22, jednak struktura modelu i związany z nią opis liści różnią się istotnie (rys. 10). Program CART umożliwia szczegółową analizę każdego podziału w modelu. Przykład dla podziału w węźle nr 7 z drzewa regresyjnego ze średnią 9 znajduje się na rys. 11. Jego liczebność wynosi 159 przypadków, zaś liczebność węzłów potomnych: 97 dla węzła nr 8 i 62 dla węzła końcowego nr 6 (oznaczonego 6). 8 Jest to zbiór wykorzystany w analizie za pomocą drzew klasyfikacyjnych CART i opisany w: M. Łapczyński, Badania segmentów rynku motoryzacyjnego z zastosowaniem drzew klasyfikacyjnych (CART), Zeszyty Naukowe AE w Krakowie, nr 586, Kraków 2002, s ; tam również dokonano analizy za pomocą metody CART, jednak zmienna zależna została zdyskretyzowana (powstał model dyskryminacyjny), a w obliczeniach użyto jednego z modułów pakietu STATI- STICA. 9 W języku angielskim mówi się o LS Regression Trees i LAD Regression Trees, gdzie LS (Least Squares) oznacza model zbudowany na podstawie średniej, zaś LAD (Least Absolute Deviation) model zbudowany na podstawie mediany.

11 Podejście regresyjne w budowie drzew klasyfikacyjnych CART 145 średnia Relative Error 0,6 0,147 0,5 0,4 0,3 0,2 0, Number of Nodes mediana Relative Error 0,8 0,7 0,6 0,5 0,4 0,3 Number of Nodes 0, Rys. 9. Liczba węzłów końcowych a względny błąd predykcji w drzewach regresyjnych zbudowanych dwoma metodami Źródło: opracowanie własne w programie CART. średnia mediana Rys. 10. Schemat drzewa regresyjnego zbudowanego na podstawie średniej i mediany Źródło: opracowanie własne w programie CART.

12 146 Mariusz Łapczyński ************************************* * Node 7: MOC KM_ * * N: 159 * ************************************* ********** ******************** =============================== * Node 8 * = Terminal Node 6 = * N: 97 * = N: 62 = ******************************* ======== ==================== Node 7 was split on MOC KM_ A case goes left if MOC KM_ <= Improvement = Complexity Threshold = E+10 Node Cases Wgt Count Mean StdDev Surrogate Split Assoc. Improve. 1 EL_SZYBY s CCM s PRODUCEN s Francja,Hiszpania,Japonia NADWOZIE s hatchback,mini MPV,sedan, convertible,coupe,roadster,mpv, SUV 5 AIR_BAG s Competitor Split Improve. 1 CCM SEGMENT mini,mini plus,small,suv NADWOZIE hatchback,convertible,coupe,roadster,mpv, SUV 4 EL_ SZYBY BENZYNA Rys. 11. Szczegóły obliczeniowe dotyczące wybranego podziału węzła Źródło: opracowanie własne w programie CART. Predyktorem wykorzystanym w tym miejscu drzewa jest moc silnika. Auta o mocy mniejszej lub równej 88,5 KM trafiają do węzła lewego (nr 8), zaś pozostałe do prawego (nr 6). Wskaźnik poprawy (improvement) to wielkość wariancji wewnątrz węzła zredukowana przez podział drzewa w tym węźle. W tym wypadku obliczenia będą następujące: (159/803) x (5908,033) 2 [(97/803) x (4368,423) 2 + (62/803) x (5704,515) 2 ] = = ,541. Na każdym etapie podziału drzewa oblicza się wskaźnik poprawy oraz wskaźnik asocjacji (association) dla zestawu zmiennych niezależnych. Najwyższa wartość wskaźnika skojarzenia może przyjąć wartość 1, co oznacza, że zmienna zastępcza (surrogate) daje identyczny podział węzła jak predyktor użyty do podziału na danym

13 Podejście regresyjne w budowie drzew klasyfikacyjnych CART 147 etapie 10. Wskaźnik skojarzenia służy jedynie do zestawienia rankingu zmiennych zastępczych i nie może być interpretowany jako współczynnik korelacji między podziałem pierwotnym a podziałem zastępczym danego węzła. W tym przypadku za najlepsze zmienne zastępcze uznano: posiadanie elektrycznie sterowanych szyb (0,290), pojemność silnika (0,274), kraj producenta (0,194), wersję nadwozia (0,048) i posiadanie poduszek powietrznych (0,016). Innym zaproponowanym rozwiązaniem jest zastosowanie zmiennych konkurencyjnych (competitors), których ranking wyznaczany jest za pomocą posortowanego malejąco wskaźnika poprawy. Ich porządek jest tu następujący: pojemność silnika, segment, wersja nadwozia, posiadanie elektrycznie sterowanych szyb i typ silnika (benzynowy, diesel). Mimo że oba modele mają różne współczynniki błędu i strukturę drzewa (reguły predykcyjne), to ranking ważności predyktorów jest podobny, zwłaszcza jeśli weźmie się pod uwagę jego kilka pierwszych pozycji (rys. 12). Cztery zmienne niezależne mające największy wpływ na ceną samochodu to: moc silnika (KM), pojemność silnika (cm 3 ), przynależność do segmentu według SAMAR i kraj pochodzenia marki. Zmienna niezależna Moc silnika (KM) Pojemność silnika (cm 3 ) Segment Kraj pochodzenia marki Wersja nadwozia ABS Liczba drzwi Klimatyzacja Elektrycznie sterowane szyby Poduszki powietrzne Wspomaganie kierownicy Centralny zamek Silnik benzynowy/diesel Średnia Liczba punktów 100,00 98,03 82,25 17,73 11,97 9,64 8,14 5,87 0,76 0,67 0,35 0,32 0,31 Zmienna niezależna Moc silnika (KM) Pojemność silnika (cm 3 ) Segment Kraj pochodzenia marki ABS Wersja nadwozia Centralny zamek Elektrycznie sterowane szyby Liczba drzwi Klimatyzacja Wspomaganie kierownicy Poduszki powietrzne Silnik benzynowy/diesel Mediana Liczba punktów 100,00 94,73 87,94 25,81 19,85 19,08 11,12 10,97 6,74 3,90 3,06 3,01 0,74 Rys. 12. Porównanie rankingów ważności predyktorów w obu modelach Źródło: opracowanie własne w programie CART. Poza automatycznym generowaniem reguł, CART zestawia charakterystyki wszystkich liści, co przedstawiono na rys. 13. Oprócz liczebności węzła (count), 10 Najniższe wartości mogą być ujemne, jednak nie są one zamieszczane w oknie wyników programu CART.

14 148 Mariusz Łapczyński podano średnią wartość zmiennej zależnej ceny samochodu (mean) oraz odchylenie standardowe. ========================= TERMINAL NODE INFORMATION ========================= Parent Node Wgt Count Count Mean StdDev Complexity E E E E E E E E E E E E E E E E E E E E E E+12 Rys. 13. Charakterystyki węzłów końcowych w drzewie regresyjnym ze średnią Źródło: opracowanie własne w programie CART. Odchylenie standardowe informuje o stopniu homogeniczności węzła. Jak łatwo zauważyć, najlepszymi klasyfikatorami są węzły: 4, 2 i 5, zaś najgorszymi węzły: 22, 17 i 21. Oznacza to, że trafność predykcji dla samochodów tańszych jest wyższa od trafności predykcji dla samochodów droższych 11. Podobne zestawienie jest tworzone dla drzewa regresyjnego z medianą (rys. 14), z tą różnicą, że zamiast średniej i odchylenia standardowego podaje się tam wartość mediany i średniego odchylenia bezwzględnego. Węzłami o największej, z punktu widzenia wartości zmiennej zależnej, homogeniczności są węzły: 5, 6 i 9, natomiast węzłami najbardziej heterogenicznymi są węzły: 4, 22 i 1. Podobnie jak w modelu regresyjnym ze średnią, najmniejsza trafność predykcji dotyczy samochodów najdroższych. 11 Gdyby badania takie przeprowadzić na potrzeby praktyki, to należałoby badać ceny wewnątrz SAMAR-owskich segmentów lub w grupie marek i modeli konkurencyjnych; w tej analizie chodzi o poznanie metody, więc w jednym zbiorze obserwacji znalazł się Fiat 126p i Mercedes klasy S, których ceny są de facto potraktowane jako przypadki odstające.

15 Podejście regresyjne w budowie drzew klasyfikacyjnych CART 149 ========================= TERMINAL NODE INFORMATION ========================= Parent Node Wgt Count Count Median MeanAbsDev Complexity Rys. 14. Charakterystyki węzłów końcowych w drzewie regresyjnym z medianą Źródło: opracowanie własne w programie CART. 400 CENA W Shapiro-Wilka, 66887, p < 0, Liczba obserwacji ,000 0, , , , , , , , , , ,000 Górna granica (x <= granicy) oczekiwane normalne Rys. 15. Rozkład zmiennej zależnej ceny samochodu Źródło: opracowanie własne w programie STATISTICA.

16 150 Mariusz Łapczyński Należy tu jednak dodać, że rozkład zmiennej zależnej nie jest zgodny z rozkładem normalnym (test W Shapiro-Wilka jest istotny), ale wykazuje silną asymetrię prawostronną (miara skośności wynosi 3,19). Przedstawiono to na rys Podsumowanie Drzewa regresyjne są alternatywnym dla klasycznej regresji wielorakiej sposobem badania zależności między zestawem zmiennych niezależnych a metryczną zmienną zależną. Choć nie sprawdzają się w wypadku związków liniowych, to ich niewątpliwymi zaletami jest brak konieczności tworzenia zmiennych zerojedynkowych ze zmiennych kategorialnych i brak konieczności standaryzowania zmiennych. Powoduje to, że ich interpretacja jest klarowna i ograniczona do zestawu zdań warunkowych typu: jeżeli, to. Autorzy algorytmu podkreślają, że drzewa mogą być również wykorzystane do wstępnego rozpoznania struktury danych. Może się bowiem okazać, że węzły wydzielone w początkowych krokach analizy stanowią podzbiory danych, w których można użyć regresji wielorakiej. Istnieją dwa sposoby budowania modeli regresyjnych CART: średnia z wariancją i mediana ze średnim odchyleniem bezwzględnym. Pierwszy daje wyższą trafność predykcji i charakteryzuje się krótszym czasem analizy, natomiast drugi jest odporny na przypadki odstające i asymetrię rozkładów. Budując modele regresyjne warto wykorzystać obie metody i wybrać tę, która najlepiej rozwiązuje problem badawczy. Literatura Breiman L. i in., Classification and Regression Trees, Chapman & Hill/CRC, New York Gatnar E., Nieparametryczna metoda dyskryminacji i regresji, PWN, Warszawa Łapczyński M., Badania segmentów rynku motoryzacyjnego z zastosowaniem drzew klasyfikacyjnych (CART), Zeszyty Naukowe AE w Krakowie, nr 586, Kraków A Regression Approach in Constructing CART Classification Trees The purpose of the article is to provide an introduction to constructing CART regression trees. The author describes in detail each step in an analysis using two splitting rules: Least Squares (LS) and Least Absolute Deviation (LAD). The author characterises the basic measures such as the improvement coefficient and association coefficient and discusses procedures to deal with outliers. The author reviews a supplementary description, introduced by Breiman et al., of surrogate and competitor variables that participate in tree splitting when missing values arise in independent variables.

17 Podejście regresyjne w budowie drzew klasyfikacyjnych CART 151 In a comparative analysis of both methods (LS and LAD), the author uses a set of observations from over 800 cases motorcars available on the Polish market. The dependent variable was the price of the vehicle, while the independent quantitative and qualitative variables were the vehicle characteristics. In the calculations, the best implementation of the algorithm was used the CART program developed by Salford Systems.

DRZEWA KLASYFIKACYJNE W BADANIACH SATYSFAKCJI

DRZEWA KLASYFIKACYJNE W BADANIACH SATYSFAKCJI StatSoft Polska, tel. (1) 48400, (601) 414151, info@statsoft.pl, www.statsoft.pl DRZEWA KLASYFIKACYJNE W BADANIACH SATYSFAKCJI I LOJALNOŚCI KLIENTÓW Mariusz Łapczyński Akademia Ekonomiczna w Krakowie,

Bardziej szczegółowo

Zmienne zastępcze i konkurencyjne w interpretacji drzew klasyfikacyjnych CART

Zmienne zastępcze i konkurencyjne w interpretacji drzew klasyfikacyjnych CART Zeszyty Naukowe nr 800 Uniwersytet Ekonomiczny w Krakowie 2009 Katedra Analizy Rynku i Badań Marketingowych Zmienne zastępcze i konkurencyjne w interpretacji drzew klasyfikacyjnych CART 1. Wprowadzenie

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część populacji, którą podaje się badaniu statystycznemu

Bardziej szczegółowo

Drzewa decyzyjne i lasy losowe

Drzewa decyzyjne i lasy losowe Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM

Bardziej szczegółowo

ANALIZA CZYNNIKÓW ROKOWNICZYCH I METOD LECZENIA U CHORYCH NA ZIARNICĘ ZŁOŚLIWĄ

ANALIZA CZYNNIKÓW ROKOWNICZYCH I METOD LECZENIA U CHORYCH NA ZIARNICĘ ZŁOŚLIWĄ ANALIZA CZYNNIKÓW ROKOWNICZYCH I METOD LECZENIA U CHORYCH NA ZIARNICĘ ZŁOŚLIWĄ prof. dr hab. Andrzej Sokołowski, dr Adam Sagan Jednym z ważniejszych obszarów zastosowań programu STATISTICA w badaniach

Bardziej szczegółowo

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów: Na dzisiejszym wykładzie omówimy najważniejsze charakterystyki liczbowe występujące w statystyce opisowej. Poszczególne wzory będziemy podawać w miarę potrzeby w trzech postaciach: dla szeregu szczegółowego,

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Zadania ze statystyki, cz.6

Zadania ze statystyki, cz.6 Zadania ze statystyki, cz.6 Zad.1 Proszę wskazać, jaką część pola pod krzywą normalną wyznaczają wartości Z rozkładu dystrybuanty rozkładu normalnego: - Z > 1,25 - Z > 2,23 - Z < -1,23 - Z > -1,16 - Z

Bardziej szczegółowo

Rozdział 8. Regresja. Definiowanie modelu

Rozdział 8. Regresja. Definiowanie modelu Rozdział 8 Regresja Definiowanie modelu Analizę korelacji można traktować jako wstęp do analizy regresji. Jeżeli wykresy rozrzutu oraz wartości współczynników korelacji wskazują na istniejąca współzmienność

Bardziej szczegółowo

Algorytmy klasyfikacji

Algorytmy klasyfikacji Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe

Bardziej szczegółowo

Analiza współzależności zjawisk

Analiza współzależności zjawisk Analiza współzależności zjawisk Informacje ogólne Jednostki tworzące zbiorowość statystyczną charakteryzowane są zazwyczaj za pomocą wielu cech zmiennych, które nierzadko pozostają ze sobą w pewnym związku.

Bardziej szczegółowo

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel: Wariancja z populacji: Podstawowe miary rozproszenia: 1 1 s x x x x k 2 2 k 2 2 i i n i1 n i1 Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel: 1 k 2 s xi x n 1 i1 2 Przykład 38,

Bardziej szczegółowo

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej) Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej) 1 Podział ze względu na zakres danych użytych do wyznaczenia miary Miary opisujące

Bardziej szczegółowo

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Testowanie hipotez statystycznych. Wnioskowanie statystyczne Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy

Bardziej szczegółowo

MODELE LINIOWE. Dr Wioleta Drobik

MODELE LINIOWE. Dr Wioleta Drobik MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

Zmienne zależne i niezależne

Zmienne zależne i niezależne Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }

Bardziej szczegółowo

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI Test zgodności i analiza wariancji Analiza wariancji Test zgodności Chi-kwadrat Sprawdza się za jego pomocą ZGODNOŚĆ ROZKŁADU EMPIRYCZNEGO Z PRÓBY Z ROZKŁADEM HIPOTETYCZNYM

Bardziej szczegółowo

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE 1 W trakcie badania obliczono wartości średniej (15,4), mediany (13,6) oraz dominanty (10,0). Określ typ asymetrii rozkładu. 2 Wymień 3 cechy rozkładu Gauss

Bardziej szczegółowo

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona; LABORATORIUM 4 Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona; dwie zmienne zależne mierzalne małe próby duże próby rozkład normalny

Bardziej szczegółowo

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego Współczynnik korelacji opisuje siłę i kierunek związku. Jest miarą symetryczną. Im wyższa korelacja tym lepiej potrafimy

Bardziej szczegółowo

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) PODSTAWY STATYSTYKI. Teoria prawdopodobieństwa i elementy kombinatoryki. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5. Testy parametryczne (na

Bardziej szczegółowo

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Wprowadzenie do teorii ekonometrii Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Zajęcia Wykład Laboratorium komputerowe 2 Zaliczenie EGZAMIN (50%) Na egzaminie obowiązują wszystkie informacje

Bardziej szczegółowo

Pobieranie prób i rozkład z próby

Pobieranie prób i rozkład z próby Pobieranie prób i rozkład z próby Marcin Zajenkowski Marcin Zajenkowski () Pobieranie prób i rozkład z próby 1 / 15 Populacja i próba Populacja dowolnie określony zespół przedmiotów, obserwacji, osób itp.

Bardziej szczegółowo

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Regresja wielokrotna Model dla zależności liniowej: Y=a+b 1 X 1 +b 2 X 2 +...+b n X n Cząstkowe współczynniki regresji wielokrotnej: b 1,..., b n Zmienne niezależne (przyczynowe): X 1,..., X n Zmienna

Bardziej szczegółowo

Ćwiczenia IV

Ćwiczenia IV Ćwiczenia IV - 17.10.2007 1. Spośród podanych macierzy X wskaż te, których nie można wykorzystać do estymacji MNK parametrów modelu ekonometrycznego postaci y = β 0 + β 1 x 1 + β 2 x 2 + ε 2. Na podstawie

Bardziej szczegółowo

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART. MiNI PW

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART. MiNI PW WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART MiNI PW Drzewa służą do konstrukcji klasyfikatorów prognozujących Y {1, 2,..., g} na podstawie p-wymiarowego wektora atrybutów (dowolne atrybuty:

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania

Bardziej szczegółowo

KORELACJE I REGRESJA LINIOWA

KORELACJE I REGRESJA LINIOWA KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem

Bardziej szczegółowo

Wykład 5: Statystyki opisowe (część 2)

Wykład 5: Statystyki opisowe (część 2) Wykład 5: Statystyki opisowe (część 2) Wprowadzenie Na poprzednim wykładzie wprowadzone zostały statystyki opisowe nazywane miarami położenia (średnia, mediana, kwartyle, minimum i maksimum, modalna oraz

Bardziej szczegółowo

Analiza składowych głównych. Wprowadzenie

Analiza składowych głównych. Wprowadzenie Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących

Bardziej szczegółowo

Miary statystyczne w badaniach pedagogicznych

Miary statystyczne w badaniach pedagogicznych Miary statystyczne w badaniach pedagogicznych Szeregi statystyczne Szczegółowy - gdzie materiał uporządkowany jest rosnąco lub malejąco Rozdzielczy - gdzie poszczególnym wariantom zmiennej przyporządkowane

Bardziej szczegółowo

Testy nieparametryczne

Testy nieparametryczne Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów

Bardziej szczegółowo

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33 Statystyka Wykład 4 Magdalena Alama-Bućko 19 marca 2018 Magdalena Alama-Bućko Statystyka 19 marca 2018 1 / 33 Analiza struktury zbiorowości miary położenia ( miary średnie) miary zmienności (rozproszenia,

Bardziej szczegółowo

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re Wykład 4 Wybór najlepszej procedury. Estymacja parametrów regresji z wykorzystaniem metody bootstrap. Wrocław, 22.03.2017r Wybór najlepszej procedury - podsumowanie Co nas interesuje przed przeprowadzeniem

Bardziej szczegółowo

Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym

Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym Wiesława MALSKA Politechnika Rzeszowska, Polska Anna KOZIOROWSKA Uniwersytet Rzeszowski, Polska Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym Wstęp Wnioskowanie statystyczne

Bardziej szczegółowo

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41 Statystyka Wykład 4 Magdalena Alama-Bućko 13 marca 2017 Magdalena Alama-Bućko Statystyka 13 marca 2017 1 / 41 Na poprzednim wykładzie omówiliśmy następujace miary rozproszenia: Wariancja - to średnia arytmetyczna

Bardziej szczegółowo

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp. Sprawdzian 2. Zadanie 1. Za pomocą KMNK oszacowano następującą funkcję produkcji: Gdzie: P wartość produkcji, w tys. jp (jednostek pieniężnych) K wartość kapitału zaangażowanego w proces produkcji, w tys.

Bardziej szczegółowo

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Zadanie 1 Eksploracja (EXAMINE) Informacja o analizowanych danych Obserwacje Uwzględnione Wykluczone Ogółem

Bardziej szczegółowo

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania

Bardziej szczegółowo

Jak przekształcać zmienne jakościowe?

Jak przekształcać zmienne jakościowe? Data Preparation Jak przekształcać zmienne jakościowe? Marta Płonka Predictive Solutions W ostatnim artykule zobaczyliśmy, jak sprawdzić, czy między wybranymi przez nas predyktorami a zmienną przewidywaną

Bardziej szczegółowo

Regresja logistyczna (LOGISTIC)

Regresja logistyczna (LOGISTIC) Zmienna zależna: Wybór opcji zachodniej w polityce zagranicznej (kodowana jako tak, 0 nie) Zmienne niezależne: wiedza o Unii Europejskiej (WIEDZA), zamieszkiwanie w regionie zachodnim (ZACH) lub wschodnim

Bardziej szczegółowo

Testowanie modeli predykcyjnych

Testowanie modeli predykcyjnych Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności

Bardziej szczegółowo

5. Model sezonowości i autoregresji zmiennej prognozowanej

5. Model sezonowości i autoregresji zmiennej prognozowanej 5. Model sezonowości i autoregresji zmiennej prognozowanej 1. Model Sezonowości kwartalnej i autoregresji zmiennej prognozowanej (rząd istotnej autokorelacji K = 1) Szacowana postać: y = c Q + ρ y, t =

Bardziej szczegółowo

Statystyka i Analiza Danych

Statystyka i Analiza Danych Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014 Zastosowania wybranych technik regresyjnych do modelowania współzależności zjawisk Janusz Wątroba StatSoft Polska Centrum Zastosowań Matematyki

Bardziej szczegółowo

R-PEARSONA Zależność liniowa

R-PEARSONA Zależność liniowa R-PEARSONA Zależność liniowa Interpretacja wyników: wraz ze wzrostem wartości jednej zmiennej (np. zarobków) liniowo rosną wartości drugiej zmiennej (np. kwoty przeznaczanej na wakacje) czyli np. im wyższe

Bardziej szczegółowo

Wykład 4: Statystyki opisowe (część 1)

Wykład 4: Statystyki opisowe (część 1) Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można

Bardziej szczegółowo

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji Statystyka i opracowanie danych Ćwiczenia 5 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ MODEL REGRESJI LINIOWEJ Analiza regresji

Bardziej szczegółowo

Parametry statystyczne

Parametry statystyczne I. MIARY POŁOŻENIA charakteryzują średni lub typowy poziom wartości cechy, wokół nich skupiają się wszystkie pozostałe wartości analizowanej cechy. I.1. Średnia arytmetyczna x = x 1 + x + + x n n = 1 n

Bardziej szczegółowo

ANALIZY WIELOZMIENNOWE

ANALIZY WIELOZMIENNOWE ANALIZY WIELOZMIENNOWE ANALIZA REGRESJI Charakterystyka: Rozszerzenie analizy korelacji o badanie zależności pomiędzy wieloma zmiennymi jednocześnie; Podstawowe zastosowanie (ale przez nas w tym momencie

Bardziej szczegółowo

Metoda Automatycznej Detekcji Interakcji CHAID

Metoda Automatycznej Detekcji Interakcji CHAID Metoda Automatycznej Detekcji Interakcji CHAID Metoda ta pozwala wybrać z konkretnego, dużego zbioru zmiennych te z nich, które najsilniej wpływają na wskazaną zmienną (objaśnianą) zmienne porządkowane

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31 Statystyka Wykład 8 Magdalena Alama-Bućko 10 kwietnia 2017 Magdalena Alama-Bućko Statystyka 10 kwietnia 2017 1 / 31 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817 Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817 Zadanie 1: wiek 7 8 9 1 11 11,5 12 13 14 14 15 16 17 18 18,5 19 wzrost 12 122 125 131 135 14 142 145 15 1 154 159 162 164 168 17 Wykres

Bardziej szczegółowo

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska Anna Stankiewicz Izabela Słomska Wstęp- statystyka w politologii Rzadkie stosowanie narzędzi statystycznych Pisma Karla Poppera

Bardziej szczegółowo

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34 Statystyka Wykład 9 Magdalena Alama-Bućko 24 kwietnia 2017 Magdalena Alama-Bućko Statystyka 24 kwietnia 2017 1 / 34 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia

Bardziej szczegółowo

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno WERYFIKACJA MODELI MODELE LINIOWE Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno ANALIZA KORELACJI LINIOWEJ to NIE JEST badanie związku przyczynowo-skutkowego, Badanie współwystępowania cech (czy istnieje

Bardziej szczegółowo

Teoria błędów. Wszystkie wartości wielkości fizycznych obarczone są pewnym błędem.

Teoria błędów. Wszystkie wartości wielkości fizycznych obarczone są pewnym błędem. Teoria błędów Wskutek niedoskonałości przyrządów, jak również niedoskonałości organów zmysłów wszystkie pomiary są dokonywane z określonym stopniem dokładności. Nie otrzymujemy prawidłowych wartości mierzonej

Bardziej szczegółowo

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy Załącznik nr 7 do Zarządzenia Rektora nr../12 z dnia.... 2012r. KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu Nazwa modułu Nazwa modułu w języku angielskim Obowiązuje od roku akademickiego 2017/2018 STATYSTYKA

Bardziej szczegółowo

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Kompresja danych Streszczenie Studia Dzienne Wykład 10, 1 Kwantyzacja wektorowa Kompresja danych Streszczenie Studia Dzienne Wykład 10, 28.04.2006 Kwantyzacja wektorowa: dane dzielone na bloki (wektory), każdy blok kwantyzowany jako jeden element danych. Ogólny

Bardziej szczegółowo

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( ) Statystyka Rozkład prawdopodobieństwa Testowanie hipotez Wykład III (04.01.2016) Rozkład t-studenta Rozkład T jest rozkładem pomocniczym we wnioskowaniu statystycznym; stosuje się go wyznaczenia przedziału

Bardziej szczegółowo

10. Podstawowe wskaźniki psychometryczne

10. Podstawowe wskaźniki psychometryczne 10. Podstawowe wskaźniki psychometryczne q analiza własności pozycji testowych q metody szacowania mocy dyskryminacyjnej q stronniczość pozycji testowych q własności pozycji testowych a kształt rozkładu

Bardziej szczegółowo

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski Statystyczna analiza danych w programie STATISTICA (wykład ) Dariusz Gozdowski Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW Weryfikacja (testowanie) hipotez statystycznych

Bardziej szczegółowo

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1. tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1

Bardziej szczegółowo

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej

Bardziej szczegółowo

KURS STATYSTYKA. Lekcja 2 Przedziały ufności i estymacja przedziałowa ZADANIE DOMOWE. www.etrapez.pl Strona 1

KURS STATYSTYKA. Lekcja 2 Przedziały ufności i estymacja przedziałowa ZADANIE DOMOWE. www.etrapez.pl Strona 1 KUR TATYTYKA Lekcja Przedziały ufności i estymacja przedziałowa ZADANIE DOMOWE www.etrapez.pl trona 1 Część 1: TET Zaznacz poprawną odpowiedź (tylko jedna jest prawdziwa). Pytanie 1 We wnioskowaniu statystycznym

Bardziej szczegółowo

1 Podstawy rachunku prawdopodobieństwa

1 Podstawy rachunku prawdopodobieństwa 1 Podstawy rachunku prawdopodobieństwa Dystrybuantą zmiennej losowej X nazywamy prawdopodobieństwo przyjęcia przez zmienną losową X wartości mniejszej od x, tzn. F (x) = P [X < x]. 1. dla zmiennej losowej

Bardziej szczegółowo

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, 诲 瞴瞶 瞶 ƭ0 ƭ 瞰 parametrów strukturalnych modelu Y zmienna objaśniana, = + + + + + X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, α 0, α 1, α 2,,α k parametry strukturalne modelu, k+1 parametrów

Bardziej szczegółowo

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę

Bardziej szczegółowo

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego

Bardziej szczegółowo

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA Powtórka Powtórki Kowiariancja cov xy lub c xy - kierunek zależności Współczynnik korelacji liniowej Pearsona r siła liniowej zależności Istotność

Bardziej szczegółowo

Temat zajęć: ANALIZA DANYCH ZBIORU EKSPORT. Część I: analiza regresji

Temat zajęć: ANALIZA DANYCH ZBIORU EKSPORT. Część I: analiza regresji Temat zajęć: ANALIZA DANYCH ZBIORU EKSPORT Część I: analiza regresji Krok 1. Pod adresem http://zsi.tech.us.edu.pl/~nowak/adb/eksport.txt znajdziesz zbiór danych do analizy. Zapisz plik na dysku w dowolnej

Bardziej szczegółowo

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe Typy zmiennych Graficzne reprezentacje danych Statystyki opisowe Jakościowe charakterystyka przyjmuje kilka możliwych wartości, które definiują klasy Porządkowe: odpowiedzi na pytania w ankiecie ; nigdy,

Bardziej szczegółowo

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna Regresja wieloraka Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować

Bardziej szczegółowo

Metody Eksploracji Danych. Klasyfikacja

Metody Eksploracji Danych. Klasyfikacja Metody Eksploracji Danych Klasyfikacja w wykładzie wykorzystano: 1. materiały dydaktyczne przygotowane w ramach projektu Opracowanie programów nauczania na odległość na kierunku studiów wyższych Informatyka

Bardziej szczegółowo

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y). Statystyka i opracowanie danych Ćwiczenia 12 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA WIELORAKA Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych

Bardziej szczegółowo

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak Wzory dla szeregu szczegółowego: Wzory dla szeregu rozdzielczego punktowego: ->Średnia arytmetyczna ważona -> Średnia arytmetyczna (5) ->Średnia harmoniczna (1) ->Średnia harmoniczna (6) (2) ->Średnia

Bardziej szczegółowo

Drzewa decyzyjne w SAS Enterprise Miner

Drzewa decyzyjne w SAS Enterprise Miner Drzewa decyzyjne w SAS Enterprise Miner Aneta Ptak-Chmielewska Instytut Statystyki i Demografii Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych www.sgh.waw.pl/zaklady/zahziaw 1 struktura ćwiczeń

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska BUDOWA DRZEW DECYZYJNYCH Drzewa decyzyjne są metodą indukcyjnego

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5.

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia

Bardziej szczegółowo

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART. Zaawansowane Metody Uczenia Maszynowego

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART. Zaawansowane Metody Uczenia Maszynowego WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART Zaawansowane Metody Uczenia Maszynowego Drzewa służą do konstrukcji klasyfikatorów prognozujących Y {1, 2,..., g} na podstawie p-wymiarowego wektora

Bardziej szczegółowo

Stosowana Analiza Regresji

Stosowana Analiza Regresji prostej Stosowana Wykład I 5 Października 2011 1 / 29 prostej Przykład Dane trees - wyniki pomiarów objętości (Volume), średnicy (Girth) i wysokości (Height) pni drzew. Interesuje nas zależność (o ile

Bardziej szczegółowo

Szkice rozwiązań z R:

Szkice rozwiązań z R: Szkice rozwiązań z R: Zadanie 1. Założono doświadczenie farmakologiczne. Obserwowano przyrost wagi ciała (przyrost [gram]) przy zadanych dawkach trzech preparatów (dawka.a, dawka.b, dawka.c). Obiektami

Bardziej szczegółowo

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY) STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY) Praca z danymi zaczyna się od badania rozkładu liczebności (częstości) zmiennych. Rozkład liczebności (częstości) zmiennej to jakie wartości zmienna

Bardziej szczegółowo

Inteligentna analiza danych

Inteligentna analiza danych Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki

Bardziej szczegółowo

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zad. 1 Średnia ocen z semestru letniego w populacji studentów socjologii w roku akademickim 2011/2012

Bardziej szczegółowo

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej 7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej Definicja 1 n-elementowa losowa próba prosta nazywamy ciag n niezależnych zmiennych losowych o jednakowych rozkładach

Bardziej szczegółowo

Wykład 3 Hipotezy statystyczne

Wykład 3 Hipotezy statystyczne Wykład 3 Hipotezy statystyczne Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu obserwowanej zmiennej losowej (cechy populacji generalnej) Hipoteza zerowa (H 0 ) jest hipoteza

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y

Bardziej szczegółowo

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski Literatura STATYSTYKA OPISOWA A. Aczel, Statystyka w Zarządzaniu, PWN, 2000 A. Obecny, Statystyka opisowa w Excelu dla szkół. Ćwiczenia praktyczne, Helion, 2002. A. Obecny, Statystyka matematyczna w Excelu

Bardziej szczegółowo

Rozkład normalny. Marcin Zajenkowski. Marcin Zajenkowski () Rozkład normalny 1 / 26

Rozkład normalny. Marcin Zajenkowski. Marcin Zajenkowski () Rozkład normalny 1 / 26 Rozkład normalny Marcin Zajenkowski Marcin Zajenkowski () Rozkład normalny 1 / 26 Rozkład normalny Krzywa normalna, krzywa Gaussa, rozkład normalny Rozkłady liczebności wielu pomiarów fizycznych, biologicznych

Bardziej szczegółowo

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku Przykład 2 Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku Sondaż sieciowy analiza wyników badania sondażowego dotyczącego motywacji w drodze do sukcesu Cel badania: uzyskanie

Bardziej szczegółowo

Analiza Statystyczna

Analiza Statystyczna Lekcja 5. Strona 1 z 12 Analiza Statystyczna Do analizy statystycznej wykorzystać można wbudowany w MS Excel pakiet Analysis Toolpak. Jest on instalowany w programie Excel jako pakiet dodatkowy. Oznacza

Bardziej szczegółowo

Graficzna prezentacja danych statystycznych

Graficzna prezentacja danych statystycznych Szkolenie dla pracowników Urzędu Statystycznego nt. Wybrane metody statystyczne w analizach makroekonomicznych Katowice, 12 i 26 czerwca 2014 r. Dopasowanie narzędzia do typu zmiennej Dobór narzędzia do

Bardziej szczegółowo