OD POJEDYNCZYCH DRZEW DO LOSOWEGO LASU
|
|
- Seweryna Kaczor
- 8 lat temu
- Przeglądów:
Transkrypt
1 OD POJEDYNCZYCH DRZEW DO LOSOWEGO LASU Tomasz Demski, StatSoft Polska Sp. z o.o. Zgłębianie danych (data mining) Obecnie coraz częściej dysponujemy dużą liczbą danych opisujących interesujące nas zjawisko lub proces. Z drugiej strony rosną wymagania odnośnie dokładności i trafności opisu czy modelu danego zjawiska. Dotyczy to zarówno zastosowań naukowo-badawczych, jak i wspierających bieżącą działalność rozmaitych przedsiębiorstw i organizacji. W rezultacie tradycyjne techniki analizy danych często przestają dawać zadowalające i użyteczne wyniki, a na popularności zyskuje zgłębianie danych (data mining). Najważniejsze różnice między zgłębianiem danych a tradycyjną statystyką to: w zgłębianiu danych hipotezy raczej formułujemy, a nie testujemy, mamy ograniczony wpływ na układ danych, stosujemy dane gromadzone w celu innym niż analiza danych, mamy ograniczone możliwości zaplanowania i przeprowadzenia doświadczenia, nie znamy i nie zakładamy postaci zależności, badamy duże zbiory danych, często stosujemy specjalne metody modelowania, model oceniamy pod kątem działania dla nowych danych. Podstawową cechą narzędzi zgłębiania danych jest możliwość odtworzenia nieznanego lub niezałożonego z góry wzorca zależności. Innymi słowy metody te są zdolne odtworzyć nieomal dowolną zależność między zmiennymi, jeśli tylko będziemy mieli odpowiednio dużo danych dobrej jakości. Proces znajdowania modelu w zgłębianiu danych nazywa się uczeniem, ponieważ w wielu metodach przebiega ono podobnie jak uczenie na przykładach znane z codziennego życia. Algorytmowi pokazuje się przykłady (dane), a on na ich podstawie ma być w stanie przewidywać wartości dla nowych danych. 66
2 ` Drzewa decyzyjne Wśród typowych metod data mining jedną z najpopularniejszych są drzewa decyzyjne. Metoda ta polega na podziale przestrzeni cech na rozłączne części (kostki), w których zmienna zależna przyjmuje pewną wartość, innymi słowy, części te są jednorodne ze względu na zmienną zależną. Podział odbywa się iteracyjnie: najpierw dzielimy przestrzeń cech według jednej zmiennej, a potem uzyskane w ten sposób zbiorowości podlegają kolejnym podziałom, aż do uzyskania jednorodnych segmentów lub do momentu, gdy dalsze podziały nie mają sensu, np. ze względu na liczność zbiorów podlegających podziałom. Wynikowy model przedstawiany jest w postaci drzewa. Dla przykładu rozważmy proste zadanie. Mamy koszyk różnych owoców i chcemy każdy z nich przypisać do jednego z trzech gatunków: jabłko, śliwka lub gruszka na podstawie ich masy, kształtu i koloru. Zatem zmienną zależną jest gatunek, predyktorami cechy owocu. Jak to zadanie zrealizują drzewa? Najpierw sprawdzą, która z tych cech umożliwia podzielenie wejściowego koszyka na najbardziej jednorodne części. W naszym przypadku na podstawie masy możemy oddzielić śliwki od dwóch pozostałych gatunków. Jeden z wynikowych zbiorów zawiera tylko śliwki i nie ma potrzeby dalej go dzielić, ale postaje nam drugi zbiór zawierający jabłka i gruszki. Ponieważ wszystkie jabłka mają przypisany taki sam kształt: kulisty, a mają różne kolory (a niektóre odmiany jabłek i gruszek mają taki sam kolor), to najlepszy podział uzyskamy, stosując warunek na kształt owocu. Zauważmy, że w wyniku takiej procedury dostaliśmy doskonały podział wszystkie wynikowe zbiory (węzły) zawierają tylko jeden gatunek owocu. 67
3 Nasz model, czyli regułę klasyfikowania nowych owoców do danego gatunku przedstawiamy w postaci drzewa takiego jak na rysunku poniżej. Zalety drzew to wspomniana już prostota i szybkość działania, ale również zdolność odtworzenia nieznanej, nieliniowej zależności. Użyteczność modelu dodatkowo poprawia możliwość zastosowania różnych kosztów błędnych klasyfikacji dla klas. Warto podkreślić to, że drzewo stanowi bardzo przejrzysty model. Dzięki temu jesteśmy w stanie określać przyczyny prowadzące do zaklasyfikowania obiektu do pewnej klasy, np. dla pewnej osoby mamy wysokie zagrożenie odejścia, ponieważ zgłosiła reklamację, która nie została uznana, ma stary aparat itd. Kolejną, bardzo ważną z praktycznego punktu widzenia zaletą jest radzenie sobie z obserwacjami odstającymi i zmiennymi bez znaczenia. Zalety te powodują, że dobrze jest zacząć analizę właśnie od drzew. Niestety drzewa mają też wady. Przede wszystkim ich odpowiedź ma skokowy charakter. Całemu segmentowi przypisujemy jedną wartość zmiennej zależnej. Dodatkowo drzewa działają na zasadzie ostrego cięcia : bardzo niewielka zamiana wartości jednej z cech może prowadzić do dużego skoku wartości przewidywanej, dokładnie takiego samego, jak znacznie większe przesunięcie. Drzewa nie są w stanie opisać złożonych zależności tak dokładnie, jak inne, bardziej skomplikowane procedury. Kolejną wadą drzew jest ich niestabilność: nawet niewielka zmiana danych (np. usunięcie kilku przypadków) może skutkować zupełnie innym drzewem. Zastanówmy się teraz, jak udoskonalić drzewa decyzyjne, tak aby zachować choć część ich zalet, a zmniejszyć wady. 68
4 ` Co dwie głowy, to nie jedna Pomysł jest bardzo prosty: zamiast stosować jedno drzewo, tworzymy ich wiele. Jako przewidywanie modelu stosujemy: średnią, gdy przewidujemy wartości liczbowe (np. zapotrzebowanie na energię elektryczną w danej godzinie), wynik głosowania zespołu drzew, gdy przewidujemy przynależność do klasy (np. zły kredyt ). Oczywiście drzewa w zespole powinny się różnić i dlatego budujemy je na różnych losowo utworzonych próbach. Takie podeście można uzasadnić w bardziej formalny sposób (zob. [1]). Przyjmijmy, że modelowana wielkość Y jest pewną funkcją zmiennych objaśniających (predyktorów) X, przy czym występuje pewne wahania losowe, o średniej 0 i wariancji σ ε 2 : Y = φ(x) + ε (1) Zauważmy, że w praktyce zawsze będziemy mieli do czynienia ze składnikiem (o σ ε 2 > 0), choćby ze względu na niepewność pomiaru Y. Jako miarę błędu przyjmijmy błąd kwadratowy. Wtedy w punkcie x 0 wartość oczekiwana błędu modelu M wyniesie 18 : B(x 0 ) = [Y M(x 0 )] 2 (2) M oznacza model dopasowany do danej próby uczącej i może się zmieniać wraz ze zmianą danych uczących. Jeśli podstawimy wzór na Y (1) do równania (2), to po kilku przekształceniach uzyskamy wyrażenie na błąd: B(x 0 ) = σ ε 2 + [ M(x 0 ) φ(x 0 )] 2 + M(x 0 ) M(x 0 ) 2 (3) Wyodrębniliśmy trzy składniki. Pierwszy z nich: σ ε 2, to błąd losowy lub naturalna zmienność procesu, której nie możemy zmniejszyć, stosując techniki modelowania. Drugi składnik: [ M(x 0 ) φ(x 0 )] 2 to kwadrat różnicy między wartością oczekiwaną przewidywań modeli (tworzonych dla różnych prób) a prawdziwą wartością. Składnik ten nazywamy obciążeniem (ang. bias). Zazwyczaj im bardzie złożony model, tym mniejsze jest obciążenie. Jest to zgodne ze zdrowym rozsądkiem: im bardziej złożony model, tym większa jest szansa, że wyłapiemy wszystkie przyczynowe zależności. Z drugiej strony znajdziemy też pewne przypadkowe, pozorne zależności, ale wartość oczekiwana powinna je wyśredniować do niewielkiej liczby. W trzecim składniku w (3) łatwo rozpoznać wariancję. Mierzy ona zmienność modeli. Zazwyczaj bardziej złożone modele cechują się większą wariancją. 18 Nawiasy oznaczają wartość oczekiwaną. 69
5 Chcemy uzyskać jak najmniejszy błąd modelu, jednak mamy problem: jeśli będziemy zwiększać złożoność modelu, to spadnie nam obciążenie, ale wzrośnie wariancja. Z kolei upraszczanie modelu redukuje wariancję, ale powoduje wzrost obciążenia. Jeśli jednak utworzymy zespół drzew, to obciążenie zespołu będzie takie, jak pojedynczego drzewa, natomiast wariancja spadnie (mamy tu analogię z wielokrotnym wykonywaniem pomiaru pewnej wielkości, np. długości). W idealnym przypadku, gdyby drzewa były całkowicie niezależne, to wariacja dla modelu zespołowego, spadłaby tyle razy, ile mamy drzew składowych. W rzeczywistości drzewa zawsze będą skorelowane, im większa jest korelacja, tym słabsze jest polepszenie modelu. W najprostszym przypadku, gdy wyznaczamy średnią N zmiennych o takim samy rozkładzie (z wariancją σ 2 ) i współczynniku korelacji dla każdej z par równym ρ, wariancja średniej wyniesie ([1]): Var(M śr ) = ρσ ρ N σ2 (4) Podsumowując nasze rozważania, możemy zaproponować następujące rozwiązanie: tworzymy zespół złożonych drzew, tak aby uzyskać jak najmniejsze obciążenie, staramy się uzyskać drzewa jak najbardziej niezależne od siebie, aby zmniejszyć wariancję modelu. Niezależność drzew składowych uzyskujemy, ucząc je na próbach powstałych przez losowanie ze zwracaniem ze zbioru, którym dysponujemy. Aby dodatkowo zmniejszyć korelację między drzewami, przed znajdowaniem każdego podziału w drzewie losujemy pewną liczbę zmiennych objaśniających spośród wszystkich dostępnych w danych. Następnie najlepszy podział znajdujemy, korzystając tylko z tych wylosowanych zmiennych (pozostałe pomijamy). Zauważmy, że w wielu przypadkach losując zmienne dla każdego podziału, a nie stosując wszystkie dostępne cechy, w modelu rzeczywiście wykorzystamy wszystkie zmienne. Wyobraźmy sobie, że mamy dwie skorelowane zmienne objaśniające. Jeśli jedna z nich prowadzi do lepszych podziałów, to właśnie ona zawsze będzie wybierana do drzew, niezależnie od losowego wyboru przypadków do analizy. W ten sposób w modelu korzystamy tylko z jednej z tych zmiennych. Natomiast jeśli przed znajdowaniem podziału losujemy predyktory, to dajemy szansę słabszej zmiennej na wejście do modelu. Opisane powyżej postępowanie nosi nazwę losowego lasu (ang. random forest). Zostało ono zaproponowane przez Breimana [2]. Drzewa składające się na losowy las uzyskujemy w następujący sposób: 1. Wylosuj ze zwracaniem podzbiór danych (przypadków) z dostępnej próby uczącej. 2. Utwórz drzewo dla wylosowanego podzbioru. - Sprawdź, czy dzielony zbiór jest jednorodny lub zbyt mały, aby go dzielić. - Wylosuj pewną liczbę zmiennych objaśniających. - Znajdź najlepszy podział z wykorzystaniem wylosowanego podzbioru zmiennych. - Podziel zbiór na dwie części i dla każdej z nich przejdź do punktu
6 ` 3. Jeśli liczba drzew osiągnęła zadane maksimum lub błąd w próbie testowej przestał maleć zakończ uczenie, jeśli nie to przejdź do punktu 1. Najważniejsze zalety losowego lasu, to: Odporność na rozmaite problemy z danymi: braki danych, zmienne objaśniające bez znaczenia, powiązanie zmiennych objaśniających, duża liczba zmiennych objaśniających, wartości odstające. Możliwość dokładniejszego odtworzenia złożonych zależności, niż są to w stanie zrobić drzewa decyzyjne. Siła predykcyjna losowego lasu jest zwykle nieco mniejsza, ale porównywalna ze wzmacnianiem i sieciami neuronowymi (zob. [1]). Odporność na przeuczenie (autor metody twierdzi, że przeuczenie w ogóle nie występuje, co wydaje się zbyt optymistycznym stwierdzeniem, zob. [1] i [3]). Stabilność. Możliwość wykrycia interakcji między zmiennymi. Możliwość określenia różnych kosztów błędnych klasyfikacji. Losowy las jest popularny w badaniach genetycznych (analiza mikromacierzy), przewidywaniu aktywności biologicznej cząsteczek (QSAR), analizie dokumentów tekstowych, zdjęć, analizach przestrzennych itp. tam gdzie mamy do czynienia z dużą liczbą cech. Przykład Przedmiotem naszej analizy będą raporty o wypadkach lotniczych z lat opracowane przez National Transportation Safety Board (amerykańską agencję rządową zajmującą się bezpieczeństwem transportu). Przykładowy źródłowy raport widzimy na rysunku poniżej. 71
7 Na podstawie takiego raportu będziemy chcieli przewidzieć, czy wśród pasażerów i załogi ktoś odniósł poważne obrażenia. Pierwszym krokiem analizy był text mining, dzięki któremu przekształciliśmy pozbawione struktury dokumenty tekstowe w arkusz ze zmiennymi liczbowymi. Każdy dokument został scharakteryzowany pewną miarą częstości występowania w nim słów, tzw. odwrotną częstością dokumentową (ang. inverse document frequency, IDF). Wielkość ta uwzględnia zarówno liczbę wystąpień danego słowa w danym dokumencie (n), jak i stosunek liczby wszystkich dokumentów do częstości dokumentów, w których słowo wystąpiło (f). Poniżej widzimy wzór na odwrotną częstość dokumentową (IDF). 0; gdy n 0 IDF 1 (5) 1 ln( n) ln ; gdy n 0 f Po przygotowaniu danych, redukcji do rdzenia itp. dokumenty zostały opisane przez IDF dla 200 słów. Wstępne przetworzenie dokumentów opisane jest w artykule Czy leciał z nami pilot, czyli text mining na przykładzie opisów wypadków lotniczych zawartym w [5] oraz w podręczniku [4]. Oprócz wyników przetworzenia opisów w modelu wykorzystamy również informację o warunkach lotu (pogoda i widoczność), typie samolotu i rodzaju lotu. Ostatecznie mamy 204 zmienne objaśniające na ich podstawie będziemy tworzyć model. Zauważmy, że nasze zadanie jest bardzo trudne: na podstawie samego opisu wypadku pisanego luźnym tekstem i kilku zmiennych dodatkowych, chcemy przewidzieć, czy ktoś odniósł poważne obrażenia. W naszym zadaniu napotkamy też mnóstwo trudności technicznych: bardzo dużą liczbę zmiennych o nietypowych rozkładach. Wydaje się, że do rozwiązania problemu odpowiedni będzie losowy las. Model tworzymy w STATISTICA Data Miner. Po otwarciu pliku danych naciskamy przycisk Losowy las na karcie Data mining wstążki. Na ekranie pojawi się okno: Wybieramy tu rodzaj zadania. My przewidujemy przynależność do klasy: wystąpiły poważne obrażenia lub nie. Oznacza to że mamy do rozwiązania zadanie klasyfikacyjne. Po wybraniu rodzaju zadania na karcie Podstawowe okna Ustawienia losowego lasu określamy zmienne do analizy (zob. poniżej). 72
8 ` W naszym przykładzie tylko w ok. 15% przypadków wystąpiły poważne obrażenia. Aby uzyskać użyteczny model określamy różne koszty błędnych klasyfikacji dla klas Tak i Nie. Zwykle koszty te ustala się metodą prób i błędów w naszym przypadku odpowiednie koszty to 1 do 2,5 (tzn. błędne przypisanie do klasy Nie obiektu w rzeczywistości należącego do klasy Tak, powoduje dwuipółkrotnie większą karę niż przeciwny błąd). 73
9 Koszty błędów ustalamy po wciśnięciu przycisku Użytkownika w polu Koszty błędnych klasyfikacji i kliknięciu przycisku na karcie Klasyfikacja. Na ekranie pojawi się okno, w którym wpisujemy koszty błędnych klasyfikacji. Na karcie Więcej określamy ustawienia poszukiwania modelu. Pozostawimy domyślną liczbę predyktorów losowanych dla każdego podziału równą 8. Natomiast zmienimy Minimalną liczność i Minimalną liczność potomka na 5 i 2. W literaturze można spotkać różne sugestie odnoszące się do ustawień tych parametrów. W zadaniach klasyfikacyjnych zaleca się, żeby liczba losowanych predyktorów była równa pierwiastkowi z liczby zmiennych objaśniających w zbiorze danych, a minimalna liczność węzła powinna być 1 ([1]). Dobrze jest wykonać tu kilka eksperymentów i znaleźć najlepszą wartość dla naszego zadania. Dane podzielimy na próbę ucząca i testową według wartości zmiennej Próba. 74
10 ` Po kliknięciu przycisku OK w oknie Ustawienia losowego lasu rozpocznie się tworzenie modelu. Program domyślnie tworzy 100 drzew i kończy proces uczenia. Na poniższym rysunku widzimy, jak zmieniał się błąd w próbie uczącej i testowej. Wydaje się, że warto rozbudować model o kolejne 100 drzew wystarczy w tym celu kliknąć przycisk Więcej drzew w oknie Wyniki losowego lasu. Dobroć modelu możemy ocenić za pomocą macierzy pomyłek (ang. confusion matrix) w próbie testowej. Obserwowana Klasa przewid. Nie Klasa przewid. Tak Łącznie w wierszu Procent z kolumny 95.37% 49.47% Nie Procent z wiersza 89.62% 10.38% Procent z ogółu 77.96% 9.03% 86.99% Procent z kolumny 4.63% 50.53% Tak Procent z wiersza 29.10% 70.90% Procent z ogółu 3.79% 9.22% 13.01% Ogół grup Procent łącznie 81.75% 18.25% Jak widać, model ma zadowalającą trafność. Frakcja błędów liczona ogółem wynosi około 13%. Spośród wszystkich wypadków z poważnymi obrażeniami (obserwowana klasa Tak), model wychwycił około 71%. Jednocześnie w grupie wypadków wskazanych przez model 75
11 jako prowadzące do obrażeń w około 51% przypadków faktycznie takie obrażenia wystąpiły: jest to ponad 3 razy więcej niż przy czysto losowym wyborze. Innym sposobem oceny trafności i użyteczności modelu jest wykres przyrostu (ang. lift chart). Pokazuje on, o ile częściej w grupie wskazanej przez model występuje klasa Tak, w porównaniu z cała zbiorowością, w zależności od stopnia pewności modelu. Na poniższym wykresie widać, że przyrost dla percentyla 10 wynosi prawie 4,4 (co oznacza, że w grupie przypadków, dla których wyznaczone z modelu prawdopodobieństwo przynależności do klasy Tak należy do górnych 10%, mamy o 4,4 razy większą gęstość przypadków rzeczywiście należących do klasy Tak, niż w całym zbiorze). Ponadto krzywa przyrostu łagodnie spada w dół, tak jak powinno to być dla dobrego modelu. Używając zwykłego algorytmu C&RT przy takich samych kosztach błędnych klasyfikacji i ustawieniach domyślnych STATISTICA, uzyskujemy model, który ma frakcję błędów w próbie testowej wynoszącą około 22%, a maksymalny przyrost dla klasy Tak równy 3,8. Literatura 1. Hastie, T., Tibshirani R., Friedman J., 2009, The Elements of Statistical Learning, Springer-Verlag. 2. Breiman, L. (2001), Random forests, Machine Learning 45: Breiman, L., Cutler, A., Random Forests, RandomForests. 4. Nisbet, R., Elder, J., Miner, G. (2009), Statistical Analysis and Data Mining Applications, Elsevier. 5. Zastosowania statystyki i data mining, (2006), StatSoft Polska. 76
Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.
Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru
Rozstęp Pozycyjne Odchylenie ćwiartkowe Współczynnik zmienności
Miary zmienności: Miary zmienności Klasyczne Wariancja Odchylenie standardowe Odchylenie przeciętne Współczynnik zmienności Rozstęp Pozycyjne Odchylenie ćwiartkowe Współczynnik zmienności 2 Spróbujmy zastanowić
Analiza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.
Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru
TWORZENIE I STOSOWANIE MODELU DATA MINING ZA POMOCĄ PRZEPISÓW STATISTICA DATA MINER NA PRZYKŁADZIE WYKRYWANIA NADUŻYĆ
TWORZENIE I STOSOWANIE MODELU DATA MINING ZA POMOCĄ PRZEPISÓW STATISTICA DATA MINER NA PRZYKŁADZIE WYKRYWANIA NADUŻYĆ Tomasz Demski, StatSoft Polska Sp. z o.o. Narzędzia zgłębiania danych (data mining)
Wprowadzenie do analizy korelacji i regresji
Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących
ALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji
Statystyka i opracowanie danych Ćwiczenia 5 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ MODEL REGRESJI LINIOWEJ Analiza regresji
Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
Drzewa decyzyjne i lasy losowe
Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM
Optymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
Weryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta
ALGORYTMY SZTUCZNEJ INTELIGENCJI
ALGORYTMY SZTUCZNEJ INTELIGENCJI Sieci neuronowe 06.12.2014 Krzysztof Salamon 1 Wstęp Sprawozdanie to dotyczy ćwiczeń z zakresu sieci neuronowych realizowanym na przedmiocie: Algorytmy Sztucznej Inteligencji.
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Testowanie hipotez statystycznych. Wnioskowanie statystyczne
Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy
Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji
Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Jacek Szcześniak Jerzy Błaszczyński Roman Słowiński Poznań, 5.XI.2013r. Konspekt Wstęp Wprowadzenie Metody typu wrapper Nowe metody
Sieci neuronowe w Statistica
http://usnet.us.edu.pl/uslugi-sieciowe/oprogramowanie-w-usk-usnet/oprogramowaniestatystyczne/ Sieci neuronowe w Statistica Agnieszka Nowak - Brzezińska Podstawowym elementem składowym sztucznej sieci neuronowej
LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU
LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU Tomasz Demski, StatSoft Polska Sp. z o.o. Wprowadzenie Jednym z elementów walidacji metod pomiarowych jest sprawdzenie liniowości
Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
Hierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.
ANALIZA SKUPIEŃ Metoda k-means I. Cel zadania Zadaniem jest analiza zbioru danych, gdzie zmiennymi są poziomy ekspresji genów. Podczas badań pobrano próbki DNA od 36 różnych pacjentów z chorobą nowotworową.
Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016
Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład I dr inż. Bogumil.Konopka@pwr.edu.pl 2015/2016 1 Wykład I - plan Sprawy organizacyjne Uczenie maszynowe podstawowe pojęcia Proces modelowania
Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński
Mikroekonometria 5 Mikołaj Czajkowski Wiktor Budziński Zadanie 1. Wykorzystując dane me.medexp3.dta przygotuj model regresji kwantylowej 1. Przygotuj model regresji kwantylowej w którym logarytm wydatków
ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA
ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA Jan Mielniczuk Wisła, grudzień 2009 PLAN Błędy predykcji i ich podstawowe estymatory Estymacja błędu predykcji w modelu liniowym. Funkcje kryterialne Własności
TWORZENIE I STOSOWANIE MODELU PROGNOSTYCZNEGO Z WYKORZYSTANIEM STATISTICA ENTERPRISE
TWORZENIE I STOSOWANIE MODELU PROGNOSTYCZNEGO Z WYKORZYSTANIEM STATISTICA ENTERPRISE Tomasz Demski, StatSoft Polska Sp. z o.o. Wprowadzenie Badanie przebiegu rozmaitych wielkości w czasie w celu znalezienia
STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.
STATYSTYKA MATEMATYCZNA WYKŁAD 4 WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X. Wysuwamy hipotezy: zerową (podstawową H ( θ = θ i alternatywną H, która ma jedną z
PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com
Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych
( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:
ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość
METODY STATYSTYCZNE W BIOLOGII
METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne
Testowanie hipotez statystycznych.
Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część
Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część populacji, którą podaje się badaniu statystycznemu
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki
Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie
Wprowadzenie Konstrukcja binarnych drzew klasyfikacyjnych polega na sekwencyjnym dzieleniu podzbiorów przestrzeni próby X na dwa rozłączne i dopełniające się podzbiory, rozpoczynając od całego zbioru X.
Rozkład Gaussa i test χ2
Rozkład Gaussa jest scharakteryzowany dwoma parametramiwartością oczekiwaną rozkładu μ oraz dyspersją σ: METODA 2 (dokładna) polega na zmianie zmiennych i na obliczeniu pk jako różnicy całek ze standaryzowanego
Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński
Wstęp do teorii niepewności pomiaru Danuta J. Michczyńska Adam Michczyński Podstawowe informacje: Strona Politechniki Śląskiej: www.polsl.pl Instytut Fizyki / strona własna Instytutu / Dydaktyka / I Pracownia
Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.
Zadania ze statystyki cz. 8 I rok socjologii Zadanie 1. W potocznej opinii pokutuje przekonanie, że lepsi z matematyki są chłopcy niż dziewczęta. Chcąc zweryfikować tę opinię, przeprowadzono badanie w
Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb
Współzależność Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę
Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1
Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie
Zadania ze statystyki cz.8. Zadanie 1.
Zadania ze statystyki cz.8. Zadanie 1. Wykonano pewien eksperyment skuteczności działania pewnej reklamy na zmianę postawy. Wylosowano 10 osobową próbę studentów, których poproszono o ocenę pewnego produktu,
Testowanie hipotez statystycznych
9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :
METODY STATYSTYCZNE W BIOLOGII
METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl
Testowanie hipotez statystycznych
Temat Testowanie hipotez statystycznych Kody znaków: Ŝółte wyróŝnienie nowe pojęcie pomarańczowy uwaga kursywa komentarz 1 Zagadnienia omawiane na zajęciach 1. Idea i pojęcia teorii testowania hipotez
Elementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych
Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zad. 1 Średnia ocen z semestru letniego w populacji studentów socjologii w roku akademickim 2011/2012
ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x
ZJAZD 4 KORELACJA, BADANIE NIEZALEŻNOŚCI, ANALIZA REGRESJI Analiza korelacji i regresji jest działem statystyki zajmującym się badaniem zależności i związków pomiędzy rozkładami dwu lub więcej badanych
PRZEWIDYWANIE WŁAŚCIWOŚCI PRODUKTU Z WYKORZYSTANIEM UCZENIA MASZYN
PRZEWIDYWANIE WŁAŚCIWOŚCI PRODUKTU Z WYKORZYSTANIEM UCZENIA MASZYN Tomasz Demski, StatSoft Polska Sp. z o.o. Przewidywanie właściwości produktu na podstawie składu surowcowego oraz parametrów przebiegu
METODY STATYSTYCZNE W BIOLOGII
METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne
Dopasowywanie modelu do danych
Tematyka wykładu dopasowanie modelu trendu do danych; wybrane rodzaje modeli trendu i ich właściwości; dopasowanie modeli do danych za pomocą narzędzi wykresów liniowych (wykresów rozrzutu) programu STATISTICA;
Testowanie hipotez statystycznych
Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom
HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =
HISTOGRAM W pewnych przypadkach interesuje nas nie tylko określenie prawdziwej wartości mierzonej wielkości, ale także zbadanie całego rozkład prawdopodobieństwa wyników pomiarów. W takim przypadku wyniki
TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.
TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy. Hipotezy dzielimy na parametryczne i nieparametryczne. Zajmiemy
Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość
Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę
PRZYKŁAD PROGNOZOWANIA Z WYKORZYSTANIEM METOD DATA MINING
PRZYKŁAD PROGNOZOWANIA Z WYKORZYSTANIEM METOD DATA MINING Tomasz Demski, StatSoft Polska Sp. z o.o. Wprowadzenie Prognozowanie jest jednym z najczęściej występujących zadań analizy danych któż nie chciałby
Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33
Statystyka Wykład 4 Magdalena Alama-Bućko 19 marca 2018 Magdalena Alama-Bućko Statystyka 19 marca 2018 1 / 33 Analiza struktury zbiorowości miary położenia ( miary średnie) miary zmienności (rozproszenia,
Klasyfikator liniowy Wstęp Klasyfikator liniowy jest najprostszym możliwym klasyfikatorem. Zakłada on liniową separację liniowy podział dwóch klas między sobą. Przedstawia to poniższy rysunek: 5 4 3 2
Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA
Wykład 4: Wnioskowanie statystyczne Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA Idea wnioskowania statystycznego Celem analizy statystycznej nie jest zwykle tylko
LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej
LABORATORIUM 3 Przygotowanie pliku (nazwy zmiennych, export plików.xlsx, selekcja przypadków); Graficzna prezentacja danych: Histogramy (skategoryzowane) i 3-wymiarowe; Wykresy ramka wąsy; Wykresy powierzchniowe;
Sposoby prezentacji problemów w statystyce
S t r o n a 1 Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki
8. Drzewa decyzyjne, bagging, boosting i lasy losowe
Algorytmy rozpoznawania obrazów 8. Drzewa decyzyjne, bagging, boosting i lasy losowe dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Drzewa decyzyjne Drzewa decyzyjne (ang. decision trees), zwane
Analiza statystyczna trudności tekstu
Analiza statystyczna trudności tekstu Łukasz Dębowski ldebowsk@ipipan.waw.pl Problem badawczy Chcielibyśmy mieć wzór matematyczny,...... który dla dowolnego tekstu...... na podstawie pewnych statystyk......
Przykładowa analiza danych
Przykładowa analiza danych W analizie wykorzystano dane pochodzące z publicznego repozytorium ArrayExpress udostępnionego na stronach Europejskiego Instytutu Bioinformatyki (http://www.ebi.ac.uk/). Zbiór
Metody probabilistyczne
Metody probabilistyczne 13. Elementy statystki matematycznej I Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 17.01.2019 1 / 30 Zagadnienia statystki Przeprowadzamy
Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu
Wykład 11-12 Centralne twierdzenie graniczne Statystyka matematyczna: Estymacja parametrów rozkładu Centralne twierdzenie graniczne (CTG) (Central Limit Theorem - CLT) Centralne twierdzenie graniczne (Lindenberga-Levy'ego)
Agnieszka Nowak Brzezińska
Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia
REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ
REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ Korelacja oznacza fakt współzależności zmiennych, czyli istnienie powiązania pomiędzy nimi. Siłę i kierunek powiązania określa się za pomocą współczynnika korelacji
SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006
SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu
Testowanie modeli predykcyjnych
Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności
Statystyka matematyczna dla leśników
Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje
Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość
Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego
Zmienne zależne i niezależne
Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }
Zadania ze statystyki, cz.6
Zadania ze statystyki, cz.6 Zad.1 Proszę wskazać, jaką część pola pod krzywą normalną wyznaczają wartości Z rozkładu dystrybuanty rozkładu normalnego: - Z > 1,25 - Z > 2,23 - Z < -1,23 - Z > -1,16 - Z
PODSTAWOWE ANALIZY I WIZUALIZACJA Z WYKORZYSTANIEM MAP W STATISTICA
PODSTAWOWE ANALIZY I WIZUALIZACJA Z WYKORZYSTANIEM MAP W STATISTICA Krzysztof Suwada, StatSoft Polska Sp. z o.o. Wstęp Wiele różnych analiz dotyczy danych opisujących wielkości charakterystyczne bądź silnie
Prawdopodobieństwo i statystyka r.
Zadanie. Niech (X, Y) ) będzie dwuwymiarową zmienną losową, o wartości oczekiwanej (μ, μ, wariancji każdej ze współrzędnych równej σ oraz kowariancji równej X Y ρσ. Staramy się obserwować niezależne realizacje
Statystyka i Analiza Danych
Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014 Zastosowania wybranych technik regresyjnych do modelowania współzależności zjawisk Janusz Wątroba StatSoft Polska Centrum Zastosowań Matematyki
LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.
LABORATORIUM 4 1. Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz. I) WNIOSKOWANIE STATYSTYCZNE (STATISTICAL INFERENCE) Populacja
Wykład 4: Statystyki opisowe (część 1)
Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można
CZY LECIAŁ Z NAMI PILOT, CZYLI TEXT MINING NA PRZYKŁADZIE OPISÓW WYPADKÓW LOTNICZYCH
CZY LECIAŁ Z NAMI PILOT, CZYLI TEXT MINING NA PRZYKŁADZIE OPISÓW WYPADKÓW LOTNICZYCH Tomasz Demski, StatSoft Polska Sp. z o.o. Wstęp Text mining to zbiór koncepcji, metod oraz zaimplementowanych w postaci
Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).
Statystyka i opracowanie danych Ćwiczenia 12 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA WIELORAKA Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych
Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU
Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów
Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.
Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl Hipotezy i Testy statystyczne Każde
Rozdział 8. Regresja. Definiowanie modelu
Rozdział 8 Regresja Definiowanie modelu Analizę korelacji można traktować jako wstęp do analizy regresji. Jeżeli wykresy rozrzutu oraz wartości współczynników korelacji wskazują na istniejąca współzmienność
Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa
Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący
Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska
Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska Anna Stankiewicz Izabela Słomska Wstęp- statystyka w politologii Rzadkie stosowanie narzędzi statystycznych Pisma Karla Poppera
Wykład 3 Hipotezy statystyczne
Wykład 3 Hipotezy statystyczne Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu obserwowanej zmiennej losowej (cechy populacji generalnej) Hipoteza zerowa (H 0 ) jest hipoteza
TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.
TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy. Hipotezy dzielimy na parametryczne i nieparametryczne. Zajmiemy
Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH
WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH Było: Estymacja parametrów rozkładu teoretycznego punktowa przedziałowa Przykład. Cecha X masa owocu pewnej odmiany. ZałoŜenie: cecha X ma w populacji rozkład
Pobieranie prób i rozkład z próby
Pobieranie prób i rozkład z próby Marcin Zajenkowski Marcin Zajenkowski () Pobieranie prób i rozkład z próby 1 / 15 Populacja i próba Populacja dowolnie określony zespół przedmiotów, obserwacji, osób itp.
Ćwiczenie 12. Metody eksploracji danych
Ćwiczenie 12. Metody eksploracji danych Modelowanie regresji (Regression modeling) 1. Zadanie regresji Modelowanie regresji jest metodą szacowania wartości ciągłej zmiennej celu. Do najczęściej stosowanych
parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,
诲 瞴瞶 瞶 ƭ0 ƭ 瞰 parametrów strukturalnych modelu Y zmienna objaśniana, = + + + + + X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, α 0, α 1, α 2,,α k parametry strukturalne modelu, k+1 parametrów
Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne
Wykład 4 Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym 2. Rozkłady próbkowe 3. Centralne twierdzenie graniczne Przybliżenie rozkładu dwumianowego rozkładem normalnym Niech Y ma rozkład
Testowanie hipotez statystycznych
Testowanie hipotez statystycznych Przypuśdmy, że mamy do czynienia z następującą sytuacją: nieznany jest rozkład F rządzący pewnym zjawiskiem losowym. Dysponujemy konkretną próbą losową ( x1, x2,..., xn
Testowanie hipotez statystycznych cd.
Temat Testowanie hipotez statystycznych cd. Kody znaków: żółte wyróżnienie nowe pojęcie pomarańczowy uwaga kursywa komentarz 1 Zagadnienia omawiane na zajęciach 1. Przykłady testowania hipotez dotyczących:
Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28
Statystyka #5 Testowanie hipotez statystycznych Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik rok akademicki 2016/2017 1 / 28 Testowanie hipotez statystycznych 2 / 28 Testowanie hipotez statystycznych
STATYSTYKA MATEMATYCZNA
STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5.
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych