1 Testy statystyczne. 2 Rodzaje testów

Podobne dokumenty
1 Testy statystyczne. 2 Rodzaje testów

1 Rozk ad normalny. Szczególnym przypadkiem jest standardowy rozk ad normalny N (0; 1), wartości

1 Praktyczne metody wyznaczania podstawowych miar bez zastosowania komputerów

1 Analiza wariancji H 1 : 1 6= 2 _ 1 6= 3 _ 1 6= 4 _ 2 6= 3 _ 2 6= 4 _ 3 6= 4

Pochodne cz ¾astkowe i ich zastosowanie.

Wyk ad II. Stacjonarne szeregi czasowe.

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

1 Testy statystyczne. 2 Rodzaje testów

1 Wieloczynnikowa analiza wariancji

1 Miary asymetrii i koncentracji

Funkcje dwóch zmiennych

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Ekstrema funkcji wielu zmiennych.

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

1 Praktyczne metody wyznaczania podstawowych miar przy zastosowaniu programu EXCEL

Równania ró znicowe wg A. Ostoja - Ostaszewski "Matematyka w ekonomii. Modele i metody".

1 Próba a populacja. Nasze rozwa zania zaczniemy od przedyskutowania podstawowych poj ¾eć statystycznych,

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

1 Poj ¾ecie szeregu czasowego

STATYSTYKA

Statystyka matematyczna dla leśników

Bardzo silnie z poj ¾eciem populacji statystycznej zwiazane ¾ jest poj ¾ecie próby statystycznej.

O zgodności procedur jednoczesnego testowania zastosowanych do problemu selekcji zmiennych w modelu liniowym

1 Wieloczynnikowa analiza wariancji ciag ¾ dalszy

Statystyka w analizie i planowaniu eksperymentu

Wykład 10 Testy jednorodności rozkładów

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

Statystyka w analizie i planowaniu eksperymentu

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

Weryfikacja hipotez statystycznych

Testowanie hipotez statystycznych

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Wyznaczniki, macierz odwrotna, równania macierzowe

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Testy nieparametryczne

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Ocena ryzyka kredytowego

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Wydział Matematyki. Testy zgodności. Wykład 03

Przykład 1. (A. Łomnicki)

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Statystyka w analizie i planowaniu eksperymentu

Wykład 3 Hipotezy statystyczne

Konkurs Matematyczny, KUL, 30 marca 2012 r.

Rozkłady statystyk z próby

1 Rekodowanie w podgrupach i obliczanie wartości w podgrupach

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Porównanie modeli statystycznych. Monika Wawrzyniak Katarzyna Kociałkowska

Estymacja punktowa i przedziałowa

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Testowanie hipotez statystycznych.

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

1 Regresja liniowa cz. I

Hierarchiczna analiza skupień

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Testowanie hipotez statystycznych

Wykład 9 Testy rangowe w problemie dwóch prób

Testowanie hipotez statystycznych.

Elementy statystyki STA - Wykład 5

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).

Statystyczna analiza danych z wykorzystaniem pakietów SPSS i Statistica Skrypt dla studentów 2012 rok

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

Statystyka i opracowanie danych - W 4: Wnioskowanie statystyczne. Weryfikacja hipotez statystycznych. Dr Anna ADRIAN Paw B5, pok407

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Analiza wariancji. dr Janusz Górczyński

166 Wstęp do statystyki matematycznej

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Wprowadzenie do równań ró znicowych i ró zniczkowych.

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Zadania ze statystyki, cz.6

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

LABORATORIUM 9 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Testowanie hipotez cz. I

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

1 Estymacja przedziałowa

Rozkład zmiennej losowej Polega na przyporządkowaniu każdej wartości zmiennej losowej prawdopodobieństwo jej wystąpienia.

Testy post-hoc. Wrocław, 6 czerwca 2016

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Transkrypt:

1 Testy statystyczne Podczas sprawdzania hipotez statystycznych moga¾ wystapić ¾ dwa rodzaje b ¾edów. Prawdopodobieństwo b ¾edu polegajacego ¾ na odrzuceniu hipotezy zerowej (H 0 ), gdy jest ona prawdziwa, czyli tzw. b ¾edu I rodzaju określa si ¾e zazwyczaj przez ; natomiast p-stwo pope nienia b ¾edu II rodzaju polegajacego ¾ na przyj ¾eciu hipotezy zerowej, gdy jest ona fa szywa określa si ¾e symbolem Przedstawimy teraz ogólny schemat przebiegu procedury wery kacyjnej Sformu owanie hipotezy zerowej i alternatywnej + Wybór statystyki testowej + Określenie poziomu istotności + Wyznaczenie obszaru krytycznego testu + Obliczenie statystyki na podstawie próby + Nie odrzucać H 0 (= Podj¾ecie decyzji =) Odrzucić H 0 + + Wnioskujemy, ze H 0 mo ze być prawdziwa Wnioskujemy, ze H 1 jest prawdziwa Rodzaje testów Testy parametryczne najcz ¾eściej wery kuja¾ sady ¾ o takich parametrach populacji, jak średnia arytmetyczna, wskaźnik struktury i wariancja. Testy te sa¾ konstruowane przy za o zeniu znajomości dystrybuanty w populacji generalnej. Wi ¾ekszość z nich zak ada, ze rozk ad badanej cechy w populacji jest rozk adem normalnym. Testy nieparametryczne nie wymuszaja ¾ zadnych za o zeń dotyczacych ¾ postaci badanych zmiennych w populacji, w zwiazku ¾ z tym cz¾esto sa¾ określane mianem testów niezwiazanych ¾ z rozk adem. S u z a¾ one do wery kacji ró znorodnych hipotez dotyczacych, ¾ m. in. zgodności rozk adu cechy w populacji z określonym rozk adem teoretycznym, zgodności rozk adów w dwóch populacjach, a tak ze chocia zby losowości wyboru próby. W szczególnych przypadkach dla ma ych prób i rozk adów nienormalnych zast ¾epuja¾ testy parametryczne. Schemat rozwa zanych w dalszej w cz ¾eści testów przedstawia si ¾e nast ¾epujaco ¾ 1

1) testy s u z ace ¾ do wery kacji w asności populacji jednowymiarowych Testy porównujace ¾ oceny parametrów ze wzorcem =) Testy parametryczne - test dla średniej - test dla poporcji - test dla wariancji Testy oceniajace ¾ zgodność rozk adu empirycznego z teoretycznym =) Testy nieparametryczne test zgodności test zgodności Ko mogorowa test serii (= Testy oceniaj ace ¾ losowość próby ) test s u z ace ¾ do porównywania w asności dwóch populacji Testy porównujace ¾ oceny parametrów z dwóch prób + Testy parametryczne - testy dla dwóch średnich - testy dla dwóch proporcji - testy dla dwóch wariancji Testy oceniajace ¾ zgodność dwóch rozk adów empirycznych + Testy nieparametryczne - test Ko mogorowa-smirnowa - test jednorodności - test mediany - test serii - test znaków.1 Testy dla populacji jednowymiarowej Poni zej przedstawimy przeglad ¾ najwa zniejszych testów stosowanych do wery- kacji hipotez o w asnościach populacji jednowymiarowej.

.1.1 Testy dla średniej W testach dla średniej wery kacji poddaje si ¾e hipotez ¾e zerowa¾ postaci H 0 = 0 wobec hipotezy alternatywnej, która przyjmuje jedna¾ z trzech postaci H 1 6= 0 lub > 0 lub < 0 Statystyka testowa zale zy od trzech czynników - rozk adu cechy w populacji - znajomości odchylenia standardowego w populacji - liczebności próby Test I. W teście tym zak adamy, ze badana cecha ma rozk ad normalny o nieznanej średniej, jednak ze znanym odchyleniu, tzn. X N (; ), nieznane, znane, ponadto liczebność próby jest bez znaczenia. Jako statystyk¾e testowa¾ stosujemy wówczas statystyk¾e Z = X 0 p = X 0 p n n Decyzj¾e o odrzuceniu H 0 podejmujemy w zale zności od tego czy obliczona wartość statystyki testowej Z nale zy do przedzia u krytycznego. Przedzia krytyczny jest zale zny od postaci hipotezy alternatywnej. Ogólnie przy określaniu przedzia u dla średniej mo zemy posi kować si ¾e nast ¾epujacymi ¾ wskazówkami. Hipoteza alternatywna Obszar krytyczny H 0 6= 0 W = 1; z H 0 > 0 W = [z ; 1) H 0 < 0 W = ( 1; z ] [ z ; 1 (1) gdzie z jest kwantylem rz¾edu 1 standardowego rozk adu normalnego. Test II. W teście tym zak ada si¾e rozk ad populacji jest dowolny o nieznanej średniej oraz nieznanym odchyleniu, jednak ze liczebność próby przekracza 30. W tym przypadku jako statystyk¾e testowa¾ stosuje si ¾e statystyk¾e Z = X 0 p n; S gdzie S jest odchyleniem obliczanym z próby. W tym teście obszary krytyczne pokrywaja¾ si¾e z tymi wyst¾epujacymi ¾ w teście I. Test III. W tym przypadku zak adamy, ze badana cecha ma rozk ad normalny o nieznanych parametrach oraz ; natomiast liczebność próby nie przekracza 30. Stosujemy wówczas statystyk¾e testowa¾ T = X p 0 n 1 S 3

Obszar krytyczny równie z jest uzale zniony od postaci hipotezy alternatywnej i jest zbli zony do danych zawartych we wzorach (1), nale zy jednak zastapić ¾ z przez t ;n 1 ; gdzie t ;n 1 jest kwantylem rz¾edu 1 rozk adu t Studenta o n 1 stopniach swobody..1. Test dla proporcji Test dla proporcji s u zy do wery kacji hipotezy o udziale w ca ej populacji jednostek posiadajacych ¾ wyró zniony wariant danej cechy, co jest określane mianem frakcji, proporcji lub wskaźnika struktury. Zak ada si ¾e, ze populacja ma rozk ad dwumianowy z parametrem p oraz próba jest liczna n > 50 Wery kacji poddaje si¾e nast¾epujace ¾ hipotezy H 0 p = p 0 H 1 p 6= p 0 ; lub p > p 0 ; lub p < p 0 Jako statystyk¾e testowa¾ stosuje si ¾e statystyk¾e Z = k n p 0 p p0q 0 n gdzie k- liczba elementów wyró znionych w próbie, p 0 + q 0 = 1 Jako obszarów krytycznych u zywa si ¾e obszarów ze wzorów (1)..1.3 Test dla wariancji W teście tym zak ada si ¾e, ze rozwa zana cecha ma rozk ad normalny. Wyró znia si ¾e ponadto dwa przypadki w zale zności od liczebności próby. W przypadku próby nie przekraczajacej ¾ 30 elementów do wery kacji hipotez stosuje si ¾e statystyk¾e ; H 0 = 0 () H 1 6= 0; lub > 0; lub < 0 (3) = ns 0 = (n 1) S b ; 0 gdzie S b jest wariancja¾ nieobcia zon ¾ a¾ z próby. Dla powy zszej statystyki obszary krytyczne równie z uzale znione sa¾ od postaci hipotezy (3) i przyjmuja¾ nast¾epujac ¾ a¾ postać Hipoteza alternatywna H 0 6= 0 H 0 > 0 H 0 < 0 Obszar krytyczny W = 0; 1 [ ; 1 W = ; 1 W = 0; 4

Dobór poszczególnych przypadków precyzuja¾ poni zsze rysunki Nale zy w tym miejscu jeszcze zaznaczyć, ze rozk ad wraz ze wzrostem liczby stopni swobody zbiega do rozk adu normalnego, w zwiazku ¾ z tym przy du zej próbie ( n 30 ) korzysta si¾e z przekszta cenia statystyki w statystyk¾e Z za pomoca¾ wzoru Z = p p 1 = p p n 3 Statystyka ta ma asymptotycznie rozk ad normalny N (0; 1) a przedzia y krytyczne pokrywaja¾ si¾e z tymi ze wzorów (1). 5

. Testy nieparametryczne dla wnioskowania o w asnościach populacji jednowymiarowej...1 Test serii Test losowości próby, zwany równie z testem serii Stevensa, jest przydatny w sytuacjach, gdy odnotowane wyniki eksperymentu chcemy uogólnić na wi ¾eksza¾ liczb ¾e przypadków, jednak ze przed zastosowaniem procedur wnioskowania musimy si ¾e upewnić, czy zebrane informacje spe niaja¾ postulat losowości próby. W zwiazku ¾ z tym dokonujemy wery kacji nast ¾epujacych ¾ hipotez H 0 dobór jednostek do próby jest losowy H 1 dobór jednostek do próby nie jest losowy Wartość statystyki z próby wyznaczamy w nast ¾epujacy ¾ sposób 1. Kolejno zapisane n obserwacji zmiennej losowej ciag ej ¾ tworzy ciag ¾ podstawowy;. Obserwacje porzadkujemy ¾ i wyznaczamy median ¾e; 3. W ciagu ¾ podstawowym oznaczamy wartości literami A i B zgodnie z poni zsza¾ zasada ¾ x i < Me! A x i = Me x i > Me! B! pomijamy 4. Dla nowego ciagu ¾ liter A i B zliczamy liczb ¾e serii k, która jest wartościa¾ statystyki otrzymana¾ z próby. Obszarem krytycznym jest zbiór spe niajacy ¾ relacje P (k k 1 ) = oraz P (k k ) = ; gdzie k 1 ; n A; n B oraz k 1 ; n A; n B odczytujemy ze stosownych tablic... Testy zgodności Testy te s u z a¾ do wery kacji hipotez odnoszacych ¾ si ¾e do postaci rozk adu badanej cechy w populacji. Ich budowa opiera si ¾e na ocenie zgodności rozk adu empirycznego, otrzymanego z próby losowej, z rozk adem teoretycznym o określonej postaci. Omówimy najcz¾eściej stosowane testy test zgodności oraz test zgodności Ko mogorowa-smirnowa. Test zgodności Test ten opiera si¾e na statystyce, która ma graniczny rozk ad Test ten mo ze być stosowany zarówno dla zmiennych skokowych, jak i ciag ych. ¾ Wymaga on aby próba losowa by a du za a wyniki pogrupowane w szereg rozdzielczy. Test ten buduje si¾e w nast¾epujacy ¾ sposób 1. Z populacji o nieznanej dystrybuancie F losowana jest du za n elementowa próba prosta. Wyniki próby zostaja¾ pogrupowane w szereg rozdzielczy o k przedzia ach, tak aby n i 8 Szereg ten przedstawia rozk ad empiryczny badanej zmiennej. 6

. Na podstawie szeregu rozdzielczego estymuje si¾e p-stwa p i za o zonego teoretycznego rozk adu. W przypadku zmiennej losowej ciag ej ¾ p i = P (x i0 X < x i1 ) = F (x i1 ) F (x i0 ) 3. Dla ka zdej klasy oblicza si¾e liczebności teoretyczne bn i = np i 4. Oblicza si ¾e wartość statystyki = kx (n i bn i ) bn i 5. Porównuje si¾e wartość obliczonego z i je zeli to odrzucamy hipotez¾e H 0 mówiac ¾ a¾ o zgodności rozk adów. Test zgodności Ko mogorowa-smirnowa Test ten jest przeznaczony dla zmiennych losowych typu ciag ego ¾ i du zych prób. Jego budowa sprowadza si ¾e do nast¾epujacych ¾ punktów. 1. Z populacji o nieznanej ciag ej ¾ dystrybuancie wybieramy n-elementowa¾ du z a¾ prób ¾e losowa¾ i tworzymy szereg rozdzielczy o prawych końcach x i ; i = 1; ; ; k;. Dla ka zdego x j obliczmy wartości dystrybuanty empirycznej; 3. Analizujemy bezwzgl ¾edne ró znice dystrybuanty empirycznej i teoretycznej D = sup jf n (x) F 0 (x)j i obliczamy wartość statystyki = D p n Statystyka przy za o zeniu prawdziwości hipotezy zerowej ma rozk ad graniczny Ko mogorowa. 4. Je zeli to odrzucamy H 0, co oznacza, ze badany rozk ad jest inny ni z za o zony, przy czy jest odczytywana z tablic rozk adu Ko mogorowa..3 Testy parametryczne dla porównywania w asności dwóch populacji.3.1 Testy dla dwóch średnich. W tej grupie testów zak ada si¾e, ze pobrano n 1 elementowa¾ prób ¾e z populacji o nieznanej średniej 1 oraz n elementowa¾ prób ¾e z rozk adu o średniej Hipoteza zerowa przyjmuje postać H 0 1 = wobec hipotezy alternatywnej, która podobnie jak w przypadku jednowymiarowym mo ze przyjać ¾ jedna¾ z trzech postaci H 1 1 6= lub 1 > lub 1 < 7

Konstrukcja statystyki testowej zale zy od nast ¾epujacych ¾ czynników 1. Czy znamy wariancje w populacjach?. Czy rozk ady badanej zmiennej w populacjach sa¾ normalne? 3. Czy mo zna wnioskować, ze wariancje w próbach sa¾ jednakowe? 4. Czy próby sa¾ du ze, czy te z ma e? Test I. Zak adamy, ze próby pochodza¾ z populacji o rozk adach normalnych N ( 1 ; 1 ) oraz N ( ; ), przy czym wariancje 1, sa¾ znane. Wówczas zmienna losowa ró znicy średnich X 1 X ma rozk ad normalny z parametrami E X 1 X = 1 D X 1 X = 1 n 1 + n Wyznaczamy wartość statystyki testowej Z = X 1 X q 1 n 1 + n Obszar krytyczny pokrywa si ¾e z przypadkami omówionymi we wzorach (1). Test II. Test ten jest stosowany, gdy badane sa¾ dwie du ze próby o nieznanych wariancjach, ale zak adamy, ze nie sa¾ one równe 1 6= W takim przypadku do wery kacji hipotezy H 0 1 = stosuje si¾e statystyk¾e i dalej post¾epujemy jak w teście I. Z = X 1 X q S 1 n 1 + S n Test III. Je zeli populacje maja¾ rozk ady normalne N ( 1 ; ) oraz N ( ; ) o nieznanych, ale równych wariancjach to wówczas prawdziwe sa¾ nast¾epujace ¾ w asności E X 1 X = 1 D X 1 X = 1 + 1 n 1 n oraz estymator wariancji zadany jest wzorem S = n 1S 1 + n S n 1 + n Gdy próby sa¾ ma e to do wery kacji hipotez stosujemy statystyk¾e T = X 1 X r n 1S 1 +ns n 1+n 1 n 1 + 1 n 8

o rozk adzie t-studenta z = n 1 + n stopniami swobody. Test IV. W odró znieniu od testu III zak adamy, ze próby sa¾ du ze. W takim przypadku jako statystyki testowej u zywamy statystyki Z = X 1 X p n1 S 1 + n S p n1 n Statystyki tej mo zna równie z u zywać w przypadku, gdy populacje nie maja¾ rozk adu normalnego. Test V. Rozwa zmy dwie ma e próby z populacji o rozk adach normalnych i ró znych (nieznanych) wariancjach. W takim przypadku do wery kacji hipotez stosuje si ¾e statystyk¾e X 1 X = 6 t = q S 1 S 1 n 1 1 n 1+1 + S 1 n 1 1 + S n 1 natomiast liczb ¾e stopni swobody ustala si ¾e ze wzoru 3 gdzie dxe oznacza zaokraglenie ¾ w gór¾e. n 1 1 + S n 1 S n 1 n +1 ; 7.3. Testy dla dwóch proporcji Rozwa zmy dwie populacje o rozk adach dwumianowych z nieznanymi parametrami p 1, p Z populacji tych pobrano niezale znie dwie próby proste o liczebnościach n 1, n 100 Dla wybranych prób ustalono wskaźniki (frakcje) p 1 = k 1 n 1 oraz p = k n Na podstawie dost ¾epnych danych chcemy zwery kować hipotez ¾e o równości wskaźników struktury H 0 p 1 = p H 1 p 1 6= p lub p 1 > p lub p 1 < p Dowodzi si¾e, ze zmienna losowa b ¾ed aca ¾ ró znica¾ dwóch wskaźników struktury (p 1 p ) gdy n 1! 1 i n! 1 na rozk ad asymptotycznie normalny z parametrami E (p 1 p ) = p 1 p D (p 1 p ) = p 1 (1 p 1 ) n 1 + p (1 p ) n 9

Nale zy w tym miejscu zauwa zyć, ze je zeli hipoteza zerowa jest prawdziwa, czyli p 1 = p = p to wartość oczekiwana wynosi zero zaś wariancja D (p 1 p p (1 p) p (1 p) 1 ) = + = p (1 p) + 1 n 1 n n 1 n Dla du zych prób wartość p ustala si¾e z nast¾epujacego ¾ wzoru p = k 1 + k n 1 + n Statystyka¾ testowa¾ s u z ac ¾ a¾ wery kacji hipotez jest wówczas p 1 p Z = r 1 p (1 p) n 1 + 1 n Jak atwo zauwa zyć ma ona asymptotycznie rozk ad N (0; 1) ;w zwiazku ¾ z tym obszar krytyczny ustala si ¾e na podstawie wzorów (1)..3.3 Test dla dwóch wariancji Test ten stosuje si ¾e do porównania rozproszenia badanej cechy w dwóch populacjach. Szczególne znaczenie tego testu wynika z faktu, ze we wnioskowaniu statystycznym cz ¾esto mamy do czynienia z za o zeniem dotyczacym ¾ równości wariancji zmiennych losowych. Na przyk ad, postać statystyki testowej przy wnioskowaniu o średnich w dwóch populacjach jest uzale zniona mi ¾edzy innymi od tego, czy mo zemy za o zyć, ze wariancje sa¾ równe 1 = ; czy te z ró znia¾ si¾e one mi¾edzy soba¾ 1 6= Zak adamy, ze mamy do czynienia z dwiema populacjami o rozk adach normalnych N ( 1 ; 1 ) oraz N ( ; ), przy czym parametry rozk adów nie sa¾ znane. Hipoteza zerowa zak ada, ze wariancja w badanych populacjach sa¾ jednakowe. Hipoteza alternatywna zaprzecza temu za o zeniu. H 0 1 = ; H 1 1 6= lub 1 > lub 1 < Z populacji zosta y pobrane niezale zne dwie próby proste o liczebnościach odpowiednio n 1 i n Przy wery kacji hipotezy zerowej korzysta si¾e ze statystyki F-Snedecora. Zmienna¾ losowa¾ o rozk adzie F-Snedecora de niuje si ¾e jako iloraz dwóch niezale znych zmiennych losowych U i V o rozk adach z liczba¾ stopni swobody 1 = n 1 1 i = n 1 odpowiednio F = U v 1 V v Je zeli jako niezale zne zmienne losowe przyjmie si ¾e statystyki z prób U = (n 1 1) b S 1 10

V = (n 1) S b ; które maja¾ rozk ad ;oraz za o zy si¾e równość wariancji w populacjach 1 = = ;to wówczas statystyka F przybiera postać S F = b 1 bs Przy za o zeniu prawdziwości hipotezy zerowej statystyka ta ma rozk ad F-Snedecora z liczba¾ stopni swobody 1 = n 1 1 i = n 1 Wartość statystyki z próby porównuje si ¾e z wartościa¾ krytyczna¾ testu, odczytywana¾ z tablic F-Snedecora. Obszar krytyczny uzale zniony jest oczywiście od postaci hipotezy alternatywnej. Wyboru obszaru krytycznego dokonujemy zgodnie z poni zszymi rysunkami (4) 11

Przy badaniu równości dwóch wariancji mo zna zastosować równie z bardziej ogólne testy s u z ace ¾ do badania równości kilku wariancji. Przyk adami tego typu testów sa¾ test Bartletta, test Levena, czy te z test Hartleya..3.4 Test Bartletta W teście tym testujemy hipotezy H 0 1 = = = k (5) H 1 s 1 = = = k W teście tym liczebności poszczególnych k prób moga¾ być ró zne, jako statystyk¾e testowa¾ stosuje si ¾e statystyk¾e kp (N k) ln s p (N i 1) ln s i = kp ; 1 + 1 1 1 3(k 1) N i 1 N k P gdzie N i dla i = 1; ; ; k oznacza liczebności poszczególnych prób, N = k N i ; s i oznacza wariancj¾e z i-tej próby, Obszar krytyczny wynosi.3.5 Test Levena s p = kx (N i 1) s i N k W = 1 ;k 1; 1 Test ten jest innym przyk adem testu s u z acego ¾ do wery kacji hipotez (5) i jest alternatywa¾ dla testu Bartletta. Jako statystyk¾e testowa¾ stosuje si ¾e statystyk¾e P (N k) k N i Z i Z W = ; P (k 1) k PN i Z ij Z i j=1 gdzie Z ij = Xij X i lub Zij = jx ij MeX i j ; Z i = PN i Z ij j=1 N j ; 1

Z = Obszarem krytycznym tego testu jest.3.6 Test Hartleya kp Z i k W = (F ;k 1;N k ; 1) Test ten jest stosowany do wery kacji hipotez (5) w przypadku równolicznych prób. Jako statystyk¾e testowa¾ rozwa za si ¾e statystyk¾e gdzie F = s max s ; min s max = max s 1; s ; ; s k ; s min = min s 1; s ; ; s k Obszarem krytycznym testu jest przedzia wyznaczany zgodnie z rysunkiem (4)..4 Testy nieparametryczne dla porównania w asności dwóch populacji Porównujac ¾ ze soba¾ dwie populacje, mo zemy oceniać zgodność rozk adów badanej cechy w tych populacjach. Wnioskujac ¾ na podstawie prób niezale znych wykorzystujemy testy nieparametryczne zwane równie z testami jednorodności. W testach tych nie wyst ¾epuja¾ zazwyczaj za o zenia dotyczace ¾ postaci rozk adu, z ma ym wyjatkiem ¾ polegajacym ¾ na tym, ze w wi¾ekszości testów zak ada si¾e ciag ość ¾ badanej cechy. Testy jednorodności s u z a¾ do wery kacji hipotezy zak adajacej ¾ zgodność rozk adów, co zapisujemy H 0 F 1 (x) = F (x) (6) H 1 F 1 (x) 6= F (x) Podstawa¾ budowy statystyk w testach jednorodności sa¾ dwie próby niezale zne, spośród wielu dost ¾epnych w literaturze testów ograniczymy si ¾e tylko do wybranych, a mianowicie testu ; testu Ko mogorowa-smirnowa, testu Smirnowa, testu serii oraz testu mediany. Pierwsza dwa sa¾ stosowane dla du zych prób, pozosta e zaś dla prób ma o licznych..4.1 Test jednorodności Jest to chyba najbardziej uniwersalny test jednorodności, poniewa z mo ze być stosowany zarówno dla cech ilościowych jak i jakościowych. Wery kujac ¾ hipotez ¾e (6) post¾epujemy nast¾epujaco ¾ 13

1. Wyniki dwóch niezale znych prób prostych grupujemy w jednakowe przedzia y klasowe, tak aby liczebność ka zdego przedzia u by a niemniejsza od 5 (n i 5). Obliczamy wartość statystyki testowej określonej wzorem = (n 1 + n ) n 1 n " kx n 1i n 1i + n i n 1 n 1 + n gdzie n 1 liczebność pierwszej próby; n liczebność drugiej próby; n 1i liczebność kolejnych przedzia ów w pierwszej próbie n i liczebność kolejnych przedzia ów w drugiej próbie. Przy za o zeniu prawdziwości hipotezy H 0 statystyka ta ma rozk ad z v = k 1 stopniami swobody. 3. Obszar krytyczny testu jest prawostronny, bowiem du ze wartości statystyki sa¾ powodowane du zymi ró znicami pomi ¾edzy obiema próbami. Wartość krytyczna¾ odczytuje si¾e w tablic rozk adu Je zeli, to odrzucamy hipotez¾e zerowa, ¾ zak adajac ¾ a¾ zgodność rozk adów w badanych populacjach; ró znice pomi¾edzy nimi sa¾ statystycznie istotne, czyli pochodza¾ z populacji o ró znych rozk adach. # ;.4. Test Ko mogorowa-smirnowa Test ten jest stosowany do wery kacji hipotezy o zgodności rozk adów dwóch zmiennych losowych. Zak ada si ¾e przy tym, ze obie zmienne losowe maja¾ ciag e ¾ dystrybuanty F 1 oraz F odpowiednio. Dodatkowo zak ada si¾e, ze próby proste pobrano niezale znie od siebie oraz liczebności tych prób n 1, n sa¾ du ze. Wery- kacja hipotezy o zgodności rozk adów sprowadza si¾e do nast¾epujacej ¾ procedury 1. Wyniki dwóch du zych prób o liczebnościach n 1 oraz n grupujemy w szeregi rozdzielcze przedzia owe, wskazane jest przy tym, aby poszczególne klasy by y stosunkowo waskie. ¾. Dla ka zdego przedzia u obliczamy wartości empiryczne dystrybuant F 1 oraz F jako iloraz liczebności skumulowanych oraz liczebności odpowiedniej próby, w prawych końcach przedzia ów, tj F 1 (x k ) = kp n 1i n 1 ; F (x k ) = kp n i n 3. Obliczamy bezwzgl ¾edne ró znice dystrybuant i wyznaczamy ich suprememu D = sup jf 1 (x k ) F (x k )j ; 1kn a nast ¾epnie na tej podstawie wyznaczamy wartość statystyki = D p n; 14

gdzie n = n1n n 1+n Przy za o zeniu zgodności rozk adów statystyka ma asymptotyczny rozk ad -Ko mogorowa. 4. Dla danego poziomu istotności wyznaczamy obszar krytyczny testu, wartość krytyczna¾ wyznaczamy w taki sposób, aby spe niona by a relacja P ( ) = Obszar krytyczny jest prawostronny, stad ¾ te z hipotez¾e zerowa¾ odrzucamy jeśli Nale zy w tym miejscu zauwa zyć, ze test ten mo zna równie z zastosować w przypadku ma ych prób. Jednak ze w tym przypadku procedura post ¾epowania jest nieco odmienna. 1. Porzadkujemy ¾ wyniki próby rosnaco ¾.. Dla kolejnych wyników ka zdej próby liczymy liczebności skumulowane i obliczamy wartości dystrybuant empirycznych. 3. Wyznaczamy wartość statystyki D jak w przypadku du zych prób i dalej post ¾epujemy analogicznie jak w przypadku du zych prób..4.3 Test serii Walda-Wolfowitza Test Walda-Wolfowitza jest jednym z wielu testów opartych na teorii serii. Stosujemy go wtedy, gdy o zgodności dowolnych rozk adów badanej cechy wnioskujemy na podstawie ma ych prób, o liczebnościach n 1 0 oraz n 0 Korzystanie z tego testu sprowadza si¾e do nast¾epujacej ¾ procedury. 1. Wyniki obu prób porzadkujemy ¾ w niemalejacy ¾ sposób. W otrzymanym ciagu ¾ przyporzadkowujemy ¾ liter ¾e A wynikom pochodzacym ¾ z pierwszej próby, zaś liter ¾e B wynikom drugiej próby.. Wyznaczmy liczb ¾e serii k. W tym przypadku seri ¾e stanowia¾ elementy pochodzace ¾ z danej próby. 3. W rozk adzie liczby serii wyznaczamy obszar krytyczny testu, który jest w tym przypadku lewostronny. Po o zenie obszaru krtytycznego wynika z faktu, ze je zeli próby pochodza¾ z zupe nie ró znych populacji, to wyniki zazwyczaj ró znia¾ si¾e mi¾edzy soba¾ w sposób znaczacy ¾ i serii b ¾edzie wtedy niewiele. Im bardziej zbli zone do siebie wyniki obu prób, tym bardziej zostana¾ one "wymieszane" i serii b ¾edzie wi¾ecej. 4. Je zeli wyznaczona na podstawie prób liczba serii jest nie wi ¾eksza od wartości krytycznej k k ; odrzucamy hipotez¾e zerowa, ¾ czyli stwierdzamy, ze próby pochodza¾ z populacji, w których rozk ady badanej cechy ró znia¾ si¾e statystycznie istotnie. Je zeli n 1 i n > 0; to rozk ad liczby serii z prób jest w przybli zeniu normalny i wery kacja hipotezy o zgodności dystrybuant opiera si ¾e na statystyce Z; która ma rozk ad asymptotyczny N (0; 1) Z = jk EKj K ; 15

gdzie EK = n 1n n 1 + n + 1; K = n 1n (n 1 n n 1 n ) (n 1 + n ) (n 1 + n 1).5 Analiza wariancji (ANOVA), czyli porównanie kilku średnich. Rozwa zmy nast ¾epujacy ¾ problem. Na podstawie k prób X 1;1 ; X 1; ; ; X 1;n1 X 1; ; X 1; ; ; X 1;n X 1;k ; X 1;k ; ; X 1;nk pochodzacych ¾ z rozk adów normalnych N ( 1 ; ) ; N ( ; ) ; ; N ( k ; ) nale zy zwery kować hipotez ¾e H 0 1 = = k Taki problem pojawia si ¾e w zastosowaniach na przyk ad wtedy, gdy wery- kowana jest hipoteza, ze poziom jakiegoś wyró znionego czynnika nie ma wp ywu na poziom badanego zjawiska. Niech X i = 1 Xn i X 1;j i = 1; ; ; k n i j=1 b ¾ed a¾ średnimi z poszczególnych prób, zaś X = 1 n X ij = 1 n j=1 kx n i X i średnia¾ artymetyczna¾ wszystkich zmiennych. Gdyby hipoteza H 0 by aby prawdziwa, to wszystkie średnie X i ; i = 1; ; ; k powinny być do siebie zbli zone. Uzasadnione wydaje si ¾e opracowanie testu opierajacego ¾ si¾e na mierze badajacej ¾ zró znicowanie tych średnich. Na wst ¾epie zauwa zmy, ze 3 X ij X i Xi X kx = 4 X i X X ni X i 5 = j=1 = kx 4 X i X X ni j=1 X ij 3 j=1 n i X i 5 = 0 X ij 16

Wykorzystujac ¾ powy zsza¾ w asność atwo zauwa zamy, ze j=1 X ij X = Xij X i + Xi X = j=1 = + X i X ij j=1 j=1 = X i X + Xij X i Xi X = j=1 X i + X i X X ij j=1 j=1 Tak wi ¾ec suma kwadratów odchyleń standardowych poszczególnych zmiennych X ij od średniej ogólnej X da si¾e przedstawić w postaci sumy dwóch sk adników. Pierwszy jest suma¾ kwadratów odchyleń ka zdej zmiennej od swojej średniej arytmetycznej, zaś drugi sk adnik jest suma¾ kwadratów odchyleń średnich grupowych od średniej ogólnej. Pierwszy sk adnik b ¾edziemy nazywać suma¾ kwadratów wewnatrz ¾ grup. Wprowadźmy oznaczenia j=1 X ij X = (n 1) S X ij X i = (n k) S j=1 kx n i X i X = (k 1) S 1 Przy powy zszych oznaczeniach prawdziwa jest nast ¾epujaca ¾ równość (n 1) S = (n k) S + (k 1) S 1 (7) Je zeli hipoteza zerowa jest prawdziwa, to wszystkie zmienne X ij maja¾ taki sam rozk ad N (; ) i poniewa z sa¾ niezale zne to zmienna losowa (n 1) S ma rozk ad P o (n 1) stopniach swobody. Podobnie zmienna losowa ni X ij X i ma rozk ad o (n i 1) stopniach swobody, stad ¾ zmienna losowa (n k) S ma rozk ad o (n k) stopniach swobody. B¾edziemy chcieli znaleźć rozk ad zmiennej losowej (k 1) S1 P = k n i X i X W tym celu udowodnimy na poczatku ¾ nast¾epujacy ¾ lemat. Lemma 1 (Fischera) Niech Z 1 ; Z ; ; Z k b ¾ed a¾ niezale znymi zmiennymi losowymi o rozk adzie N (0; ) Niech Y 1 ; Y ; ; Y p (p < k) b ¾ed a¾ funkcjami liniowymi zmiennych losowych Z 1 ; Z ; ; Z k spe niajacymi ¾ warunki ortogonalno sci, tj. Y i = C i1 Z 1 + C i Z + + C ik Z k ; i = 1; ; ; p (8) j=1 17

gdzie wspó czynniki C ij spe niaja¾ nast ¾epujacy ¾ warunek kx 1 gdy i = l C ij C lj = 0 gdy i 6= l j=1 ; dla i; l = 1; ; ; p Wtedy wyra zenie kx j=1 Z j px jest niezale zne od Y 1 ; Y ; ; Y p, a wi ¾ec i od stopniach swobody. Y i p P Y p i i ma rozk ad o (k p) Za o zenie o wspó czynnikach C ij oznacza, ze wektory o wspó rz¾ednych [C i1 ; C i ; ; C ik ], i = 1; ; ; p sa¾ wzgl ¾edem siebie parami prostopad e i d ugość ka zdego z nich wynosi 1. Udowodnimy najpierw, ze zmienne Y 1 ; Y ; ; Y p sa¾ niezale zne i maja¾ rozk ad N (0; ) W tym celu rozwa zmy funkcje charakterystyczna¾ p wymiarowej zmiennej losowej (Y 1 ; Y ; ; Y p ) ' (t 1 ; t ; ; t p ) = E fexp (it 1 Y 1 + it Y + + it p Y p )g = E exp fit 1 (C 11 Z 1 + C 1 Z + + C 1k Z k ) + + it p (C p1 Z 1 + C p Z + C pk Z k )g = () po wymno zeniu wyra zenia w pot¾edze oraz pogrupowaniu wyrazów przy iz j otrzymujemy nast ¾epujac ¾ a¾ postać funkcji charakterystycznej 8 0 1 0 19 >< >= () = E exp > iz B C B C 1 @C 11 t 1 + C 1 t + C p1 t p A + iz k @C 1k t 1 + C k t + C pk t p A {z } {z } >; v 1 v k Na mocy niezale zności zmiennych losowych Z 1 ; Z ; ; Z k wartość oczekiwana iloczynu jest równa iloczynowi wartości oczekiwanych, a wi ¾ec przy nowych oznaczeniach rozwa zana funkcja charakterystyczna jest postaci ' (t 1 ; t ; ; t p ) = E exp (iz 1 v 1 ) E exp (iz v ) E exp (iz k v k ) = = ' Z1 (v 1 ) ' Z (v ) ' Zk (v k ) Nast ¾epnie atwo zauwa zamy, ze ' (t 1 ; t ; ; t p ) = exp px l=1 t l! = py l=1 exp t l Z postaci funkcji charakterystycznej p-wymiarowej zmiennej losowej (Y 1 ; Y ; ; Y p ) wnioskujemy, ze ka zda sk adowa ma rozk ad N (0; ) i zmienne sa¾ niezale zne. Podany powy zej lemat jest kluczowy w zasadniczym twierdzeniu teorii analizy wariancji. 18

Theorem Je zeli hipoteza zerowa jest prawdziwa, to suma kx n i X i X = (k 1) S 1 jest zmienna¾ niezale zna¾ od (n k) S i ma rozk ad o (r 1) stopniach swobody. Z dowodem tego twierdzenia mo zna zapoznać si ¾e w prawie ka zdym podr ¾eczniku statystyki, dlatego dowód nie b ¾edzie tutaj prezentowany. Podamy teraz procedur ¾e post ¾epowania przy testowaniu hipotezy H 0 1 = = = k = 1) W pierwszym kroku nale zy sprawdzić za o zenie dotyczace ¾ równości wariancji, do tego celu mo zna wykorzystać dowolny z poznanych testów odnoszacy ¾ si¾e do równości wariancji, wskazane jest jednak stosowanie testu Levena. ) Nale zy nast¾epnie obliczyć wartości statystyk S1 oraz S ze wzorów S 1 = 1 k 1 S = 1 n k kx n i X i X X ij X i ; j=1 które maja¾ rozk ¾ ady (r 1) oraz (n r) odpowiednio. 3) W kolejnym kroku obliczamy wartość statystyki testowej Z = 1 log S 1 S o rozk adzie Z-Fischera ze stopniami swobody (r 1; n r) lub F = S 1 S o rozk adzie F -Snedecora ze stopniami swobody (r 1; n r) Uwaga. Je zeli S1 < S; to w obu powy zszych statystykach testowych zamieniamy je miejscami. 4) Z odpowiednich tablic odczytujemy wartość krytyczna¾ i sprawdzamy czy obliczona statystyka nale zy do obszaru krytycznego. Nale zy w tym miejscu jeszcze zauwa zyć, ze w statystyce matematycznej rozwa za si ¾e jeszcze wieloczynnikowa ¾ analiz ¾e wariancji. Analiza ta wielu podr ¾ecznikach i programach statystycznych określana jest mianem MANOVy. 19

.6 Klasy kacja danych Zarówno analiza zró znicowania, jak te z podobieństwa obiektów wielocechowych, nie ma jednolitej metodologii. W zale zności od badanego problemu, wykorzystanie danej metody mo ze okazać si¾e skutecznym rozwiazaniem, ¾ niosacym ¾ istotna¾ wartość poznawcza, ¾ badź ¾ te z prowadzić do b ¾ednych wyników, a co za tym idzie, wyciagania ¾ mylnych wniosków. Przedstawimy teraz przyk adowe metody analizy skupień najbardziej rozpowszechnione w zastosowaniach praktycznych. Analiza skupień (ang. cluster analysis), nazywana równie z analiza¾ podobieństwa, grupowaniem lub klasteryzacja, ¾ to dyscyplina poświ ¾econa wyszukiwaniu, wyodr ¾ebnianiu i opisywaniu podobieństw obiektów na podstawie ich cech (Mirkin B., 005). W jej wyniku, z jednego niejednolitego zbioru, jesteśmy w stanie otrzymać grup ¾e kilku jednorodnych podzbiorów, spe niajacych ¾ kryterium roz ¾ aczności i zupe ności. Oznacza to, ze znajdujace ¾ si¾e wewnatrz ¾ poszczególnych podzbiorów elementy powinny charakteryzować si ¾e du zym podobieństwem wzgl ¾edem określonej cechy lub cech oraz wyraźnie ró znić si¾e od elementów wchodzacych ¾ w sk ad innych wyodr ¾ebnionych w ten sposób podzbiorów. Podzbiory wykazujace ¾ takie cechy nazywane sa¾ skupieniami, badź ¾ klastrami (od ang. cluster). Poj ¾ecie analizy skupień obejmuje wiele algorytmów klasy kacji, a wi ¾ec sposobów grupowania. Ogólnie mo zemy je podzielić na metody hierarchiczne i niehierarchiczne. Metody hierarchiczne polegaja¾ na iteracyjnym ¾ aczeniu obiektów w coraz wi¾eksze lub coraz mniejsze skupienia, tworzac ¾ je w zale zności od odleg ości mi ¾edzy nimi. Natomiast metody niehierarchiczne polegaja¾ na przenoszeniu obiektów z jednego skupienia do kolejnych w taki sposób, by uda o si ¾e znaleźć najlepszy zestaw skupień wed ug zadanego kryterium. Spośród metod hierarchicznych, dla celów niniejszej analizy wykorzystana zostanie jedna z bardziej popularnych metod aglomeracyjnych, tzw. metoda Warda, z kolei jako przyk ad metody niehierarchicznej pos u zy nam metoda k-średnich. Obecnie coraz cz ¾eściej wykorzystywanym sposobem grupowania obiektów jest metoda sztucznych sieci neuronowych..6.1 Metoda Warda Pośród metod hierarchicznych wyró znia si ¾e dwa podejścia do tworzenia skupień. Pierwsze, nazywane procedura ¾ (technika) ¾ aglomeracyjna ¾ (agglomerative clustering), opieraja¾ si¾e na tworzeniu skupień od do u do góry, za punkt wyjścia przyjmujac ¾ sytuacj ¾e, w której poszczególne obserwacje (obiekty) stanowia¾ odr¾ebna¾ klas ¾e, po czym ka zdorazowo wyszukiwana jest para charakteryzujaca ¾ si¾e jak najmniejsza¾ odleg ościa, ¾ tworzaca ¾ nowe skupienie. Drugie podejście, określane jako technika podzia owa (divisive clustering), obejmuje procedury charakteryzujace ¾ si ¾e procesem odwrotnym od poprzedniego, w którym hierarchia budowana jest poprzez podzia wi ¾ekszych klastrów na mniejsze jednostki (Mirkin B., 005). Hierarchiczne metody grupowania posiadaja¾ liczne zalety, dzi¾eki czemu zalicza si ¾e je do najpopularniejszych pośród metod analizy skupień. Niewatpliwym ¾ atutem metod hierarchicznych jest mo zliwość przedstawienia wyników w postaci 0

gra cznej (za pomoca¾ dendro-gramu), pozwalajacej ¾ na dość intuicyjny i arbitralny wybór poziomu aglomeracji i ilości skupień. Jednak ze w przypadku analizowania du zej liczby obserwacji, pojawia si ¾e ryzyko utraty czytelności wyników badania, a co za tym idzie, niskiej skuteczności metody. Jedna¾ z cz ¾eściej stosowanych (nie tylko w badaniach regionalnych) metod hierarchicznej analizy skupień jest algorytm zaproponowany przez J. H. Warda w 1963 roku. Metoda Warda tym ró zni si¾e ona od pozosta ych metod hierarchicznych, i z dla potrzeb oszacowania odleg ości mi ¾edzy skupieniami obiektów przyjmuje analiz ¾e wariancji, polegajac ¾a¾ na minimalizacji odchyleń sumy kwadratów dwóch hipotetycznych skupień, jakie moga¾ być uformowa-ne na ka zdym etapie analizy. Metoda Warda za punkt wyjścia przyjmuje maksymalna¾ liczb ¾e skupień, równa¾ liczbie badanych obiektów, tworzac ¾ na ich podstawie wst ¾epne skupienia jednoelementowe. Na tym etapie tworzona jest macierz odleg ości o wymiarach n x n, zawierajaca ¾ odleg ości ka zdej pary obiektów. W przypadku metod hierarchicznych, w tym równie z metody Warda, najpopularniejsza¾ miara¾ odleg ości mi¾edzy poszczególnymi obiektami O 1 i O jest odleg ość euklidesowa. W kolejnym etapie pary ( a później skupienia), charakteryzujace ¾ si¾e jak najmniejszym poziomem odmienności ( a wi ¾ec jak najwi ¾ekszym poziomem podobieństwa), ¾ aczone sa¾ w grupy wy zszego stopnia. Czynność ta jest powtarzana, a z do po ¾ aczenia wszystkich obiektów (skupień) w jedna¾ grup ¾e najwy zszego poziomu. Ostatnim etapem analizy Warda jest wyznaczenie odleg ości ka zdego nowego skupienia od pozosta ych wed ug wzoru gdzie D pr D pr = a 1 d pr + a d qr + bd pq ; odleg ość nowego skupienia (powsta ego z po ¾ aczenie skupień p i q) od skupienia o numerze r; d pr odleg ość pierwotnego skupienia p od skupienia r; d qr odleg ość pierwotnego skupienia q od skupienia r; d pq odleg ość pierwotnych skupień p i q; a 1 ; a ; b parametry, które w metodzie Warda zadane sa¾ wzorami a 1 = a = b = n p + n r n p + n q + n r ; n q + n r n p + n q + n r ; n r n p + n q + n r 1