I KONFERENCJA KOŁA NAUKOWEGO STATYSTYKÓW

Podobne dokumenty

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Testy nieparametryczne

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Spis treści 3 SPIS TREŚCI

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

IV WYKŁAD STATYSTYKA. 26/03/2014 B8 sala 0.10B Godz. 15:15

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Statystyka matematyczna dla leśników

Wstęp do probabilistyki i statystyki. Wykład 4. Statystyki i estymacja parametrów

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Monte Carlo, bootstrap, jacknife

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Statystyka matematyczna i ekonometria

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Wnioskowanie statystyczne. Statystyka w 5

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

166 Wstęp do statystyki matematycznej

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Wykład 3 Hipotezy statystyczne

Estymacja punktowa i przedziałowa

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Zawartość. Zawartość

Pobieranie prób i rozkład z próby

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

KARTA KURSU. (do zastosowania w roku akademickim 2015/16) Kod Punktacja ECTS* 3. Dr hab. Tadeusz Sozański

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Grupowanie materiału statystycznego

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

KARTA KURSU. Kod Punktacja ECTS* 1

Z poprzedniego wykładu

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Sterowanie wielkością zamówienia w Excelu - cz. 3

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

W1. Wprowadzenie. Statystyka opisowa

Przykład 1. (A. Łomnicki)

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO

SPIS TEŚCI CZĘŚĆ I RACHUNEK PRAWDOPODOBIEŃSTWA

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Matematyka - Statystyka matematyczna Mathematical statistics 2, 2, 0, 0, 0

Hierarchiczna analiza skupień

STATYSTYKA MATEMATYCZNA

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Wydział Matematyki. Testy zgodności. Wykład 03

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

Testowanie hipotez statystycznych

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Wnioskowanie bayesowskie

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Sposoby prezentacji problemów w statystyce

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

laboratoria 24 zaliczenie z oceną

1 Estymacja przedziałowa

Zadania ze statystyki, cz.6

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Statystyka i opracowanie danych - W 4: Wnioskowanie statystyczne. Weryfikacja hipotez statystycznych. Dr Anna ADRIAN Paw B5, pok407

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Statystyka w pracy badawczej nauczyciela

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

5. Model sezonowości i autoregresji zmiennej prognozowanej

Statystyka. #6 Analiza wariancji. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2015/ / 14

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Transkrypt:

Akademia Ekonomiczna im. Karola Adamieckiego w Katowicach I KONFERENCJA KOŁA NAUKOWEGO STATYSTYKÓW ZASTOSOWANIE NARZĘDZI INFORMATYCZNYCH W PROCESIE NAUCZANIA STATYSTYKI 28 kwietnia 2005

ZASTOSOWANIE NARZĘDZI INFORMATYCZNYCH W PROCESIE NAUCZANIA STATYSTYKI 2

I KOFERENCJA KOŁA NAUKOWEGO STATYSTYKÓW KATOWICE 2005 "Mogą nie być odległe takie czasy, w których zrozumie się, że do całkowitego wtajemniczenia dojrzałego obywatela (...), zdolność obliczania, myślenia w kategoriach wartości średnich, maksimów i minimów jest tak konieczna, jak teraz zdolność czytania i pisania" /Herbert G. Wells/ Coraz częściej można spotkać się na uczelniach wyższych z nauczaniem statystyki przy wykorzystaniu sprzętu komputerowego. Istniejące na rynku pakiety statystyczne, takie jak Statistica, SPSS, R, dają ogromne możliwości przeprowadzania różnego typu analiz statystycznych, a tym samym pogłębiania wiedzy z tego zakresu. Najczęściej jednak podczas zajęć ze statystyki wykorzystywany jest arkusz kalkulacyjny Excel, który choć nie posiada takich możliwości jak wspomniane wcześniej pakiety, to jednak ma tę przewagę, że pozwala przeprowadzać kolejne obliczenia krok po kroku, a tym samym zrozumieć całą ideę danego zagadnienia. Arkusz kalkulacyjny Excel posiada wbudowany moduł Analiza danych, przy użyciu którego można bardzo szybko otrzymać interesujące nas informacje. Moduł ten zawiera narzędzia między innymi do analizy regresji, korelacji, wariancji, otrzymania statystyk opisowych i inne. Podczas spotkań Koła Naukowego Statystyków zdecydowaliśmy się na rozbudowę modułu Analizy danych o dodatkowe narzędzia, które mogłyby być z powodzeniem wykorzystywane podczas zajęć ze statystyki. Członkowie koła przygotowali aplikacje, stworzone w języku Visual Basic for Application, dotyczące takich zagadnień jak: schematy losowania prób, klasyfikacja danych, metody wnioskowania na podstawie podprób, analiza bayesowska, wskaźnikowa analiza dynamiki zjawisk, testy sekwencyjne oraz wybrane testy parametryczne i nieparametryczne. Konferencja Wykorzystanie metod informatycznych w nauczaniu statystyki ma na celu zapoznanie jej Uczestników z pracami członków Koła. Koło Naukowe Statystyków powstało w roku 2002 z inicjatywy studentów kierunku Statystyka i Ekonometria na Akademii Ekonomicznej im. Karola Adamieckiego w Katowicach. Na naszych spotkaniach poruszane są różnorodne zagadnienia związane ze statystyczną analizą danych, a rezultaty naszej pracy prezentowane na konferencji stanowią jedynie tę część poruszanej na spotkaniach Koła problematyki, która jest związana z wykorzystaniem narzędzi programistycznych VBA w zagadnieniach statystycznych. 3

ZASTOSOWANIE NARZĘDZI INFORMATYCZNYCH W PROCESIE NAUCZANIA STATYSTYKI Program konferencji Koła Naukowego Statystyków Zastosowanie narzędzi informatycznych w procesie nauczania statystyki Katowice 28 kwietnia 2005 Akademia Ekonomiczna w Katowicach - Aula P 14:00 Otwarcie konferencji przez opiekuna Koła Naukowego Statystyków dr G.Kończaka 14:05 Wystąpienie kierownika Katedry Statystyki prof. dr hab. J.Wywiała 14:10 Bogdan Sokalski Wprowadzenie, Schematy losowania prób 14:30 Joanna Tomanek, Piotr Nowak Test zgodności chi kwadrat 14:45 Maria Czogała Wnioskowanie bayesowskie 15:00 Piotr Nowak Testy oparte na rangach 15:15 Joanna Tomanek Indeksy agregatowe wielkości absolutnych 15:30 Przerwa 15:50 Jan Acedański Testy sekwencyjne 16:05 Maria Czogała Metody wnioskowania na podstawie podprób 16:20 Bogdan Sokalski Metody klasyfikacji 16:35 Piotr Nowak Indeksy agregatowe wielkości stosunkowych 16:50 Maria Czogała System kontroli jakości w firmie produkcyjnej 17:05 Bogdan Sokalski Analiza danych program w języku Visual C++ 17:20 Zamknięcie konferencji 4

I KOFERENCJA KOŁA NAUKOWEGO STATYSTYKÓW KATOWICE 2005 Analiza KNS dodatek do arkusza kalkulacyjnego Microsoft Excel Analiza KNS, przygotowana przez studentów Koła Naukowego Statystyków Akademii Ekonomicznej w Katowicach, jest dodatkiem do arkusza kalkulacyjnego Excel. Aby skorzystać z funkcji dostępnych w tym dodatku należy go zainstalować w arkuszu kalkulacyjnym. W tym celu w arkuszu kalkulacyjnym w menu Narzędzia wybieramy polecenie Dodatki (por. rys. 1) i w oknie dialogowym Dodatki wybieramy Przeglądaj. Rysunek 1. Okno dialogowe Dodatki Po wybraniu polecenia Przeglądaj wskazujemy położenie dodatku kns.xla (por. rys. 2). Rysunek 2. Okno dialogowe Przeglądaj wybór dodatku do zainstalowania 5

ZASTOSOWANIE NARZĘDZI INFORMATYCZNYCH W PROCESIE NAUCZANIA STATYSTYKI Po wykonaniu powyższych czynności dodatek Analiza KNS jest dostępny w menu Narzędzia programu Excel (por. rys. 3) Rysunek 3. Wybór Analizy KNS w menu programu Excel Po wybraniu polecenia Analiza KNS pojawia się okno dialogowe z dostępnymi dodatkowymi modułami analizy statystycznej (por. rys. 4). W tym oknie dialogowym dostępnych jest 9 następujących poleceń: 1. Indeksy agregatowe wielkości absolutnych 2. Indeksy agregatowe wielkości stosunkowych 3. Losowanie próby 4. Metody klasyfikacji 5. Metody wnioskowania na podstawie podprób 6. Test zgodności chi kwadrat 7. Testy sekwencyjne 8. Testy oparte na rangach 9. Wnioskowanie bayesowskie Po wybraniu interesującego nas modułu w pojawiającym się odpowiednim oknie dialogowym wprowadzamy (zaznaczamy) dane. Umieszczone w dodatku moduły zostały opisane w dalszej części niniejszego opracowania. 6

I KOFERENCJA KOŁA NAUKOWEGO STATYSTYKÓW KATOWICE 2005 Rysunek 4.Okno dialogowe Analiza KNS wybór procedury Po wybraniu polecenia O programie (por. rys. 4) uzyskujemy informacje o osobach, które opracowały i przygotowały moduły składowe Analizy KNS. (por. rys. 5) Rysunek 5. Informacja o programie Dodatek Analiza KNS będzie zamieszczony na stronie internetowej Koła Naukowego Statystyków Akademii Ekonomicznej w Katowicach (kns.ae.katowice.pl) 7

ZASTOSOWANIE NARZĘDZI INFORMATYCZNYCH W PROCESIE NAUCZANIA STATYSTYKI Bogdan Sokalski Schematy losowania prób Obserwacja poziomów cech w bardzo licznych populacjach jest często niemożliwa i zawsze niesie za sobą ogromne nakłady czasu i kosztów. Z tego też powodu powstała teoria pozwalająca na wnioskowanie o populacjach na podstawie niewielkiej w stosunku do populacji grupy elementów. Problem polega na odpowiednim dobraniu grupy, aby wnioski na podstawie niej wyciągnięte mogły być przeniesione na całą populację. Wyróżnia się dwa sposoby wyodrębniania prób: Dobór celowy odbywa się na podstawie racjonalnych przesłanek, nie pozwala jednak na ocenę błędów oszacowania Dobór losowy odbywa się na podstawie schematu losowania, pozwala na ocenę błędów oszacowania Aby wystąpiła możliwość losowania próby trzeba dysponować spisem elementów populacji lub przynajmniej spisem ich rozłącznych podzbiorów zwanych zespołami Planem losowania nazywamy układ prawdopodobieństw, z którym powinny być wybierane zestawy elementów populacji do próby. Mechanizm losowania realizujący plan wyboru elementów populacji do próby według prawdopodobieństw warunkowych określonych na podstawie planu losowania nazywamy schematem losowania. Schematy losowania próby prostej możemy podzielić na dwa rodzaje: 1. Wariant zwrotny polega on na zwrotnym wylosowaniu elementów z stałym prawdopodobieństwem ich doboru do próby 2. Wariant bezzwrotny polega na bezzwrotnym wylosowaniu elementów z stałym prawdopodobieństwem ich doboru do próby 3. Wariant systematyczny spośród k pierwszych elementów losuje się jedne, a następnie wybiera się co k-ty element Podstawowe złożone schematy losowania można podzielić na 1. Grupowy losuje się grupy obiektów tak jak próbę prostą, każdy element wylosowanej grupy wchodzi do próby 8

I KOFERENCJA KOŁA NAUKOWEGO STATYSTYKÓW KATOWICE 2005 2. Warstwowy proporcjonalny z każdej warstwy losowane jest taki odsetek elementów, jaki udział ma dana warstwa w liczebności całej populacji 3. Dwustopniowy na początku przeprowadza się losowanie grup, a drugi stopień losowania polega na wylosowaniu elementów spośród wylosowanych wcześniej grup. Procedura schematy losowania napisana w VBA dla arkusza kalkulacyjnego Excela pozwala losować próbę według następujących schematów: 1. Nieograniczone zależne (wariant bezzwrotny) 2. Nieograniczone niezależne (wariant zwrotny) 3. Systematyczne 4. Grupowe 5. Warstwowe proporcjonalne 6. Dwustopniowe Joanna Tomanek, Piotr Nowak Test zgodności chi kwadrat Test zgodnosci Chi kwadrat pozwala na sprawdzenie hipotezy, że populacja ma określony typ rozkładu. Dane: dana jest populacja o nieznanej dystrybuancie F(x) dana jest próba losowa o liczebności n pobrana z tej populacji Hipotezy: Hipoteza zerowa Badana zmienna ma rozkład typu W F(x) Ω Hipoteza alternatywna Badana zmienna nie ma rozkładu typu W 9

ZASTOSOWANIE NARZĘDZI INFORMATYCZNYCH W PROCESIE NAUCZANIA STATYSTYKI F(x) Ω Do weryfikacji postawionej hipotezy stosujemy statystykę: 2 χ = r i= 1 ( n np ) i np i i 2 gdzie: n wielkość próby r liczba klas wartości cechy n i liczebności klas wartości p i prawdopodobieństwa odpowiadające wartościom obserwowanym w próbie, zgodne Statystyka z testowym typem rozkładu 2 χ ma rozkład chi kwadrat z r-k-1 stopniami swobody, gdzie k jest liczbą szacowanych parametrów rozkładu. Obliczenia: obszar krytyczny w teście jest budowany prawostronnie 2 2 χ χ hipotezę zerową odrzucamy, gdy α 2 Moduł testu zgodności χ : Rysunek 1. Okno wprowadzania danych modułu 10

I KOFERENCJA KOŁA NAUKOWEGO STATYSTYKÓW KATOWICE 2005 Rysunek 2. Przykładowy arkusz po wykonaniu testu Maria Czogała Wnioskowanie bayesowskie W ostatnich kilkudziesięciu latach, obok klasycznych metod statystycznych bardzo silnie rozwijał się nurt podejścia bayesowskiego. W odróżnieniu od wnioskowania klasycznego, które pozwala na szacowanie parametrów jedynie na podstawie informacji pochodzących z próby, wnioskowanie bayesowskie wykorzystuje dodatkowo informacje o rozkładach a priori badanych cech. Rozkłady a priori mogą być wyrazem subiektywnych odczuć statystyka, lub też mogą zostać uzyskane na podstawie informacji pochodzących z przeprowadzanych wcześniej badań lub eksperymentów. Dysponując rozkładami a priori oraz informacjami pochodzącymi z próby możemy wyznaczyć prawdopodobieństwa a posteriori wyróżnionych cech. Prawdopodobieństwa a posteriori otrzymujemy na podstawie wzoru Bayesa: P ( Θ / x) = n i= 1 P ( x / Θ) P( Θ) P ( x / Θ ) P( Θ ) i i 11

ZASTOSOWANIE NARZĘDZI INFORMATYCZNYCH W PROCESIE NAUCZANIA STATYSTYKI APLIKACJA Po uruchomieniu aplikacji Wnioskowanie bayesowskie pojawia się okno główne programu, w którym wyróżnione są dwie zakładki. Pierwsza z nich Rozkład empiryczny dotyczy sytuacji, gdy znane są empiryczne rozkłady a priori wyróżnionych cech. Jej wygląd przedstawia Rysunek 1. Rysunek 1 Po wybraniu tej zakładki użytkownik zaznacza obszar zawierający dane dotyczące frakcji ( Frakcja ) oraz obszar zawierający dane dotyczące empirycznych rozkładów a priori ( Prawdopodobieństwa a priori ). W kolejnym kroku określa on liczebność próby, na podstawie której otrzymał informacje dodatkowe ( Liczebność ). Liczebność próby jest wstępnie ustalona na 100 elementów, ale użytkownik może wpisać dowolną inną wartość. Ponadto użytkownik określa liczbę elementów wyróżnionych w próbie ( Liczba wyróżnionych ). Zakładka Rozkład teoretyczny powinna być wykorzystywana w sytuacjach, gdy zakładamy, że wartości cechy charakteryzują się określonym rozkładem a priori (program daje możliwość wyboru pomiędzy rozkładem równomiernym oraz dwumianowym, choć oczywiście wartości cechy mogą mieć również inne rozkłady). 12

I KOFERENCJA KOŁA NAUKOWEGO STATYSTYKÓW KATOWICE 2005 Rysunek 2 Użytkownik po wybraniu zakładki Rozkład teoretyczny określa rodzaj rozkładu charakteryzującego wyróżnione cechy. W przypadku wyboru rozkładu równomiernego użytkownik zaznacza jedynie zakres zawierający dane oraz określa liczebność próby i liczbę wyróżnionych w próbie elementów (Rysunek 2). W przypadku wyboru rozkładu dwumianowego, użytkownik musi dodatkowo określić w uaktywnionym okienku ( p ) wartość parametru p (Rysunek 3). Rysunek 3 13

ZASTOSOWANIE NARZĘDZI INFORMATYCZNYCH W PROCESIE NAUCZANIA STATYSTYKI Po naciśnięciu przycisku Oblicz użytkownik otrzymuje wyniki przedstawione w postaci tabeli zawierającej rozkłady a priori oraz a posteriori. Dodatkowo wykreślone zostaną wykresy dla tych rozkładów. Piotr Nowak Testy oparte na rangach Dane: k populacji o ciągłych rozkładach, o nieznanych dystrybuantach F1(x), F2(x),..., Fk(x) próby losowe o liczebnościach ni (i = 1, 2,..., k) pobrane z tych populacji Hipotezy: Hipoteza zerowa H0:F1(x)= F2(x)=...= Fk(x) Hipoteza alternatywna rozkład badanej cechy nie we wszystkich populacjach jest taki sam Rangowanie: uporządkowanie wyników wszystkich prób od najmniejszego do największego wyniki numerujemy kolejnymi liczbami naturalnymi przy jednakowych wynikach przypisujemy średnią arytmetyczną odpowiednich liczb naturalnych Możliwe testy do wyboru: test Kruskala-Wallisa (k=3) test Kruskala-Wallisa (k>3) test Friedmana (n1= n2=...=nk) test rangowanych znaków Wilcoxona Obliczenia: obszar krytyczny w trzech pierwszych testach jest budowany prawostronnie hipotezę zerową odrzucamy, gdy 2 2 χ χ α 14

I KOFERENCJA KOŁA NAUKOWEGO STATYSTYKÓW KATOWICE 2005 Moduł rangowych testów zgodności: Rysunek 1. Okno wprowadzania danych modułu testów rangowych Rysunek 2. Wygląd przykładowego arkusza z wynikami testu 15

ZASTOSOWANIE NARZĘDZI INFORMATYCZNYCH W PROCESIE NAUCZANIA STATYSTYKI Joanna Tomanek Indeksy agregatowe wielkości absolutnych Indeksy agregatowe wielkości absolutnych są wykorzystywane do statystycznego opisu dynamiki zjawisk gospodarczo-społecznych. W przeciwieństwie do wskaźników indywidualnych dają możliwość badania zjawisk złożonych i niejednorodnych. Przykładowo badając dynamikę ceny każdego artykułu oddzielnie (indeksy proste) nie ocenimy łącznej zmiany cen wszystkich artykułów danej grupy, a jest to istotne z punktu widzenia popytu i podaży. Wśród agregatowych indeksów wielkości absolutnych wyróżniamy: INDEKS WARTOŚCI I w Σwt = Σw Informuje o łącznych zmianach wartości wszystkich produktów w momencie badanym w stosunku do momentu podstawowego (wynikających zarówno ze zmian ilości jak i cen). INDEKS AGREGATOWY CEN Określa wpływ zmian cen na dynamikę wartości. INDEKS AGREGATOWY ILOŚCI Określa wpływ zmian ilości na dynamikę wartości. o I p / q = c Σ I q / p = c Σ Σp q p q t o Σq t o q c p c p c c W zależności od wyboru danej formuły standaryzacyjnej czynnik stały (q c lub p c ) przyjmowany jest z okresu podstawowego (formuła Laspeyresa) lub z okresu badanego (formuła Paaschego). Formuła Fishera to średnia geometryczna z indeksów wyznaczonych wg formuły Laspeyresa i Paaschego. Rys.1 przedstawia okno dialogowe pojawiające się przy wyborze opcji Indeksy agregatowe wielkości absolutnych. Użytkownik powinien tu zaznaczyć, jakie indeksy chce obliczyć oraz wprowadzić dane. Aby uzyskać dodatkowe wyjaśnienia wystarczy kliknąć na dane pole. Użytkownik może wprowadzić nazwę arkusza, w którym pojawią się odpowiednie wyniki, jeżeli tego nie zrobi program użyje nazwy domyślnej INDEKSY A. 16

I KOFERENCJA KOŁA NAUKOWEGO STATYSTYKÓW KATOWICE 2005 Rysunek 1 Jan Acedański Testy sekwencyjne Moduł Testy sekwencyjne służy do weryfikacji hipotez statystycznych w oparciu o postępowanie sekwencyjne. Zgodnie z nim elementy do próby pobiera się stopniowo, za każdym razem badając, czy przy założonych prawdopodobieństwach popełnienia błędu I oraz II rodzaju α i β możliwe jest przyjęcie hipotezy podstawowej H 0 lub też odrzucenie jej na korzyść hipotezy alternatywnej H 1. Statystki testowe oparte są o ilorazową funkcję wiarygodności. Jej małe wartości świadczą na korzyść hipotezy H 0, duże na korzyść hipotezy alternatywnej. W praktyce dokonuje się przekształceń, tak by sprawdzian był prostą funkcją kolejnych elementów z próby, a wartości krytyczne zależały tylko od liczebności próby. Najważniejszą zaletą testów sekwencyjnych jest znaczne zmniejszenie liczebności próby, a więc i kosztów badania, stąd też ich szerokie stosowanie w statystycznej kontroli jakości oraz eksperymentach medycznych. Moduł pozwala na weryfikację 3 rodzajów hipotez prostych dotyczących wskaźnika struktury, średniej w rozkładzie normalnym oraz wariancji w rozkładzie normalnym. Dane wprowadzane mogą być na 2 sposoby: w naturalny dla testów sekwencyjnych sposób interaktywny (po kolei podawane są wartości kolejnych obserwacji), bądź też w postaci szeregu. 17

ZASTOSOWANIE NARZĘDZI INFORMATYCZNYCH W PROCESIE NAUCZANIA STATYSTYKI Konieczne jest też zadeklarowanie wielkości błędów α i β, specyfikacja hipotez oraz podanie wartości dodatkowego parametru w przypadku rozkładu normalnego. Efektem procedury jest decyzja odnośnie przyjęcia jednej z postawionych hipotez, bądź jej brak w przypadku zbyt małej próby. Dodatkowo możliwe jest wyznaczenie przeciętnej liczby obserwacji potrzebnych do podjęcia obu decyzji, a także prezentacja szczegółowych obliczeń dla kolejnych elementów próby. Na rys. 1 przedstawiono okno dialogowe modułu Testy sekwencyjne oraz rezultaty w arkuszu kalkulacyjnym otrzymywane po wykonaniu obliczeń. Rysunek 1 Maria Czogała Metody wnioskowania na podstawie podprób METODA BOOTSTRAP Coraz częściej do szacowania parametrów wykorzystywane są metody opierające się na algorytmach Monte Carlo. Jedną z takich metod jest metoda bootstrap, która po raz pierwszy została zaproponowana w pracach Efrona. Nazwa metody pochodzi z angielskiego wyrażenia to pull oneself up by one s bootstrap co można tłumaczyć jako wydobyć się z opresji z pomocą własnych sił. Wyrażenie to w bardzo dobry sposób ilustruje niejako działanie tej metody. 18

I KOFERENCJA KOŁA NAUKOWEGO STATYSTYKÓW KATOWICE 2005 Metoda bootstrap polega na tym, że mając pewną próbę pochodzącą z populacji, dokonujemy n-krotnego losowania ze zwracaniem spośród elementów tej próby. Losowane podpróby są równoliczne. Liczba losowań podprób powinna wynosić co najmniej 1000. Jak łatwo zauważyć oryginalna próba traktowana jest tym sposobem jako populacja, z której losowane są n razy k-elementowe próby proste. Bootstrapowym estymatorem parametru Θ rozkładu zmiennej losowej X jest statystyka postaci: gdzie: ) n * 1 ) Θ = Θ n jest pewną ustaloną liczbą naturalną ( n 1000 ) Θ = Θ( *, ) dla k=1, 2,..., n, przy czym ) * k x k F n k = 1 * k * x k to k-ta próba bootstrapowa. Metoda bootstrap umożliwia również estymację przedziałową nieznanego parametru Θ. Znanych jest wiele podejść do tego zagadnienia. W tej aplikacji przedziały ufności wyznaczane są przy pomocy metody percentyli. METODA JACKKNIFE Inną metodą wykorzystującą algorytmy Monte Carlo jest metoda jackknife. Metoda ta pozwala na oszacowanie wariancji estymatora parametru. Polega ona na tym, że pochodzącą z populacji próbę dzielimy na zależne grupy o jednakowych liczebnościach. Dla każdej grupy obliczana jest wartość estymatora Θˆ parametru Θ, według tej samej reguły funkcyjnej, co estymator dla całej grupy, ale bazujący na obserwacjach nie należących do grupy. Dla każdej grupy są następnie wyznaczane pseudowartości według reguły funkcyjnej: gdzie: G- liczba zależnych grup, Θˆ - estymator parametru, ˆ ( g ) Θ - estymator parametru dla grupy. Θ ˆ Estymatorem jackknife nazywamy funkcję: g = GΘˆ ( G 1) Θˆ ( g ) Θˆ JK 1 = G G Θ ˆ g g = 1 19

ZASTOSOWANIE NARZĘDZI INFORMATYCZNYCH W PROCESIE NAUCZANIA STATYSTYKI Wariancję tego estymatora możemy określić na dwa sposoby: ) V JK1 ) V JK 2 1 = G G ( 1) 1 = G G ( 1) G ( Θˆ Θˆ g JK ) g= 1 G ( Θˆ g Θˆ ) g = 1 2 2. APLIKACJA Po uruchomieniu aplikacji pojawia się okno główne programu. Wyróżnione są dwie zakładki - pierwsza pozwala na estymację parametru metodą bootstrap, druga służy do estymacji metodą jackknife. Rysunek 1 Na rysunku 1 przedstawiona jest zakładka programu służąca do estymacji metodą bootstrap. Użytkownik zaznacza zakres z danymi, następnie określa liczbę generowań próby bootstrapowej (Liczba powtórzeń) oraz jej liczebność (Próba bootstrap). Użytkownik może zdecydować o wyznaczeniu również przedziału ufności. Wystarczy wówczas zaznaczyć pole Przedział ufności i określić poziom ufności (poprzez wybranie odpowiedniej wartości z rozwijalnej listy lub wpisaniu wartości przez użytkownika). Rysunek 2 przedstawia zakładkę programu służącą do estymacji parametru metodą jackknife. 20

I KOFERENCJA KOŁA NAUKOWEGO STATYSTYKÓW KATOWICE 2005 Rysunek 2 Użytkownik zaznacza obszar z danymi oraz określa liczbę grup, na którą oryginalna próba zostanie podzielona. Może on zdecydować również o wyznaczeniu wariancji estymatora jackknife, poprzez zaznaczenie odpowiedniego pola. Po wybraniu przycisku Wykonaj w nowym arkuszu użytkownik otrzyma wyniki przeprowadzonych analiz. Warto również podkreślić, że w aplikacji dostępne jest okienko pomocy, które na każdym etapie informuje użytkownika o tym, jakich informacji oczekuje program w kolejnym kroku. Bogdan Sokalski Metody klasyfikacji Metody klasyfikacji mają szerokie zastosowanie w dzisiejszym świecie. Stosuje się przede wszystkim w celu zredukowania dużej ilości informacji do kilku podstawowych kategorii, co pozwala na zmniejszenie nakładów czasu i kosztów badań oraz określenie jednorodnych przedmiotów analizy. Problem klasyfikacji sprowadza się do podziału całej populacji na niepuste zbiory elementów podobnych do siebie i zarazem istotnie różnych od elementów innych klas. Wyróżniamy trzy grupy metod klasyfikacji: 1. Metody hierarchiczne 2. Metody podziału 21

ZASTOSOWANIE NARZĘDZI INFORMATYCZNYCH W PROCESIE NAUCZANIA STATYSTYKI 3. Metody prezentacji graficznej Wśród metod hierarchicznych można wyróżnić dwie grup: 1. Metody aglomeracyjne wyjściem są jednoelementowe skupienia a wynikiem jeden zbiór zawierający wszystkie elementy 2. Metody deglomeracyjne wyjściem jest jedno skupienie a wynikiem są jednoelementowe zbiory Algorytm metod hierarchicznych opiera się na każdym etapie na połączeniu dwóch najbliższych obiektów wedle ustalonego kryterium dopóki nie otrzyma się zbioru zawierającego wszystkie elementy. Wśród kryteriów łączenia obiektów wyróżnia się: 1. Metodę najbliższego sąsiedztwa (single linkage) 2. Metodę najdalszego sąsiedztwa (complete linkage ) 3. Średniej odległości (group average linkage ) 4. Ważonej średniej odległości (weighted average linkage ) 5. Warda (incremental sum of squares) 6. Środka ciężkości (centroid) 7. Medianowa (median) Kryteria te często są rozbieżne tworząc różne schematy klasyfikacji. W literaturze jako najbardziej skuteczną zauważ się kryterium Warda oparte na sprawdzaniu w każdym kroku sumy kwadratów odległości od środków ciężkości i łącząc te obiekty, które tą sumę najmniej powiększają. Problemem metod hierarchicznych jest to, że nie wskazują optymalnej liczby klas. Stosując jednak proste miary oparte na średnim poziomie połączenia klas można tą optymalną liczbę klas wyznaczyć. Procedura klasyfikacja napisana w VBA dla arkusza kalkulacyjnego Excel zawiera następujące funkcje: 1. Pozwala na wybór rodzaju danych (dane ilościowe, binarne lub w postaci tablicy odległości) 2. Przekształca dane wejściowe w celu wyrównania wpływu każdej zmiennej na wynik klasyfikacji. Do wyboru są następujące przekształcenia: standaryzacja, normalizacja, unitaryzacja oraz przekształcenie ilorazowe. 3. Pozwala na wybór metody wyznaczania odległości: a) Dla danych ilościowych dostępne są : euklidesowa, kwadrat euklidesowej, miejska, Czebyszewa, Minkowskiego, Braya Curtisa, Canberra, Clarka 22

I KOFERENCJA KOŁA NAUKOWEGO STATYSTYKÓW KATOWICE 2005 b) Dla danych biarnych dostępne są : Sokala i Michenera, Jaccarda, Czekanowskiego, Rogersa i Tanimoto 4. Wybór kryterium klasyfikacji. Dostępne są następujące kryteria: najbliższego sąsiedztwa, najdalszego sąsiedztwa, średniej odległości, ważonej średniej odległości, Warda, środka ciężkości, medianowa. 5. Wynik w postaci tablicy odległości, dendrogramu oraz poziomu połączenia klas na każdym z etapów. Piotr Nowak Indeksy agregatowe wielkości stosunkowych Wielkości stosunkowe są wskaźnikami natężenia wyrażającymi stosunek dwóch zjawisk logicznie ze sobą powiązanych. Przykładami mogą być: wydajność pracy (iloraz produkcji i czasu pracy) koszt jednostkowy (iloraz nakładów i wielkości produkcji) Każdą wielkość stosunkową można rozpatrywać jako ogólną (zespołową) lub cząstkową (jednostkową). Na przykład: stosunek liczby zgonów do ogólnej liczby ludności jest wielkością ogólną, iloraz liczby zgonów w grupie wiekowej 30-40 lat do liczby ludności w tym wieku to wielkość cząstkowa Wielkości stosunkowe cząstkowe zapisujemy w postaci ułamka: X = a x = b Wielkości stosunkowe całkowite zapisujemy w postaci ułamka: Wartość indeksu wszechstronnego jest wypadkową działania dwóch czynników: A B dynamiki cząstkowych wielkości stosunkowych zmian w strukturze czynnika a lub czynnika b = a b 23

ZASTOSOWANIE NARZĘDZI INFORMATYCZNYCH W PROCESIE NAUCZANIA STATYSTYKI Istnieją trzy sposoby liczenia indeksów wielkości stosunkowych ze względu na dane przyjęte jako podstawowe: formuła Laspeyresa formuła Paaschego formuła Fischera (średnia geometryczna wyników obu tych formuł) Moduł indeksów agregatowych wielkości stosunkowych: Rysunek 1 Rysunek 2 Rysunek 3 Rysunek 4 Rysunki 1,2,3 kolejne strony modułu indeksów agregatowych wielkości stosunkowych Rysunek 4 przykładowa zawartość arkusza danych po uruchomieniu modułu na zadanych danych 24