Lekcja 5. Strona 1 z 12 Analiza Statystyczna Do analizy statystycznej wykorzystać można wbudowany w MS Excel pakiet Analysis Toolpak. Jest on instalowany w programie Excel jako pakiet dodatkowy. Oznacza to, że pakiet ten nie jest dostępny po standardowej instalacji programu MS Excel w komputerze i należy go dodatkowo zainstalować. W tym celu korzystamy z menu Narzędzia Dodatki. W oknie dialogowym, jakie zostanie otwarte wybieramy opcję Analysis Toolpak. Pakiet Analysis ToolPak Pakiet Analysis Toolpak uruchamia się z menu: Narzędzia Analiza danych (rysunek 1.). Rysunek 1. Otwieranie okna z pakietem Analysis Toolpak. Po wybraniu tej opcji otwiera się okno dialogowe z dostępnymi narzędziami analizy danych (rysunek 2.). Rysunek 2. Okno z dostępnymi w pakiecie Analysis Toolpak narzędziami do analizy danych.
Lekcja 5. Strona 2 z 12 W ramach pakietu Analysis Toolpak dostępnych jest 15 różnych metod statystycznej analizy danych: 1. Analiza wariancji; 2. Korelacja, narzędzia analizy i formuła 3. Kowariancja, narzędzia analizy i formuła 4. Statystyka opisowa, narzędzie analizy; 5. Wygładzanie wykładnicze, narzędzia analizy i formuła 6. Test F z dwiema próbkami dla wariancji, narzędzie analizy; 7. Analiza Fouriera, narzędzia;\ 8. Histogram, narzędzie analizy; 9. Średnia ruchoma, narzędzia analizy i formuła; 10. Generowanie liczb pseudolosowych, narzędzia analizy; 11. Ranga i percentyl, narzędzia analizy; 12. Regresja, narzędzia analizy; 13. Próbkowanie, narzędzia analizy; 14. Analiza za pomocą testu t, narzędzia analizy; 15. Test z: z dwiema próbkami dla średniej, narzędzia analizy. Wybranie jednej z opcji otwiera kolejne okno dialogowe, w którym podaje się konieczne do przeprowadzenia wybranej analizy danych informacje. W ramach zajęć omówione zostaną trzy metody: Histogram, Statystyka opisowa oraz Regresja. Regresja, narzędzie analizy Narzędzie analizy Regresja pozwala przeprowadzić analizę regresji liniowej dopasowując, za pomocą metody "najmniejszych kwadratów", prostą do zbioru wyników eksperymentalnych. Można zbadać, w jaki sposób zmienne niezależne wpływają na wartości pojedynczej zmiennej zależnej na przykład, w jaki sposób wyniki osiągane przez atletę, zależą od jego wieku, wzrostu i wagi. Każdemu z tych trzech czynników, w oparciu o zbiór danych, można przypisać udział w wyniku osiągniętym przez sportowca, a następnie na tej podstawie przewidywać rezultaty innego atlety. Wybranie w oknie dialogowym Analiza danych opcji Regresja (rysunek 2) powoduje otwarcie nowego okna dialogowego (rysunek 3). Poszczególne informacje, jakie podaje się w tym oknie są następujące:
Lekcja 5. Strona 3 z 12 Rysunek 3. Okno dialogowe z danymi dla opcji Regresja. Zakres wejściowy Y Podaj adres zakresu wejściowego danych zależnych. Zakres ten musi zawierać pojedynczą kolumnę danych. Zakres wejściowy X Podaj adres zakresu wejściowego danych niezależnych. Zmienne niezależne z tego zakresu są porządkowane rosnąco od lewej do prawej. Maksymalna liczba zmiennych niezależnych wynosi 16. Tytuły Zaznacz to pole wyboru, jeżeli pierwszy wiersz albo pierwsza kolumna zakresu wejściowego zawiera tytuły. Wyczyść, jeżeli zakres wejściowy nie obejmuje tytułów; tytuły danych w tabeli wyników będą utworzone automatycznie. Poziom ufności Domyślnie program MS Excel przyjmuje poziom ufności 95%. Jeżeli chcesz w podsumowującej tabeli wyników uwzględnić dodatkowy poziom ufności, to należy zaznaczyć pole Poziom ufności. W polu obok wpisać natomiast należy wartość dodatkowego poziomu ufności, który będzie uwzględniany oprócz domyślnego poziomu 95 %. Stała wynosi Zero Zaznacz to pole, jeżeli chcesz wymusić, aby linia regresji przechodziła przez początek układu współrzędnych. Oznacza to, że wyraz wolny a w modelu y = a + b x wynosi zero, czyli a = 0. Opcje wyjścia W tym miejscu określa się miejsce, w którym program MS Excel ma wygenerować tabelę wyników.
Lekcja 5. Strona 4 z 12 Podsumowująca tabela wyników powinna zawierać przynajmniej siedem kolumn, w których znajdzie się tabela wariancji, współczynniki, błąd standardowy estymaty y, wartości współczynnika korelacji R 2, liczba danych oraz błędy standardowe współczynników. Dostępne są trzy możliwości: Zakres wyjściowy Podaj adres lewej górnej komórki bieżącego arkusza, od której wypisana zostanie tabeli wyników. Nowy arkusz Kliknij tę opcję, jeżeli chcesz wstawić do istniejącego skoroszytu nowy arkusz i wkleić do niego wyniki zaczynając od komórki A1. Nazwę nowego arkusza wpisz w polu obok. Nowy skoroszyt Kliknij tę opcję, jeżeli chcesz utworzyć nowy skoroszyt i wkleić wyniki do nowego arkusza w nowym skoroszycie. W polu oznaczonym zbiorczo Składniki resztowe określa się, jakie dodatkowe informacje związane z przeprowadzoną regresją chcemy uzyskać. Możliwe są cztery możliwości: Składniki resztowe Zaznacz to pole, jeżeli chcesz włączyć składniki resztowe do tabeli wyników dla składników resztowych. Std. składniki resztowe Zaznacz to pole, jeżeli chcesz włączyć standardowe składniki resztowe do tabeli wyników dla składników resztowych. Rozkład reszt Zaznacz to pole wyboru, jeżeli chcesz utworzyć wykres każdej niezależnej zmiennej w funkcji składnika resztowego. Rozkład linii dopasowanej Zaznacz to pole, jeżeli chcesz utworzyć wykres wartości przewidywanych w funkcji wartości obserwowanych. Rozkład prawdopodobieństwa normalnego Zaznacz to pole, jeżeli chcesz utworzyć wykres prawdopodobieństwa normalnego. Przykład 1. W 1965r. przeprowadzone zostały badania zależność pomiędzy średnią roczną temperaturą a umieralnością kobiet na jedną z odmian raka piersi. Badania przeprowadzono w wybranych rejonach Wielkiej Brytanii, Norwegii i Szwecji. Analiza regresji pokazuje silną dodatnią korelację pomiędzy tymi dwiema wielkościami. Zebrane dane podano w tabeli 1.
Lekcja 5. Strona 5 z 12 Tabela 1. Zależność umieralności kobiet na jedną z odmian raka piersi w zależności od średniej rocznej temperatury zamieszkiwanego przez nie regionu. Źródło: Velleman, P. F. and Hoaglin, D. C. (1981). Applications, Basics, and Computing of Exploratory Data Analysis. Belmont. CA: Wadsworth, Inc., pp. 127-134. Nr Umieralność Średnia temp. 1 102.5 51.3 2 104.5 49.9 3 100.4 50 4 95.9 49.2 5 87 48.5 6 95 47.8 7 88.6 47.3 8 89.2 45.1 9 78.9 46.3 10 84.6 42.1 11 81.7 44.2 12 72.2 43.5 13 65.1 42.3 14 68.1 40.2 16 67.3 31.8 17 52.5 34 Podane w tabeli 1. dane należy wprowadzić do arkusza, a następnie z menu: Narzędzia Analiza danych wybrać opcję Regresja. Otwiera się wtedy okno dialogowe pozwalające wprowadzić dane wymagane przez tę metodę (rysunek 4.) Rysunek 4. Dane do przykładu 1. oraz okno dialogowe dla opcji Analizy Danych Regresja.
Lekcja 5. Strona 6 z 12 Po wprowadzeniu wszystkich danych naciskamy przycisk OK. Wyniki obliczeń zapisane są w wskazanym w opcjach wyjścia miejscu (rysunek 5.). Rysunek 5. Wyniki analizy regresji dla danych podanych w przykładzie 1. Rysunek 6. Wybór opcji analizy danych Histogram.
Lekcja 5. Strona 7 z 12 Histogram, narzędzie analizy Jest to narzędzie do obliczania indywidualnych i łącznych częstotliwości dla danych i przedziałów danych. Wyznaczana jest liczba wystąpień danej wartości w zbiorze danych. Na przykład, można wyznaczyć rozkład uzyskanych ocen w grupie składającej się z 20 studentów. Tabela histogramu zawiera granice przedziałów oraz liczbę ocen pomiędzy najniższą, a bieżącą granicą. Najczęściej występująca ocena nazywana jest modą danych. Wybranie opcji Histogram w menu Analiza danych (rysunek 6) powoduje otwarcie odpowiedniego okna dialogowego (rysunek 7.) związanego z wybraną metodą, w którym podajemy konieczne do zrobienia histogramu dane. Rysunek 7. Okno dialogowe opcji Histogram. Zakres wejściowy Podaj adres zakresu danych, które chcesz przeanalizować. Zakresy zbioru (opcjonalnie) Podaj adres zakresu zawierającego opcjonalny zbiór wartości granicznych definiujących przedziały histogramu. Wartości te należy podawać w porządku rosnącym. W programie Microsoft Excel zliczane są punkty danych pomiędzy kolejnymi wartościami granicznymi. Wartość z zakresu danych jest zaliczana do przedziału, jeżeli jest równa lub mniejsza od bieżącej wartości granicznej, ale większa od poprzedniej wartości granicznej. Wszystkie wartości poniżej pierwszej wartości granicznej są zaliczane do jednego przedziału, podobnie jak wszystkie wartości powyżej ostatniej wartości granicznej.
Lekcja 5. Strona 8 z 12 Jeżeli zbiór zakresów przedziałów nie będzie określony, zakres wartości pomiędzy minimum a maksimum zbioru danych zostanie podzielony na przedziały o równej szerokości. Tytuły Zaznacz to pole wyboru, jeżeli pierwszy wiersz albo pierwsza kolumna zakresu wejściowego zawiera tytuły. Wyczyść, jeżeli zakres wejściowy nie obejmuje tytułów; tytuły danych w tabeli wyników będą utworzone automatycznie. Zakres wyjściowy Podaj adres lewej górnej komórki tabeli wyników. Rozmiary zakresu wyjściowego zostaną określone automatycznie. Jeżeli utworzenie tabeli wyników spowoduje zastąpienie istniejących danych, w programie Microsoft Excel będzie wyświetlony odpowiedni komunikat. Nowy arkusz Kliknij tę opcję, jeżeli chcesz wstawić do istniejącego skoroszytu nowy arkusz i wkleić do niego wyniki zaczynając od komórki A1. Nazwę nowego arkusza wpisz w polu obok. Nowy skoroszyt Kliknij tę opcję, jeżeli chcesz utworzyć nowy skoroszyt i wkleić wyniki do nowego arkusza w nowym skoroszycie. Pareto (posortowany histogram) Zaznacz to pole wyboru, jeżeli chcesz, aby dane w tabeli wyników były uporządkowane według malejącej częstotliwości ich występowania. Po wyczyszczeniu pola, dane będą uporządkowane rosnąco. Trzy skrajne prawe kolumny zawierające posortowane dane będą pominięte. Łączny udział procentowy Zaznacz to pole wyboru, jeżeli w tabeli wyników chcesz utworzyć kolumnę zawierającą łączne udziały procentowe i przedstawić na wykresie odpowiadającą im linię. Wyczyść, jeżeli nie chcesz przedstawiać łącznych udziałów procentowych. Wykres wyjściowy Zaznacz to pole wyboru, jeżeli razem z tabelą wyników chcesz utworzyć osadzony wykres. Przykład 2. W 1798 r. Henry Cavendish zmierzył gęstość Ziemi używając do tego wagi torsyjnej. W swoich badaniach uzyskał 29 następujących wartości gęstości (dane w g/dm 3 ): 5.5 5.47 5.42 5.61 5.53 5.47 4.88 5.62 5.63 4.07 5.29 5.34 5.26 5.44 5.46
Lekcja 5. Strona 9 z 12 5.55 5.34 5.3 5.36 5.79 5.75 5.29 5.1 5.86 5.58 5.27 5.85 5.65 5.39 Podane dane należy wpisać do arkusza a następnie wybrać z menu opcję: Narzędzia Analiza Danych Histogram. Otworzy się wtedy okno dialogowe, w którym podajemy wymagane informacje (rysunek 8). Po naciśnięciu przycisku OK. uzyskamy wyniki przeprowadzonej analizy. Rysunek 8. Otrzymany Histogram. Statystyka opisowa, narzędzie analizy To narzędzie analizy tworzy raport oparty na standardowych parametrach statystycznych dla danych z zakresu wejściowego, dostarczając informacji o zasadniczych tendencjach i zmienności danych. Wybranie opcji Analizy danych Statystyka Opisowa (rysunek 9) powoduje otwarcie odpowiedniego okna dialogowego (rysunek 10), w którym podaje się wymagane przez tę metodę dane.
Lekcja 5. Strona 10 z 12 Rysunek 9. Wybranie opcji Analiza opisowa w menu Analiza Danych. Rysunek 10. Okno dialogowe z danymi wymaganymi przez opcję Statystyka opisowa. Zakres wejściowy Wpisz adres zakresu komórek zawierających dane, które chcesz poddać analizie. Adres musi wskazywać dwa lub więcej przylegające do siebie zakresy danych, zorganizowanych w kolumny lub w wiersze. Grupowanie wg Wskaż, czy dane w zakresie wejściowym są zorganizowane w wiersze, czy w kolumny, wybierając odpowiednio przycisk Wierszy albo Kolumn.
Lekcja 5. Strona 11 z 12 Tytuły w pierwszym wierszu/tytuły w pierwszej kolumnie Jeżeli pierwszy wiersz zakresu wejściowego zawiera tytuły, zaznacz pole wyboru Tytuły w pierwszym wierszu. Jeżeli tytuły znajdują się w pierwszej kolumnie zakresu wejściowego, zaznacz pole wyboru Tytuły w pierwszej kolumnie. Jeżeli zakres wejściowy nie zawiera tytułów, pole wyboru należy wyczyścić; tytuły danych w tabeli wyników będą utworzone automatycznie. Poziom ufności dla średniej Zaznacz to pole wyboru, jeżeli do tabeli wyników chcesz dodać wiersz zawierający poziom ufności dla średniej. W polu obok wpisz poziom ufności, który chcesz użyć. Na przykład, wartość 95 % wyznacza poziom ufności dla średniej z istotnością 5 %. K-ta największa Zaznacz to pole wyboru, jeżeli do tabeli wyników chcesz dodać wiersz zawierający k-tą największą wartość dla każdego zakresu danych. W polu obok podaj wartość k. Jeżeli wpiszesz 1, to wiersz będzie zawierał największą wartość w zbiorze. K-ta najmniejsza Zaznacz to pole wyboru, jeżeli do tabeli wyników chcesz dodać wiersz zawierający k-tą najmniejszą wartość dla każdego zakresu danych. W polu obok podaj wartość k. Jeżeli wpiszesz 1, to wiersz będzie zawierał najmniejszą wartość w zbiorze. Zakres wyjściowy Podaj adres lewej górnej komórki tabeli wyników. Tabela wyników zawiera po dwie kolumny dla każdego zakresu danych. Lewa kolumna zawiera tytuły, a prawa odpowiadające im wartości. Dwukolumnowe tabele statystyczne są tworzone dla każdej kolumny lub każdego wiersza wejściowego zakresu danych, zależnie od opcji wybranej w grupie Grupowanie wg. Nowy arkusz Kliknij tę opcję, jeżeli chcesz wstawić do istniejącego skoroszytu nowy arkusz i wkleić do niego wyniki zaczynając od komórki A1. Nazwę nowego arkusza wpisz w polu obok. Nowy skoroszyt Kliknij tę opcję, jeżeli chcesz utworzyć nowy skoroszyt i wkleić wyniki do nowego arkusza w nowym skoroszycie. Statystyki podsumowań Zaznacz to pole wyboru, jeżeli chcesz utworzyć po jednym polu dla każdej z następujących wielkości statystycznych: średniej, błędu standardowego (średniej), mediany, mody, odchylenia standardowego, wariancji, kurtozy, skośności, zakresu, minimum, maksimum, sumy, licznika, największego (#), najmniejszego (#) oraz poziomu ufności.
Lekcja 5. Strona 12 z 12 Przykład 3. Korzystając z danych podanych w przykładzie 1. przeprowadzić analizę opisową. Wprowadzamy dane do arkusza a następnie z menu: Narzędzia Analiza Danych wybieramy opcję Statystyka opisowa. Otwiera się okno dialogowe związane z tą metodą (rysunek 11), w którym wpisujemy wymagane dane. Po naciśnięciu przycisku OK w wybranym przez nas miejscu podane zostaną wyniki obliczeń. Rysunek 11. Okno dialogowe Statystyka opisowa oraz wyniki analizy dla danych podanych w przykładzie 1. Przykłady