STATYSTYKA STOSOWANA DLA STUDENTÓW UCZELNI SPORTOWYCH

Transkrypt

1 STATYSTYKA STOSOWANA DLA STUDENTÓW UCZELNI SPORTOWYCH

2 2

3 Paweł Cięszczyk Siergiej Boichanka STATYSTYKA STOSOWANA DLA STUDENTÓW UCZELNI SPORTOWYCH Szczecin

4 Recenzent prof. dr hab. Ivan Marchenko Redakcja i korekta Agnieszka Gnat-Leśniańska Projekt okładki Radosław Nagay Copyright by International Association of Ontokinesiologists ISBN Wydawca International Association of Ontokinesiologists Druk i oprawa QPrint sp. z o.o., ul. Nowy Świat 49 lok. 01A, Warszawa 4

5 Spis treści Wstęp Przygotowanie danych i wybór sposobu obliczeń 9 2. Rozpoczęcie obliczeń. Analiza opisowa struktury Weryfikacja hipotez statystycznych zaczynają się problemy Korelacja współzależność cech Prezentacja graficzna uzyskanych rezultatów Zakończenie Bibliografia

6 6

7 Wstęp Prezentowane poniżej opracowanie zostało napisane z myślą o studentach uczelni sportowych przygotowujących swoje prace zaliczeniowe, licencjackie i magisterskie. Statystyka zawsze była i wciąż jest jednym z tych elementów, który przysparza studentom najwięcej trudności w czasie opracowywania uzyskanych przez nich rezultatów. Skomplikowane wzory, dziwnie brzmiące sformułowania w połączeniu z niechęcią tychże studentów do wszystkiego, co związane jest z matematyką i jej naukami pokrewnymi to wszystko sprawia, że przyszli nauczyciele wychowania fizycznego zgłębiają wiedzę z zakresu statystyki nad wyraz rzadko. Fakt ten znajduje oczywiście swoje odzwierciedlenie w przygotowywanych przez nich rozprawach. Niestety, jedną z najsłabszych stron większości prac licencjackich i magisterskich, jakie do tej pory widziałem, była właśnie statystyka. W kilku przypadkach jej poziom dawał wręcz podstawy do zakwestionowania całej pracy. Czy można temu jakoś zaradzić? Do tej pory zdecydowana większość studentów, z którymi rozmawiałem po prostu zlecała przeprowadzenie obliczeń statystycznych osobom trzecim. To pierwszy wariant rozwiązania problemu. Czy słuszny? Moim zdaniem z pewnością jest to kwestia dyskusyjna. Zakładając, że studenci zlecający przeprowadzenie obliczeń trafiali na osoby solidne i kompetentne (a z tym także bywa różnie), to otrzymanie surowych wyników wciąż przecież nie rozwiązuje kwestii ich właściwej interpretacji i zastosowania ich w pracy. Tego po prostu nie da się zrobić bez zrozumienia chociażby postaw statystyki. Chociażby właśnie dlatego proponuję drugi wariant rozwiązania zasygnalizowanego problemu, a mianowicie samodzielne przeprowadzenie niezbędnych obliczeń statystycznych. Jeśli przyjrzeć się mojej propozycji na spokojnie i z rozwagą to okaże się, że jest dla studentów tańsza i o wiele bardziej satysfakcjonująca. Zdecydowana większość prac licencjackich i magisterskich z zakresu nauk o podłożu biologicznym (w tym wychowania fizycznego i sportu) oparta jest na szczęście o zbliżone, czy wręcz nawet identyczne schematy obliczeniowe. Nie trzeba być wytrawnym statystykiem by bez problemu je opanować (oczywiście w bardzo zawężonym powiedzmy wybitnie podstawowym, ale jednocześnie wystarczającym zakresie). Głównym zamierzeniem niniejszego opracowania było przystępne zaprezentowanie minimum materiałowego koniecznego do samodzielnego przeprowadzenia niezbędnych obliczeń. W związku z tym, że niniejsze opracowanie z założenia nie jest przeznaczone dla 7

8 wytrawnych statystyków, uzbrojonych w specjalistyczne narzędzie statystyczne, wszystkie obliczenia przeprowadzane będą w oparciu o powszechnie dostępny arkusz kalkulacyjny EXCEL. Do najczęściej wykorzystywanych na potrzeby prac licencjackich i magisterskich, zaliczyć należy obliczenia z zakresu analizy opisowej struktury, weryfikacji hipotez statystycznych i korelacji. To właśnie tym zagadnieniom poświęcę najwięcej uwagi w dalszej części niniejszego opracowania. 8

9 1. Przygotowanie danych i wybór sposobu obliczeń Pierwszą i podstawową rzeczą od jakiej należy rozpocząć obliczenia statystyczne jest przygotowanie danych uzyskanych w trakcie badań. Staranne i rzetelne podejście do wszelkich zadań z tym związanych pozwala w konsekwencji zaoszczędzić dużo czasu i problemów podczas prowadzenia rzeczywistych obliczeń. Najważniejszymi w tym przypadku operacjami są: weryfikacja uzyskanych wyników oraz ich poprawne wpisanie do arkusza kalkulacyjnego. Brak należytej weryfikacji uzyskanych rezultatów badań jest jedną z najczęstszych przyczyn błędów w późniejszych obliczeniach. Sam kilka razy padłem ofiarą swojej nieostrożności na tym właśnie etapie obliczeń. Skutek tego był najczęściej jeden kilka godzin ciężkiej pracy na marne i wszystko zaczynałem od nowa. Co zatem należy zrobić, by zabezpieczyć się przed takimi pomyłkami? Na szczęście, w zdecydowanej większości przypadków wystarczają: logiczne myślenie i trzeźwość umysłu. Zagrożenia, na które należy zwrócić największą uwagę mają najczęściej związek z niewłaściwym (czytaj: bezmyślnym) wykorzystywaniem danych uzyskanych w czasie badań. Do najczęstszych błędów, z którymi spotkałem się w swojej pracy zaliczyć należy: Porównywanie danych dotyczących tej samej cechy statystycznej, ale wyrażonych w różnych jednostkach miary, np. porównanie prędkości biegu wyrażonej w m/s i km/h (oczywiście bez przeprowadzenia wcześniejszych przekształceń). Porównywanie danych dotyczących tej samej cechy statystycznej, ale mierzonej dwiema różnymi metodami, np. moc mierzona próbą polegającą na skoku w dal i skoku wzwyż. Porównywanie błędnych danych, np. pominięcie przecinka podczas wpisywania rezultatów wysokości ciała do komputera, chociażby zamiast: 175,5 cm wpis: 1755 cm. Porównywanie danych pochodzących z dwóch różnych populacji, np. wykazywanie różnić ilości dzieci urodzonych w województwie Szczecińskim i Zachodniopomorskim bez uwzględnienia przeprowadzonej w międzyczasie reformy administracyjnej. Wspomniane wyżej błędy nie są oczywiście wszystkimi, z jakimi zetknąłem się podczas swojej pracy. Co trzeba zrobić żeby wszystkich tych błędów uniknąć? Jedynym sensownym rozwiązaniem wydaje się w tym przypadku ponowne i bardzo uważne zweryfikowanie sposobu prowadzenia badań, wyboru materiału badawczego, rzetelności dokonanych zapisów, itd Jednym słowem rozwaga i trzeźwe myślenie to powinno wystarczyć. 9

10 Sprawą o wiele prostszą w świetle powyższych uwag jest właściwe wpisanie rezultatów badań do arkusza kalkulacyjnego (UWAGA! W tym miejscu zakładam, że opanowałeś Drogi Czytelniku podstawy pracy w MS EXCEL tak, podstawy to powinno w zupełności wystarczyć). Samo wpisywanie danych do arkusza kalkulacyjnego to praca nudna, męcząca i niewdzięczna. Etap ten jest jednak w mojej ocenie jednym z najważniejszych, o ile w ogóle nie najważniejszy. Bałaganiarstwo i ewentualne błędy popełnione na tym etapie w znaczący sposób utrudnią przyszłą pracę, o ile w ogóle jej nie uniemożliwią. Wpisywanie danych uzyskanych w czasie badań do arkusza kalkulacyjnego to jak nauka przed bardzo trudnym egzaminem; uczysz się tygodniami (w teorii przynajmniej sam byłem studentem i wiem jak to jest), chociaż sam egzamin trwa zaledwie godzinę lub dwie. Niestety, tak to już jest w tym życiu bez solidnego wkuwania nie ma szans na pozytywny rezultat w przypadku naprawdę ciężkich egzaminów (chociaż i tu niektórzy z Was pewnie z przekąsem mruczą pod nosem: teoria ). W jaki sposób wprowadzać zatem dane, by były one wpisane poprawnie? Dobre pytanie i chyba jeszcze lepsza odpowiedź: to zależy. Sposób uzupełniania arkusza kalkulacyjnego uzależniony jest przede wszystkim od rodzaju otrzymanych w czasie badań rezultatów i od tego, jakie obliczenia zamierzamy na ich podstawie przeprowadzić. Ponieważ niniejsze opracowanie w swoim założeniu skierowane jest do niestatystyków, którzy z przymusu muszą zająć się wybitnymi podstawami tej, jakże pięknej nauki, skupmy się na przykładzie najprostszym, ale zarazem najczęściej spotykanym. Załóżmy zatem, że analizie poddane zostaną wartości pomiarów cech statystycznych uzyskanych podczas badania dwóch różnych populacji, np. poziom trzech wybranych zdolności motorycznych (M 1, M 2, M 3 ) uczniów ze szkół publicznych i prywatnych. Zalecany przeze mnie sposób wpisywania danych do arkusza prezentuje rysunek numer 1. Największą przejrzystość wprowadzanych do arkusza danych zapewnia ich wpisanie w kolumny. W tym przypadku najlepiej do każdej z kolumn wprowadzić wartości charakteryzujące jedną z mierzonych w danej próbie cech statystycznych (Rys. 1). Wpisywanie danych najlepiej rozpocząć od drugiego wiersza. W pierwszym warto jest wprowadzić krótki opis charakteryzujący poszczególne dane (informacja taka jest szczególnie przydatna w przypadku danych wpisanych w większą liczbę kolumn). 10

11 Rys. 1. Dane wprowadzone w kolumny arkusza kalkulacyjnego EXCEL Bardzo przydatną umiejętnością okazuje się także nazywanie poszczególnych arkuszy i skoroszytów, czy chociażby sortowanie danych, ale informacje na ten temat możesz znaleźć, Drogi Czytelniku w każdej książce poświęconej arkuszowi kalkulacyjnemu EXCEL. Kolejną sprawą, nad którą trzeba się zastanowić jeszcze przed rozpoczęciem obliczeń jest sposób ich prowadzenia. W arkuszu kalkulacyjnym EXCEL obliczenia mogą być prowadzone na kilka sposobów. Do głównych metod wykorzystywanych na potrzeby podstawowych obliczeń statystycznych zaliczyć można: Prowadzenie obliczeń z wykorzystaniem ręcznie wpisywanych formuł. Metoda najbardziej pracochłonna, lecz niestety... konieczna do opanowania. Nie wszystkie metody obliczeniowe, których będziemy potrzebowali są w EXCELU gotowe do użycia. W takich wypadkach umiejętność układania najprostszych nawet formuł jest wręcz nieodzowna (Rys. 2). 11

12 Rys. 2. Przykład jednej z najprostszych formuł średnia arytmetyczna Prowadzenie obliczeń za pomocą polecenia Analiza danych. Metoda najbardziej efektywna, najszybsza i najprostsza. Żartobliwie rzecz ujmując: dla leniwców. Umożliwia ona szybkie i bezproblemowe uzyskanie wielu statystyk, a jedynym jej mankamentem są pewne braki procedur obliczeniowych (Rys. 3). Rys. 3. Polecenie Narzędzia - Analiza danych 12

13 Prowadzenie obliczeń za pomocą polecenia Funkcja. Metoda ta pozwala na obliczenie poszczególnych statystyk. W sumie można ją porównać do rezultatów, które uzyskiwane są za pomocą polecenia Analiza danych podobne, tylko już nie tak kompleksowe (Rys. 4). Rys. 4. Polecenie Wstaw Funkcja O wyborze danej metody decyduje zatem charakter szukanej funkcji oraz jej dostępność w poszczególnych grupach narzędzi. 2. Rozpoczęcie obliczeń. Analiza opisowa struktury Jak już wspomniałem we wstępie, do podstawowych obliczeń wykorzystywanych na potrzeby prac licencjackich i magisterskich zaliczyć można statystykę opisową struktury. Dla zupełnego laika najlepszym porównaniem w tym przypadku będzie fotografia. Statystyka opisowa struktury, to nic innego, jak takie specyficzne zdjęcie charakteryzujące badaną zbiorowość, dzięki któremu możemy stwierdzić, że to wygląda tak ale może lepiej od razu przejdźmy do przykładu. By nie komplikować, posłużmy się przytoczonym już wcześniej przykładem: Przeprowadzone badania dotyczyły poziomu trzech wybranych zdolności motorycznych (M 1, M 2 i M 3 ) uczniów ze szkoły publicznej i szkoły prywatnej. 13

14 Statystyka opisowa udzieli nam w tym przypadku informacji na takie pytania, jak: ilu uczniów z każdej grupy zostało przebadanych (liczebność oznaczana najczęściej literą n ), jakie wartości danej zdolności uzyskiwali przeciętnie uczniowie z poszczególnych grup (średnia arytmetyczna oznaczana najczęściej symbolem x ), w jakim zakresie rezultaty uzyskane przez uczniów danej grupy różniły się od wartości średniej arytmetycznej (odchylenie standardowe oznaczane najczęściej symbolem Sd ), jaki rezultat przeprowadzonego testu był uzyskiwany przez uczniów z danej grupy najczęściej (dominanta, oznaczana najczęściej literą D ), itd. Najbardziej kompleksowych charakterystyk w przypadku analizy opisowej struktury dostarcza nam Analiza danych w menu Narzędzia. UWAGA! Funkcja ta nie jest jednak standardowo zainstalowana w EXCELU i aby ją uruchomić, konieczne jest aktywowanie dwóch składników EXCELA według następującego schematu: Narzędzia Dodatki Analysis Tool- Pak i Analysis ToolPak VBA (Rys. 5). Po Rys. 5. Aktywowanie Analysis ToolPak i Analysis ToolPak VBA Po zaznaczeniu narzędzi Analysis ToolPak i Analysis ToolPak-VBA i wciśnięciu przycisku OK narzędzie Analiza danych jest już gotowe do użycia. Jego obsługa jest bardzo prosta. Zaczynamy od otwarcia arkusza z wprowadzonymi i zweryfikowanymi przez nas uprzednio danymi. Obliczenia rozpoczynamy od kliknięcia w Analizę danych w menu Narzę- 14

15 dzia. W odpowiedzi Excel wyświetli nam okno dialogowe Analiza danych Narzędzia analizy (Rys. 6). Rys. 6. Narzędzia analizy w oknie Analiza danych W oknie Narzędzie analizy wybieramy interesującą nas zakładkę a więc w tym przypadku Statystyka opisowa. Po wyborze tej funkcji EXCEL automatycznie generuje kolejne okno dialogowe (Rys. 7). Zaprezentowane okno służy do wprowadzenia właściwego zakresu danych do obliczenia (upraszczając EXCEL pyta nas o dane, na których ma prowadzić obliczenia). 15

16 Rys. 7. Okno dialogowe Statystyka opisowa Wprowadzenie danych wejściowych nikomu nie powinno przysporzyć problemów wystarczy kliknąć na malutki kwadracik z czerwoną strzałką w polu Zakres wejściowy. Następnie należy już tylko zaznaczyć właściwy obszar komórek, na podstawie których dokonujemy analizy (Rys. 8). W tym przypadku wystarczy kliknąć na pole oznaczające nazwę kolumny lub zaznaczyć myszką właściwy zakres komórek. Rys. 8. Wprowadzanie danych do okna dialogowego 16

17 Zaznaczenie właściwego zakresu komórek i naciśnięcie klawisza ENTER na ekranie komputera wywoła ponownie okno Statystyka opisowa. Po wprowadzeniu zakresu wejściowego pozostaje nam do uzupełnienia już tylko kilka informacji (Rys. 9). Rys. 9. Uzupełnione okno dialogowe Statystyka opisowa W przypadku analizowanego przez nas przykładu grupowanie danych odbywa się za pomocą kolumn (kolumna A). Pierwsza komórka w kolumnie (komórka A1) zawiera tytuł, a więc zaznaczamy opcję Tytuł w pierwszym wierszu. Co do opcji wyjścia wygenerowanie tablicy z wynikami obliczeń w nowym arkuszu (EXCEL stworzy na tę okoliczność dodatkowy arkusz) jest chyba najwygodniejsze. Dla podstawowych statystyk z zakresu analizy struktury wystarczy zaznaczenie opcji Statystyki podsumowujące. Po kliknięciu na przycisk OK EXCEL wyświetli nam tablicę z rezultatami obliczeń (Rys. 10). W przypadku obliczeń dotyczących kilku cech statystycznych (jak chociażby ma to miejsce w naszym przypadku) można wpisać do zakresu danych wejściowych nie jedną, lecz kilka kolumn. Manewr ten znacząco skróci czas potrzebny na przeprowadzenie wymaganych obliczeń. No tak czy inaczej, Drogi Czytelniku, dysponujesz już wcale niemałym zasobem umiejętności obliczeniowych. Interpretacja i opis właściwie obliczonych miar struktury to zwykle jakieś 70 % pracy. Przyznasz, że nie jest to wcale trudne? To, co dla wielu Twoich 17

18 kolegów jest czarną magią (i to w dodatku nie tanią), zajmuje teraz Tobie dosłownie chwilkę. Rys. 10. Przykład gotowych rezultatów Zwróć uwagę, Drogi Czytelniku, że wyniki obliczeń, które przeprowadziłeś wyświetliły się w nowym arkuszu (Rys. 11). Nie panikuj żeby wrócić do danych wyjściowych wystarczy kliknąć na zakładkę Arkusz 1 w tym samym skoroszycie (chyba, że już wcześniej nazwałeś ten arkusz inaczej). Rys. 11. Arkusz 4 z wynikami obliczeń (dane źródłowe dostępne są w Arkuszu 1) Żeby jednak nie popaść w zbytnią euforię Pamiętam, jak jeszcze na drugim roku studiów kładziono mi do głowy, że tak naprawdę, najważniejsze w statystyce nie są uzyskane w teście rezultat, ale ich właściwa interpretacja. Na szczęście także i w tym przypadku nie święci garnki lepią propozycję interpretacji ważniejszych parametrów zamieszczam poniżej. 18

19 Średnia arytmetyczna: średnio, w toku próby, każdy z objętych badaniem uczniów szkoły publicznej w teście zdolności M 1 uzyskał 50,56 pkt. Średnią arytmetyczną bardzo często przedstawia się także w połączeniu z odchyleniem standardowym. W takim przypadku interpretacja uzyskanego wyniku jest następująca: średnio w toku próby każdy z objętych badaniem uczniów szkoły publicznej w teście zdolności M 1 uzyskał 50,56 ± 5,79 pkt. Mediana 50 % objętych badaniem uczniów szkoły publicznej w toku próby zdolności M 1 uzyskało mniej niż 50 pkt, natomiast kolejne 50 % uczniów rezultaty lepsze od 50 pkt. Odchylenie standardowe przeciętne odchylenie od wartości średniej arytmetycznej punktów uzyskanych przez objętym badaniem uczniów ze szkoły publicznej w przypadku zdolności M 1 wynosiło ± 5,79 pkt. Zakres różnica pomiędzy najlepszym i najgorszym z rezultatów uzyskanych w teście zdolności M 1 przez objętych badaniem uczniów ze szkoły publicznej wyniosła 31 pkt. Minimum najgorszy z rezultatów uzyskanych w teście zdolności M 1 przez objętych badaniem uczniów ze szkoły publicznej wyniósł 39 pkt. Maksimum najlepszy z rezultatów uzyskanych w teście zdolności M 1 przez objętych badaniem uczniów ze szkoły publicznej wyniósł 70 pkt. Licznik łącznie badaniu zdolności M 1 poddanych było 34 uczniów szkoły publicznej. Jak mogłeś się przekonać, Drogi Czytelniku, potrzeba zaledwie kilku kliknięć i paru minut, żeby uporać się ze sporą częścią obliczeń statystycznych do Twojej pracy. Niestety, spora część nie zawsze oznacza: wszystko. Jak zatem zareagować, gdy Twój promotor poprosi o dodatkowe dane, których akurat nie można wygenerować na przykład o dominantę? Podstawowa sprawa w takim przypadku, to nie panikować. Przecież mamy wciąż możliwość wykorzystania funkcji statystycznych z menu Wstaw Funkcja lub w ostateczności przygotowania własnej formuły. Załóżmy zatem, że Twój promotor polecił ci policzenie wspomnianej już przed chwilą wartości dominanty. Jak już zauważyłeś, Narzędzia Analiza danych nie generuje tej wartości. Nie pozostaje zatem nic innego jak wykorzystać funkcje statystyczne udostępnione w menu Wstaw Funkcja. 19

20 Obliczenia rozpoczynamy w identyczny sposób jak poprzednio od otwarcia arkusza z naszymi danymi. Następnie otwieramy menu Wstaw Funkcja (Rys. 12). Istotne w tym przypadku jest, żeby w chwili wywoływania polecenia Funkcja pamiętać o ustawieniu kursora poza obszarem danych, na podstawie których będziemy dokonywali obliczeń. Rys. 12. Polecenie Wstaw - Funkcja W odpowiedzi wyświetli się okno dialogowe Wstawianie funkcji (Rys. 13). Rys. 13. Okno dialogowe Wstawianie funkcji 20

21 Okno dialogowe Wstawianie funkcji pozwala na dokonywanie wielu różnorodnych obliczeń. Nas interesują oczywiście obliczenia statystyczne. Po wyborze kategorii Statystyczne (Rys. 14) nie pozostaje już nic innego jak wyszukanie interesującej nas funkcji. Rys. 14. Wybór kategorii prowadzonych obliczeń Po przeszukaniu dostępnych poleceń uważny Czytelnik zauważy jednak, że wśród nich nie ma czegoś takiego jak Dominanta. I w tym przypadku zalecam opanowanie i rozwagę. Wystarczy wpisać do okna dialogowego Wyszukaj funkcję nazwę interesującej nas funkcji i kliknąć na przycisk Przejdź. W przypadku Dominanty wygenerowana zostanie nazwa Wyst. najczęściej (Rys. 15). Rys. 15. Efekt wyszukiwania funkcji Dominanty 21

22 Po wywołaniu interesującej nas funkcji należy już tylko wprowadzić zakres danych. W przypadku naszego zadania będzie to zakres danych od A2 do A35 (w komórce A1 umieszczono opis dotyczący danych, zawiera ona zatem dane nienumeryczne). EXCEL automatycznie generuje wynik w naszym przykładzie jest nim liczba 49. (Rys. 16). Rys. 16. Wprowadzanie danych do okna Argumenty funkcji Nie pozostaje teraz nic innego, jak przeprowadzenie interpretacji uzyskanego rezultatu: Dominanta: wartością, jaką w toku próby uzyskiwali najczęściej objęci badaniem uczniowie szkoły publicznej w teście zdolności M 1 było 49 pkt. Ostatni, najbardziej czasochłonny, ale niekiedy jedyny sposób prowadzenia obliczeń statystycznych oparty będzie o tworzone przez użytkownika EXCELA formuły obliczeniowe. W przypadku analizy opisowej struktury z koniecznością taką spotkamy się chociażby podczas obliczania zadań na podstawie szeregów rozdzielczych punktowych i przedziałowych, czy w przypadku niektórych, nie oferowanych przez arkusz kalkulacyjny funkcji, np. współczynnika zmienności wyrażonego wzorem V s Sd 100%. x Samodzielne tworzenie formuł nie jest jednak, na szczęście, skomplikowane. Wystarczy tylko podstawowa znajomość zasad matematyki, logiczne myślenie i porządek w danych. Wszystkie formuły rozpoczynamy od znaku równości. Reszta jest już prosta! 22

23 W naszym przykładzie mamy obliczyć współczynnik zmienności wyrażony wzorem V s Sd x 100%. Tak się składa, że zarówno odchylenie standardowe (Sd) jak i średnia arytmetyczna ( x ) zostały obliczone już wcześniej za pomocą narzędzia Analiza danych. Obliczenia rozpoczynamy od otwarcia arkusza z rezultatami obliczeń wygenerowanych przez narzędzie Analiza danych (w naszym przypadku jest to arkusz 4). Jak już wyżej wspomniałem, pisanie formuł rozpoczynamy od znaku równości. Po nim wpisujemy (wystarczy na nią kliknąć) adres komórki, w której znajduje się wartość odchylenia standardowego (B7), następnie wpisujemy symbol dzielenia / i adres komórki, w której znajduje się wartość średniej arytmetycznej. Ostatnią rzeczą, jaka nam pozostała, jest przemnożenie całości przez 100 % (Rys. 17). Rys. 17. Przykład formuły obliczającej współczynnik zmienności Po wykonaniu powyższych działań i naciśnięciu klawisza Enter pozostaje nam jedynie przeprowadzenie interpretacji uzyskanego rezultatu: 23

24 Współczynnik zmienności V s : wartość współczynnika zmienności wynosząca 11,45 wskazuje na umiarkowane zróżnicowanie rezultatów uzyskanych przez uczniów szkoły publicznej w teście zdolności motorycznej M 1. O zasadach pisania formuł, znaczeniu takich symboli, jak chociażby $ i innych, Drogi Czytelniku, możesz dowiedzieć się z każdej, nawet najprostszej ksiązki poświęconej arkuszowi kalkulacyjnemu EXCEL. 3. Weryfikacja hipotez statystycznych zaczynają się problemy Materiał zaprezentowany w niniejszym opracowaniu do tego momentu pozwala na przeprowadzenie analizy struktury, co porównać można do zrobienia zdjęcia. Umiejętność posługiwania się narzędziami tego typu w przypadku prac licencjackich i magisterskich, to z reguły % statystycznego sukcesu. Dużo, ale nie wszystko. Najwięcej problemów w pracach pisanych przez studentów kultury fizycznej przysparza z reguły weryfikacja hipotez statystycznych. Najczęściej obliczenia tego typu dotyczą weryfikacji istotności różnic już tłumaczę Promotor naszej pracy poprosił nas o porównanie rezultatów uzyskanych przez uczniów szkoły publicznej i niepublicznej w teście zdolności motorycznej M 1. Z przeprowadzonych do tej pory badań mogliśmy udzielić jedynie odpowiedzi, że uczniowie ze szkoły publicznej uzyskiwali w tym teście średnio 50,56 ± 5,79 pkt, natomiast uczniowie ze szkoły prywatnej 49,79 ± 5,31 pkt. Pozostaje jednak pytanie, czy różnica ta jest na tyle duża, że należy ją uznać za istotną, czy może na tyle mała, że w rzeczywistości jest ona zupełnie nieistotna. Tego, bez przeprowadzenia stosownych obliczeń, po prostu nie wiemy. Co prawda, na podobne pytania zadawane studentom podczas prowadzonych przeze mnie zajęć niejednokrotnie uzyskiwałem odpowiedzi typu wydaje mi się, że... jednak, o ile jestem w stanie przyjąć je z uśmiechem podczas ćwiczeń, o tyle nie zalecam ich, na przykład w trakcie obrony pracy magisterskiej. Od czego zatem zacząć? Jak podejść do tego typu obliczeń? W rzeczywistości sprawa weryfikacji hipotez statystycznych nie jest rzeczą ani łatwą, ani przyjemną. Najwięcej problemów przysparza już wybór sposobu prowadzenia obliczeń, który uzależniony jest od wielu czynników (normalności rozkładu, liczebności badanych grup, specyfiki uzyskanych rezultatów, wartości wariancji poszczególnych prób, charakteru stawianej hipotezy itd.). Do łatwych 24

25 nie należy także interpretacja uzyskanych rezultatów. Na szczęście, niniejsze opracowanie przeznaczone jest dla niestatystyków piszących prace zaliczeniowe, a nie dla wytrawnych naukowców. Ograniczę się zatem do dwóch problemów, najczęściej występujących w tego typu pracach. W tym miejscu muszę jednak wyraźnie zaznaczyć, że w niniejszym opracowaniu wiedza prezentowana będzie w sposób wybitnie okrojony i niekompletny. Jeśli zatem, Drogi Czytelniku, Twój promotor czy choćby zwykła ciekawość zmuszą Cię do rozwiązywania bardziej złożonych problemów statystycznych dotyczących weryfikacji hipotez statystycznych, polecam chociażby publikację pt. Statystyka dla studentów uczelni sportowych lub dowolną publikację poświęconą opracowaniu statystycznemu uzyskanych rezultatów badań. Do problemów najczęściej spotykanych w pracach licencjackich i magisterskich należy ocena istotności różnic rezultatów uzyskanych przez dwie różne grupy (na przykład uczniów szkoły publicznej i szkoły prywatnej) oraz ocena istotności różnic rezultatów uzyskanych przez tę samą grupę w dwóch różnych okresach czasu (na przykład uczniów szkoły publicznej na początku i na końcu roku szkolnego). W pierwszym z omawianych przypadków mamy do czynienia z tzw. próbami niezależnymi, w drugim natomiast z próbą zależną i to jest większość wiedzy teoretycznej dotyczącej hipotez statystycznych, którą należy opanować na tym poziomie. Na początek rozważmy zatem problem oceny istności uzyskanych różnic dla prób niezależnych. Przypuśćmy, że Twój promotor poprosił Cię o ocenę istotności wyników uzyskanych w próbie zdolności motorycznej M 1. Pierwszym krokiem jaki należy podjąć jeszcze przed rozpoczęciem właściwych obliczeń jest postawienie tzw. hipotezy zerowej (H 0 która zawsze zakłada brak istotności występujących różnic) oraz hipotezy alternatywnej (H 1 która zawsze zakłada istotności występujących różnic). Hipoteza H 0 różnice rezultatów uzyskanych w teście zdolności motorycznej M 1 przez uczniów ze szkoły publicznej i prywatnej są nieistotne statystycznie. Hipoteza H 1 różnice rezultatów uzyskanych w teście zdolności motorycznej M 1 przez uczniów ze szkoły publicznej i prywatnej są istotne statystycznie. Krok drugi to wybór poziomu istotności, na jakim chcemy weryfikować nasze hipotezy (najczęściej spotykane w naukach przyrodniczych to 0,05 i 0,01). Sposób, w jaki wytłumaczę istotę zagadnienia poziomu istotności jest w tym przypadku iście niestatystyczny, ale... w przypadku poziomu istotności wynoszącego 0,05 ustalamy, że gdy podczas porównania 100 par rezultatów 5 z nich różni się od siebie, różnica ta jest statystycznie istotna. W przeciwnym 25

26 razie różnice pomiędzy dwiema próbkami (po 100 rezultatów każda) są statystycznie nieistotne. Obliczenia rozpoczynamy od otwarcia arkusza zawierającego dane wyjściowe. Następnie otwieramy Narzędzia Analiza danych. Tym razem (i każdorazowo w przypadku prób niezależnych) w oknie Narzędzia analizy klikamy na Test T z dwiema próbami zakładającymi równe wariancje (Rys. 18). Rys. 18. Test T z dwiema próbami zakładającymi różne wariancje W odpowiedzi wyświetlone zostanie okno dialogowe, w które należy wpisać dane określające między innymi zakresy danych źródłowych (Rys. 19). Rys. 19. Okno dialogowe Test t: z dwiema próbami zakładający równe wariancje Jak widać na zaznaczonym powyżej rysunku, EXCEL standardowo dokonuje obliczeń na poziomie istotności 0,05. Poziom ten można oczywiście zmienić, chociażby na 0,01. Dla naszego przykładu kompletnie wypełnione okno dialogowe powinno wyglądać, jak na poniższym rysunku (Rys. 20). W polu Zakres zmiennej 1 wprowadzone zostały rezultaty zdolności motorycznej M 1 uzyskane przez uczniów ze szkoły publicznej, w polu Zakres 26

27 zmiennej 2, z kolei, wprowadzone zostały rezultaty zdolności motorycznej M 1 uzyskane przez uczniów ze szkoły prywatnej. Różnica średnich wg hipotezy w tym przypadku wynosi 0 (według hipotezy zerowej zakładamy przecież, że pomiędzy tymi próbkami nie ma żadnej różnicy). Ostatnim polem, które musimy w tym przypadku wypełnić jest zakładka Tytuły dotycząca opisu kolumn umieszczonych w pierwszym wierszu. Rys. 20. Wypełnione okno dialogowe Test t: z dwiema próbkami zakładającymi równe wariancje Po dokładnym wypełnieniu wszystkich niezbędnych pól w oknie dialogowym Test t: z dwiema próbami zakładającymi równe wariancje EXCEL generuje dodatkowy arkusz z rezultatami obliczeń (Rys. 21). Rys. 21. Arkusz z danymi dotyczącymi istotności różnic 27

28 Tak naprawdę w tabeli powyższych wyników interesują nas trzy pozycje: P (T < = t) dwustronny, t Stat i Test t dwustronny. P (T < = t) dwustronny to tzw. poziom prawdopodobieństwa bardzo użyteczne narzędzie ułatwiające podjęcie decyzji, co do prawdziwości weryfikowanej hipotezy. Jeśli jego wartość jest większa od założonego poziomu istotności (np. 0,05) to oznacza to, że nie ma podstaw do odrzucenia hipotezy zerowej (analizowane w tym przypadku różnice są nieistotne statystycznie). Jeżeli z kolei wartość poziomu prawdopodobieństwa jest mniejsza od założonego poziomu istotności to oznacza, że analizowane różnice są statystycznie istotne. t Stat jest obliczonym na podstawie próby wynikiem statystyki t-studenta. Jeśli wartość bezwzględna tej funkcji jest mniejsza od wartości krytycznej Test t dwustronny (do niedawna odczytywało się ją z tablic statystycznych dla założonego poziomu istotności i liczby stopni swobody df), to oznacza to również, że analizowane różnice są nieistotne statystycznie. Istotne w tym miejscu wydaje się zaprezentowanie różnic pomiędzy Test t dwustronny i Test t jednostronny. Pierwszy z nich bierzemy pod uwagę, gdy określamy istotności różnic średnich bez podawania ich kierunku, np. uczniowie ze szkoły publicznej uzyskali rezultaty różniące się w sposób statystycznie istotny od uczniów ze szkoły prywatnej. W przypadku określenia kierunku tej istotności należy wziąć pod uwagę wartość Test t jednostronny, np. uczniowie ze szkoły publicznej uzyskali rezultaty istotnie statystycznie lepsze (lub gorsze) od uczniów ze szkoły prywatnej. W analizowanym przez nas przykładzie: ponieważ t obliczone 0,58 t 1, 99 z prawdopodobieństwem 0,95 stwierdzamy, że nie ma podstaw do odrzucenia hipotezy zerowej na korzyść hipotezy alternatywnej, a więc różnice rezultatów uzyskanych przez uczniów ze szkoły publicznej i prywatnej nie różnią się od siebie w sposób istotny statystycznie (wskazuje na to oczywiście także wartość P (T < = t) dwustronnie). Bardzo podobnie postępujemy w przypadku analizy dwóch prób zależnych (ta sama zbiorowość analizowana po zadziałaniu jakiegoś czynnika po upływie jakiegoś okresu, po specjalnym treningu, po diecie, itp.). W tym przypadku, jako test do analizy, wykorzystujemy Test t: par skojarzonych z dwiema próbami dla średniej (Rys. 21). Test ten, podobnie jak w poprzednim przykładzie, wywołujemy przez kliknięcie w Narzędzia Analiza danych. W odpowiedzi EXCEL generuje okienko dialogowe bardzo podobne do tego, jakie uzyskiwaliśmy po naciśnięciu Test T z dwiema próbami zakładającymi równe wariancje (Rys. 22). 28

29 ] Rys. 21. Wybór funkcji Test t: par skojarzonych z dwiema próbami dla średniej Rys. 22. Okienko dialogowe Test t: par skojarzonych z dwiema próbami dla średniej Załóżmy zatem, że analizie poddano różnice rezultatów uzyskanych przez uczniów szkoły publicznej na początku (kolumna A) i na końcu (kolumna B) roku szkolnego w teście zdolności motorycznej M 1. Ze względu na cel badań należy postawić następujące hipotezy badawcze: 29

30 Hipoteza H 0 rezultaty uzyskane w teście zdolności motorycznej M 1 przez uczniów ze szkoły publicznej na początku i na końcu roku akademickiego nie różnią się od siebie w sposób istotny statystycznie. Hipoteza H 1 rezultaty uzyskane w teście zdolności motorycznej M 1 przez uczniów ze szkoły publicznej na początku i na końcu roku akademickiego różnią się od siebie w sposób istotny statystycznie. Naszą analizę zdecydowaliśmy się przeprowadzić dla poziomu istotności wynoszącego 0,05. Po tej decyzji nie pozostaje nic innego, jak przejść do końcowych obliczeń. Wypełnione okno dialogowe Test t: par skojarzonych z dwiema próbami dla średniej zaprezentowano na poniższym rysunku (Rys. 23). Jak można zauważyć, sposób jego wypełnienia jest praktycznie identyczny ze sposobem, w jaki wypełnialiśmy okno dialogowe Test T z dwiema próbami zakładającymi równe wariancje. Rys. 23. Wypełnione okienko dialogowe Test t: par skojarzonych z dwiema próbami dla średniej Po wypełnieniu wszystkich pól powyższego okienka dialogowego i naciśnięciu przycisku OK EXCEL generuje kolejny arkusz z wynikami badań. 30

31 Rys. 24. Arkusz z wynikami wygenerowany przez EXCEL Sposób analizy i interpretacji powyższych zmiennych jest identyczny jak w przypadku analizy rezultatów pochodzących z dwóch prób niezależnych. Także i w tym przypadku analizie poddajemy następujące zmienne: t Stat, P (T < = t) dwustronny i Test t dwustronny (lub w zależności od charakteru badanych zmiennych P (T < = t) jednostronny i Test t jednostronny). W analizowanym przez nas przykładzie: ponieważ t obliczone 2,56 t 2, 03, z prawdopodobieństwem 0,95 stwierdzamy, że istnieją przesłanki do odrzucenia hipotezy zerowej na korzyść hipotezy alternatywnej, a więc różnice rezultatów uzyskanych przez uczniów ze szkoły publicznej na początku i na końcu roku szkolnego różnią się od siebie w sposób istotny statystycznie (wskazuje na to oczywiście także wartość P (T < = t) dwustronnie). Nie trudno zauważyć, że wnioski, jakie wyciągnęlibyśmy w przypadku analizowanego przykładu po zmianie założonego poziomu istotności na 0,01 byłyby zgoła odmienne. Testem, na który także można się często natknąć w pracach licencjackich czy magisterskich jest nieparametryczna statystyka 2 (Chi kwadrat). Jest ona szczególnie użyteczna w przypadku badań ankietowych i chociażby dlatego warto zwrócić na nią uwagę nawet w tak skromnym z założenia opracowaniu, jak niniejszy skrypt. Niestety, do jej obliczenia koniecz- 31

32 na jest umiejętność samodzielnego pisania formuł (na szczęście prostych). EXCEL wymaga w tym przypadku starannie opracowanych danych źródłowych. By omówić założenia omawianej statystyki najlepiej od razu posłużyć się przykładem: O ocenę występu jednej z gimnastyczek startujących na Mistrzostwach Polski poproszono dwie grupy kibiców: pierwsza grupa to fani z jej rodzinnego miasta, natomiast druga grupa to próba wybrana losowo spośród pozostałych kibiców. Zebrane na podstawie ankiety informacje można zaprezentować w formie tabeli: Kibice z rodzinnego miasta zawodniczki Kibice z pozostałych regionów Polski Występ bardzo dobry Występ przeciętny Występ słaby Nawet pobieżna analiza danych uzyskanych w wyniku ankiety wskazuje na dość duże rozbieżności w ocenie dokonanej przez poszczególne grupy kibiców. Niestety, tak to już jest, że w pracach naukowych sformułowanie dość duże jest raczej nie do przyjęcia. Pozostaje więc jedynie przeprowadzenie obliczeń (które, podobnie jak w przypadku zaprezentowanych wcześniej testów parametrycznych, rozpoczynamy od postawienia stosownych hipotez). Ze względu na cel badań postawiono następujące hipotezy badawcze: Hipoteza H 0 nota kibiców z różnych regionów Polski nie różni się w sposób istotny statystycznie od noty kibiców pochodzących z rodzinnego miasta ocenianej przez nich gimnastyczki. Hipoteza H 1 nota kibiców z różnych regionów Polski różni się w sposób istotny statystycznie od noty kibiców pochodzących z rodzinnego miasta ocenianej przez nich gimnastyczki. Naszą analizę zdecydowaliśmy się przeprowadzić dla poziomu istotności wynoszącego 0,05. Właściwe obliczenia rozpoczynamy od wprowadzenia danych z naszej tabeli do arkusza kalkulacyjnego EXCEL. Od tej pory będziemy je nazywać danymi rzeczywistymi (Rys. 25). 32

33 [\ Rys. 25. Dane rzeczywiste wpisane do EXCELA Do obliczenia Chi kwadrat potrzebujemy jeszcze tzw. danych przewidywanych, których sam EXCEL już nie generuje. W tym przypadku, niestety, nie pozostaje nic innego, jak napisanie stosownych formuł. Na początek sumujemy wszystkie kolumny i wszystkie wiersze. W tym celu najlepiej jest wykorzystać przycisk Autosumowanie (Rys. 26 i 27). Rys. 26. Obliczanie sum wierszy i kolumn za pomocą przycisku Autosumowanie Rys. 27. Formuła sumująca wartości z wiersza nr 2 33

34 W końcowym efekcie zliczania sum poszczególnych kolumn i wierszy uzyskujemy gotowe rezultaty, jak na poniższym rysunku (Rys. 28). Rys. 28. Rezultat obliczeń sum poszczególnych wierszy i kolumn Teraz można już przystąpić do obliczania wartości przewidywanych. W tym celu najlepiej jest ustawić się na komórce znajdującej się poniżej pierwszej wartości rzeczywistej. Obliczeń wartości przewidywanych dokonujemy według następującego algorytmu: wartość przewidywana dla danej wartości rzeczywistej = suma wartości z kolumny, w której znajduje się dana wartość rzeczywista x suma wartości z wiersza, w którym znajduje się dana wartość rzeczywista / sumę wszystkich wierszy (lub kolumn). Poniżej prezentuję formułę na obliczenie wartości przewidywanej dla pierwszej wartości rzeczywistej z naszego przykładu (Rys. 29). Rys. 29. Formuła na obliczanie wartości przewidywalnej dla pierwszej wartości rzeczywistej (tj. 57) 34

35 Podobnie postępujemy w przypadku wszystkich wartości przewidywanych (łącznie ma być ich tyle samo, ile wartości rzeczywistych). W końcowym efekcie naszych obliczeń powinniśmy uzyskać blok danych zgodnych z tymi, jakie zaprezentowałem poniżej (Rys. 30). Rys. 30. Wartości rzeczywiste (w tabeli) i obliczone na ich podstawie wartości przewidywane (poniżej) Teraz możemy już przystąpić do właściwego obliczania statystyki Chi kwadrat. W tym celu otwieramy Wstaw Funkcja... TEST.CHI (Rys. 31). Rys. 31. Wybór funkcji TEST.CHI 35

36 W odpowiedzi EXCEL wyświetli okno dialogowe zaprezentowane na poniższym rysunku (Rys. 32). Rys. 32 Okno dialogowe statystyki Chi kwadrat Należy teraz wprowadzić dane, na podstawie których prowadzone będą obliczenia. W pole zakres_bieżący wprowadzamy wartości rzeczywiste (w przypadku prowadzonych przeze mnie obliczeń jest to blok danych zawartych w zakresie komórek B2:C4). W pole zakres_przewidywany wprowadzamy z kolei wartości przewidywane (tutaj jest to blok danych zawartych w zakresie komórek B8:C10). W przypadku zaprezentowanych przeze mnie obliczeń właściwie wypełnione okno dialogowe służące do obliczenia TEST.CHI wygląda w następujący sposób (Rys. 33). Rys. 33. Uzupełnione okno dialogowe statystyki Chi kwadrat 36

37 EXCEL od razu generuje rezultat naszych obliczeń (na rysunku 33: Wynik formuły = 3,71298E-13). Wynik ten jest również widoczny po naciśnięciu przycisku OK komórka C12 na poniższym rysunku (Rys. 34). Rys. 34. Końcowy wynik formuły TEST.CHI Ostatnią i najważniejszą zarazem rzeczą, jaką musimy jeszcze zrobić jest interpretacja uzyskanego wyniku. Co właściwie oznacza rezultat 3,71298E-13? Rezultatem funkcji TEST.CHI jest nic innego, jak opisywany już wcześniej (przy testach parametrycznych) poziom prawdopodobieństwa. Przypominam jeśli jest on większy od założonego poziomu istotności (w naszym przykładzie 0,05), to badana różnica nie jest istotna statystycznie (nie ma podstaw do odrzucenia hipotezy zerowej). Sprawa wydawałaby się już prosta, gdyby nie jeden szkopuł: co właściwie oznacza liczba 3,71298E-13? Czy jest ona większa czy mniejsza od założonego przez nas poziomu istotności (w naszym przypadku 0,05)? Mówiąc niestatystycznie i niematematycznie: zapis E-13 oznacza cofnięcie danej liczby o 13 miejsc po przecinku, a więc 3,71298E-13 to nic innego jak 0, Teraz wszystko jest już jasne liczba ta z pewnością jest niższa od założonego przez nas poziomu istotności 0,05. W analizowanym przez nas przykładzie: ponieważ wyliczony najniższy poziom prawdopodobieństwa (0, ) jest niższy od założonego poziomu prawdopodobieństwa (0,05) z prawdopodobieństwem 0,95 (w tym przypadku nawet niższym) stwierdzamy, że są podstawy do odrzucenia hipotezy zerowej na korzyść hipotezy alternatywnej, a 37

38 więc noty wystawiane przez kibiców pochodzących z rodzinnego miasta ocenianej gimnastyczki różnią się w sposób istotny statystycznie od not wystawianych przez kibiców z innych rejonów Polski. Przytoczone powyżej przykłady z całą pewnością nie wyczerpują zagadnienia weryfikacji hipotez statystycznych. Nie wspomniałem tu przecież w ogóle o rozkładach, większości testów nieparametrycznych, czy chociażby analizie wariancji. Jak już jednak wcześniej pisałem, moim celem nie było stworzenie kompendium wiedzy statystycznej. Chciałbym, żeby zaprezentowany materiał traktować raczej jako swego rodzaju sygnał i zachętę do tego by podążać i w jakim kierunku. Wszystkich zainteresowanych zgłębieniem swojej wiedzy na ten temat odsyłam do mojej wcześniejszej publikacji oraz do innych pozycji (chociażby podanych w bibliografii). 4. Korelacja współzależność cech Aby opanować umiejętności pozwalające na uporanie się z obliczeniami występującymi najczęściej w pracach z zakresu kultury fizycznej, należy omówić jeszcze jedną kwestię korelację. Statystyka pozwala bowiem nie tylko na opis poszczególnych parametrów i ocenę istotności statystycznej ich wzajemnych różnić, ale także na zbadanie ich wzajemnej współzależności. Możliwości wygenerowania gotowych rezultatów analizy korelacyjnej w pakiecie EXCEL są dosyć ograniczone. Przeprowadzenie obliczeń dla najbardziej standardowych przypadków nie jest oczywiście żadnym problemem, ale uzyskanie wyników dotyczących bardziej skomplikowanych testów wymaga już podstawowej wiedzy statystycznej i szerszej znajomości arkusza kalkulacyjnego przede wszystkim umiejętności samodzielnego pisania formuł. W pracach licencjackich i magisterskich najczęściej można spotkać się ze współczynnikiem korelacji Pearsona. Pozwala ona na przeprowadzenie wnioskowania. Charakter obliczeń najlepiej zaprezentować na przykładzie: Badaniu poddano długość kończyny dolnej oraz moc osiąganą przez uczniów IV klasy szkoły podstawowej, którzy zostali wytypowani do dalszych treningów w ramach klas sportowych o profilu LA. Znając poszczególne wartości uzyskane przez uczniów należy oszacować współzależność obu analizowanych cech. 38

39 Analiza współzależności korelacyjnej pozwala na zbadanie związku, jaki zachodzi (lub nie) pomiędzy dwiema analizowanymi cechami. Pod uwagę brane są dwa parametry: siła i kierunek korelacji. Wnioskowania dotyczącego siły związku dokonujemy na podstawie wygenerowanej przez EXCEL wartości obliczanego testu (jest nią zawsze liczba z przedziału [-1; 1]). W tym celu rezultat przeprowadzonych obliczeń przyrównujemy do przedziałów z tabeli nr 1 (uwaga zaprezentowana poniżej klasyfikacja to tylko jedna z wielu dostępnych propozycji). Tabela 1. Siła związków korelacyjnych Siła związków korelacyjnych Poniżej 0,20 Korelacja słaba (praktycznie brak związku) 0,20-0,40 Korelacja niska (zależność wyraźna lecz mała) 0,40 0,60 Korelacja umiarkowana (zależność istotna) 0,60 0,80 Korelacja wysoka (zależność znaczna) 0,80 0,90 Korelacja bardzo wysoka (zależność bardzo duża) 0,90 1,00 Zależność praktycznie pełna O kierunku obliczanej korelacji świadczy z kolei jej dodatniość lub ujemność : W przypadku korelacji dodatniej (wartości współczynnika korelacji od 0 do 1) wzrost wartości jednej cechy powoduje wzrost średnich wartości drugiej cechy. W przypadku korelacji ujemnej (wartości współczynnika korelacji od -1 do 0) wzrost wartości jednej cechy powoduje spadek średnich wartości drugiej cechy. Obliczenia dotyczące współzależności korelacyjnej w EXCELU rozpoczynamy od poprawnego wpisania danych. Dobrze jest, gdy są one wprowadzone obok siebie (przynajmniej w przypadku korzystania z Narzędzia Analiza danych Korelacja czyni to nasze obliczenia bardziej przejrzystymi). Załóżmy, że chcemy skorelować wartości testów M 1 i M 2 uzyskanych przez uczniów szkoły publicznej. Obliczenia rozpoczynamy od otwarcia arkusza zawierającego dane wyjściowe. Następnie otwieramy Narzędzia-Analiza danych. Tym razem w oknie Narzędzia analizy klikamy na Korelacja (Rys. 35). 39

40 Rys. 35. Korelacja w Narzędzia Analiza danych W odpowiedzi EXCEL generuje okienko dialogowe zaprezentowane na poniższym rysunku (Rys. 36). Rys. 36. Okno dialogowe służące do obliczeń współczynnika korelacji W celu dokonania finalnych obliczeń musimy tylko wypełnić wszystkie wymagane pola faktycznie wystarczy tylko wprowadzić dane wejściowe. Okno dialogowe wypełnione dla danych z naszego przykładu prezentuje poniższy rysunek (Rys. 37). Rys. 37. Wypełnione okno dialogowe współczynnika korelacji 40

41 Po naciśnięciu przycisku OK EXCEL generuje w nowym arkuszu (chyba, że użytkownik zadecyduje inaczej) wyniki dotyczące prowadzonej analizy współzależności (Rys. 38). Rys. 38. Arkusz wyników wygenerowany przez EXCEL Oczywiście z kilkunastu uzyskanych rezultatów interesuje nas tak naprawdę tylko jeden. Przypominam celem prowadzonych analiz była ocena współzależności zdolności motorycznych M1 i M2 uzyskanych przez uczniów ze szkoły publicznej. Interesującą nas wartością jest zatem 0,64 (komórka B4). O wiele bardziej przejrzysty układ wyników analizy współzależności w przypadku korelacji Pearsona uzyskać można za pomocą Wstaw Funkcja - Pearson. Z zamieszczonej powyżej tabeli nr 1 wywnioskować możemy, że współzależność jaką badaliśmy jest znaczna. Przykładowa interpretacja uzyskanego wyniku może brzmieć następująco: W przypadku uczniów ze szkoły publicznej zachodzi wysoka współzależność (wysoki związek korelacyjny) pomiędzy zdolnościami motorycznymi M1 i M2. W przypadku analizy współzależności (na poziomie studentów piszących swoje prace zaliczeniowe) warto także wspomnieć o korelacji Spearmana (przypominam, że zaprezentowana wcześniej to korelacja Pearsona). Współczynnik ten wykorzystujemy do opisu siły korelacji dwóch cech w przypadku, gdy: a) cechy mają charakter jakościowy (czyli są niepoliczalne), przy czym gdy można je uporządkować ze względu na siłę tej cechy. Sztandarowym przykładem stosowanym przez wielu statystyków jest w tym przypadku kolor włosów: blond, rudy, kruczy itd. 41

42 b) cechy mają charakter ilościowy, przy czym liczebność badanej zbiorowości jest nieliczna. Niestety, w arkuszu kalkulacyjnym EXCEL nie przewidziano możliwości policzenia tego typu statystyki. Jedne co można w tej sytuacji zrobić, to przeprowadzić stosowne obliczenia w oparciu o napisane przez siebie formuły. W takim przypadku konieczna jest jednak znajomość wzoru na korelację Spearmana oraz umiejętność nadawania rang dla poszczególnych wartości. Na szczęście obliczenia te nie są tak trudne i kłopotliwe jak mogłoby się na pierwszy rzut oka wydawać. Idee i sposób prowadzenia obliczeń korelacji Spearmana najlepiej jest zaprezentować przykładzie: Dokonano porównania poszczególnych zawodników pod względem celności rzutów do kosza (ilość trafień podczas meczu (x i ) z subiektywnymi ocenami trenera odpowiedzialnego za selekcję (y i ). Rezultaty tych porównań prezentuje poniższa tabela. Zbadać korelację ilości trafień podczas meczu z subiektywną oceną trenera. xi yi 12 Dobry 13 Bardzo dobry 14 Bardzo dobry 11 Dobry 12 Słaby 12 Słaby 13 Bardzo słaby 15 Dobry 13 Dobry Już na pierwszy rzut oka widać, że wykazanie związków korelacyjnych z zastosowaniem korelacji Pearsona jest w przypadku takich danych niemożliwe. Zastosowanie korelacji Spearmana wydaje się tutaj koniecznością. Zanim przejdę do prezentowania, należy jeszcze wspomnieć o dwóch sprawach: Pierwsza to wzór na podstawie którego obliczamy współczynnik korelacji rang Spearmana: 42

43 r s n( n d 2 i 1) gdzie 2 di to różnica pomiędzy rangami odpowiadających sobie wartości cech xi i yi Sprawa druga dotyczy wspominanego już powyżej rangowania (czyli przypisywania rang) ranga jest to liczba odpowiadająca miejscu w uporządkowaniu każdej z cech (załóżmy, że badaniu poddano dwie cechy opisujące pewną zbiorowość. Każdą jednostkę tej zbiorowości uporządkować możemy ze względu na wartość (siłę) każdej z tych dwóch cech (rosnąco lub malejąco). Jednostkom tym przypisujemy liczbę odpowiadającą ich miejscu w uporządkowaniu, a numer ten nazywamy rangą. W przypadku, gdy więcej niż jedna jednostka z badanej zbiorowości ma identyczne natężenie badanej cechy, jednostkom tym przypisuje się identyczne rangi, licząc średnią arytmetyczną z rang przynależnych tym samym jednostkom). Po przeczytaniu powyższej regułki na myśl nasuwa na pewno się tylko jedno stwierdzenie: brzmi to strasznie! W rzeczywistości wcale takie nie jest. Kolejne etapy obliczeń dla naszego przykładu prezentują poniższe rysunki. Zaczynamy od wprowadzenia danych do EXCELA (Rys. 39). Rys. 39. Dane wyjściowe do korelacji Spearmana wprowadzone do arkusz kalkulacyjnego EXCEL 43

44 Kolejnym krokiem jest nadanie rang poszczególnym wartościom (ze względu na nasilenie danej cechy, dla przykładu malejąco). Rozpoczniemy od danych liczbowych zapisanych w kolumnie A. Wartością najwyższą jest 15, a więc wartości tej przypisujemy rangę 1. Drugą od góry wartością jest 14 przypisuję jej zatem rangę 2. Z kolejnymi rangami mamy już jednak problem. Kolejną wartością od góry jest z tą tylko różnicą, że trzynastek mamy tu aż trzy. Co zatem należy w takim przypadku zrobić? Na logikę pierwsza z trzynastek powinna mieć nadaną kolejną rangę czyli 3, druga rangę 4, a ostatnia trzynastka rangę 5. W tym przypadku logika logiką, ale my, statystycy nadajemy rangi w troszeczkę inny sposób, a mianowicie według schematu: suma rang dotyczących danej wartości cechy podzielona przez ich liczbę. W naszym przykładzie dotyczącym trzynastek obliczenia będą występowały następująco: ( ) / 3, co w efekcie daje 4. A więc wszystkim naszym trzynastkom przypisujemy tę samą wartość 4. Kolejną wartością od góry jest 12 (w naszym przykładzie występuje ona również 3 razy). A więc: pierwsza dwunastka powinna dostać rangę 6, pierwsza dwunastka rangę 7, a trzecia rangę 8. ( ) / 3, co w efekcie daje 7 itd. W identyczny sposób postępujemy z rangami nadawanymi zarówno dla danych ilościowych jak i jakościowych, przy czym na samej górze znajduje się cecha o największej sile / natężeniu (oczywiście gdy rangujemy malejąco). W naszym przypadku najwyższą rangę uzyska cecha Bardzo dobry. Arkusz dotyczący naszego zadania z poprawnie wprowadzonymi rangami zaprezentowano poniżej (Rys. 40). Rys. 40. Rangi policzone dla danych wejściowych 44

45 Najtrudniejsza cześć zadanie jest już za nami. Teraz pozostało nam tylko przeprowadzenie kilku prostych obliczeń, co w arkuszu kalkulacyjny EXCEL sprowadza się do napisania podstawowych formuł. Na pierwszy rzut obliczamy D, czyli różnice rang pierwszej i drugiej (Rys. 41). Rys. 41. Formuła na obliczanie różnicy rang (wartości D) Arkusz z kompletnie policzonymi wartościami różnic rang prezentuje poniższy rysunek (Rys. 42). Rys. 42. Kompletnie wyliczone różnice rang 45

Pokazać jeszcze