Informatyka. Arkusze kalkulacyjne cz. II. 1 Analiza zmiennych na poziomie przedziałowym i proporcji miary położenia

Informatyka Arkusze kalkulacyjne cz. II. 1 Analiza zmiennych na poziomie przedziałowym i proporcji miary położenia Analizując wartości zmiennych dla skal przedziałowych i proporcji można, podobnie jak dla skal nominalnych i porządkowych określić miarę położenia rozkładu pomiarów, czyli zarejestrowanych wartości zmiennej. Jedną z najpopularniejszych miar tego typu jest średnia arytmetyczna (suma wszystkich pomiarów podzielona przez ich ilość). Do jej określenia można skorzystać z funkcji ŚREDNIA(zakres). Dla zmiennej Długość z przykładowej macierzy danych, zilustrowanej na Rys. 1 to 20,67: =ŚREDNIA(E2:E41) Można też określić miary położenia stosowane dla skal porządkowych (mediana) i nominalnych (kategoria modalna). W tym ostatnim wypadku wartości zmiennej należy uprzednio pogrupować w przedziały, obejmujące całą przestrzeń zmienności. Ilość przedziałów ustala się arbitralnie, tak, aby możliwie najdokładniej oddać charakterystykę rozkładu Rysunek 1. Próbka 40 grotów. danych. 1

Grupowanie można zrealizować w arkuszu na wiele sposobów. Jednym z nich jest zastosowanie różnicy funkcji LICZ.JEŻELI(zakres ; kryterium). Przykładowo, jeżeli cały zakres zmienności długości grotów zebranych w tabeli zilustrowanej na Rys. 1 podzielimy na 10 przedziałów, to aby policzyć częstość np. kategorii (przedziału) 4 (długości pomiędzy 21,72 a 28,96 cm) należy stworzyć następującą formułę: =LICZ.JEŻELI(E2:E41;"<=28,96")-LICZ.JEŻELI(E2:E41;"<=21,72") Kryteria można umieścić w komórkach, zaś odwołania do wierszy w zakresie opatrzyć znakami "$", co umozliwi poprawne powielanie tej formuły dla każdej kategorii w odpowiednio przygotowanej tabeli (Rys. 2). W efekcie funkcja będzie miała postać: =LICZ.JEŻELI(E$2:E$41;J5)-LICZ.JEŻELI(E$2:E$41;I5) - przy założeniu, że w polu J5 znajdzie się wyrażenie "<=28,96", a w polu I5 odpowiednio "<=21,72". Po wykonaniu grupowania danych można łatwo określić częstości poszczególnych kategorii (numerycznie lub na wykresie słupkowym, określanym w takiej sytuacji jako histogram) i wybrać kategorię modalną. W przypadku analizowanego rozkładu zmiennej "Długość" każda z zastosowanych miar położenia da inny rezultat: średnia = 20,67 cm, mediana = 17,8, a kategoria modalna będzie wyznaczana przez przedział długości między 7,24 a 14,48 cm. Sytuacja taka jest charakterystyczna dla rozkładów asymetrycznych (skośnych). Warto również zwrócić uwagę, że poszczególne miary położenia są w różny sposób czułe na tzw. Rysunek 2. Grupowanie - podział pomiarów zmiennej Długość na kategorie metryczne. wartości oddalone, czyli pojedyncze pomiary w istotny sposób odbiegające od przeciętnej. W rozkładach normalnych, których charakterystyka na wykresie może być opisana za pomocą krzywej Gaussa i które są typowe dla opisu większości zjawisk z zakresu nauk społecznych i przyrodniczych, wszystkie trzy opisane miary położenia dają podobny wynik. Analiza rozkładu pod względem położenia stanopwi wstęp do dalszych analiz statystycznych. Również sama w sobie może dostarczać pewnych wniosków archeologicznych, np. w wypadku opisywanych grotów - odnośnie intencjonalnej lub podepozycyjnej produkcji/selekcji grotów pod względem ich długości. Grupowanie danych jest zabiegiem stosunkowo częstym, ponieważ w przypadku porównywania zmiennych mierzonych za pomocą różnych skal pomiarówych zachodzi konieczność sprowadzenia wszystkich pomiarów do najniższego wspólnego mianownika, czyli najniższej skali pomiarowej. 2

2. Analiza zmiennych na poziomie przedziałowym i proporcji miary rozproszenia Dla skal przedziałowych i proporcji stosuje się także miary rozproszenia (dyspersji), określające stopień zmienności poszczególnych pomiarów w rozkładzie danych. Najprostszą miarą rozproszenia jest tzw. rozstęp, czyli róznica między największą i najnmniejszą wartością w rozkładzie. W arkuszu kalkulacyjnym wartość rozstępu można łatwo wyliczyć za pomocą różnicy funkcji MAX(zakres) i MIN(zakres). Na przykład dla zmiennej Długość długość będzie to 62,2 cm: =MAX(E2:E41)-MIN(E2:E41) Rozstęp jest miarą dyspersji bardzo czułą na przypadkowe wartości oddalone. Z tego względu zasadne jest sosowanie innych miar, przede wszystkim tzw. odchyleń, określających w jakim zakresie (średnio) poszczególne pomiary odbiegają od przeciętnej dla danego rozkładu danych. Ważnym parametrem, stosowanym jako punkt wyjścia w wielu zaawansowanych analizach statystycznych jest odchylenie standardowe. Parametr ten można obliczyć za pomocą funkcji ODCH.STANDARDOWE(zakres). Dla zmiennej długość będzie to 11,44 cm: =ODCH.STANDARDOWE(E2:E41) Wynik podawany jest w standardowych jednostkach zmiennej (tu w cm). Aby móc porównywać rozproszenie róznych zmiennych, stosuje się tzw. współczynnik zmienności (odchylenie standardowe dzielone przez średnią), który pozwala określić stopień rozproszenia rozkładu danych w przedziale od 0 (rozproszenie nieskończenie małe rozkład skupiony) do 1 (maksymalne rozproszenie). Wartości tego i innych współczynników można również podawać w wartościach procentowych. Ocena współczynnika zmienności może być istotna w dalszych analizach, może również prowadzić do pewnych bezpośrednich wniosków np. odnośnie stopnia przestrzegania standardów morfologicznych (proporcji) grotów w róznych kulturach. Normalizacja jest z kolei zabiegiem umożliwiającym formalną ocenę stopnia, w jakim poszczególne pomiary odbiegają od przeciętnej dla danego rozkładu danych. Ponieważ stopień ten podawany jest w jednostkach odchylenia standardowego, można porównywać ze sobą wartości osiągnięte dla róznych pomiarów, zmiennych i rozkładów. Dla rozkładów naturalnych 99% pomiarów mieści się w zakresie od -3 do 3 odchyleń standardowych. Przykładowo, najdłuższy grot (72,4 cm) leży w odległości 4,52 odchyleń standardowych od średniej, co potwierdza, iż jest to wartość bardzo oddalona. 3

3. Analiza dwóch zmiennych korelacja Analiza związków między zmiennymi umożliwia wyciąganie bardziej zaawansowanych wniosków niż obserwacja pojedynczych zmiennych. Np. dla omawianego tu przykładu grotów, możliwe byłoby sprawdzenie związku między kontekstem depozycji znaleziska (osada lub cmentarzysko), a materiałem, z jakiego został wykonany. Proste zestawienie częstości wykazuje, że taki związek istnieje, co może stanowić przesłankę do formułowania hipotez odnośnie np. obrządku pogrzebowego. W rzeczywistości problem jest złożony, ponieważ formułowanie hipotez odnośnie całej kultury w oparciu o próbkę pewnej ilości zabytków wymaga zastosowania formalnej procedury, w której niezbędne jest zrozumienie zasad analizy prawdopodobieństwa, próbkowania i metod statystycznego testowania hipotez. Jeszcze bardziej skomplikowany jest problem testowania związków między więcej niż dwoma zmiennymi. Zagadnienia te wykraczają poza zakres tego kursu, dlatego przedstawiono tu jedynie proste metody badania korealcji między dwiema zmiennymi na poziomie przedziałowym i proporcji. Intuicyjną metodą badania związków między takimi zmiennymi jest zastosowanie wykresu punktowego, w programie Calc określanego jako "Wykres XY". Metoda ta jest w szczególności przydatna do oceny zagadnień związanych z morfologią zabytków. Aby wykonać taki wykres należy zaznaczyć dwa zakresy zmiennych, np. Długość i Szerokość. Następnie, po wybraniu opcji wstawienia wykresu, wybrać "Wykres XY ". Efektem jest zbiór punktów, symbolizujących poszczególne pomiary, w omawianym przykładzie będą to proporcje poszczególnych grotów. Po wyrównaniu wielkości obu osi widać, iż punkty nie układają się w stochastyczną chmurę, istnieje więc pewna korelacja. Można zatem założyć, że obie zmienne są ze sobą związane, choć nie jest to pełna korelacja liniowa wówczas wszystkie punkty znalazłyby się na jednej półprostej. Aby w sposób formalny określić korelację między dwiema zmiennymi przedziałowymi i proporcji można skorzystać z tzw. współczynnika korealcji liniowej Pearsona. Miara ta zawiera się w przedziale od -1(korelacja ujemna) do +1 (dodatnia), gdzie całkowity brak korelacji wyznaczany jest przez 0. Funkcją arkusza wyznaczającą współczynnik korelacji liniowej jest WSP.KORELACJI(zakres1 ; zakres2). Dla omawianego przykładu korelowania długości i szerokości grotów byłoby to 0,58: =WSP.KORELACJI(D2:D41;E2:E41) W rzeczywistości korelację tego rodzaju korzystniej byłoby badać za pomocą współczynnika korelacji rangowej Spearmana, który daje dokładniejsze wyniki w sytuacji, gdy jedna lub obie zmienne nie mają rozkładów normalnych. Należy także zwrócić uwagę, że współczynnik Pearsona wychwytuje wyłącznie korelację liniową. Bez względu na zastosowaną metodę, estymowanie stopnia korelacji uzyskanego w badanej próbce dla całej populacji (czyli np. dla wszystkich grotów badanej kultury) wymaga przeprowadzenia formalnej procedury tzw. testu statystycznego, gdzie kluczowym parametrem dla oceny wiarygodności estymacji jest wielkość próbki. Test umożliwia przyjęcie lub odrzucenie hipotezy o korelacji na pewnym poziomie istotności, czyli, mówiąc w uproszczeniu, prawdopodobieństwa, że wynik jest prawdziwy. Warto również wspomnieć, że do określania korealcji dla zmiennych mierzonych na poziomie porządkowym stosuje się wspomniany wyżej współczynnik korealcji rangowej Spearmana, dla zmiennych na poziomie nominalnym tzw. test chi-kwadrat. W programach Calc i MS Excel istnieją funkcje automatyzujące wspomniane procedury statystyczne. Więcej informacji nt. podstaw statystyki można znaleźć w książce M. Fletcher, G.R. Lock, 1995, Archeologia w liczbach, Podstawy statystyki dla archeologów, Poznań. 4

4. Przewidywanie z użyciem regresji W niektórych sytuacjach, gdy istnieje silna korelacja między zmiennymi ciągłymi (przedziałowymi i proporcji), na podstawie jednej z nich można przewidywać wartości drugiej. W ten sposób można np. na podstawie szerokości odtworzyć, z pewnym przybliżeniem, pierwotną długość 2 grotów, których pomiaru nie udało się wykonać ze względu na stopień zniszczenia. Najprostsze zastosowanie regresji to dodanie odpowiedniej opcji dla już istniejącego wykresu punktowego. Wykres musi znajdować się w trybie edycji danych (dookoła wykresu powinna być widoczna szara obwódka), który należy uaktywnić klikając na wykresie dwukrotnie lewym klawiszem myszy. Z menu "Wstaw" należy wybrać opcję "Statystyki", a w nowym oknie zaznaczyć opcję "regresja liniowa". Uwaga jeśli korelacja między zmiennymi nie ma charakteru liniowego, a np. wykładniczy, to należy wybrać inny typ regresji. Na podstawie linii (korelacja liniowa) lub krzywej wykreślonej w zbiorze punktów można odtworzyć przewidywane wartości zmiennej. Zastosowanie regresji umożliwia też prognozowanie pewnych wartości zmiennych, nawet, jeśli wykraczają one poza zakres zmienności obserwowany w próbce. Daje to interesującą mozliwość stawiania hipotez badawczych, które mogą być precyzyjnie weryfikowane przez późniejsze znaleziska. W razie potrzeby szczegółowego wyliczenia estymacji opartej na regresji liniowej, należy skorzystać z odpowiedniej funkcji: REGLINX(wartość zmiennej pobocznej, na podstawie której planowane jest odtworzenie/estymacja zmiennej głównej; zakres zmiennych głównych, zakres zmiennych pobocznych). Dla odtworzenia wartości długośći w polu D9 to 29,61: =REGLINX(D9;E2:E41;D2:D41) 5