Informatyka. Arkusze kalkulacyjne cz. II. 1 Analiza zmiennych na poziomie przedziałowym i proporcji miary położenia

Podobne dokumenty
( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Statystyka. Tematyka wykładów. Przykładowe pytania. dr Tomasz Giętkowski wersja /13:40

Wprowadzenie do analizy korelacji i regresji

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Informatyka. Arkusze 1. 1 Wprowadzenie.

Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

POLITECHNIKA OPOLSKA

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Wprowadzenie do analizy dyskryminacyjnej

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1

X WYKŁAD STATYSTYKA. 14/05/2014 B8 sala 0.10B Godz. 15:15

Graficzna prezentacja danych statystycznych

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2012/2013

Analiza Statystyczna

STATYSTYKA MATEMATYCZNA

Wykład 5: Statystyki opisowe (część 2)

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Sposoby prezentacji problemów w statystyce

Często spotykany jest również asymetryczny rozkład gamma (Г), opisany za pomocą parametru skali θ i parametru kształtu k:

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

4.2. Statystyczne opracowanie zebranego materiału

S YLABUS MODUŁU (PRZEDMIOTU) I nformacje ogólne. Nie dotyczy

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

PDF created with FinePrint pdffactory Pro trial version

MODELE LINIOWE. Dr Wioleta Drobik

08. Normalizacja wyników testu

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

Inteligentna analiza danych

KORELACJE I REGRESJA LINIOWA

Excel zadania sprawdzające 263

Miary zmienności STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

WSKAZÓWKI DO WYKONANIA SPRAWOZDANIA Z WYRÓWNAWCZYCH ZAJĘĆ LABORATORYJNYCH

Jak korzystać z Excela?

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Analiza korelacji

Podstawowe definicje statystyczne

Weryfikacja hipotez statystycznych

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Rozkład Gaussa i test χ2

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Badanie zależności skala nominalna

JAK PROSTO I SKUTECZNIE WYKORZYSTAĆ ARKUSZ KALKULACYJNY DO OBLICZENIA PARAMETRÓW PROSTEJ METODĄ NAJMNIEJSZYCH KWADRATÓW

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Testowanie hipotez statystycznych.

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne)

Porównywanie populacji

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Zadania ze statystyki, cz.6

Wykład 4: Statystyki opisowe (część 1)

Księgarnia PWN: George A. Ferguson, Yoshio Takane - Analiza statystyczna w psychologii i pedagogice

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

Spis treści. Księgarnia PWN: Bruce M. King, Edward W. Minium - Statystyka dla psychologów i pedagogów. Wstęp Wprowadzenie...

Próba własności i parametry

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

Zmienne zależne i niezależne

You created this PDF from an application that is not licensed to print to novapdf printer (

Grupowanie materiału statystycznego

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji, współczynnik korelacji wielorakiej. Paweł Cibis

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Satysfakcja z życia rodziców dzieci niepełnosprawnych intelektualnie

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Badanie normalności rozkładu

ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Technologia Informacyjna

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

Spis treści 3 SPIS TREŚCI

Rozkład normalny, niepewność standardowa typu A

Analiza statystyczna. Microsoft Excel 2010 PL.

Analiza korespondencji

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

W1. Wprowadzenie. Statystyka opisowa

Transkrypt:

Informatyka Arkusze kalkulacyjne cz. II. 1 Analiza zmiennych na poziomie przedziałowym i proporcji miary położenia Analizując wartości zmiennych dla skal przedziałowych i proporcji można, podobnie jak dla skal nominalnych i porządkowych określić miarę położenia rozkładu pomiarów, czyli zarejestrowanych wartości zmiennej. Jedną z najpopularniejszych miar tego typu jest średnia arytmetyczna (suma wszystkich pomiarów podzielona przez ich ilość). Do jej określenia można skorzystać z funkcji ŚREDNIA(zakres). Dla zmiennej Długość z przykładowej macierzy danych, zilustrowanej na Rys. 1 to 20,67: =ŚREDNIA(E2:E41) Można też określić miary położenia stosowane dla skal porządkowych (mediana) i nominalnych (kategoria modalna). W tym ostatnim wypadku wartości zmiennej należy uprzednio pogrupować w przedziały, obejmujące całą przestrzeń zmienności. Ilość przedziałów ustala się arbitralnie, tak, aby możliwie najdokładniej oddać charakterystykę rozkładu Rysunek 1. Próbka 40 grotów. danych. 1

Grupowanie można zrealizować w arkuszu na wiele sposobów. Jednym z nich jest zastosowanie różnicy funkcji LICZ.JEŻELI(zakres ; kryterium). Przykładowo, jeżeli cały zakres zmienności długości grotów zebranych w tabeli zilustrowanej na Rys. 1 podzielimy na 10 przedziałów, to aby policzyć częstość np. kategorii (przedziału) 4 (długości pomiędzy 21,72 a 28,96 cm) należy stworzyć następującą formułę: =LICZ.JEŻELI(E2:E41;"<=28,96")-LICZ.JEŻELI(E2:E41;"<=21,72") Kryteria można umieścić w komórkach, zaś odwołania do wierszy w zakresie opatrzyć znakami "$", co umozliwi poprawne powielanie tej formuły dla każdej kategorii w odpowiednio przygotowanej tabeli (Rys. 2). W efekcie funkcja będzie miała postać: =LICZ.JEŻELI(E$2:E$41;J5)-LICZ.JEŻELI(E$2:E$41;I5) - przy założeniu, że w polu J5 znajdzie się wyrażenie "<=28,96", a w polu I5 odpowiednio "<=21,72". Po wykonaniu grupowania danych można łatwo określić częstości poszczególnych kategorii (numerycznie lub na wykresie słupkowym, określanym w takiej sytuacji jako histogram) i wybrać kategorię modalną. W przypadku analizowanego rozkładu zmiennej "Długość" każda z zastosowanych miar położenia da inny rezultat: średnia = 20,67 cm, mediana = 17,8, a kategoria modalna będzie wyznaczana przez przedział długości między 7,24 a 14,48 cm. Sytuacja taka jest charakterystyczna dla rozkładów asymetrycznych (skośnych). Warto również zwrócić uwagę, że poszczególne miary położenia są w różny sposób czułe na tzw. Rysunek 2. Grupowanie - podział pomiarów zmiennej Długość na kategorie metryczne. wartości oddalone, czyli pojedyncze pomiary w istotny sposób odbiegające od przeciętnej. W rozkładach normalnych, których charakterystyka na wykresie może być opisana za pomocą krzywej Gaussa i które są typowe dla opisu większości zjawisk z zakresu nauk społecznych i przyrodniczych, wszystkie trzy opisane miary położenia dają podobny wynik. Analiza rozkładu pod względem położenia stanopwi wstęp do dalszych analiz statystycznych. Również sama w sobie może dostarczać pewnych wniosków archeologicznych, np. w wypadku opisywanych grotów - odnośnie intencjonalnej lub podepozycyjnej produkcji/selekcji grotów pod względem ich długości. Grupowanie danych jest zabiegiem stosunkowo częstym, ponieważ w przypadku porównywania zmiennych mierzonych za pomocą różnych skal pomiarówych zachodzi konieczność sprowadzenia wszystkich pomiarów do najniższego wspólnego mianownika, czyli najniższej skali pomiarowej. 2

2. Analiza zmiennych na poziomie przedziałowym i proporcji miary rozproszenia Dla skal przedziałowych i proporcji stosuje się także miary rozproszenia (dyspersji), określające stopień zmienności poszczególnych pomiarów w rozkładzie danych. Najprostszą miarą rozproszenia jest tzw. rozstęp, czyli róznica między największą i najnmniejszą wartością w rozkładzie. W arkuszu kalkulacyjnym wartość rozstępu można łatwo wyliczyć za pomocą różnicy funkcji MAX(zakres) i MIN(zakres). Na przykład dla zmiennej Długość długość będzie to 62,2 cm: =MAX(E2:E41)-MIN(E2:E41) Rozstęp jest miarą dyspersji bardzo czułą na przypadkowe wartości oddalone. Z tego względu zasadne jest sosowanie innych miar, przede wszystkim tzw. odchyleń, określających w jakim zakresie (średnio) poszczególne pomiary odbiegają od przeciętnej dla danego rozkładu danych. Ważnym parametrem, stosowanym jako punkt wyjścia w wielu zaawansowanych analizach statystycznych jest odchylenie standardowe. Parametr ten można obliczyć za pomocą funkcji ODCH.STANDARDOWE(zakres). Dla zmiennej długość będzie to 11,44 cm: =ODCH.STANDARDOWE(E2:E41) Wynik podawany jest w standardowych jednostkach zmiennej (tu w cm). Aby móc porównywać rozproszenie róznych zmiennych, stosuje się tzw. współczynnik zmienności (odchylenie standardowe dzielone przez średnią), który pozwala określić stopień rozproszenia rozkładu danych w przedziale od 0 (rozproszenie nieskończenie małe rozkład skupiony) do 1 (maksymalne rozproszenie). Wartości tego i innych współczynników można również podawać w wartościach procentowych. Ocena współczynnika zmienności może być istotna w dalszych analizach, może również prowadzić do pewnych bezpośrednich wniosków np. odnośnie stopnia przestrzegania standardów morfologicznych (proporcji) grotów w róznych kulturach. Normalizacja jest z kolei zabiegiem umożliwiającym formalną ocenę stopnia, w jakim poszczególne pomiary odbiegają od przeciętnej dla danego rozkładu danych. Ponieważ stopień ten podawany jest w jednostkach odchylenia standardowego, można porównywać ze sobą wartości osiągnięte dla róznych pomiarów, zmiennych i rozkładów. Dla rozkładów naturalnych 99% pomiarów mieści się w zakresie od -3 do 3 odchyleń standardowych. Przykładowo, najdłuższy grot (72,4 cm) leży w odległości 4,52 odchyleń standardowych od średniej, co potwierdza, iż jest to wartość bardzo oddalona. 3

3. Analiza dwóch zmiennych korelacja Analiza związków między zmiennymi umożliwia wyciąganie bardziej zaawansowanych wniosków niż obserwacja pojedynczych zmiennych. Np. dla omawianego tu przykładu grotów, możliwe byłoby sprawdzenie związku między kontekstem depozycji znaleziska (osada lub cmentarzysko), a materiałem, z jakiego został wykonany. Proste zestawienie częstości wykazuje, że taki związek istnieje, co może stanowić przesłankę do formułowania hipotez odnośnie np. obrządku pogrzebowego. W rzeczywistości problem jest złożony, ponieważ formułowanie hipotez odnośnie całej kultury w oparciu o próbkę pewnej ilości zabytków wymaga zastosowania formalnej procedury, w której niezbędne jest zrozumienie zasad analizy prawdopodobieństwa, próbkowania i metod statystycznego testowania hipotez. Jeszcze bardziej skomplikowany jest problem testowania związków między więcej niż dwoma zmiennymi. Zagadnienia te wykraczają poza zakres tego kursu, dlatego przedstawiono tu jedynie proste metody badania korealcji między dwiema zmiennymi na poziomie przedziałowym i proporcji. Intuicyjną metodą badania związków między takimi zmiennymi jest zastosowanie wykresu punktowego, w programie Calc określanego jako "Wykres XY". Metoda ta jest w szczególności przydatna do oceny zagadnień związanych z morfologią zabytków. Aby wykonać taki wykres należy zaznaczyć dwa zakresy zmiennych, np. Długość i Szerokość. Następnie, po wybraniu opcji wstawienia wykresu, wybrać "Wykres XY ". Efektem jest zbiór punktów, symbolizujących poszczególne pomiary, w omawianym przykładzie będą to proporcje poszczególnych grotów. Po wyrównaniu wielkości obu osi widać, iż punkty nie układają się w stochastyczną chmurę, istnieje więc pewna korelacja. Można zatem założyć, że obie zmienne są ze sobą związane, choć nie jest to pełna korelacja liniowa wówczas wszystkie punkty znalazłyby się na jednej półprostej. Aby w sposób formalny określić korelację między dwiema zmiennymi przedziałowymi i proporcji można skorzystać z tzw. współczynnika korealcji liniowej Pearsona. Miara ta zawiera się w przedziale od -1(korelacja ujemna) do +1 (dodatnia), gdzie całkowity brak korelacji wyznaczany jest przez 0. Funkcją arkusza wyznaczającą współczynnik korelacji liniowej jest WSP.KORELACJI(zakres1 ; zakres2). Dla omawianego przykładu korelowania długości i szerokości grotów byłoby to 0,58: =WSP.KORELACJI(D2:D41;E2:E41) W rzeczywistości korelację tego rodzaju korzystniej byłoby badać za pomocą współczynnika korelacji rangowej Spearmana, który daje dokładniejsze wyniki w sytuacji, gdy jedna lub obie zmienne nie mają rozkładów normalnych. Należy także zwrócić uwagę, że współczynnik Pearsona wychwytuje wyłącznie korelację liniową. Bez względu na zastosowaną metodę, estymowanie stopnia korelacji uzyskanego w badanej próbce dla całej populacji (czyli np. dla wszystkich grotów badanej kultury) wymaga przeprowadzenia formalnej procedury tzw. testu statystycznego, gdzie kluczowym parametrem dla oceny wiarygodności estymacji jest wielkość próbki. Test umożliwia przyjęcie lub odrzucenie hipotezy o korelacji na pewnym poziomie istotności, czyli, mówiąc w uproszczeniu, prawdopodobieństwa, że wynik jest prawdziwy. Warto również wspomnieć, że do określania korealcji dla zmiennych mierzonych na poziomie porządkowym stosuje się wspomniany wyżej współczynnik korealcji rangowej Spearmana, dla zmiennych na poziomie nominalnym tzw. test chi-kwadrat. W programach Calc i MS Excel istnieją funkcje automatyzujące wspomniane procedury statystyczne. Więcej informacji nt. podstaw statystyki można znaleźć w książce M. Fletcher, G.R. Lock, 1995, Archeologia w liczbach, Podstawy statystyki dla archeologów, Poznań. 4

4. Przewidywanie z użyciem regresji W niektórych sytuacjach, gdy istnieje silna korelacja między zmiennymi ciągłymi (przedziałowymi i proporcji), na podstawie jednej z nich można przewidywać wartości drugiej. W ten sposób można np. na podstawie szerokości odtworzyć, z pewnym przybliżeniem, pierwotną długość 2 grotów, których pomiaru nie udało się wykonać ze względu na stopień zniszczenia. Najprostsze zastosowanie regresji to dodanie odpowiedniej opcji dla już istniejącego wykresu punktowego. Wykres musi znajdować się w trybie edycji danych (dookoła wykresu powinna być widoczna szara obwódka), który należy uaktywnić klikając na wykresie dwukrotnie lewym klawiszem myszy. Z menu "Wstaw" należy wybrać opcję "Statystyki", a w nowym oknie zaznaczyć opcję "regresja liniowa". Uwaga jeśli korelacja między zmiennymi nie ma charakteru liniowego, a np. wykładniczy, to należy wybrać inny typ regresji. Na podstawie linii (korelacja liniowa) lub krzywej wykreślonej w zbiorze punktów można odtworzyć przewidywane wartości zmiennej. Zastosowanie regresji umożliwia też prognozowanie pewnych wartości zmiennych, nawet, jeśli wykraczają one poza zakres zmienności obserwowany w próbce. Daje to interesującą mozliwość stawiania hipotez badawczych, które mogą być precyzyjnie weryfikowane przez późniejsze znaleziska. W razie potrzeby szczegółowego wyliczenia estymacji opartej na regresji liniowej, należy skorzystać z odpowiedniej funkcji: REGLINX(wartość zmiennej pobocznej, na podstawie której planowane jest odtworzenie/estymacja zmiennej głównej; zakres zmiennych głównych, zakres zmiennych pobocznych). Dla odtworzenia wartości długośći w polu D9 to 29,61: =REGLINX(D9;E2:E41;D2:D41) 5