Dane i ich struktura Skale pomiarowe i ich przekształcanie Mariusz Dacko
Zjawisko masowe staje się widoczne w dużej liczbie obserwacji (lecz jest niewidoczne w obserwacji pojedynczej) Zjawisko masowe jest efektem działania: Przyczyn głównych (ich efektem jest składnik systematyczny procesu masowego) Przyczyn ubocznych (ich efektem jest składnik losowy procesu masowego) Zjawisko masowe tworzą elementy: jednorodne ze względu na działanie przyczyn głównych różnorodne ze względu na działanie przyczyn ubocznych
Przykład: zbiór obserwacji cen jednostkowych mieszkań o określonym standardzie w pewnej dzielnicy miasta Zbiór takich cen: Jest jednorodny ze względu na rodzaj nieruchomości, standard i ogólne walory lokalizacyjne Jest różnorodny ze względu na indywidualne cechy mieszkań: położenie na piętrze, powierzchnię, rozkład pomieszczeń W wyniku oddziaływania przyczyn głównych i ubocznych powstaje prawidłowość statystyczna. Zjawiska masowe badamy, by wykrywać prawidłowości statystyczne.
Zbiorowość, jednostka, cecha statystyczna Zbiorowość Zbiór powiązanych ze sobą logicznie, a zarazem nieidentycznych obserwacji Jednostka Obserwacja wchodząca w skład zbiorowości statystycznej Cecha Właściwość wyróżniająca jednostkę statystyczną (cechy stałe, cechy zmienne)
Klasyfikacja zbiorowości statystycznej Wielkość Zbiorowość całkowita (generalna) Zbiorowość próbna (próba) Liczba cech Zbiorowość jednowymiarowa Zbiorowość wielowymiarowa Jednorodność Zbiorowość jednorodna Zbiorowość niejednorodna
Rodzaje cech statystycznych Cecha ilościowa (np. powierzchnia, liczba ludności) Cecha jakościowa (np. lokalizacja, sąsiedztwo, kształt)
Porządkowanie i grupowanie danych statystycznych Porządkując materiał statystyczny wprowadzamy do zgromadzonych informacji ład oparty na przyjętych kryteriach: Cechę mierzalną porządkujemy według wartości malejących bądź rosnących Cechę niemierzalną porządkujemy według wariantów, jakie ona przyjmuje
Grupowanie danych statystycznych Poprawnie przeprowadzone grupowanie powinno być: Wyczerpujące (każda obserwacja jest sklasyfikowana i włączona do odpowiedniej podgrupy) Rozłączne (wyodrębnione podgrupy wzajemnie się wykluczają) Efektywne (podgrupy są jakościowo jednorodne) W efekcie porządkowania i grupowania powstają szeregi: szczegółowy bądź rozdzielczy.
Do czego może się przydać analiza struktury zbiorowości? Jest to czynność, która polega na wykryciu i zidentyfikowaniu prawidłowości istniejących w danych Analiza struktury zbiorowości może być pomocna np. przy: Ogólnej charakterystyce danych Wyodrębnianiu i porównywaniu obiektów (np. rynków lokalnych) Podejmowaniu decyzji o stosowaniu metod statystycznych Usuwaniu obserwacji odstających Wyodrębnianiu klas zmiennych objaśniających
Grupowanie zgromadzonych obserwacji - szereg rozdzielczy k n x h d 1 x max x k 1 1 h 2 min min gdzie k n h x d min 1, x max liczba przedzialów klasowych liczebność zbiorowości rozpiętość przedzialów klasowych minimalna i maksymalna wartość zmiennej dolna granica pierwszego przedzialu Liczba obs. 26 24 22 20 18 16 14 12 10 8 6 4 2 0 0 Histogram ( 1v*100c) pow ierzchnia ew idencyjna = 100*5000*normal(x; 23581,38; 9030,5304) 5000 10000 20000 30000 40000 50000 60000 70000 15000 25000 35000 45000 55000 65000 pow ierzchnia ew idencyjna Prawostronna asymetria tego rozkładu wskazuje, że w badanej strukturze dominują obiekty, których wielkość zawiera się w przedziale do 20 tys. ha. i jest niższa od średniej.
Co warto wiedzieć o rozkładach zmiennych? Najprostszym sposobem badania struktury zmiennej jest wizualna ocena kształtu jej rozkładu Rozkłady oceniamy pod względem: Symetrii Liczby lokalnych ekstremów Kształtu krzywej rozkładu
Rozkłady zmiennych i ich klasyfikacja Symetria rozkładu W rozkładach symetrycznych: D Me x
Zagadnienie symetrii rozkładów w ekonomii Ceny, dochody i czynsze często charakteryzują rozkłady prawostronnie asymetryczne (przewaga obserwacji o niższych wartościach) W takich rozkładach: D Me x
Liczba lokalnych ekstremów Stwierdzenie kilku lokalnych ekstremów: wyklucza analizowanie danych narzędziami właściwymi dla rozkładów jednomodalnych może sugerować niejednorodność danych (np. dane o cenach pochodzące z różnych rynków lokalnych)
Kształt krzywej rozkładu W spłaszczonym (platokurtyczym) rozkładzie istnieje mniejsza koncentracja obserwacji wokół średniej arytmetycznej Tutaj średnia gorzej reprezentuje zbiorowość W przypadku rozkładów wysmukłych (leptokurtycznych) znaczna liczba obserwacji koncentruje się w pobliżu średniej i miara ta lepiej odzwierciedla kształtowanie się badanej zmiennej
Histogram jako obraz szeregu rozdzielczego 200 Histogram VAR5= 3634*1*normal(x; 21,3792; 7,9856) Liczba obs. 180 160 140 120 100 80 60 40 20 0 3 6 9 12 15 18 21 24 27 30 33 36 39 42 VAR5 Zbiór prostokątów, których podstawy wyznaczone są na osi odciętych przez przedziały klasowe, natomiast wysokości są określone na osi rzędnych przez liczebności odpowiadające poszczególnym przedziałom
Rozkład normalny (Gaussa) Charakteryzują go dwa parametry: średnia i odchylenie standardowe
W rozkładzie normalnym dane zgrupują się wokół średniej arytmetycznej z pewną prawidłowością Wraz z oddalaniem się od średniej maleje prawdopodobieństwo wystąpienia obserwacji. W odległości jednego odchylenia standardowego od średniej znajdzie się niemal 70% wszystkich obserwacji. Zgodnie z regułą trzech sigm: x δ 68,27 % x 2δ 95,45% x 3δ 99,73%
Szczegółowe badania rozkładów Własność rozkładu Parametry Dane prezentowane za pomocą wykresów dostarczają nam tylko informacji ogólnych. Obliczanie miar statystycznych pozwala na ocenę ważnych cech charakteryzujących rozkłady i dokonywanie ich porównań. Tendencja centralna Dyspersja Średnia arytmetyczna Mediana Dominanta Wariancja Odchylenie standardowe Współczynnik zmienności Obszar zmienności Asymetria Skośność Koncentracja Kurtoza
Miary tendencji centralnej Miara klasyczna: Średnia arytmetyczna Miary pozycyjne: Mediana i Dominanta Badając zależności między miarami (klasyczną i pozycyjnymi), wnioskujemy o symetrii rozkładu W szczególnym przypadku średnie są sobie równe, co świadczy o symetrii badanego rozkładu
Miary dyspersji Obliczenie średnich ułatwia opis i poznanie istotnych cech zbiorowości, ale Średnie nie dają obrazu pełnego, a czasem wręcz tworzą fałszywy obraz rzeczywistości (np. średnia płaca w Orlenie to prawie 9,4 tys. zł, ale zapewne ponad 80% pracowników tej firmy zarabia kilkakrotnie mniej pieniędzy) Wartości średnie nie informują analityka o zmienności badanej cechy. Dlatego bada się też dyspersję rozkładu. Jej miarami są: Wariancja Odchylenie standardowe Współczynnik zmienności
Wariancja Wariancja jest miarą stopnia zróżnicowania poszczególnych wartości danych. Dane o niskiej wariancji (zbliżonej do zera) przyjmują wartości zbliżone lub identyczne np.: 6, 7, 6, 6, 7 Dane o wysokiej wariancji przyjmują wartości silnie zróżnicowane: 598, 6, 134, 5, 92 Wraz ze wzrostem wariancji średnia staje się coraz mniej pewna i reprezentatywna. δ 2 x n i1 (x i n x) 2
Odchylenie standardowe obliczamy jako pierwiastek z wariancji w szeregach o tendencji centralnej odchylenie standardowe wraz ze średnią arytmetyczną może być wykorzystane do wyznaczenia typowego obszaru zmienności
Współczynnik zmienności Stanowi względną miarę dyspersji. Oddaje natężenie zróżnicowania badanej zmiennej. Jest wykorzystywany przy porównywaniu dyspersji zmiennych oraz przy ocenie ich przydatności do wyjaśniania innych zjawisk za pomocą analizy regresji i korelacji. V δ x 100% δ x x
Obszar zmienności Stanowi prostą i najbardziej ogólną miarę zróżnicowania zmiennej. Jest obliczany jako różnica pomiędzy największą i najmniejszą wartością zmiennej. c = c max - c min
Miara asymetrii Szczegółowa analiza szeregu często wymaga zbadania kierunku i natężenia jego skośności. Skośność (S) możemy obliczyć w arkuszu kalkulacyjnym i jest ona wyrażona wzorem: n 3 x x S i (n -1)(n - 2) δ Jeżeli S = 0 to rozkład jest dokładnie symetryczny. Skośność dodatnia określa rozkład z asymetrią w kierunku wartości dodatnich, a skośność ujemna analogicznie rozkład z asymetrią w kierunku wartości ujemnych. Duże wartości (np. powyżej i poniżej liczby 5) sygnalizują sytuacje bardzo nietypowe.
Miara koncentracji wokół średniej Już wstępna wizualna ocena histogramu pozwala stwierdzić jak średnia arytmetyczna reprezentuje badaną zbiorowość. Kurtoza (K) jest miarą koncentracji w arkuszu kalkulacyjnym: K n(n 1) (n -1)(n - 2)(n - 3) x i δ x 4 2 3(n 1) (n 2)(n 3) Dodatnia kurtoza oznacza rozkład wysmukły (leptokurtyczny). Ujemna kurtoza oznacza rozkład spłaszczony (platokurtyczny). Jeżeli K = 0 to rozkład charakteryzuje się normalną koncentracją.
Pomiar zmiennej Jest to przyporządkowanie liczb cechom jednostek w taki sposób, aby odzwierciedlić relacje zachodzące między jednostkami. Skala pomiaru to usystematyzowany zbiór wartości, jaki może przyjąć zmienna. W teorii pomiaru rozróżniamy cztery skale: Skalę nominalną Skalę porządkową Skalę interwałową (przedziałową) Skalę ilorazową (stosunkową)
Skala nominalna (relacja: równe - różne) jest to najprostsza skala pomiarowa zaliczana jest do skal niemetrycznych i słabych Przykłady wartości zmiennej wyrażonej w skali nominalnej Nazwa cechy (zmiennej) Ludność Powiat Forma władania Lokalizacja Przykładowe wartości zmiennych egzogeniczna, endogeniczna grodzki, ziemski własność, użytkowanie centrum, poza centrum
Skala porządkowa (relacja: większe lub mniejsze) służy do uszeregowania obiektów uporządkowanych (porangowanych) uszeregowanie takie nie daje podstaw do precyzyjnej oceny różnic między cechami Przykłady wartości zmiennej wyrażonej w skali porządk. Nazwa cechy Stan techniczny Budynku Wartości przymiotnikowe - bardzo dobry - dobry - średni - zły - bardzo zły Powierzchnia użytkowa Standard Wykończenia - duża - średnia - mała - wysoki - średni - niski
Skala interwałowa (relacja: większe o tyle) charakteryzuje ją brak absolutnego punktu zerowego pozwala stwierdzić o ile coś jest wyższe, większe, starsze, lepsze różnice między liczbami mogą być tutaj traktowane jako faktyczne odstępy na skali skala ta pozwala na określanie relacji równości, różności, mniejszości, większości, równości różnic (np. data transakcji) A B C styczeń 2006 luty 2006 marzec 2006 czas, jaki upływa od transakcji A do B jest taki sam jak czas między transakcjami B i C. nie mówimy jednak, że transakcja A odbyła się x razy wcześniej, lecz, że odbyła się o x jednostek wcześniej niż C
Skala ilorazowa (relacja: tyle razy większe) występuje tutaj zero bezwzględne, a dowolną wartość można przedstawić jako wielokrotność innej ta skala daje największą możliwość analiz, zwłaszcza metodami statystycznymi dane wyrażane na skali ilorazowej to m.in.: liczba ludności, powierzchnia miejscowości, powierzchnia nieruchomości, odległość od centrum, cena rynkowa, czynsz, długość frontu działki komercyjnej
Przekształcanie skal pomiarowych Liczba ludności wyrażona na różnych skalach pomiaru. Nazwa Cechy Skala Ilorazowa Skala Interwałowa Skala Porządkowa Skala Nominalna Liczba ludności Bezwzględna wartość (tys) n, gdzie n oznacza różnicę między wartością bezwzględną i normatywną Mała Średnia Duża Normatywna Nienormatywna
Skale stosowane w badaniach marketingowych Skala nominalna: Czy położenie na piętrze ma dla Ciebie istotne znaczenie przy wyborze mieszkania? Tak Nie Nie mam zdania
Skala pozycyjna: badany wyraża swoją opinię wskazując jedną z uporządkowanych kategorii np: Co sądzisz o lokalizacji nieruchomości w sąsiedztwie.? Bardzo pożądana Pożądana Obojętna Niepożądana Bardzo niepożądana
Skala pozycyjna: Co sądzisz o lokalizacji mieszkania w dzielnicy.? Bardzo niekorzystna Bardzo korzystna -10 0 10
Skala porównywania parami: Szeregowanie osiedli mieszkaniowych Krakowa wg atrakcyjności lokalizacji. Osiedle Salwator Kazimierz Nowa Huta Łagiewniki Salwator X 0,25 0,33 0,50 Kazimierz 0,75 X 0,17 1,00 Nowa Huta 0,67 0,83 X 0,67 Łagiewniki 0,50 0,00 0,33 X Średnia 0,64 0,36 0,28 0,72
Skala różnicowania słownego (semantyczna): Ocena atrakcyjności lokalizacji w dzielnicy A Blisko centrum X Daleko od centrum Łatwy dojazd X Trudny dojazd Blisko sklepów X Daleko od sklepów Cisza i spokój X Hałas i uciążliwości Dużo zieleni X Mało zieleni
lokalizacja A Blisko centrum 22 6 2 0 0 0 0 Daleko od centrum Łatwy dojazd 15 10 5 0 0 0 0 Trudny dojazd Blisko sklepów 20 10 0 0 0 0 0 Cisza i spokój 0 0 0 0 7 8 15 Daleko od sklepów Hałas i uciążliwości Dużo zieleni 0 0 0 2 3 10 15 Mało zieleni sumy 57 26 7 2 10 18 30 suma wszystkich odpowiedzi 150 punktacja 6 5 4 3 2 1 0 ocena 3,63 lokalizacja B Blisko centrum 30 0 0 0 0 0 0 Daleko od centrum Łatwy dojazd 30 0 0 0 0 0 0 Trudny dojazd Blisko sklepów 30 0 0 0 0 0 0 Cisza i spokój 30 0 0 0 0 0 0 Daleko od sklepów Hałas i uciążliwości Dużo zieleni 30 0 0 0 0 0 0 Mało zieleni sumy 150 0 0 0 0 0 0 suma wszystkich odpowiedzi 150 punktacja 6 5 4 3 2 1 0 ocena 6,00