Modelowaie i Aaliza Daych Przestrzeych Wykład 3 Adrzej Leśiak Katedra Geoiformatyki i Iformatyki Stosowaej Akademia Góriczo-Huticza w Krakowie Wstęp do statystyki W statystyce pod pojęciem populacji rozumiemy zbiór wszystkich możliwych wyików obserwacji (pomiarów) będących kompletym obiektem aszych zaiteresowań; a przykład są to wszyscy mieszkańcy Staów Zjedoczoych. Populacja może być truda lub iemożliwa do wyczerpującej aalizy. W statystyce, ograiczoy zbiór podday aalizie i azywamy go próbą. Na przykład próba używaa w badaiach opiii publiczej CBOS. Niestety, termi "próbka" bądź próba ma róże zaczeia w geologii i w statystyce. Nauki o Ziemi zbiór daych próbka Statystyka Próba elemet
Zmiea losowa częstotliwość Zmiea losowa lub jest wielkością która może przyjąć jedą z wartości z określoej dziedziy z określoą częstotliwością względą. Kocepcja zmieej losowej jest szeroko stosowaa w statystyce i geostatystyce aby opisać aalizowaą populację (i w rezultacie p. zaleźć iezaą wartość parametru populacji w określoej lokalizacji czaso-przestrzeej). Aaliza opisowa: Próbka zazwyczaj obejmuje kilkaaście kilkuset pomiarów, które są lepiej zrozumiałe, gdy zorgaizowae je w odpowiedi sposób. Jest to waży aspekt statystyki. Liczba przeprowadzoych pomiarów jest azywaa wielkość próbki. Istieje wiele metod, aby uczyić dae więcej bardziej zrozumiałymi. Niektóre z ich są bardziej przydate iż ie i zależe od takich czyików, jak wielkość próbki i ostatecze cele aalizy. Tablica (tabela) częstości Mając zbiór daych umeryczych jeśli zakres zmieości daych podzieloy zostaie a klasy (zwykle takich samych długościach), oraz wszystkie obserwacje są przypisae do odpowiadających im klas, otrzymaym wyikiem jest względa częstość tych klas. Powyższy przykład to dae dużego koceru aftowego dotyczące głębokości (w stopach) do ilości graic rozdzielających warstwy w wybraym odwiercie. Zbiór te będzie stosoway do graficzej ilustracji iych defiicji w tym wykładzie.
Histogram Histogram jest graficzą reprezetacją tabeli częstości. Kumulata (częstość skumulowaa) Tablica częstości (i histogram) są uzależioe od liczebości klas i wartości początkowej pierwszej klasy. Aby uikąć tej wielozaczości moża wyświetlać wartość daej obserwacji z i jako wartość proporcjoalą do ilości próbek których wartość jest miejsza iż z i. Wartości a osi pioowej są ajczęściej możoe przez 00/ (%) gdzie jest ilością przedziałów. Kokreta wartość jest aoszoa w środku przedziału. Statystyka opisowa Statystyki opisowe są uzupełieiem lub alteratywym (do histogramu i częstości skumulowaej) sposobem opisu populacji. Statystyki podają pewe wartości liczbowe charakteryzujące próbę i mogą (lecz ie muszą) być estymatorami całej populacji. Geeralie, statystyki opisowe są podzieloe a trzy kategorie: Miary lokalizacji lub wycetrowaia Miary kocetracji lub dyspersji Miary kształtu (p. symetrii lub jej braku) Miary lokalizacji lub wycetrowaia - dają oe wyobrażeie o wartości średiej daych. Oi są: Wartość średia (arytmetycza) Mediaa Wartość ajbardziej prawdopodoba (oczekiwaa)
Średia arytmetycza częstotliwość skumulowaa Wartość średia jest obliczaa wg wzoru: mˆ = z i Dla daych tabeli wartość ta wyosi: 792.2 ft Mediaa częstotliwość skumulowaa Q 2 = 2 z ( + ) 2 ( z + z ) 2 ( 2) + jesli jest ieparzyste jesli jest parzyste Mediaa Q 2 jest to liczba dzieląca daą populację a dwie części w te sposób, że połowa wartości populacji jest miejsza od tej liczby a połowa większa od iej. Jeśli ustawimy pobrae elemety próby od ajwiększej do ajmiejszej (jest to tzw. szereg rozdzielczy) to jego środek wyzacza wartość mediay Q 2. Dla daych tabeli wartość mediay wyosi: 798 ft
Wartość ajbardziej prawdopodoba (oczekiwaa) częstotliwość skumulowaa Wartość ajbardziej prawdopodoba może być w prosty sposób określoa a podstawie histogramu. Jest to środek klasy o ajwiększej liczebości (czerwoa strzałka). Wartość ta może być rówież określoa jako maksymala wartość fukcji gęstości prawdopodobieństwa (jeśli się uda taką fukcję określić dla badaej populacji). Dla daych tabeli wartość ajbardziej prawdopodoba wyosi: 7935 ft Robustess Odporość (ag. robustess) ozacza zdolość daej metody statystyczej (p. pozwalajacej określić wartość pewego parametru p. tedecji lub cetralizacji) do prawidłowego działaia ie tylko w optymalych warukach, ale też w Przypadku obecość problemów z daymi, łagode do umiarkowaego odstępstwa od założeń, lub obu tych czyików jedocześie. Na przykład, w obecości dużych błędów mediaa jest bardziej iezawoda iż średiej arytmetycza.
Miary rozproszeia (rozprzestrzeieia) populacji Miary rozproszeie bądź rozprzestrzeiaia pozwalają ilościowo określić jak jakim stopiu dae są rozproszoe wokół wartości średiej (to zaczy czy są ciaso rozlokowae wokół tej wartości). Do ajczęściej używaych parametrów ależą: wariacja odchyleie stadardowe wartości ekstremale kwatyle zakres międzykwartylowy Wariacja Wariacja jest uśredioą sumą kwadratów odchyłek od wartości średiej populacji (bądź próby). Wzór dla skończoej próby o liczebości i zaej wartości średiej m ma postać: σˆ = i 2 2 2 ( z m) = z m 2 W wypadku, gdy wartość średia jest estymowaa z próby wzór przyjmuje postać: σˆ 2 = ˆ Wariacja daych z tabeli wyosi 5474 ft 2 ( z i m) Odporość (ag. robustess) wariacji jest z reguły miejsza iż iych miar rozproszeia. i 2
i odchyleie stadardowe σˆ częstotliwość skumulowaa Odchyleie stadardowe jest pierwiastkiem z wariacji. 2 ˆ σ = σˆ Jedostki odchyleia stadardowego są idetycze z jedostkami mierzoego parametru tworzącego próbę. Odchyleie stadardowe dla daych z tabeli wyosi 74.5 ft σˆ σˆ σˆ σˆ Zgodie z twierdzeiem Czebyszewa dla dowolej próbki i dowolego t> ilość daych które różią się od wartości mˆ o więcej iż t σˆ jest co ajwyżej rówa t -2 czyli: P( X mˆ t ˆ σ ) 2 t Wartości ekstremale częstotliwość skumulowaa Wartości ekstremale to miimala i maksymala wartość w daej próbie. Dla daych z tabeli wyoszą oe odpowiedio: Mi = 7696 Max = 8059 Obie wartości są łatwe do wyzaczeia lecz mają jedyie ograiczoy związek z wartością miimalą i maksymalą całej populacji, które a pewo przyjmują wartości rówe wartościom z próby bądź odpowiedio miejszą i większą.
Kwatyle, decyle i percetyle częstotliwość skumulowaa Podobie jak mediaa Q 2 dzieli szereg rozdzielczy daej populacji a dwie części o rówej liczebości, tak kwatyle dzielą ją a cztery rówe części, decyle a dziesięć zaś percetyle a sto (wg liczebości). Dla daych z tabeli kwatyle wyoszą odpowiedio: Q = 787.75 ft Q 2 = 798 ft Q 3 = 7965.75 ft Współczyik iqr częstotliwość skumulowaa Różica pomiędzy ajwiększym a ajmiejszym kwatlem jest azywaa współczyikiem iqr (ag. iterquatile rage) : iqr = Q 3 Q Może oa służyć do szacowaie dyspersji próby statystyczej. Dla daych tabeli wartość współczyika iqr wyosi: 94 ft Jako pomiar dyspersji współczyik iqr jest bardziej iż wariacja odpory a błędy w daych lecz ie bierze pod uwagę wpływu wartości skrajych (b. dużych i b. małych w stosuku do większości daych z populacji).
Elemety odstające liczebość Wartości odstające są zacząco róże od pozostałej części daych z próby. Rodzi to podejrzeia, że mogą oe ależeć do iej populacji lub mogą po prostu być błędami, często trudymi do wyjaśieia. W każdej próbie, odstających elemetów jest zawsze iewiele, jeśli są w ogóle. Praktyczie elemety odbiegające o więcej iż.5 wartości współczyika iqr od mediay są uzawae jako elemety umiarkowaie odstające a o więcej iż 3 wartości współczyika iqr od mediay jako elemety ekstremalie odstające. Dla daych z tabeli wartość większa od 8240 ft jest uzaa za błąd. Wykres pudełkowy Wykres pudełkowy w sposób zwarty podaje wartości parametrów statystyczych daej próby. Zawiera: - Mediaę - Kwatyle Q i Q 3 - Mi i Max - wartości odstające (ie zawsze) Zamiast Mi i Max podaje się czasem percetyle q 05 i q 95
Miary Kształtu Najczęściej stosowae miary kształtu rozkładu wartości próby (histogramu) to: Współczyik asymetrii Kwatylowy współczyik skośości Współczyik kurtozy Współczyik asymetrii (skośości) służy do pomiaru asymetrii histogramu. Defiicja: B = ( z i m) 3 σ Jeśli: - B < 0 lewa część histogramu jest wydłużoa - B = 0 histogram jest symetryczy - B > 0 prawa część histogramu jest wydłużoa 3 Kwatylowy współczyik skośości Kwatylowy współczyik skośości służy podobym celom co współczyik asymetrii. Różicą jest jego miejsza podatość a zakłóceia gdyż operując a kwatylach używa jedyie iformacji pochodzącej z cetralej części histogramu. Defiicja: ( Q Q ) ( Q Q ) 2 2 qs = iqr 3 Jeśli: - qs < 0 lewa część histogramu jest wydłużoa - qs = 0 histogram jest symetryczy - qs > 0 prawa część histogramu jest wydłużoa
Współczyik kurtozy Współczyik kurtozy jest miarą kocetracji wartości próby wokół jej wartości średiej. Defiicja: B 2 = ( z i m) 4 σ Jeśli: - B 2 < 3 histogram jest bardziej skocetroway iż pdf rozkładu ormalego - B 2 = 3 histogram jest skocetroway tak jak pdf rozkładu ormalego - B 2 > 3 histogram jest miej skocetroway iż pdf rozkładu ormalego 4 Statystyki dwuwymiarowe Najczęściej jesteśmy zaiteresowai porówaiem dwóch lub więcej pomiarów, które zostały wykoae dla tego samego obiektu lub w tym samym miejscu. Wśród ajbardziej powszechych sposobów charakteryzowaia tego typu zagadień dwuwymiarowych moża wymieić: Wykres puktowy Współczyik korelacji Regresja Wykres kwatyl-kwatyl Wykres prawdopodobieństwo-prawdopodobieństwo Niektóre z tych kocepcji może być uogólioe a większą ilość zmieych.
Wykres puktowy (ag. scatter plot) Wykres puktowy rozproszeia jest zbudoway we współrzędych, które podają wartości dwóch parametrów pomierzoych dla daego obiektu. Wykres puktowy jest sporządzay w celu obrazowaia, potwierdzaia potecjalie istiejących związków pomiędzy parametrami zarówo odoście ich formy (liiowy lub ie), ukierukowaia i siły (słaby lub sily związek). Kowariacja Dla zmieych ciągłych omówioa a poprzedim wykładzie. Dla zmieych dyskretych : C X, Y = x y i i ( ) xi y i Współczyik korelacji Współczyik korelacji jest ajczęściej uzywaym parametrem do opisu związku pomiędzy wieloma zmieymi. Jeśli σ X i σ Y są odchyleiami stadardowymi zmieych X i Y o ich wsółczyik korelacji ρ jest rówy: ρ = C X, Y σ X σ Y Współczyik korelacji służy wyłączie określaiu liiowej zależości pomiędzy zmieymi. Jeśli: - ρ< 0 zmiee są ujemie liiowo skorelowae ρ = 0 zmiee ie są skorelowae 0 < ρ zmiee są dodatio liiowo skorelowae
Regresja Regresja pozwala a określeie aalityczej zależości pomiędzy wieloma zmieymi losowymi podając stopień ich zależości. Pozwala tym samym a estymację wartości iepomierzoej a próbce. Związek pomiędzy zmieymi X i Y jest postaci: gdzie: f ( ) x i y i x i ( ; ) + i = f p ε ;p - jest dowolą fukcją p - to wektor iezaych parametrów ε i - to zmiea losowa ozaczająca odchyłkę y Mając określoą postać fukcji f dobieramy kokrete wartości parametrów pmiimalizując całkowitą odchyłkę (p. jak w metodzie ajmiejszych kwadratów sumę kwadratów wszystkich odchyłek). 2 2 r = ε i x Rozpatrzmy przypadek metody ajmiejszych kwadratów, gdy fukcja f jest wielomiaem. Wioski: - im stopień wielomiau wyższy tym dopasowaie lepsze - im stopień wielomiau wyższy tym model jest bardziej uzależioy od błędów Najlepiej stosować wielomiay st 3 Wysoka korelacja może ie wystarczyć do określeia wartości jedej zmieej a podstawie drugiej, jeśli współczyik korelacji jest mały. Duża korelacja może być spowodowae wspólą zależością dwóch zmieych z trzecią, ieujawioą czyiąc tym samym aalizę iekompletą.
Wykres kwatyl-kwatyl Wykres q-q to wykres puktowy dla daych uporządkowaych w szereg rozdzielczy. Wykres q-q jest czuły a przesuięcia oraz skalowaie rozkładu. Pozwala o a efektywe porówywaie rozkładów dwóch parametrów (ich wartości mi i max oraz tempa arastaia) Wykres prawdopodobieństwo-prawdopodobieństwo Jeśli zamiast p. zmieej X wprowadzimy zmieą zestadaryzowaą : Z = X µ σ to otrzymamy zmieą o rozkładzie stadardowym p. dla zmieej o rozkładzie ormalym zmiea zestadaryzowaa będzie miała wartość średią 0 i wariację. Wykres p-p to wykres puktowy sporządzoy a podstawie dystrybuat (kumulat) daych dwóch zmieych. Jeśli zmiee mają róże zakresy stosuje się zawsze proces stadaryzacji.
Wykresy q-q i p-p stosuje się główie do szybkiego porówywaia stopia podobieństwa dwóch rozkładów z próby. Jeśli rozkłady są takie same pukty są ulokowae a przekątej wykresu. Wykres p-p jest ieczuły a przesuięcie i skalowaie. Jedostki wartości prawdopodobieństwa. Metoda jest tylko i wyłączie metodą poglądową (jakościową)