Modelowanie i Analiza Danych Przestrzennych

Podobne dokumenty
Statystyka opisowa. () Statystyka opisowa 24 maja / 8

Miary położenia (tendencji centralnej) to tzw. miary przeciętne charakteryzujące średni lub typowy poziom wartości cechy.

Statystyka opisowa. (n m n m 1 ) h (n m n m 1 ) + (n m n m+1 ) 2 +1), gdy n jest parzyste

X i. X = 1 n. i=1. wartość tej statystyki nazywana jest wartością średnią empiryczną i oznaczamy ją symbolem x, przy czym x = 1. (X i X) 2.

Moda (Mo, D) wartość cechy występującej najczęściej (najliczniej).

3. Tworzenie próby, błąd przypadkowy (próbkowania) 5. Błąd standardowy średniej arytmetycznej

Elementy modelowania matematycznego

Elementy statystyki opisowej Izolda Gorgol wyciąg z prezentacji (wykład I)

PODSTAWY OPRACOWANIA WYNIKÓW POMIARÓW Z ELEMENTAMI ANALIZY NIEPEWNOŚCI POMIAROWYCH

Plan wykładu. Analiza danych Wykład 1: Statystyka opisowa. Literatura. Podstawowe pojęcia

Statystyczny opis danych - parametry

Metrologia: miary dokładności. dr inż. Paweł Zalewski Akademia Morska w Szczecinie

Ćwiczenia nr 5. TEMATYKA: Regresja liniowa dla prostej i płaszczyzny

Estymacja. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 7

Charakterystyki liczbowe zmiennych losowych: wartość oczekiwana i wariancja

Statystyka i Opracowanie Danych. W7. Estymacja i estymatory. Dr Anna ADRIAN Paw B5, pok407

Estymacja przedziałowa

Miary położenia. Miary rozproszenia. Średnia. Wariancja. Dla danych indywidualnych: Dla danych indywidualnych: s 2 = 1 n. (x i x) 2. x i.

Miary rozproszenia. Miary położenia. Wariancja. Średnia. Dla danych indywidualnych: Dla danych indywidualnych: s 2 = 1 n. (x i x) 2. x i.

Trzeba pokazać, że dla każdego c 0 c Mc 0. ) = oraz det( ) det( ) det( ) jest macierzą idempotentną? Proszę odpowiedzieć w

KADD Metoda najmniejszych kwadratów

STATYSTYKA OPISOWA PODSTAWOWE WZORY

Wykład nr 2. Statystyka opisowa część 2. Plan wykładu

Podstawowe oznaczenia i wzory stosowane na wykładzie i laboratorium Część I: estymacja

STATYSTYKA OPISOWA PODSTAWOWE WZORY

STATYSTYKA OPISOWA WYKŁAD 1 i 2

3. Regresja liniowa Założenia dotyczące modelu regresji liniowej

COLLEGIUM MAZOVIA INNOWACYJNA SZKOŁA WYŻSZA WYDZIAŁ NAUK STOSOWANYCH. Kierunek: Finanse i rachunkowość. Robert Bąkowski Nr albumu: 9871

STATYSTKA I ANALIZA DANYCH LAB II

Korelacja i regresja. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 12

Wykład 5 Przedziały ufności. Przedział ufności, gdy znane jest σ. Opis słowny / 2

Ćwiczenie nr 14. Porównanie doświadczalnego rozkładu liczby zliczeń w zadanym przedziale czasu z rozkładem Poissona

d wymiarowy wektor losowy Niech (Ω, S, P) przestrzeń probabilistyczna Definicja Odwzorowanie X: Ω R nazywamy 1-wymiarowym wektorem

Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych (w zakresie materiału przedstawionego na wykładzie organizacyjnym)

Statystyka matematyczna. Wykład II. Estymacja punktowa

ZAGADNIENIE ESTYMACJI. ESTYMACJA PUNKTOWA I PRZEDZIAŁOWA

Histogram: Dystrybuanta:

Parametryczne Testy Istotności

STATYSTYKA MATEMATYCZNA

Zadanie 2 Niech,,, będą niezależnymi zmiennymi losowymi o identycznym rozkładzie,.

Lista 6. Estymacja punktowa

BADANIA DOCHODU I RYZYKA INWESTYCJI

Wybrane litery alfabetu greckiego

Statystyka powtórzenie (I semestr) Rafał M. Frąk

θx θ 1, dla 0 < x < 1, 0, poza tym,

1. Wnioskowanie statystyczne. Ponadto mianem statystyki określa się także funkcje zmiennych losowych o

Prawdopodobieństwo i statystyka r.

Statystyka Opisowa. w2: podstawowe miary. Jerzy Stefanowski Instytut Informatyki Politechnika Poznańska. Poznań, 2015/16 aktualizacja 2017

16 Przedziały ufności

Rachunek prawdopodobieństwa i statystyka W12: Statystyczna analiza danych jakościowych. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.

STATYSTYKA OPISOWA I PROJEKTOWANIE EKSPERYMENTU dr inż Krzysztof Bryś

Estymacja: Punktowa (ocena, błędy szacunku) Przedziałowa (przedział ufności)

Wokół testu Studenta 1. Wprowadzenie Rozkłady prawdopodobieństwa występujące w testowaniu hipotez dotyczących rozkładów normalnych

Kurs Prawdopodobieństwo Wzory

Podstawowe pojęcia. Próba losowa. Badanie próby losowej

Modele tendencji rozwojowej STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 18 listopada 2017

Analiza wyników symulacji i rzeczywistego pomiaru zmian napięcia ładowanego kondensatora

Wykład 11 ( ). Przedziały ufności dla średniej

Rozkład normalny (Gaussa)

Statystyka opisowa - dodatek

Jak obliczać podstawowe wskaźniki statystyczne?

Prawdopodobieństwo i statystyka r.

STATYSTYKA I ANALIZA DANYCH

MIANO ROZTWORU TITRANTA. Analiza statystyczna wyników oznaczeń

KURS STATYSTYKA. Lekcja 3 Parametryczne testy istotności ZADANIE DOMOWE. Strona 1

PRZEDZIAŁY UFNOŚCI. Niech θ - nieznany parametr rozkładu cechy X. Niech α będzie liczbą z przedziału (0, 1).

PODSTAWY BIOSTATYSTYKI ĆWICZENIA

Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych

Statystyka Wzory I. Analiza struktury

Ćwiczenie 2 ESTYMACJA STATYSTYCZNA

będą niezależnymi zmiennymi losowymi z rozkładu jednostajnego na przedziale ( 0,

Komputerowa analiza danych doświadczalnych

Statystyka i rachunek prawdopodobieństwa

Statystyka matematyczna dla leśników

Materiały do wykładu 4 ze Statystyki

Ćwiczenia rachunkowe TEST ZGODNOŚCI χ 2 PEARSONA ROZKŁAD GAUSSA

ZDARZENIE ELEMENTARNE to możliwy wynik doświadczenia losowego. Wszystkie takie możliwe wyniki tworzą zbiór zdarzeń elementarnych.

Obserwacje odstające mają duży wpływ na średnią średnia nie jest odporna.

Punktowe procesy niejednorodne

ma rozkład złożony Poissona z oczekiwaną liczbą szkód równą λ i rozkładem wartości pojedynczej szkody takim, że Pr( Y

1 Dwuwymiarowa zmienna losowa

1 Zmienne losowe. Własności dystrybuanty F (x) = P (X < x): F1. 0 F (x) 1 dla każdego x R, F2. lim F (x) = 0 oraz lim F (x) = 1,

Testowanie hipotez. H 1 : µ 15 lub H 1 : µ < 15 lub H 1 : µ > 15

oznaczają łączne wartości szkód odpowiednio dla k-tego kontraktu w t-tym roku. O składnikach naszych zmiennych zakładamy, że:

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Stwierdzenie 1. Jeżeli ciąg ma granicę, to jest ona określona jednoznacznie (żaden ciąg nie może mieć dwóch różnych granic).

Estymacja przedziałowa - przedziały ufności

Estymacja parametrów populacji

Zeszyty naukowe nr 9

Niezależność zmiennych, funkcje i charakterystyki wektora losowego, centralne twierdzenia graniczne

STATYSTYKA MATEMATYCZNA

0.1 ROZKŁADY WYBRANYCH STATYSTYK

są niezależnymi zmiennymi losowymi o jednakowym rozkładzie Poissona z wartością oczekiwaną λ równą 10. Obliczyć v = var( X

WYKŁAD 1. Zdarzenia losowe i prawdopodobieństwo Zmienna losowa i jej rozkłady

Ciągi liczbowe wykład 3

Komputerowa analiza danych doświadczalnych

1 Twierdzenia o granicznym przejściu pod znakiem całki

METODY NUMERYCZNE dr inż. Mirosław Dziewoński

z przedziału 0,1. Rozważmy trzy zmienne losowe:..., gdzie X

Transkrypt:

Modelowaie i Aaliza Daych Przestrzeych Wykład 3 Adrzej Leśiak Katedra Geoiformatyki i Iformatyki Stosowaej Akademia Góriczo-Huticza w Krakowie Wstęp do statystyki W statystyce pod pojęciem populacji rozumiemy zbiór wszystkich możliwych wyików obserwacji (pomiarów) będących kompletym obiektem aszych zaiteresowań; a przykład są to wszyscy mieszkańcy Staów Zjedoczoych. Populacja może być truda lub iemożliwa do wyczerpującej aalizy. W statystyce, ograiczoy zbiór podday aalizie i azywamy go próbą. Na przykład próba używaa w badaiach opiii publiczej CBOS. Niestety, termi "próbka" bądź próba ma róże zaczeia w geologii i w statystyce. Nauki o Ziemi zbiór daych próbka Statystyka Próba elemet

Zmiea losowa częstotliwość Zmiea losowa lub jest wielkością która może przyjąć jedą z wartości z określoej dziedziy z określoą częstotliwością względą. Kocepcja zmieej losowej jest szeroko stosowaa w statystyce i geostatystyce aby opisać aalizowaą populację (i w rezultacie p. zaleźć iezaą wartość parametru populacji w określoej lokalizacji czaso-przestrzeej). Aaliza opisowa: Próbka zazwyczaj obejmuje kilkaaście kilkuset pomiarów, które są lepiej zrozumiałe, gdy zorgaizowae je w odpowiedi sposób. Jest to waży aspekt statystyki. Liczba przeprowadzoych pomiarów jest azywaa wielkość próbki. Istieje wiele metod, aby uczyić dae więcej bardziej zrozumiałymi. Niektóre z ich są bardziej przydate iż ie i zależe od takich czyików, jak wielkość próbki i ostatecze cele aalizy. Tablica (tabela) częstości Mając zbiór daych umeryczych jeśli zakres zmieości daych podzieloy zostaie a klasy (zwykle takich samych długościach), oraz wszystkie obserwacje są przypisae do odpowiadających im klas, otrzymaym wyikiem jest względa częstość tych klas. Powyższy przykład to dae dużego koceru aftowego dotyczące głębokości (w stopach) do ilości graic rozdzielających warstwy w wybraym odwiercie. Zbiór te będzie stosoway do graficzej ilustracji iych defiicji w tym wykładzie.

Histogram Histogram jest graficzą reprezetacją tabeli częstości. Kumulata (częstość skumulowaa) Tablica częstości (i histogram) są uzależioe od liczebości klas i wartości początkowej pierwszej klasy. Aby uikąć tej wielozaczości moża wyświetlać wartość daej obserwacji z i jako wartość proporcjoalą do ilości próbek których wartość jest miejsza iż z i. Wartości a osi pioowej są ajczęściej możoe przez 00/ (%) gdzie jest ilością przedziałów. Kokreta wartość jest aoszoa w środku przedziału. Statystyka opisowa Statystyki opisowe są uzupełieiem lub alteratywym (do histogramu i częstości skumulowaej) sposobem opisu populacji. Statystyki podają pewe wartości liczbowe charakteryzujące próbę i mogą (lecz ie muszą) być estymatorami całej populacji. Geeralie, statystyki opisowe są podzieloe a trzy kategorie: Miary lokalizacji lub wycetrowaia Miary kocetracji lub dyspersji Miary kształtu (p. symetrii lub jej braku) Miary lokalizacji lub wycetrowaia - dają oe wyobrażeie o wartości średiej daych. Oi są: Wartość średia (arytmetycza) Mediaa Wartość ajbardziej prawdopodoba (oczekiwaa)

Średia arytmetycza częstotliwość skumulowaa Wartość średia jest obliczaa wg wzoru: mˆ = z i Dla daych tabeli wartość ta wyosi: 792.2 ft Mediaa częstotliwość skumulowaa Q 2 = 2 z ( + ) 2 ( z + z ) 2 ( 2) + jesli jest ieparzyste jesli jest parzyste Mediaa Q 2 jest to liczba dzieląca daą populację a dwie części w te sposób, że połowa wartości populacji jest miejsza od tej liczby a połowa większa od iej. Jeśli ustawimy pobrae elemety próby od ajwiększej do ajmiejszej (jest to tzw. szereg rozdzielczy) to jego środek wyzacza wartość mediay Q 2. Dla daych tabeli wartość mediay wyosi: 798 ft

Wartość ajbardziej prawdopodoba (oczekiwaa) częstotliwość skumulowaa Wartość ajbardziej prawdopodoba może być w prosty sposób określoa a podstawie histogramu. Jest to środek klasy o ajwiększej liczebości (czerwoa strzałka). Wartość ta może być rówież określoa jako maksymala wartość fukcji gęstości prawdopodobieństwa (jeśli się uda taką fukcję określić dla badaej populacji). Dla daych tabeli wartość ajbardziej prawdopodoba wyosi: 7935 ft Robustess Odporość (ag. robustess) ozacza zdolość daej metody statystyczej (p. pozwalajacej określić wartość pewego parametru p. tedecji lub cetralizacji) do prawidłowego działaia ie tylko w optymalych warukach, ale też w Przypadku obecość problemów z daymi, łagode do umiarkowaego odstępstwa od założeń, lub obu tych czyików jedocześie. Na przykład, w obecości dużych błędów mediaa jest bardziej iezawoda iż średiej arytmetycza.

Miary rozproszeia (rozprzestrzeieia) populacji Miary rozproszeie bądź rozprzestrzeiaia pozwalają ilościowo określić jak jakim stopiu dae są rozproszoe wokół wartości średiej (to zaczy czy są ciaso rozlokowae wokół tej wartości). Do ajczęściej używaych parametrów ależą: wariacja odchyleie stadardowe wartości ekstremale kwatyle zakres międzykwartylowy Wariacja Wariacja jest uśredioą sumą kwadratów odchyłek od wartości średiej populacji (bądź próby). Wzór dla skończoej próby o liczebości i zaej wartości średiej m ma postać: σˆ = i 2 2 2 ( z m) = z m 2 W wypadku, gdy wartość średia jest estymowaa z próby wzór przyjmuje postać: σˆ 2 = ˆ Wariacja daych z tabeli wyosi 5474 ft 2 ( z i m) Odporość (ag. robustess) wariacji jest z reguły miejsza iż iych miar rozproszeia. i 2

i odchyleie stadardowe σˆ częstotliwość skumulowaa Odchyleie stadardowe jest pierwiastkiem z wariacji. 2 ˆ σ = σˆ Jedostki odchyleia stadardowego są idetycze z jedostkami mierzoego parametru tworzącego próbę. Odchyleie stadardowe dla daych z tabeli wyosi 74.5 ft σˆ σˆ σˆ σˆ Zgodie z twierdzeiem Czebyszewa dla dowolej próbki i dowolego t> ilość daych które różią się od wartości mˆ o więcej iż t σˆ jest co ajwyżej rówa t -2 czyli: P( X mˆ t ˆ σ ) 2 t Wartości ekstremale częstotliwość skumulowaa Wartości ekstremale to miimala i maksymala wartość w daej próbie. Dla daych z tabeli wyoszą oe odpowiedio: Mi = 7696 Max = 8059 Obie wartości są łatwe do wyzaczeia lecz mają jedyie ograiczoy związek z wartością miimalą i maksymalą całej populacji, które a pewo przyjmują wartości rówe wartościom z próby bądź odpowiedio miejszą i większą.

Kwatyle, decyle i percetyle częstotliwość skumulowaa Podobie jak mediaa Q 2 dzieli szereg rozdzielczy daej populacji a dwie części o rówej liczebości, tak kwatyle dzielą ją a cztery rówe części, decyle a dziesięć zaś percetyle a sto (wg liczebości). Dla daych z tabeli kwatyle wyoszą odpowiedio: Q = 787.75 ft Q 2 = 798 ft Q 3 = 7965.75 ft Współczyik iqr częstotliwość skumulowaa Różica pomiędzy ajwiększym a ajmiejszym kwatlem jest azywaa współczyikiem iqr (ag. iterquatile rage) : iqr = Q 3 Q Może oa służyć do szacowaie dyspersji próby statystyczej. Dla daych tabeli wartość współczyika iqr wyosi: 94 ft Jako pomiar dyspersji współczyik iqr jest bardziej iż wariacja odpory a błędy w daych lecz ie bierze pod uwagę wpływu wartości skrajych (b. dużych i b. małych w stosuku do większości daych z populacji).

Elemety odstające liczebość Wartości odstające są zacząco róże od pozostałej części daych z próby. Rodzi to podejrzeia, że mogą oe ależeć do iej populacji lub mogą po prostu być błędami, często trudymi do wyjaśieia. W każdej próbie, odstających elemetów jest zawsze iewiele, jeśli są w ogóle. Praktyczie elemety odbiegające o więcej iż.5 wartości współczyika iqr od mediay są uzawae jako elemety umiarkowaie odstające a o więcej iż 3 wartości współczyika iqr od mediay jako elemety ekstremalie odstające. Dla daych z tabeli wartość większa od 8240 ft jest uzaa za błąd. Wykres pudełkowy Wykres pudełkowy w sposób zwarty podaje wartości parametrów statystyczych daej próby. Zawiera: - Mediaę - Kwatyle Q i Q 3 - Mi i Max - wartości odstające (ie zawsze) Zamiast Mi i Max podaje się czasem percetyle q 05 i q 95

Miary Kształtu Najczęściej stosowae miary kształtu rozkładu wartości próby (histogramu) to: Współczyik asymetrii Kwatylowy współczyik skośości Współczyik kurtozy Współczyik asymetrii (skośości) służy do pomiaru asymetrii histogramu. Defiicja: B = ( z i m) 3 σ Jeśli: - B < 0 lewa część histogramu jest wydłużoa - B = 0 histogram jest symetryczy - B > 0 prawa część histogramu jest wydłużoa 3 Kwatylowy współczyik skośości Kwatylowy współczyik skośości służy podobym celom co współczyik asymetrii. Różicą jest jego miejsza podatość a zakłóceia gdyż operując a kwatylach używa jedyie iformacji pochodzącej z cetralej części histogramu. Defiicja: ( Q Q ) ( Q Q ) 2 2 qs = iqr 3 Jeśli: - qs < 0 lewa część histogramu jest wydłużoa - qs = 0 histogram jest symetryczy - qs > 0 prawa część histogramu jest wydłużoa

Współczyik kurtozy Współczyik kurtozy jest miarą kocetracji wartości próby wokół jej wartości średiej. Defiicja: B 2 = ( z i m) 4 σ Jeśli: - B 2 < 3 histogram jest bardziej skocetroway iż pdf rozkładu ormalego - B 2 = 3 histogram jest skocetroway tak jak pdf rozkładu ormalego - B 2 > 3 histogram jest miej skocetroway iż pdf rozkładu ormalego 4 Statystyki dwuwymiarowe Najczęściej jesteśmy zaiteresowai porówaiem dwóch lub więcej pomiarów, które zostały wykoae dla tego samego obiektu lub w tym samym miejscu. Wśród ajbardziej powszechych sposobów charakteryzowaia tego typu zagadień dwuwymiarowych moża wymieić: Wykres puktowy Współczyik korelacji Regresja Wykres kwatyl-kwatyl Wykres prawdopodobieństwo-prawdopodobieństwo Niektóre z tych kocepcji może być uogólioe a większą ilość zmieych.

Wykres puktowy (ag. scatter plot) Wykres puktowy rozproszeia jest zbudoway we współrzędych, które podają wartości dwóch parametrów pomierzoych dla daego obiektu. Wykres puktowy jest sporządzay w celu obrazowaia, potwierdzaia potecjalie istiejących związków pomiędzy parametrami zarówo odoście ich formy (liiowy lub ie), ukierukowaia i siły (słaby lub sily związek). Kowariacja Dla zmieych ciągłych omówioa a poprzedim wykładzie. Dla zmieych dyskretych : C X, Y = x y i i ( ) xi y i Współczyik korelacji Współczyik korelacji jest ajczęściej uzywaym parametrem do opisu związku pomiędzy wieloma zmieymi. Jeśli σ X i σ Y są odchyleiami stadardowymi zmieych X i Y o ich wsółczyik korelacji ρ jest rówy: ρ = C X, Y σ X σ Y Współczyik korelacji służy wyłączie określaiu liiowej zależości pomiędzy zmieymi. Jeśli: - ρ< 0 zmiee są ujemie liiowo skorelowae ρ = 0 zmiee ie są skorelowae 0 < ρ zmiee są dodatio liiowo skorelowae

Regresja Regresja pozwala a określeie aalityczej zależości pomiędzy wieloma zmieymi losowymi podając stopień ich zależości. Pozwala tym samym a estymację wartości iepomierzoej a próbce. Związek pomiędzy zmieymi X i Y jest postaci: gdzie: f ( ) x i y i x i ( ; ) + i = f p ε ;p - jest dowolą fukcją p - to wektor iezaych parametrów ε i - to zmiea losowa ozaczająca odchyłkę y Mając określoą postać fukcji f dobieramy kokrete wartości parametrów pmiimalizując całkowitą odchyłkę (p. jak w metodzie ajmiejszych kwadratów sumę kwadratów wszystkich odchyłek). 2 2 r = ε i x Rozpatrzmy przypadek metody ajmiejszych kwadratów, gdy fukcja f jest wielomiaem. Wioski: - im stopień wielomiau wyższy tym dopasowaie lepsze - im stopień wielomiau wyższy tym model jest bardziej uzależioy od błędów Najlepiej stosować wielomiay st 3 Wysoka korelacja może ie wystarczyć do określeia wartości jedej zmieej a podstawie drugiej, jeśli współczyik korelacji jest mały. Duża korelacja może być spowodowae wspólą zależością dwóch zmieych z trzecią, ieujawioą czyiąc tym samym aalizę iekompletą.

Wykres kwatyl-kwatyl Wykres q-q to wykres puktowy dla daych uporządkowaych w szereg rozdzielczy. Wykres q-q jest czuły a przesuięcia oraz skalowaie rozkładu. Pozwala o a efektywe porówywaie rozkładów dwóch parametrów (ich wartości mi i max oraz tempa arastaia) Wykres prawdopodobieństwo-prawdopodobieństwo Jeśli zamiast p. zmieej X wprowadzimy zmieą zestadaryzowaą : Z = X µ σ to otrzymamy zmieą o rozkładzie stadardowym p. dla zmieej o rozkładzie ormalym zmiea zestadaryzowaa będzie miała wartość średią 0 i wariację. Wykres p-p to wykres puktowy sporządzoy a podstawie dystrybuat (kumulat) daych dwóch zmieych. Jeśli zmiee mają róże zakresy stosuje się zawsze proces stadaryzacji.

Wykresy q-q i p-p stosuje się główie do szybkiego porówywaia stopia podobieństwa dwóch rozkładów z próby. Jeśli rozkłady są takie same pukty są ulokowae a przekątej wykresu. Wykres p-p jest ieczuły a przesuięcie i skalowaie. Jedostki wartości prawdopodobieństwa. Metoda jest tylko i wyłączie metodą poglądową (jakościową)