Statystyka opisowa - dodatek. *Jak obliczyć statystyki opisowe w dużych daych? Liczeie statystyk opisowych w dużych daych może sprawiać problemy. Dla przykładu zauważmy, że aiwa implemetacja średiej arytmetyczej wymaga aby dae w całości mieściły się w pamięci RAM, co często ie jest wykoale. Dla przykładu mamy czujiki rozmieszczoe wzdłuż wybrzeża mierzące temperaturę wady, poziom fal, siłę wiatru itd. Czujików takich jest oczywiście bardzo, bardzo dużo a każdy z ich wysyła swoje pomiary do główego serwera co kilka milisekud. Zauważ, że awet gdybyśmy chcieli te wszystkie pomiary zapisywać a dysku twardym (ie mówmy awet o pamięci RAM) to po awet stosukowo krótkim czasie (kilka di) zabrakłoby am miejsca. Z tego powodu chcielibyśmy liczyć p. średią arytmetyczą w sposób przyrostowy, a dae potraktować jako strumień daych (ag. data stream). Co to zaczy? To zaczy, że mamy w pamięci RAM jakiś bufor (kilka, kilkaaście zmieych), który aktualizujemy z każdą adesłaą obserwacją, jedak po tej aktualizacji pomiar jest bezpowrotie zapomiay i igdy ie możemy do iego wrócić. Po pewym czasie p. jedym roku lub jedym diu a żądaie użytkowika system jest w staie a podstawie tych buforów policzyć żądaą statystykę. Przykład. Jak w takiej sytuacji policzyć średią? Średią dla elemetów możemy wyrazić wzorem: x = x i Rozpoczyając od x 0 = 0 możemy przekształcić to we wzór rekurecyjy: x = ( ) x + x
Te wzór ma jedą wadę: wymaga o od as obliczeia ( ) x co przy dużym prawdopodobie ie zmieści się am w stadardowej zmieej! Przekształćmy więc dalej: x = ( ) x + x = ( ) x = ( ) x + x = x + x i x + x + x x (.) Problem. W jaki sposób moża przyrostowo obliczyć wariację?.. Liczeie średiej arytmetyczej z szeregu rozdzielczego WYKŁAD Natomiast w jaki sposób możemy obliczyć w taki sposób mediaę? Albo modę? Jedym ze sposób a poradzeie sobie z tym problemem jest zastosowaie szeregów rozdzielczych, które pozaliśmy a poprzedich zajęciach (a przecież ich przechowywaie w pamięci ie powio być kosztowe). Jedak jak obliczyć średią, wariację, domiatę... z szeregu rozdzielczego? Problem. Jak możemy zbudować szereg rozdzielczy przy daych przychodzących ze strumieia? Nie zamy p. rozstępu daych czy liczby przedziałów. Przykład. Średia z szeregu rozdzielczego. Rozważmy przykładowy szereg rozdzielczy przedziałowy: Przedział Liczość i 47,5-5,5 5,5-57,5 7 57,5-6,5 5 6,5-67,5 67,5-7,5 77 7,5-77,5 8 77,5-8,5 8,5-87,5 7 87,5-9,5 3 9,5-97,5 W jaki sposób możemy obliczyć średią z tego szeregu? Oczywiście ie możemy tego zrobić dokładie, bo ie mamy wszystkich daych. Ale możemy założyć, że dae w przedziałach mają rozkład jedostajy (jest to założeie, które ajprawdopodobiej jest błęde, ale cóż taki life...). Skoro tak to średią daych w przedziale jest środek tego przedziału. Wyzaczmy więc środki przedziałów, a zarazem średie wartości daych w poszczególych przedziałach:
. *Jak obliczyć statystyki opisowe w dużych daych? 3 Przedział Liczość i Środek przedziału ẋ i 47,5-5,5 50 5,5-57,5 7 55 57,5-6,5 5 60 6,5-67,5 65 67,5-7,5 77 70 7,5-77,5 8 75 77,5-8,5 80 8,5-87,5 7 85 87,5-9,5 3 90 9,5-97,5 95 Zauważ, że w tej chwili mamy średią grupy liczb ẋ i oraz liczość tej grupy i. Możemy więc bardzo prosto dowiedzieć się ile wyosi suma liczb w poszczególych przedziałach ( i ẋ i ): Przedział Liczość i Środek przedziału ẋ i Suma liczb w przedziale 47,5-5,5 50 00 (= 50) 5,5-57,5 7 55 385 (= 7 55) 57,5-6,5 5 60 900 (= 5 60) 6,5-67,5 65 365 (= 65) 67,5-7,5 77 70 5390 (=...) 7,5-77,5 8 75 350 77,5-8,5 80 880 8,5-87,5 7 85 595 87,5-9,5 3 90 70 9,5-97,5 95 95 Możemy więc policzyć całkowitą sumę liczb i podzielić ją przez liczbę obserwacji: x = (00 + 385 + 900 +...) = 330 69,94 ( + 7 + 5 +...) 6 To co zrobiliśmy to tak aprawdę policzeie średiej ważoej. Defiicja. Średia arytmetycza z szeregu. Średią arytmetyczą z szeregu rozdzielczego obliczamy jako średią ważoą z jego środków przedziałów: x K gdzie = i, K to liczba przedziałów, i to liczość i-tego przedziału, a ẋ i to jego środek. Uwaga! Jest to wartość przybliżoa, zakładająca jedorody rozkład wartości w przedziale (tj. że średia wartości w przedziale jest rówa jego środkowi). i ẋ i Wzór a średią x = i x i, a więc x = i x i
4.. Liczeie wariacji z szeregu rozdzielczego WYKŁAD Przykład.3 Wariacja z szeregu rozdzielczego. Rozważmy przykładowy szereg rozdzielczy poday w poprzedim przykładzie. W jaki sposób możemy obliczyć wariację z tego szeregu? Oczywiście (zów) ie możemy tego zrobić dokładie, bo ie mamy wszystkich daych. Ale zauważmy, że wariacja to jest delikatie zmodyfikowaa średia arytmetycza (dzielimy a próbce przez ) kwadratów odchyłek. A więc możemy ją obliczyć bardzo podobie jak zwykłą średią arytmetyczą! S = (x i x) Po pierwsze, aby obliczyć odchyłkę od średiej musimy wyzaczyć średią, co zrobiliśmy w poprzedim przykładzie i wyosi oa 69, 94. Zów, zakładamy, że dae w przedziałach mają rozkład jedostajy, a więc odchyłkę od średiej możemy przybliżyć przez ẋ i x. Przedział Liczość i Środek przedziału ẋ i ẋ i x (ẋ i x) 47,5-5,5 50-9,94 397,6036 (= (50 69,94) ) 5,5-57,5 7 55-4,94 3,036 (= (55 69,94) ) 57,5-6,5 5 60-9,94 98,8036 (= (60 69,94) ) 6,5-67,5 65-4,94 4,4036 (= (65 69,94) ) 67,5-7,5 77 70 0,06 0,0036 (...) 7,5-77,5 8 75 5,06 5,6036 77,5-8,5 80 0,06 0,036 8,5-87,5 7 85 5,06 6,8036 87,5-9,5 3 90 0,06 40,4036 9,5-97,5 95 5,06 68,0036 Mając tak przyszykowaą kolumę potrafimy policzyć z iej średią arytmetyczą: każdą wartość możymy przez liczość przedziału, sumujemy a astępie dzielimy przez liczbę obserwacji (w próbce liczba obserwacji - ). S = (397,6036 + 3,036 7 +...) = 9349,383 58,07 ( + 7 + 5 +...) 6! Zauważ, że wariacje moża wyrazić wzorem: D X = E[X ] (E[X]). Możesz to wykorzystać do obliczeia wariacji z szeregu licząc po prostu razy średią: raz a zwykłych x, a drugi raz a x.
. *Jak obliczyć statystyki opisowe w dużych daych? 5 Defiicja. Wariacja z szeregu. Wariację z szeregu obliczamy podobie jak średią z szeregu, poprzez zasotowaie średiej ważoej do odchyłek środków przedziałów od średiej: S K i (ẋ i x) gdzie = i, K to liczba przedziałów, i to liczość i-tego przedziału, a ẋ i to jego środek. Uwaga! Jest to wartość przybliżoa, zakładająca jedorody rozkład wartości w przedziale (tj. że średi kwadrat odchyłek w przedziale jest rówy średiemu kwadratowi odchyłki jego środka) Ćwiczeie. Średia i wariacja w szeregu rozdzielczym. Otwórz arkusz kalkulacyjy dostępy pod astępującym likiem: http://www.cs.put.poza.pl/ mlago/siad/data/excel/0/cw-4.xls i rozwiąż ćwiczeie...3 Liczeie mediay z szeregu rozdzielczego WYKŁAD Przykład.4 Mediaa z szeregu rozdzielczego. Rozważmy przykładowy szereg rozdzielczy poday w poprzedim przykładzie. Ile wyiesie mediaa? Zów, ie możemy jej wyzaczyć dokładie, atomiast wiemy, że będzie oa leżała w połowie posortowaych wartości. Z poprzedich zadań wiemy, że liczość wyosi 6, więc pozycja mediay to 6 = 8. W którym przedziale leży ta wartość? Aby się tego dowiedzieć policzmy liczość skumulowaą. Przedział Liczość i Liczość skumulowaa 47,5-5,5 5,5-57,5 7 9 (=+7) 57,5-6,5 5 4 (=+7+5) 6,5-67,5 45 (=+7+5+) 67,5-7,5 77 (=+7+5++77) 7,5-77,5 8 40 (=...) 77,5-8,5 5 8,5-87,5 7 58 87,5-9,5 3 6 9,5-97,5 6 (=suma wszystkich liczości) Patrząc a liczości skumulowae widzimy, że obserwacje x, x ależą do przedziału pierwszego (47,5-5,5), obserwacje x 3,x 4,...,x 9 ależą do drugiego przedziału itd. W jakim więc przedziale jest szukaa mediaa czyli x 8? W przedziale 67,5-7,5, który zawiera obserwacje x 45,x 46,...,x. Teraz, gdy wiemy już w którym przedziale jest mediaa zastaówmy się w którym miejscu tego przedziału leży. Wiemy, że jest oa a 8 pozycji, a więc jest to 8 45 = 36 pozycja w przedziale. Załóżmy, że dae w przedziale mają rozkład jedorody. Zauważ, że przy takim założeiu wartość x 8 leży dokładie w 36 77 szerokości przedziału (pozycja w przedziale dzieloa przez liczość przedziału).
6 W związku z tym mediaa jest oddaloa od lewego brzegu tego przedziału o 36 77 szerokości przedziału czyli 77 36 5,33. Podsumowując: x med 67,5 +,33 = 69,83 Defiicja.3 Mediaa z szeregu. Mediaę z szeregu obliczamy w sposób astępujący:. Oblicz pozycję mediay tj. i =. Zajdź przedział w którym jest mediaa (możesz sobie pomóc patrząc a liczebość skumulowaą). Przedział te ma ideks m, liczość m i szerokość h. 3. Oblicz pozycję mediay w wybraym przedziale. Jeżeli suma liczości poprzedich przedziałów wyosi m i to pozycja mediay w tym przedziale to i w przedziale = m i 4. Załóż rozkład jedorody w przedziale. Mediaa będzie więc rówa lewemu krańcowi przedziału x l dodać i w przedziale razy odległość przypadająca każdej wartości w przedziale ( h m ). Podsumowując: x med = x l + h m ( ) m i..4 Liczeie domiaty z szeregu rozdzielczego WYKŁAD Przykład.5 Domiata z szeregu rozdzielczego. Rozważmy przykładowy szereg rozdzielczy poday w poprzedim przykładzie. Jak wyzaczyć domiatę? Po prostu sprawdźmy, który przedział ma ajwiększą liczość. Przedział Liczość i 47,5-5,5 5,5-57,5 7 57,5-6,5 5 6,5-67,5 67,5-7,5 77 7,5-77,5 8 77,5-8,5 8,5-87,5 7 87,5-9,5 3 9,5-97,5 W aszym przykładzie przedział te to przedział (67, 5 7, 5]. Jedak jak wyzaczyć która wartość dokładie jest domiatą/modą? W tym celu musimy spojrzeć a liczości przedziałów, które otaczają asz wybray przedział. Dlaczego? Jak wiemy od szeregu rozdzielczego do histogramu droga jest iedługa, więc zwizualizujmy sobie liczość aszego przedziału i przedziałów go otaczających. Ustalmy dwie sytuacje: liczości
. *Jak obliczyć statystyki opisowe w dużych daych? 7 otaczających przedziałów są rówe oraz jeda z otaczających przedział liczości jest większa od drugiej (w aszym szeregu mamy właśie taki przypadek). a) b) Dlaczego rozważamy takie dwie sytuacje? Otóż (odpowiedio zormalizoway) histogram jest empiryczym przybliżeiem rozkładu prawdopodobieństwa badaej cechy statystyczej (zmieej losowej). Modą fukcji gęstości jest wartość dla której przyjmuje oa ajwiększą wartość. Jak więc mogłaby wyglądać taka fukcja gęstości przybliżoa tymi dwoma histogramami? a) b) Zauważ, że w pierwszym przypadku szczyt fukcji gęstości (czyli domiata) leży dokładie a środku przedziału, a w drugim leży o bardziej z jego lewej stroy. Miejsce to możemy wyzaczyć poprzez zastosowaie wzoru a+b a razy szerokość przedziału. Dlatego, w celu wyzaczeia domiaty do lewego brzegu przedziału dodajemy a a+b szerokości przedziału. Zauważ, że gdy a = b to trafiamy dokładie w jego środek ( a+b a = a a = 0,5 ), a jeśli a > b to trafiamy bardziej w lewą stroę i odpowiedio jeśli a < b to bardziej w prawą stroę. Jak możesz się domyśleć z rysuku, wysokości a i b to różice pomiędzy liczością przedziału zawierającego domiatę oraz liczościami przedziałów go otaczających. Podsumowując: 77 x moda 67,5 + (77 ) + (77 8) 5 = 67,5 + 0,49 5 = 69,93 Defiicja.4 Domiata z szeregu. Domiatę z szeregu rozdzielczego obliczamy astępującym wzorem: m 0 x l + 0 ( 0 ) + ( 0 + ) h Poieważ liczość przedziału po prawej stroie jest dużo iższa wydaje się, że prawa część rozważaego przedziału jest rzadsza iż lewa
8 gdzie 0 to częstość przedziału klasowemu z ajwiększą częstością, x l to jego lewy brzeg, h to jego szerokość, + i to liczość przedziału astępującego po im i jego poprzedzającego. Ćwiczeie. Średia, domiata, skośość i wariacja w szeregu rozdzielczym. Otwórz arkusz kalkulacyjy dostępy pod astępującym likiem: http://www. cs.put.poza.pl/mlago/siad/data/excel/0/cw-5.xls i rozwiąż ćwiczeie.. Jeszcze więcej średich... Defiicja.5 Średia geometrycza. Średią geometryczą wyrażamy wzorem: x G = x i Defiicja.6 Średia harmoicza. Średią harmoiczą wyrażamy wzorem: x H = x = i x i Przykład.6 Jaka średia wybrać?. Prowadzimy aalizę systemu, który przewiduje progozę pogody dla kierowców. Aby prawidłowo zmierzyć jakość takiego systemu zdefiiowaliśmy dwa wskaźiki procetowe: skuteczość przewidywaia deszczu d i skuteczość przewidywaia mgły m (m,h [0%,00%]). Chcielibyśmy jedak zdefiiować jede współczyik jakość systemu poprzez wyciągięcie średiej z d i m. Którą średią powiiśmy wybrać? Najpierw rozważmy kilka przypadków: asz system bezadziejie przewiduje deszcz (d = 0%), ale świetie przewiduje mgłę (m = 00%) x = d + m = 50% x G = d m = 0% x H = m + d =... asz system dość dobrze przewiduje deszcz (d = 60%) i trochę słabiej przewiduje mgłę (m = 40%) x = d + m = 50% x G = d m 49% x H = m + d = 48% asz system dość dobrze przewiduje deszcz (d = 70%) i słabo przewiduje mgłę (m = 30%) x = d + m = 50% x G = d m 45,8% x H = m + d = 4%
. Jeszcze więcej średich... 9 asz system dość dobrze przewiduje deszcz (d = 80%) i dość dobrze przewiduje mgłę (m = 80%) x = d + m = 80% x G = d m = 80% x H = m + d = 80% Którą średią powiiśmy wybrać? Cóż, to zależy... Czy przypadki od do 3 są dla as tak samo dobre? Jeżeli odpowiedź brzmi ie to ie możemy wybrać średiej arytmetyczej, która przypisała im taki sam wyik. Pozostaje am do rozważeia średia geometrycza i harmoicza. Problem ze średią harmoiczą jest oczywisty: jeżeli choć jede ze współczyików wyosi 0 to ie możemy jej policzyć (dzieleie przez 0), więc jeżeli chcemy być odpori a taką sytuację pozostaje am średia geometrycza. Powyższy przykład jest też dobrą ilustracją zależości zachodzącymi między różymi średimi, które zdefiiujemy poiżej. Twierdzeie. Nierówość Cauchy ego o średich. Dla liczb dodatich x i średia arytmetycza jest większa rówa średiej geometryczej, a ta z kolei jest większa rówa średiej harmoiczej a. Przy czym rówość zachodzi tylko wtedy gdy liczby x i są sobie rówe. x x G x H dla x i 0 a Dowód moża zaleźć a Wikipedii: https://pl.wikipedia.org/wiki/nier%c3%b3wo%c5% 9B%C4%87_Cauchy'ego_o_%C5%9Bredich Ćwiczeie.3 Wybór odpowiediej średiej. Otwórz arkusz kalkulacyjy dostępy pod astępującym likiem: http://www.cs.put.poza.pl/mlago/siad/ data/excel/0/cw-3.xls i rozwiąż ćwiczeie. Pytaia sprawdzajace zrozumieie Pytaie. * Oblicz średią, domiatę, mediaę, wariację, odchyleie stadardowe z szeregu rozdzielczego.