www.bdas.pl Rozdział 3 Zastosowanie języka SQL w statystyce opisowej 1 Wprowadzenie

Podobne dokumenty
Laboratorium Metod Statystycznych ĆWICZENIE 2 WERYFIKACJA HIPOTEZ I ANALIZA WARIANCJI

Podstawy analizy niepewności pomiarowych (I Pracownia Fizyki)

L.Kowalski zadania ze statystyki opisowej-zestaw 5. ZADANIA Zestaw 5

N ( µ, σ ). Wyznacz estymatory parametrów µ i. Y które są niezależnymi zmiennymi losowymi.

Miary statystyczne. Katowice 2014

Statystyczne charakterystyki liczbowe szeregu

Materiały do wykładu 7 ze Statystyki

Planowanie eksperymentu pomiarowego I

Prawdopodobieństwo i statystyka r.

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

OBLICZANIE NIEPEWNOŚCI METODĄ TYPU B

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Obliczanie średniej, odchylenia standardowego i mediany oraz kwartyli w szeregu szczegółowym i rozdzielczym?

Jego zależy od wysokości i częstotliwości wypłat kuponów odsetkowych, ceny wykupu, oczekiwanej stopy zwrotu oraz zapłaconej ceny za obligację.

Średnia arytmetyczna Klasyczne Średnia harmoniczna Średnia geometryczna Miary położenia inne

Podstawowe zadanie statystyki. Statystyczna interpretacja wyników eksperymentu. Zalety statystyki II. Zalety statystyki

Monika Jeziorska - Pąpka Uniwersytet Mikołaja Kopernika w Toruniu

Centralna Izba Pomiarów Telekomunikacyjnych (P-12) Komputerowe stanowisko do wzorcowania generatorów podstawy czasu w częstościomierzach cyfrowych

AKADEMIA MORSKA W SZCZECINIE

Wyrażanie niepewności pomiaru

TARCIE CIĘGIEN O POWIERZCHNIĘ WALCOWĄ WZÓR EULERA

Fizyka, technologia oraz modelowanie wzrostu kryształów

Statystyczna analiza miesięcznych zmian współczynnika szkodowości kredytów hipotecznych

Statystyka Opisowa Wzory

Lekcja 1. Pojęcia podstawowe: Zbiorowość generalna i zbiorowość próbna

TESTY NORMALNOŚCI. ( Cecha X populacji ma rozkład normalny). Hipoteza alternatywna H1( Cecha X populacji nie ma rozkładu normalnego).

PŁASKA GEOMETRIA MAS. Środek ciężkości figury płaskiej

FINANSE II. Model jednowskaźnikowy Sharpe a.

Badania Maszyn CNC. Nr 2

WYZNACZANIE WARTOŚCI ENERGII ROZPRASZANEJ PODCZAS ZDERZENIA CIAŁ

Podstawowe pojcia. Metody probabilistyczne i statystyka Wykład 7: Statystyka opisowa. Rozkłady prawdopodobiestwa wystpujce w statystyce.

FUNKCJE DWÓCH ZMIENNYCH

W zadaniu nie ma polecenia wyznaczania estymatora nieobciążonego o minimalnej wariancji. σ σ σ σ σ = =

POPULACJA I PRÓBA. Próba reprezentatywna. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH 5 1

Statystyka Opisowa 2014 część 3. Katarzyna Lubnauer

System finansowy gospodarki

L.Kowalski PODSTAWOWE TESTY STATYSTYCZNE WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH

Portfel złożony z wielu papierów wartościowych

UOGÓLNIONA ANALIZA WRAŻLIWOŚCI ZYSKU W PRZEDSIĘBIORSTWIE PRODUKUJĄCYM N-ASORTYMENTÓW. 1. Wprowadzenie

W zadaniu nie ma polecenia wyznaczania estymatora nieobciążonego o minimalnej wariancji. σ σ σ σ σ = =

STATYKA. Cel statyki. Prof. Edmund Wittbrodt

METODY ANALIZY DANYCH DOŚWIADCZALNYCH

System finansowy gospodarki

Statystyka. Analiza zależności. Rodzaje zależności między zmiennymi występujące w praktyce: Funkcyjna

Tablica Galtona. Mechaniczny model rozkładu normalnego (M10)

Różniczkowanie funkcji rzeczywistych wielu zmiennych. Matematyka Studium doktoranckie KAE SGH Semestr letni 2008/2009 R. Łochowski

będą niezależnymi zmiennymi losowymi o tym samym 2 x

Wnioskowanie statystyczne dla korelacji i regresji.

5. OPTYMALIZACJA NIELINIOWA

ma rozkład normalny z nieznaną wartością oczekiwaną m

WPŁYW SPÓŁEK AKCYJNYCH NA LOKALNY RYNEK PRACY

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 7-8

Projekt 3 Analiza masowa

PODSTAWY OPRACOWANIA WYNIKÓW POMIARÓW Z ELEMENTAMI ANALIZY NIEPEWNOŚCI POMIAROWYCH

Ze względu na sposób zapisu wielkości błędu rozróżnia się błędy bezwzględne i względne.

ma rozkład normalny z wartością oczekiwaną EX = EY = 1, EZ = 0 i macierzą kowariancji

Wyznaczanie oporu naczyniowego kapilary w przepływie laminarnym.

Zależność kosztów produkcji węgla w kopalni węgla brunatnego Konin od poziomu jego sprzedaży

Teoria i praktyka. Wyższa Szkoła Turystyki i Ekologii. Fizyka. WSTiE Sucha Beskidzka Fizyka

Pomiary parametrów napięć i prądów przemiennych

STATYSTYKA OPISOWA WYKŁAD 3,4

KONCEPCJA WIELOKRYTERIALNEGO WSPOMAGANIA DOBORU WARTOŚCI PROGOWEJ W BIOMETRYCZNYM SYSTEMIE UWIERZYTELNIANIA. Adrian Kapczyński Maciej Wolny

Pomiary bezpośrednie i pośrednie obarczone błędem przypadkowym

( X, Y ) będzie dwuwymiarową zmienną losową o funkcji gęstości

Energia potencjalna jest energią zgromadzoną w układzie. Energia potencjalna może być zmieniona w inną formę energii (na przykład energię kinetyczną)

Badanie współzależności dwóch cech ilościowych X i Y. Analiza korelacji prostej

Matematyka ubezpieczeń majątkowych r. t warunkowo niezależne i mają (brzegowe) rozkłady Poissona:

PROJEKT: GNIAZDO POTOKOWE

Analiza Matematyczna Ćwiczenia. J. de Lucas

wyniki serii n pomiarów ( i = 1,..., n) Stosując metodę największej wiarygodności możemy wykazać, że estymator wariancji 2 i=

STATYSTYKA OPISOWA. Państwowa Wyższa Szkoła Zawodowa w Koninie. Materiały pomocnicze do ćwiczeń. Materiały dydaktyczne 17 ARTUR ZIMNY

Elektrostatyka-cz.2. Kondensatory, pojemność elektryczna Energia pola elektrycznego

Wykład 15 Elektrostatyka

Analiza danych pomiarowych

Statystyka opisowa. W szeregu tym prezentowana jest ilość wystąpień w próbie każdej wartości cechy.

Statystyka Inżynierska

. Wtedy E V U jest równa

Przestrzenno-czasowe zróżnicowanie stopnia wykorzystania technologii informacyjno- -telekomunikacyjnych w przedsiębiorstwach

Modele wartości pieniądza w czasie

Podstawy opracowania wyników pomiarowych, analiza błędów

dev = y y Miary położenia rozkładu Wykład 9 Przykład: Przyrost wagi owiec Odchylenia Mediana próbkowa: Przykłady Statystyki opisowe Σ dev i =?

WSTĘP METODY OPRACOWANIA I ANALIZY WYNIKÓW POMIARÓW

EFEKTYWNA STOPA PROCENTOWA O RÓWNOWAŻNA STPOPA PROCENTOWA

3. OPTYMALIZACJA NIELINIOWA

STATYSTYKA OPISOWA WYKŁAD 1 i 2

Laboratorium z Biomechatroniki Ćwiczenie 3 Wyznaczanie położenia środka masy ciała człowieka za pomocą dźwigni jednostronnej

Statystyka opisowa. W szeregu tym prezentowana jest ilość wystąpień w próbie każdej wartości cechy.

będą niezależnymi zmiennymi losowymi z rozkładu o gęstości

BRYŁA SZTYWNA. Zestaw foliogramów. Opracowała Lucja Duda II Liceum Ogólnokształcące w Pabianicach

Zadanie 1. ), gdzie 1. Zmienna losowa X ma rozkład logarytmiczno-normalny LN (, . EX (A) 0,91 (B) 0,86 (C) 1,82 (D) 1,95 (E) 0,84

OKREŚLANIE NIEPEWNOŚCI POMIARÓW (poradnik do Laboratorium Fizyki)

Statystyka. Katarzyna Chudy Laskowska

opisać wielowymiarową funkcją rozkładu gęstości prawdopodobieństwa f(x 1 , x xn

ZAGADNIENIE TRANSPORTOWE

BADANIE CHARAKTERYSTYKI DIODY PÓŁPRZEWODNIKOWEJ

Przetwarzanie danych meteorologicznych

STATYSTYKA MATEMATYCZNA WYKŁAD 5 WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH

G:\AA_Wyklad 2000\FIN\DOC\Geom20.doc. Drgania i fale III rok Fizyki BC

MIERNICTWO WIELKOŚCI ELEKTRYCZNYCH I NIEELEKTRYCZNYCH

Stanisław Cichocki. Natalia Nehrebecka. Zajęcia 5

Transkrypt:

Rozdzał moogaf: 'Bazy Daych: Nowe Techologe', Kozelsk S., Małysak B., Kaspowsk P., Mozek D. (ed.), WKŁ 007 Rozdzał 3 Zastosowae języka SQL w statystyce opsowej Steszczee. Relacyje bazy daych staową odpowede azędze do pzechowywaa dużej lośc daych pochodzących z badaa statystyczego. Jedak bezpośede mechazmy wspeające pzetwazae mateału statystyczego w typowych bazach spowadzają sę jedye do wylczea śedej aytmetyczej, waacj odchylea stadadowego. Badzej wyafowae oblczea statystycze moża zamplemetować posługując sę ogólym stukcjam oaz fukcjam dostępym w amach stadadu SQL:003. Pzedstawee sposobu deklaatywej mplemetacj typowych ma statystyczych staow cel ejszego opacowaa. Wpowadzee Statystyka jest auką taktującą o loścowych metodach badaa zjawsk masowych. O zjawskach masowych mówmy wówczas, gdy badau podlega wystaczająco duża lczba jedostek. Tylko wtedy moża bowem zaobsewować okeśloe pawdłowośc [4]. Jedym ze sposobów pzechowywaa wyków obsewacj statystyczej jest zapsae ch w elacyjej baze daych. Podejśce take umożlwa późejsze pzetwazae daych bezpośedo w mejscu pzechowywaa, a do aplkacj zewętzych zwócee wyłącze ezultatów oblczeń. Bazy daych e dostaczają jedak bezpośedch mechazmów odkywaa pawdłowośc statystyczych. Wpawdze tesywy ozwój języka SQL dopowadzł do powstaa lczych udogodeń w pzetwazau daych, jedak ofeują oe jedye częścowe wspace aalzy statystyczej e są kompatyble mędzy poszczególym systemam baz daych. Poadto steje wele mejszych, damowych baz daych, któych wbudowae fukcje statystycze ogaczają sę jedye do śedej aytmetyczej, waacj odchylea stadadowego. Nejsze opacowae pzedstawa sposób deklaatywej mplemetacj oblczeń statystyczych za pomocą języka SQL. W celu pzedstawea geeyczych ozwązań, gwaatujących elastyczość w takce pzeoszea mędzy óżym systemam zaządzaa bazą daych, postaowoo kozystać z gamatyk stadadu SQL:003 []. Pezetoway w pacy kod SQL apsao testowao pod bazą Febd.5. Febd jest ewelką, damową bazą daych typu ope-souce, któa wywodz sę z kodu źódłowego Bolad IteBase 6.0. W dalszej częśc ozdzału okeśloo pzedmot badaa, a astępe pokazao kweedy SQL wspomagające koleje etapy aalzy statystyczej. Ze względu a Adam Pzybyłek Uwesytet Gdańsk, Kateda Ifomatyk Ekoomczej, ul. Paskowa 9, 8-84 Sopot, Polska emal: adam@uv.gda.pl (c) Copyght by Poltechka Śląska, Istytut Ifomatyk, Glwce 007

Rozdzał moogaf: 'Bazy Daych: Nowe Techologe', Kozelsk S., Małysak B., Kaspowsk P., Mozek D. (ed.), WKŁ 007 A. Pzybyłek ogaczoą lość mejsca ezultaty wykoaa częśc kweed pzedstawoo tylko fagmetaycze. Pzedmot badaa Wykozystay w ejszej pacy mateał statystyczy pochodz z badaa pełego składa sę z 39 obsewacj. Zboowość statystyczą (populację) staową modele samochodów podukowaych w latach 970 98 w USA, Japo Euope. Do cech zmeych badaej zboowośc ależą: oczk, pochodzee, masa, pojemość, cyldy, moc, pzyspeszee oaz spalae. Poszczególe obsewacje badaa pzechowywae są jako ekody tabel model. Defcję tabel model pzedstawoo a lstgu. Lstg. Defcja tabel model CREATE TABLE model ( d_modelu INTEGER PRIMARY KEY, oczk SMALLINT, pochodzee CHAR(3), -- [USA JAP EUR] masa INTEGER, -- [kg] pojemosc INTEGER, -- [cm 3 ] cyldy SMALLINT, moc INTEGER, --[KM] pzyspeszee DECIMAL(3,), -- od 0 do 00km/h [s] spalae DECIMAL(3,) - [l] ); W dalszej częśc pacy będą używae astępujące symbole: X - badaa cecha zmea, - lczebość zboowośc (39), k - lczba pzedzałów w szeegu ozdzelczym, h - ozpętość pzedzału, x - w zależośc od kotekstu: watość cechy X występująca u -tej jedostk statystyczej w szeegu szczegółowym, gdze {,,..., }, watość -tego waatu cechy w szeegu ozdzelczym puktowym, gdze {,,..., k}; wówczas lczba jedostek statystyczych posadających taką watość cechy ozaczaa jest pzez, watość śodkowa -tego pzedzału w szeegu ozdzelczym pzedzałowym, gdze {,,..., k}; wówczas ozacza lczebość -tego pzedzału, x m - watość mmala cechy X w badaej zboowośc, x max - watość maksymala cechy X w badaej zboowośc. 3 Gupowae zlczae Każda koluma tabel model zawea eupoządkoway szeeg statystyczy zbó obsewacj zapsaych według kolejośc wpowadzea. Podczas pezetacj obsewacje moża upoządkować za pomocą klauzul ORDER BY, twoząc w te sposób szeeg Dae zostały zampotowae z pzykładu dostępego w amach paketu SPSS (www.spss.pl). 36 (c) Copyght by Poltechka Śląska, Istytut Ifomatyk, Glwce 007

Rozdzał moogaf: 'Bazy Daych: Nowe Techologe', Kozelsk S., Małysak B., Kaspowsk P., Mozek D. (ed.), WKŁ 007 Zastosowae języka SQL w statystyce opsowej szczegółowy (ys. a). Szeeg szczegółowy w pzypadku dużej lczby obsewacj jest mało czytely. W zwązku z tym dae z szeegu szczegółowego gupuje sę twoząc szeeg ozdzelczy. Gupowae polega a wyodębeu jedoodych lub względe jedoodych jedostek w amach zboowośc statystyczej [4]. Gupowae według waatów cechy loścowej skokowej powadz do szeegu ozdzelczego puktowego. Szeeg tak (ys. b) moża utwozyć w sposób pzedstawoy a lstgu. Lstg. Utwozee szeegu ozdzelczego puktowego SELECT moc, COUNT(*) AS GROUP BY moc ORDER BY ; a) moc... 6 6 6 63 63 63... b) moc...... 6 6 63 3 64 65 0 66...... Rys.. Szeeg szczegółowy: a) oaz szeeg ozdzelczy puktowy b) dla cechy moc Aalzując ezultat wykoaa kweedy moża stwedzć, że ozkład cechy moc jest welomodaly. Ozacza to, że do dalszego woskowaa o ozkładze e powo wykozystywać sę domaty oaz ma a ej opatych [4]. W pzypadku dużej lczby waatów cechy skokowej lub w pzypadku cechy cągłej, obsza zmeośc cechy ależy podzelć a pzedzały. Podając dla każdego pzedzału lczbę zaklasyfkowaych do ego jedostek statystyczych powstaje szeeg ozdzelczy pzedzałowy. Budując tego typu szeeg ależy zdecydować o lczbe pzedzałów oaz ch ozpętośc. Lczba pzedzałów powa być uzależoa od obszau zmeośc badaej cechy, lczebośc zboowośc oaz celu badaa. W podęczkach statystyk [], [5] zaleca sę, aby lczba pzedzałów była ewększa ż 5log(). Na potzeby ozpatywaych w ejszej pacy pzykładów pzyjęto, że k 5 log. Zając lczbę pzedzałów oaz obsza zmeośc badaej cechy moża wyzaczyć ozpętość pzedzału w astępujący sposób: h (x max x m )/k. Na lstgu 3 pzedstawoo sposób wylczea ozpętośc pzedzału dla cechy masa. Lstg 3. Wylczee ozpętośc pzedzału SELECT ( max(masa)-m(masa) ) / floo( 5*log0(Cout(*)) ) AS h ; Kolejym etapem aalzy statystyczej jest utwozee pzedzałów pzypoządkowae każdemu z ch odpowedch obsewacj. Pzypoządkowae to azywae ozkładem moża pzedstawć w óżej fome [4], podając: lczebośc, częstośc f /, wskaźk stuktuy W ( /) 00%, 37 (c) Copyght by Poltechka Śląska, Istytut Ifomatyk, Glwce 007

Rozdzał moogaf: 'Bazy Daych: Nowe Techologe', Kozelsk S., Małysak B., Kaspowsk P., Mozek D. (ed.), WKŁ 007 A. Pzybyłek 38 dowolą z powyższych ma w fome skumulowaej, p. lczebośc skumulowae j sk( ). j W celu pzypoządkowaa jedostek statystyczych do odpowedch pzedzałów, ajpoścej apsać fomułę, któa pzekształc watość cechy a początek pzedzału, do któego daa jedostka ma ależeć, p. x / h h. Koec pzedzału moża wylczyć popzez dodae do początku pzedzału jego ozpętość. Następe gupując po początkach końcach pzedzałów oaz zlczając lczbę obsewacj powstaje szeeg ozdzelczy pzedzałowy. Pzełożee powyższych ozważań a kod SQL zawea lstg 4. Lstg 4. Wdok epezetujący szeeg ozdzelczy pzedzałowy dla cechy masa CREATE VIEW masa_szeeg_ozdzelczy(poczatek, koec, ) AS SELECT floo(m.masa/pzedzal.h)*pzedzal.h AS poczatek, ( floo(m.masa/pzedzal.h)+ )*pzedzal.h AS koec, COUNT(*) AS m, ( SELECT (max(masa)-m(masa)) / floo(5*log0(count(*))) AS h ) pzedzal GROUP BY, ORDER BY ; Jak już wspomao ozkład cechy moża óweż pezetować za pomocą lczebośc skumulowaych. Szeeg tego typu (ys. ) moża uzyskać wykoując odpowede podzapytae skoelowae (lstg 5). Kumulując w aalogczy sposób częstośc zamast lczebośc moża wyzaczyć dystybuatę empyczą. Lstg 5. Wylczee lczebośc skumulowaych szeegu ozdzelczego SELECT poczatek, koec,, ( SELECT sum(sz.) FROM masa_szeeg_ozdzelczy sz WHERE sz.poczatek<sz_.poczatek ) AS Sk FROM masa_szeeg_ozdzelczy sz_ ORDER BY poczatek; początek koec sk( ) 666.5 799.5 4 4 799.5 93.75 48 5 93.75 066 70 066 99.5 49 7 99.5 33.5 43 4 33.5 465.75 36 50 465.75 599 36 86 599 73.5 8 34 73.5 865.5 4 338 865.5 998.75 8 366 998.75 3 7 383 3 65.5 6 389 65.5 398.5 39 Rys.. Rezultat wykoaa kweedy z lstgu 5 (c) Copyght by Poltechka Śląska, Istytut Ifomatyk, Glwce 007

Rozdzał moogaf: 'Bazy Daych: Nowe Techologe', Kozelsk S., Małysak B., Kaspowsk P., Mozek D. (ed.), WKŁ 007 4 Paamety ozkładu cechy w populacj Zastosowae języka SQL w statystyce opsowej Podstawowym zadaem opsu statystyczego jest wyzaczee lczbowych chaakteystyk opsujących w sposób sytetyczy ozkład daej cechy. Rozkład cechy mezalej moża ozpatywać w czteech aspektach: tedecj cetalej, dyspesj, asymet, kocetacj. Do ocey każdego z tych aspektów służą chaakteystyk lczbowe. Chaakteystyk te azywae są statystykam w pzypadku aalzy póby losowej, a paametam w pzypadku aalzy pełej populacj. Tablca zawea klasycze may położea, sposób ch lczea oaz pzykładowe mplemetacje. Należy zauważyć, że sposób mplemetacj śedej geometyczej jest kosekwecją astępujących pzekształceń: x () log x ( ) g log x x... x x x... g x log xg ( log x + log x +... + log x ) (3) () / log x 0 (4) xg Śeda geometycza zajduje zastosowae główe w aalze szeegów czasowych do okeślea pzecętego tempa zma w czase. W celu pzedstawea lczea śedej geometyczej wygeeowao (lstg 6) szeeg czasowy pezetujący pzecęte spalae model podukowaych w latach 976-980 (ys. 3). Lstg 6. Utwozee szeegu czasowego CREATE VIEW spalae_szeeg_czasowy(ok, avg_spalae, deks) AS SELECT m.oczk, AVG(m.spalae), AVG(m.spalae)/AVG(m.spalae) m, model m WHERE m.oczk BETWEEN 75 AND 80 AND m.oczk BETWEEN 75 AND 80 AND m.oczkm.oczk+ GROUP BY m.oczk; ok avg_spalae deks 76 4 0.95 77 3 0.9 78.4 0.95 79 0.96 80 8.6 0.7 Rys. 3. Pzecęte spalae model podukowaych w latach 976 980 Wylczoa a podstawe deksów łańcuchowych śeda geometycza (tabela ) wyos 0,9. Ozacza to, że pzecęte spalae model podukowaych w latach 976-980 zmejszało sę z oku a ok śedo o 0%. Wyjaśea wymaga także mplemetacja śedej hamoczej. Załóżmy, że do każdego samochodu zatakowao tyle samo ltów palwa, a astępe jeżdżoo, aż do wyczepaa palwa zmezoo pzejechay dystas. Dzeląc łączą lość zużytego palwa pzez łącze pzejechay dystas oaz możąc wyk pzez 00 (bo spalae podajemy w ltach a 00 km) otzymujemy śedą hamoczą dla cechy spalae. 39 (c) Copyght by Poltechka Śląska, Istytut Ifomatyk, Glwce 007

Rozdzał moogaf: 'Bazy Daych: Nowe Techologe', Kozelsk S., Małysak B., Kaspowsk P., Mozek D. (ed.), WKŁ 007 A. Pzybyłek Tabela. May położea - paamety klasycze maa wzó pzykładowa kweeda wyk śeda aytmetycza x x SELECT AVG(moc) ; 04 śeda geometycza śeda hamocza x x g x h SELECT powe( 0, SUM(log0(deks))/COUNT(*) ) FROM spalae_szeeg_czasowy; 0,9 / SELECT COUNT(*)/SUM(.0/spalae) x ;,5 Koleją gupę paametów staową pozycyje may położea: domata, medaa, kwatyle pecetyle. Należy zwócć uwagę, że domatę (D), czyl watość cechy występującą ajczęścej w badaej zboowośc, powo sę lczyć tylko w pzypadku ozkładów jedomodalych. Poeważ ozkład empyczy żadej z cech objętych badaem e speła tego wymogu, zostae wpowadzoa cecha sztucza, popzez zaokąglee poszczególych watośc cechy pzyspeszee do watośc całkowtych. Podoby efekt moża uzyskać twoząc szeeg ozdzelczy pzedzałowy o ozpętośc pzedzałów. Implemetację domaty dla owo utwozoej cechy pzedstawoo w dwóch wesjach (lstg 7). Wesja po lewej stoe jest postsza, ale wymaga wspaca ze stoy DBMS możlwośc zageżdżaa fukcj agegujących. Utwozoa kweeda zwaca dwa ekody <64, 5> oaz <64, 6>. Ozacza to, że w badaej zboowośc ajczęścej występują modele, któych pzyspeszee po zaokągleu wyos: 5 lub 6 sekud. Lstg 7. Implemetacja domaty SELECT COUNT(*), oud(pzyspeszee) AS D GROUP BY oud(pzyspeszee) HAVING COUNT(*) ( SELECT MAX(COUNT(*)) GROUP BY oud(pzyspeszee) ); SELECT COUNT(*), oud(pzyspeszee) AS D GROUP BY oud(pzyspeszee) HAVING COUNT(*) ( SELECT MAX(le) FROM ( SELECT COUNT(*) AS le GROUP BY oud(pzyspeszee) ) s ); Medaa to taka watość Me, że połowa zboowośc ma watośc cechy ewększe ż Me oaz połowa zboowośc ma watośc cechy emejsze ż Me. Jeżel lczba jedostek w badaej zboowośc jest pazysta medaę pzyjęło sę oblczać jako śedą z x / x (+)/ [4], [5]. Medaa dla cechy moc, wylczoa w sposób pzedstawoy a lstgu 8, wyos 93. Aalogcze moża zamplemetować kwatyle oaz pecetyle. Zgode z defcją dowola watość pomędzy x / x (+)/ jest medaą. 40 (c) Copyght by Poltechka Śląska, Istytut Ifomatyk, Glwce 007

Rozdzał moogaf: 'Bazy Daych: Nowe Techologe', Kozelsk S., Małysak B., Kaspowsk P., Mozek D. (ed.), WKŁ 007 Zastosowae języka SQL w statystyce opsowej Lstg 8. Implemetacja meday SELECT AVG(DISTINCT moc) m, (SELECT COUNT(*) ) losc WHERE losc./.0 < ( --odzucee jedostek o watoścach cechy > Me SELECT COUNT(*) m WHERE m.moc>m.moc ) AND losc./.0 < ( --odzucee jedostek o watoścach cechy < Me SELECT COUNT(*) m WHERE m.moc<m.moc ); Rozpatując dyspesję ozkładu ależy ozważyć may pzedstawoe w tabel. Implemetację poszczególych ma dla cechy moc zawea lstg 9, a ch watośc ys. 4. Tabela. May dyspesj maa wzó maa wzó ozstęp x max x m współczyk s V ( s) 00% zmeośc x waacja ( x x) s x ( x) odchylee x x odchylee pzecęte sp stadadowe s s Lstg 9. Implemetacja ma dyspesj SELECT MAX(m.moc)-MIN(m.moc) AS ozstep, SUM( powe(m.moc-s.moc, ) ) / COUNT(*) AS waacja, AVG(m.moc*m.moc)-AVG(m.moc)*AVG(m.moc) AS waacja,--dug sposób sqt( SUM( powe(m.moc-s.moc, ) ) / COUNT(*) ) AS odchylee, sqt( SUM( powe(m.moc-s.moc, ) ) / COUNT(*) * 00 / AVG(m.moc) ) AS wsp_zmeosc, SUM( abs(m.moc-s.moc) ) / COUNT(*) AS odchylee_pzecete m, ( SELECT AVG(moc) AS moc ) s; ozstep waacja waacja odchylee wsp_zmeosc odchylee_pzecete 84 46,5 46,5 38, 37,4 30, Rys. 4. Watośc ma dyspesj dla cechy moc Podstawowe may asymet oaz ch watośc dla cechy spalae zostały zebae w tabel 3. Momet tzec względy moża zamplemetować w sposób aalogczy do waacj. Natomast, aby wylczyć momet tzec cetaly ależy dodatkowo utwozyć zageżdżoe podzapytae zwacające odchylee stadadowe w tzecej potędze (lstg 0). Wylczoa watość mometu tzecego cetalego (0,68) śwadczy o dość slej asymet dodatej. 4 (c) Copyght by Poltechka Śląska, Istytut Ifomatyk, Glwce 007

Rozdzał moogaf: 'Bazy Daych: Nowe Techologe', Kozelsk S., Małysak B., Kaspowsk P., Mozek D. (ed.), WKŁ 007 A. Pzybyłek Tabela 3. May asymet 4 maa wzó wyk momet tzec względy momet tzec cetaly współczyk skośośc 3 ( x x) µ 3 µ 3 α 3 3 s 0,68 x D A( x) s 0,33 Lstg 0. Implemetacja mometu tzecego względego oaz cetalego SELECT AVG( powe(m.spalae-(select AVG(spalae) ), 3) ) AS m3, ( AVG( powe( m.spalae-(select AVG(spalae) ), 3) ) / --s 3 stat powe( (SELECT sqt( AVG(powe( m_.spalae-(select AVG(spalae) ), )) ) AS odchylee m_), 3) --s 3 ed ) AS alfa3 m; Implemetując współczyk skośośc (lstg ) pzyjęto z wadomych względów, że domata zostae wylczoa po upzedm zaokągleu watośc cechy spalae do watośc całkowtych. Lstg. Implemetacja współczyka skośośc SELECT ( paam.seda - oud(m.spalae) ) / paam.odchylee AS A m, ( SELECT AVG(spalae) AS seda, sqt(avg( powe( (SELECT AVG(tmp.spalae) tmp), ) )) AS odchylee ) paam GROUP BY HAVING COUNT(*) ( SELECT MAX(lczebosc.le) FROM ( SELECT COUNT(*) AS le m_ GROUP BY oud(m_.spalae) ) lczebosc ); Do ocey spłaszczea zwykle wykozystywae są dwa paamety klasycze: momet czwaty względy oaz momet czwaty cetaly zway kutozą (tabela 4). Implemetacja obu mometów (lstg ) jest aalogcza do mplemetacj odpowadających m (c) Copyght by Poltechka Śląska, Istytut Ifomatyk, Glwce 007

Rozdzał moogaf: 'Bazy Daych: Nowe Techologe', Kozelsk S., Małysak B., Kaspowsk P., Mozek D. (ed.), WKŁ 007 Zastosowae języka SQL w statystyce opsowej mometów tzecch. Watość paametu α 4 (3,7) wylczoa dla cechy moc śwadczy o kocetacj wększej od omalej, występującej w ozkładach wysmukłych. Tabela 4. May spłaszczea maa wzó wyk momet czwaty względy momet czwaty cetaly 4 ( x x) µ 4 793906 µ 4 α 4 3,7 4 s Lstg. Implemetacja mometu czwatego cetalego SELECT ( AVG( powe( moc-(select avg(moc) ), 4) ) / --s 4 stat dpowe( (SELECT sqt( AVG(powe( m_.moc-(select AVG(moc) ), )) ) AS odchylee m_), 4) --s 4 ed ) AS kutoza m; 5 Rozkład łączy dwóch cech Pzedstawoe w popzedm podozdzale may służyły do aalzy pojedyczej cechy. Jeżel badae jedostk opsae są pzez węcej ż jedą cechę może steć potzeba zbadaa współzależośc mędzy tym cecham. Pzed wpowadzeem ma współzależośc ależy pzypomeć podstawowe pojęca zwązae z łączym ozkładem dwóch cech. Empyczy łączy ozkład cechy X, Y okeślają lczebośc j odpowadające paom watośc (x, y j ), gdze: k - lczba waatów cechy X, {,,..., k}, - lczba waatów cechy Y, j {,,..., }. W aalzowaym pzykładze teesujący będze łączy ozkład pojemośc mocy slka. Rozkład tak moża uzyskać wykoując kweedę z lstgu 3. Lstg 3. Empyczy ozkład łączy pojemośc slka jego mocy SELECT pojemosc, moc, COUNT(*) GROUP BY, ORDER BY, ; 43 (c) Copyght by Poltechka Śląska, Istytut Ifomatyk, Glwce 007

Rozdzał moogaf: 'Bazy Daych: Nowe Techologe', Kozelsk S., Małysak B., Kaspowsk P., Mozek D. (ed.), WKŁ 007 A. Pzybyłek Otzymay ozkład w dalszej częśc posłuży do zbadaa wpływu pojemośc slka (cecha ezależa X) a jego moc (cecha zależa Y). Badae take jest uzasadoe, poeważ mędzy wymeoym cecham steje logczy zwązek pzyczyowoskutkowy. Na podstawe ozkładu łączego wyzacza sę ozkłady bzegowe oaz ozkłady waukowe. Rozkład bzegowy pezetuje stuktuę ozkładu jedej cechy bez względu a ozkład dugej cechy [5]. Wobec powyższego, ależy zauważyć (tabela 5), że: śeda ozkładu bzegowego cechy Y jest śedą aytmetyczą cechy Y ozpatywaej dywduale, waacja ozkładu bzegowego cechy Y (azywaa także waacją ogólą) jest waacją cechy Y ozpatywaej dywduale. Tabela 5. Paamety ozkładu bzegowego cechy Y maa śeda ozkładu bzegowego waacja ozkładu bzegowego wzó k y j j y k s ( y) j j j j y j k ( y y) ( y y) j j k j j j j j j j Rozkład waukowy pezetuje stuktuę ozkładu jedej cechy, pod waukem, że duga cecha pzyjęła okeśloą watość [5]. Rozkład waukowy zmeej Y pzyjęło sę ozaczać Y Xx. Sposób lczea paametów ozkładów waukowych mocy slka, pzy poszczególych pojemoścach pzedstawoo w tabel 6, atomast mplemetację a lstgu 4. Tabela 6. Paamety ozkładów waukowych Y Xx maa śede waukowe waacje waukowe wzó y y jj / j j j s ( y) ( y j y ) j / j j j Lstg 4. Implemetacja ozkładów waukowych Y X x 44 CREATE VIEW moc_ozklad_waukowy(pojemosc,, avg_moc, std_moc) AS SELECT m.pojemosc, COUNT(*) AS, AVG(m.moc) AS seda_waukowa, SUM( powe(m.moc-p.smoc, ) ) / COUNT(*) AS waacja_waukowa m, ( (c) Copyght by Poltechka Śląska, Istytut Ifomatyk, Glwce 007

Rozdzał moogaf: 'Bazy Daych: Nowe Techologe', Kozelsk S., Małysak B., Kaspowsk P., Mozek D. (ed.), WKŁ 007 Zastosowae języka SQL w statystyce opsowej SELECT pojemosc, moc, COUNT(*) AS GROUP BY, ) p, ( SELECT pojemosc, AVG(moc) AS smoc, COUNT(*) AS GROUP BY ) p WHERE m.pojemoscp.pojemosc AND m.mocp.moc AND m.pojemoscp.pojemosc GROUP BY ORDER BY ; Pobeża aalza otzymaych wyków (ys. 5) ujawa pawdłowość, że waz ze wzostem watośc cechy pojemość wzastają śede waukowe cechy moc. Śwadczy to o dodatej koelacj mędzy pojemoścą a mocą slka. Rys. 5. Rozkład waukowy Y Xx pojemosc moc_avg moc_std............ 4375 5,0 0,0 4948 35,7,9 498 6 45,0 5,0 4998 4 40,0 37,5 5030 3 53,3 088,9............ 6 Aalza koelacj Podstawą do oblczea sły zwązku koelacyjego cechy Y względem cechy X jest ówość waacyja (), zakładająca, że waacja ogóla jest sumą waacj mędzygupowej waacj wewątzgupowej. s ( y) s ( y ) s ( y) () + Waacja ogóla opsuje dyspesję cechy Y bez wkaa w pzyczyy ją wywołujące [4]. Wzoy, według któych lczoe są poszczególe waacje zawea tabela 7. Tabela 7. Waacja ogóla jej składk maa wzó wyk waacja mędzygupowa waacja wewątzgupowa k ( y y) s ( y ) 343,7 s ( y) k s ( y) 7,8 45 (c) Copyght by Poltechka Śląska, Istytut Ifomatyk, Glwce 007

Rozdzał moogaf: 'Bazy Daych: Nowe Techologe', Kozelsk S., Małysak B., Kaspowsk P., Mozek D. (ed.), WKŁ 007 A. Pzybyłek ( y j y) j waacja ogóla j 46,5 s ( y) Waacja mędzygupowa pokazuje zóżcowae cechy Y wywołae oddzaływaem cechy X [4]. Jest to waacja śedch ozkładów waukowych cechy Y. Implemetację waacj mędzygupowej pzedstawoo a lstgu 5. Lstg 5. Implemetacja waacj mędzygupowej 46 CREATE VIEW tmp(pojemosc,, s_waukowa, kw_ozcy) AS SELECT m.pojemosc, COUNT(*) AS, AVG(m.moc) AS avg_y, powe(avg(m.moc)-avg(s.moc), ) AS kw_ozcy m, (SELECT AVG(moc) AS moc ) s GROUP BY ORDER BY ; SELECT SUM(kw_ozcy*)/SUM() AS waacja_medzygupowa, sqt( SUM(kw_ozcy*)/SUM() ) AS odchylee_medzygupowe FROM tmp; Waacja wewątzgupowa okeśla zóżcowae cechy Y, wywołae wpływem ych czyków ż cecha X [4]. Jest to śeda ważoa z waacj ozkładów waukowych cechy Y. Implemetację waacj wewątzgupowej pzedstawoo a lstgu 6. Lstg 6. Implemetacja waacj wewątzgupowej SELECT SUM(std_moc*)/SUM() AS waacja_wewatzgupowa, sqt( SUM(std_moc*)/SUM() ) AS odchylee_wewatzgupowe FROM moc_ozklad_waukowy; Dzeląc obustoe ówość waacyją () pzez waację ogólą otzymujemy wyażee (), w któym pewszy składk sumy, zway współczykem detemacj, fomuje jaka część zmeośc cechy Y jest wywołaa zmaam cechy X, atomast dug składk sumy pokazuje, jaka część zmeośc cechy Y została spowodowaa ym pzyczyam [4]. s ( y ) s ( y) + () s ( y) s ( y) Uwesalym mekam koelacj są stosuk koelacyje Peasoa. Stosuek koelacyjy Peasoa e(yx), mezący słę zależośc cechy Y od cechy X, jest pewastkem z współczyka detemacj [4]. Implemetację współczyka detemacj oaz stosuku koelacyjego Peasoa zawea lstg 7. Uzyskaa w wyku wykoaa kweedy watość e(yx) 0,96 wskazuje a slą koelację mędzy pojemoścą a mocą slka. Lstg 7. Implemetacja współczyka detemacj stosuku koelacyjego Peasoa SELECT SUM(kw_ozcy*)/SUM() / AVG(paam.va) AS wsp_detemacj, sqt( SUM(kw_ozcy*)/SUM() / AVG(paam.va) ) AS "e(yx)" FROM tmp, ( SELECT AVG( powe(m.moc-(select AVG(moc) ), ) ) AS va m ) paam; (c) Copyght by Poltechka Śląska, Istytut Ifomatyk, Glwce 007

Rozdzał moogaf: 'Bazy Daych: Nowe Techologe', Kozelsk S., Małysak B., Kaspowsk P., Mozek D. (ed.), WKŁ 007 Zastosowae języka SQL w statystyce opsowej Stosuk koelacyje pzyjmują watośc z pzedzału [0,] śwadczą o sle zwązku, ale e fomują o jego keuku. Do okeślea keuku zwązku służy kowaacja cech X Y (tabela 7) [3]. Watość kowaacj wększa od zea śwadczy o koelacj dodatej. W pzypadku podejzea występowaa koelacj lowej mędzy cecham, zamast stosowaa stosuku koelacyjego Peasoa, ależy posługwać sę współczykem koelacj lowej Peasoa (tabela 8). Współczyk te pzyjmuje watośc z pzedzału [,]. Zak współczyka mów o keuku koelacj, atomast watość bezwzględa o jego sle. W celu spawdzea, czy zwązek mędzy cecham jest zeczywśce lowy ależy oblczyć wskaźk kzywolowośc m(yx) (tabela 8). Pzy watośc m(yx) 0, zwązek pzyjęło sę taktować jako lowy oceać za pomocą (yx), w pzecwym pzypadku ależy używać e(yx). Implemetację kowaacj oaz współczyka koelacj lowej Peasoa zawea lstg 8. Tabela 8. May koelacj mędzy cecham maa wzó wyk kowaacja cech X Y współczyk koelacj lowej Peasoa ( x x) ( y y) cov(x, y) 5886,6 cov(x, y) ( yx) ( xy) 0,90 s(x) s(y) wskaźk kzywolowośc m(yx) e (yx) - (yx) 0, Lstg 8. Implemetacja kowaacj oaz współczyka koelacj lowej Peasoa SELECT AVG( (m.pojemosc-paam.pojemosc)*(m.moc-paam.moc) ) AS cov, AVG( (m.pojemosc-paam.pojemosc)*(m.moc-paam.moc) ) / AVG(paam.stdMoc) / AVG(paam.stdPojemosc) AS m, ( SELECT AVG(s.moc) AS moc, AVG(s.pojemosc) AS pojemosc, sqt( AVG(powe(m_.moc-s.moc, )) ) AS stdmoc, sqt( AVG(powe(m_.pojemosc-s.pojemosc, )) ) AS stdpojemosc m_, ( SELECT AVG(moc) AS moc, AVG(pojemosc) AS pojemosc ) s ) paam; 7 Fukcja egesj W pzypadku badaa zależośc cech X Y, wyk badaa statystyczego moża zapsać jako pukty (x,y ), (x,y ),..., (x,y ). Często steje potzeba wyzaczea fukcj okeśloego typu (p. lowa, kwadatowa, potęgowa, wykładcza) ajlepej dopasowaej do tych puktów. Fukcja ta będąca apoksymacją faktyczej zależośc mędzy zmeym azywaa jest fukcją egesj. Poeważ w pzypadku pojemośc slka 47 (c) Copyght by Poltechka Śląska, Istytut Ifomatyk, Glwce 007

Rozdzał moogaf: 'Bazy Daych: Nowe Techologe', Kozelsk S., Małysak B., Kaspowsk P., Mozek D. (ed.), WKŁ 007 A. Pzybyłek jego mocy stwedzoo koelację lową, za postać fukcj egesj pzyjęto weloma pewszego stopa: ŷ ax + b, gdze a b to współczyk, któe ależy wyzaczyć. Powszeche wykozystywaym w paktyce sposobem wyzaczaa tych współczyków jest metoda ajmejszych kwadatów (MNK). MNK za ajlepsze watośc współczyków pzyjmuje take, dla któych suma kwadatów eszt jest ajmejsza [3]. Aby oblczyć sumę kwadatów eszt, ależy ajpew wyjaść, czym jest eszta. Reszta dla -tej obsewacj defowaa jest jako óżca pomędzy watoścą zeczywstą (zaobsewowaą) a watoścą teoetyczą (wylczoą a podstawe fukcj apoksymującej): e y - ŷ. Suma kwadatów eszt może być zatem taktowaa jako fukcja błędu zależa od współczyków a b. 48 s(a, b) e y y (3) ( ( )) y ax + b Zadae apoksymacj MNK spowadza sę do wyzaczea takch watośc współczyków a b, dla któych fukcja s pzyjmuje mmum. Lcząc pochode cząstkowe fukcj s, a astępe pzyówując je do zea otzymujemy: a x y x x x y b y a Zależośc (4) po odpowedch pzekształceach moża upoścć do: cov( x, y) a b y ax s (5) ( x) Podstawając otzymae watośc a b do fukcj egesj otzymujemy: cov( x, y) y ˆ ax + b ax + y ax a( x x) + y ( x x) + y (6) s ( x) Watość współczyka a mów o le pzecęte zme sę watość zmeej zależej, jeśl watość zmeej ezależej wzośe o jedostkę. Kweedę SQL wylczającą według fomuły (6) watośc teoetycze mocy w zależośc od pojemośc slka pzedstawoo a lstgu 9, atomast ezultat jej wykoaa ys. 6. Różce mędzy watoścam teoetyczym, a zeczywstym mocy slka mogą meć dwa źódła: a moc slka mają wpływ także e czyk euwzględoe w modelu, zależość mędzy pojemoścą a mocą slka e jest lowa. Lstg 9. Wylczee mocy teoetyczej slka a podstawe pojemośc SELECT m.pojemosc, m.moc AS moc_zeczywsta, ( ( SELECT SUM( (m_.pojemosc-m_avg.pojemosc)*(m_.moc-m_avg.moc) ) / SUM( (m_.pojemosc-m_avg.pojemosc)* (m_.pojemosc-m_avg.pojemosc) ) AS a m_ x (4) (c) Copyght by Poltechka Śląska, Istytut Ifomatyk, Glwce 007

Rozdzał moogaf: 'Bazy Daych: Nowe Techologe', Kozelsk S., Małysak B., Kaspowsk P., Mozek D. (ed.), WKŁ 007 Zastosowae języka SQL w statystyce opsowej ) * (m.pojemosc-m_avg.pojemosc) + m_avg.moc ) AS moc_teoetycza m, (Select avg(moc) AS moc, avg(pojemosc) AS pojemosc Fom model) m_avg ORDER BY, ; pojemosc moc_zeczywsta moc_teoetycza......... 94 9 86,5 30 7 86,8 30 80 86,8 359 96 87,8 376 76 88, 39 67 88,4 39 97 88,4......... Rys. 6. Moc zeczywsta teoetycza a tle pojemośc slka 8 Podsumowae W ejszym ozdzale pzedstawoo sposób mplemetacj w języku SQL oblczeń a potzeby statystyk opsowej. Koleje kok aalzy statystyczej, poczyając od stwozea szeegu ozdzelczego, popzez wylczee paametów ozkładu, aż po aalzę koelacj egesj wspato odpowedm kweedam SQL. Wszystke kweedy zostały zapsae za pomocą tzw. czystego SQL, czyl w paadygmace deklaatywym, bez odwoływaa sę do elemetów pocedualych. W szczególośc podzbó SQL-003, któy został wykozystay a potzeby opacowaa, mplemetuje emal każda elacyja baza daych. Gwaatuje to bez wększych modyfkacj pzeoszalość kweed, pommo ż zostały apsae pod bazę Febd. Zajomość stadadu SQL umożlwa zatem bezpośedą pacę a dowolej elacyjej baze daych oaz uezależee sę od wysokopozomowych azędz aaltyczo-apotujących. Poadto umejętość psaa złożoych kweed umożlwa pzepowadzee wszystkch oblczeń po stoe sewea. Do stacj oboczej tafają wówczas jedye wyk pzetwazaa ealzowaego po stoe systemu zaządzaa bazą daych. Achtektua cekego kleta zacze ogacza lość daych pzesyłaych w sec. W pzypadku ogomej lośc daych pzechowywaych a zdalym seweze pzyos to wymee kozyśc. Lteatua. ISO/IEC 9075-*:003, Database Laguages SQL. Jóźwak J., Podgósk J.: Statystyka od podstaw. Polske Wydawctwo Ekoomcze, Waszawa 998 3. Mac Bethouex P., Bow L.C.: Statstcs fo Evometal Egees. CRC Pess, Floda 00 4. Makać W., Ubaek-Kzysztofak D.: Metody opsu statystyczego. Wydawctwo UG, Gdańsk 997. 5. Sobczyk M.: Statystyka. Wydawctwo Naukowe PWN, Waszawa 998. 49 (c) Copyght by Poltechka Śląska, Istytut Ifomatyk, Glwce 007

Rozdzał moogaf: 'Bazy Daych: Nowe Techologe', Kozelsk S., Małysak B., Kaspowsk P., Mozek D. (ed.), WKŁ 007 (c) Copyght by Poltechka Śląska, Istytut Ifomatyk, Glwce 007