Oracle Statistical Functions 11g: statystyka dla dużych i małych
|
|
- Emilia Kuczyńska
- 9 lat temu
- Przeglądów:
Transkrypt
1 XVI Konferencja PLOUG Kościelisko Październik 2010 Oracle Statistical Functions 11g: statystyka dla dużych i małych Mikołaj Morzy Instytut Informatyki Politechniki Poznańskiej Mikolaj.Morzy@put.poznan.pl Abstrakt. Baza danych Oracle 11g posiada wbudowany bardzo szeroki wachlarz narzędzi statystycznych. W połączeniu z narzędziami Oracle OLAP i Oracle Data Mining zbiór narzędzi statystycznych, w które wyposażona jest baza danych Oracle 11g tworzy potężne środowisko analityczne. W zależności od potrzeb użytkownicy mogą wykorzystywać tylko najprostsze funkcje, np. statystykę opisową lub testowanie hipotez, funkcje analityczne lub funkcje regresji liniowej, ale mogą także sięgnąć po mocniejsze narzędzia: testowa-nie dopasowania rozkładów, analizę wariancji (ANOVA), parametryczne i bezparemetryczne modele kore-lacji czy testy c2. W niniejszym artykule przedstawiono przegląd narzędzi statystycznych oferowanych przez bazę danych Oracle 11g, ilustrując poszczególne narzędzia przykładami zastosowań.. Informacja o autorze. Dr hab. inż. Mikołaj Morzy jest adiunktem w Instytucie Informatyki Politechniki Poznańskiej. Jego zainteresowania naukowe koncentrują się przede wszystkim na tematyce eksploracji danych - jest on autorem ponad czterdziestu publikacji dotyczących tej tematyki. Drugą dziedziną zainteresowań i głównym tematem działalności dydaktycznej Mikołaja Morzego są technologie aplikacji internetowych i rozproszonych oraz technologie związane z bazami danych i hurtowniami danych.
2
3 Oracle Statistical Functions 11g: statystyka dla dużych i małych Analiza statystyczna w bazie danych Historycznie, silniki zarządzania bazami danych były przeznaczone do wykonywania nieskomplikowanych obliczeń na danych relacyjnych. Język SQL został zaprojektowany w oparciu o algebrę relacji i operatory relacyjne działające na zbiorach krotek. Początkowo, jedyna możliwość dokonywania jakichkolwiek obliczeń statystycznych ograniczała się do niewielkiego zbioru podstawowych funkcji grupowych, takich jak wyznaczanie najmniejszej i największej wartości w zbiorze, wyznaczanie wartości średniej, wariancji i odchylenia standardowego, czy wreszcie wyznaczanie liczności zbioru. Oprócz pracy na całym zbiorze krotek zwróconym przez zapytanie, język SQL oferował także klauzulę GROUP BY umożliwiającą dokonanie partycjonowania zbioru krotek na rozłączne podgrupy i wyznaczenie wybranych statystyk niezależnie w każdej grupie. Z biegiem lat okazało się, że tak proste możliwości analityczne są dalece niewystarczające i że konieczne jest rozszerzenie funkcjonalności baz danych o nowe, silniejsze narzędzia analityczne. Dostawcy systemów baz danych szybko dostrzegli możliwość zbudowania przewagi konkurencyjnej poprzez dostarczenie wraz z bazą danych narzędzi analitycznych. Tradycyjne podejście, bazujące na eksportowaniu surowych danych z bazy danych i wykonywaniu analiz statystycznych za pomocą narzędzi zewnętrznych, takich jak arkusze kalkulacyjne lub pakiety statystyczne, niosło ze sobą wiele niedogodności. Po pierwsze, wymagało fizycznego przenoszenia danych pomiędzy różnymi systemami. Po drugie, moment przeniesienia danych do systemu zewnętrznego zawsze obarczony był dużym ryzykiem. Niezależnie od jakości procedur bezpieczeństwa implementowanych na poziomie bazy danych, dane wyciekały poza organizację w wyniku ich rozproszenia pomiędzy różnymi narzędziami. Wreszcie, gwałtowny rozwój systemów informatycznych i gigantyczny wzrost wolumenów przetwarzanych danych postawił przed użytkownikami problem efektywności przetwarzania analitycznego za pomocą narzędzi uruchamianych na komputerach klasy desktop. Przeniesienie przetwarzania analitycznego bezpośrednio do silnika bazy danych niesie ze sobą wiele zalet. System informatyczny wykorzystujący bazę danych jako środowisko przeprowadzania analiz statystycznych jest bezpieczniejszy i solidniejszy, aplikacje krytyczne dla działania przedsiębiorstwa lub organizacji działają pewniej i cechują się zwiększoną dostępnością, przetwarzanie statystyczne wykorzystuje zasoby obliczeniowe przydzielone do serwera bazy danych (najczęściej te zasoby są wielokrotnie większe niż zasoby dostępne dla komputerów klasy desktop). Nie należy także bagatelizować zysków wynikających z uproszczonej integracji przetwarzania statystycznego z aplikacjami klienckimi: taka integracja jest dużo prostsza na poziomie serwera bazy danych niż samej aplikacji. Przetwarzanie statystyczne i analityczne realizowane na poziomie bazy danych może być bezpośrednio wplecione w złożone zapytania dostarczające dane do aplikacji desktopowych. W ten sposób aplikacje mogą być wzbogacone o wartość dodaną wynikającą ze zwiększenia jakości i użyteczności danych prezentowanych użytkownikowi końcowemu. Nawet najtrudniejsze i najbardziej zasobochłonne zapytania statystyczne mogą być efektywnie przetworzone, np. poprzez wykorzystanie możliwości zrównoleglenia przetwarzania realizowanego na poziomie serwera bazy danych. Realizowanie przetwarzania statystycznego na poziomie bazy danych umożliwia także rozproszenie kosztownych obliczeń pomiędzy węzły systemu gridowego, jeśli baza danych pracuje w takiej architekturze. Obliczenia mogą być realizowane praktycznie w trybie czasu rzeczywistego, dostarczając wymaganą informację (oraz wiedzę) do użytkowników końcowych i umożliwiając im podejmowanie świadomych decyzji biznesowych. Wreszcie, architektura serwera bazy danych pozwala także na planowanie i szeregowanie zadań w postaci pakietów obliczeń wsadowych, co umożliwia przeniesienie najkosztowniejszych obliczeń do najbardziej odpowiednich okien czasowych i pełniejsze wykorzystanie zasobów.
4 284 Mikołaj Morzy 2. Funkcje grupowe i analityczne Jak już wcześniej wspomniano, poszczególni dostawcy systemów baz danych szybko rozpoczęli rozszerzanie możliwości analitycznych oferowanych przez siebie produktów poprzez dodawanie nowych, niestandardowych funkcji grupowych. Przykładowo, w bazie danych Oracle 11g wartość średnią w zbiorze można wyznaczyć na trzy sposoby, w zależności od rozumienia pojęcia wartość średnia (użytego w sensie kolokwialnym): SQL> SELECT AVG(sal), MEDIAN(sal), STATS_MODE(sal) FROM emp; AVG(SAL) MEDIAN(SAL) STATS_MODE(SAL) W powyższym przykładzie funkcja AVG(sal) wyznacza średnią arytmetyczną zbioru liczb reprezentujących pensje pracowników, funkcja MEDIAN(sal) wyznacza medianę zbioru, natomiast funkcja STATS_MODE(sal) wyznacza wartość modalną w zbiorze. Dla przypomnienia, medianą zbioru (wartością środkową, drugim kwantylem) nazywamy tę wartość cechy w szeregu uporządkowanym, powyżej i poniżej której znajduje się dokładnie tyle samo wartości. Jeśli w zbiorze mamy nieparzystą liczbę wartości n, to medianą zbioru będzie wartość elementu o numerze, jeśli zaś zbiór zawiera parzystą liczbę elementów, to medianą zbioru jest średnia arytmetyczna między elementami o numerach oraz (oczywiście mowa tu o numerach elementów zbioru w szeregu uporządkowanym). Wartość modalna (wartość najczęstsza, moda, dominanta) w zbiorze to wartość najczęściej występująca, zatem o ile wartość średnia i wartość środkowa nie muszą zawierać się w zbiorze, o tyle wartość modalna zawsze jest zawarta w zbiorze. W trakcie analizy zbiorów liczb statystycy bardzo często posługują się pojęciami wariancji i odchylenia standardowego. Wariancja zbioru liczb jest miarą zróżnicowania tego zbioru, tzn. miarą odchylenia wartości w zbiorze od wartości średniej. Formalnie, wariancja jest zdefiniowana jako Var [ X ] = E[( X μ)] gdzie oznacza wartość oczekiwaną zmiennej. Wariancję najczęściej estymuje się na podstawie reprezentatywnej próby, w takim wypadku wariancję populacji można oszacować za pomocą następującego estymatora Podstawową wadą wariancji jest fakt, że wariancja jest wyrażona w innych jednostkach niż zmienna, której wariancja podlega badaniu. Przykładowo, jeśli zmienna reprezentuje pensje pracowników, to wariancja jest mierzona w PLN podniesionych do kwadratu. Z tego względu w praktycznych zastosowaniach wygodniej jest posługiwać się pojęciem odchylenia standardowego. Odchylenie standardowe informuje, jak szeroko wartości zmiennej są rozproszone wokół wartości średniej tej zmiennej. Pod pojęciem odchylenia standardowego kryją się w rzeczywistości trzy różne pojęcia: odchylenie standardowe w populacji: jeśli zbiór zawiera wszystkie wartości z badanej populacji (np. jeśli dysponujemy wszystkimi pensjami pracowników), to odchylenie standardowe zmiennej będzie identyczne z odchyleniem standardowym mierzonej cechy w populacji, ponieważ zmienna będzie miała identyczny rozkład co cecha w populacji
5 Oracle Statistical Functions 11g: statystyka dla dużych i małych 285 odchylenie standardowe w próbce: jeśli zbiór zawiera jedynie próbkę wartości cechy z populacji, to odchylenie standardowe zmiennej stanowi jedynie oszacowanie (estymator) odchylenia standardowego cechy w populacji odchylenie standardowe zmiennej losowej: stanowi informację o cesze wyliczoną na podstawie rozkładu wartości badanej cechy, w rzeczywistości rozkład ten jest rzadko znany, stąd wartość odchylenia standardowego zmiennej losowej jest w praktyce mało przydatna. Baza danych Oracle 11g zawiera funkcje do wyznaczenia każdego z rodzajów odchylenia standardowego. Przykładowo, wyznaczenie powyższych odchyleń standardowych dla pensji pracowniczych może być wyrażone w języku SQL w następujący sposób: SQL> SELECT STDDEV(sal), STDDEV_SAMP(sal), STDDEV_POP(sal) FROM emp; STDDEV(SAL) STDDEV_SAMP(SAL) STDDEV_POP(SAL) Funkcje STDDEV(sal) i STDDEV_SAMP(sal) wyliczają odchylenie standardowe zmiennej losowej oraz odchylenie standardowe w próbce, odpowiednio. Jedyna różnica między tymi funkcjami polega na tym, że funkcja STDDEV(sal) zwraca wartość 0 dla zbioru składającego się z jednego elementu, podczas gdy funkcja STDDEV_SAMP(sal) zwróciłaby w takim przypadku wartość NULL. Funkcja STDDEV_POP(sal) zwraca wartość odchylenia standardowego w populacji, korzystając z estymatora nieobciążonego: s = n i= i ( x x) i n 1 Dla wyznaczania wartości wariancji baza danych Oracle 11g oferuje analogiczne trzy funkcje: VARIANCE(), VAR_SAMP() oraz VAR_POP(). Jednym z najciekawszych rozwiązań w domenie przetwarzania analitycznego i statystycznego było wprowadzenie przez Oracle funkcji analitycznych. Jest to rozszerzenie standardu funkcji grupowych o możliwości wyznaczania agregatów na różnych poziomach agregacji, raportowania, oraz wyznaczania agregatów za pomocą okienek o zmiennym rozmiarze (tzw. funkcje okienkowe). Funkcje analityczne zrewolucjonizowały rynek i szybko zdobyły sobie ogromną popularność, przede wszystkim ze względu na prostotę i bardzo dużą moc wyrażania. Poniżej przedstawiono przykład funkcji analitycznej wyznaczającej procentowy udział poszczególnych wartości w sumie oraz przykład zapytania wykorzystującego funkcje grupowe wyliczające agregaty na różnych poziomach agregacji. SQL> SELECT job, SUM(sal), RATIO_TO_REPORT(SUM(sal)) OVER () FROM emp GROUP BY job; 2 JOB SUM(SAL) RATIO_TO_REPORT(SUM(SAL))OVER() ANALYST CLERK MANAGER PRESIDENT SALESMAN
6 286 Mikołaj Morzy SQL> SELECT ename, sal, job, deptno, SUM(sal) OVER () AS S1, SUM(sal) OVER (PARTITION BY job) AS S2, SUM(sal) OVER (PARTITION BY deptno) AS S3 FROM emp GROUP BY ename, sal, job, deptno; ENAME SAL JOB DEPTNO S1 S2 S CLARK 2450 MANAGER KING 5000 PRESIDENT MILLER 1300 CLERK JONES 2975 MANAGER SCOTT 3000 ANALYST SMITH 800 CLERK FORD 3000 ANALYST ADAMS 1100 CLERK MARTIN 1250 SALESMAN BLAKE 2850 MANAGER ALLEN 1600 SALESMAN WARD 1250 SALESMAN TURNER 1500 SALESMAN JAMES 950 CLERK Równie interesująca jest możliwość wyznaczania wartości statystycznych za pomocą funkcji okienkowych. Funkcje te umożliwiają dynamiczne wyznaczanie partycji danych, dla których wyliczane są statystyki, w zależności od bezwzględnej liczby krotek, różnicy w wartościach atrybutów, lub w zmiennych przedziałach czasu. Przykładowo, w wielu analizach statystycznych wygodnie jest posługiwać się pojęciem wygładzonej średniej, która zmienia się wolniej niż sama zmienna lub trend. Wyznaczenie takiej statystyki przy wykorzystaniu okienkowych funkcji analitycznych staje się bardzo proste. Poniżej przedstawiono przykład zapytania wyznaczającego wygładzoną pensję pracowników, gdzie wygładzanie odbywa się w przedziałach o szerokości jednego roku. SQL> SELECT ename, sal, hiredate, AVG(sal) OVER (ORDER BY hiredate RANGE BETWEEN INTERVAL '1' YEAR PRECEDING AND CURRENT ROW) AS smooth_sal FROM emp; ENAME SAL HIREDATE SMOOTH_SAL SMITH DEC ALLEN FEB WARD FEB JONES APR BLAKE MAY CLARK JUN TURNER SEP MARTIN SEP KING NOV JAMES DEC FORD DEC MILLER JAN SCOTT APR ADAMS MAY
7 Oracle Statistical Functions 11g: statystyka dla dużych i małych Pakiet DBMS_STAT_FUNCS Pakiet DBMS_STAT_FUNCS zawiera kilka przydatnych procedur, umożliwiających testowanie zgodności rozkładu badanej cechy z jednym z popularnych rozkładów zmiennych losowych. Pakiet umożliwia sprawdzenie, czy badana cecha ma rozkład zgodny z rozkładem normalnym, rozkładem Poissona, rozkładem wykładniczym, rozkładem jednostajnym oraz rozkładem Weibulla. Oprócz procedur do testowania zgodności rozkładów pakiet zawiera przydatną procedurę SUMMA- RY(), która zbiera i prezentuje ogólną charakterystykę wybranego atrybutu. Poniżej przedstawiono przykład zastosowania tej procedury. DECLARE l_sigma_value NUMBER; l_summary DBMS_STAT_FUNCS.summaryType; BEGIN l_sigma_value := 2; DBMS_STAT_FUNCS.SUMMARY('SCOTT','EMP','SAL', l_sigma_value, l_summary); DBMS_OUTPUT.PUT_LINE('Count: ' l_summary.count); DBMS_OUTPUT.PUT_LINE('Min: ' l_summary.min); DBMS_OUTPUT.PUT_LINE('Max: ' l_summary.max); DBMS_OUTPUT.PUT_LINE('Range: ' l_summary.range); DBMS_OUTPUT.PUT_LINE('Mean: ' round(l_summary.mean)); DBMS_OUTPUT.PUT_LINE('Mode Count: ' l_summary.cmode.count); DBMS_OUTPUT.PUT_LINE('Mode: ' l_summary.cmode(1)); DBMS_OUTPUT.PUT_LINE('Variance: ' round(l_summary.variance)); DBMS_OUTPUT.PUT_LINE('Stddev: ' round(l_summary.stddev)); DBMS_OUTPUT.PUT_LINE('Quantile 5 ' l_summary.quantile_5); DBMS_OUTPUT.PUT_LINE('Quantile 25 ' l_summary.quantile_25); DBMS_OUTPUT.PUT_LINE('Median ' l_summary.median); DBMS_OUTPUT.PUT_LINE('Quantile 75 ' l_summary.quantile_75); DBMS_OUTPUT.PUT_LINE('Quantile 95 ' l_summary.quantile_95); DBMS_OUTPUT.PUT_LINE('Extreme Count: ' l_summary.extreme_values.count); DBMS_OUTPUT.PUT_LINE('Extremes: ' l_summary.extreme_values(1)); DBMS_OUTPUT.PUT_LINE('Top 3: ' l_summary.top_5_values(1) ', ' l_summary.top_5_values(2) ',' l_summary.top_5_values(3)); DBMS_OUTPUT.PUT_LINE('Bottom 3: ' l_summary.bottom_5_values(5) ', ' l_summary.bottom_5_values(4) ',' l_summary.bottom_5_values(3)); END; / Count: 14 Min: 800 Max: 5000 Range: 4200 Mean: 2073 Mode Count: 2 Mode: 1250 Variance: Stddev: 1183 Quantile Quantile Median 1550 Quantile Quantile Extreme Count: 1 Extremes: 5000
8 288 Mikołaj Morzy Top 3: 5000,3000,3000 Bottom 3: 800,950,1100 akiet DBMS_STAT_FUNCS służy jednak przede wszystkim do testowania zgodności rozkładu badanej cechy z jednym z dobrze znanych rozkładów. Aby prawidłowo dokonać dopasowania, konieczna jest znajomość podstawowych parametrów rozkładów, do których następuje dopasowanie. Przykładowo, dopasowując rozkład cechy do rozkładu normalnego konieczne jest podanie wartości średniej i odchylenia standardowego dopasowywanego rozkładu, a dopasowując rozkład cechy do rozkładu Poissona konieczne jest podanie wartości parametru λ. Poniżej przedstawiono procedurę dopasowania rozkładu płacy pracowników do rozkładu normalnego i rozkładu Poissona. DECLARE l_fit NUMBER := 0; l_mean NUMBER := 2073; l_stddev NUMBER := 1182; l_lambda NUMBER := 1; BEGIN DBMS_STAT_FUNCS.NORMAL_DIST_FIT('SCOTT','EMP','SAL','SHAPIRO_WILKS', l_mean,l_stddev,l_fit); DBMS_OUTPUT.PUT_LINE('Fit: ' l_fit); DBMS_STAT_FUNCS.POISSON_DIST_FIT('SCOTT','EMP','SAL','KOLMOGOROV_SMIRNOV', l_lambda,l_fit); DBMS_OUTPUT.PUT_LINE('Fit: ' l_fit); END; / W value : Fit: D value : Fit: Jak widać, w obu przypadkach dopasowanie jest poniżej domyślnego poziomu istotności (p=0.05), zatem możemy założyć, że badana cecha nie jest scharakteryzowana ani rozkładem normalnym, ani rozkładem Poissona. W przypadku każdego z testów (oraz testów wykonywanych przez procedury EXPONENTIAL_DIST_FIT(), UNIFORM_DIST_FIT() i WEIBULL_ DIST_FIT()) zakładana jest hipoteza zerowa o zgodności rozkładu badanej cechy z danym rozkładem. Niska wartość zwrócona przez każdą z procedur umożliwia odrzucenie hipotezy zerowej. Procedury dopasowywania rozkładu cechy do zadanego rozkładu wykorzystują jeden z wielu dostępnych w literaturze testów. Przykładowo, testowanie zgodności z rozkładem normalnym może być wykonane za pomocą standardowego testu Shapiro-Wilksa, ale można się też posłużyć testem χ 2, testem Kołmogorowa-Smirnowa, lub testem Andersona-Darlinga. 3. Testowanie hipotez Jedną z najczęściej wykorzystywanych technik statystycznych jest przeprowadzanie testów parametrycznych dla wartości średnich i wariancji. Baza danych Oracle 11g umożliwia wykonywanie takich testów w kilku trybach. Dostępne są m.in. test t-studenta zgodności ze średnią dla zmiennej opisanej rozkładem normalnym, test t-studenta na statystyczną istotność różnic średnich z niezależnych próbek, a także sparowany test t-studenta. Dla zbadania statystycznej istotności różnicy w wariancjach można posłużyć się testem f-fishera. Informację o statystycznej istotności w różnicach średnich można także uzyskać stosując analizę wariancji, zaimplementowaną w Oracle 11g jako ANOVA (do wykonania tego obliczenia należy posłużyć się funkcją STATS_ ONE_WAY_ANOVA()). Baza danych umożliwia także testowanie, czy dwie próbki pochodzą z tej
9 Oracle Statistical Functions 11g: statystyka dla dużych i małych 289 samej populacji, ew. czy dwie próbki są scharakteryzowane tym samym rozkładem. Należy przy tym zaznaczyć, że nie chodzi tu o sprawdzenie dopasowania do konkretnego rozkładu (jak w przypadku pakietu DBMS_STAT_FUNCS), a raczej sprawdzenie, czy dwie próbki mają ten sam dowolny rozkład. Oracle 11g oferuje test Manna-Whitneya zgodności rozkładów oraz test Kołmogorowa-Smirnowa zgodności rozkładów. Wreszcie, można uruchomić także test Wilcoxona do sprawdzenia, czy mediana różnic między próbkami jest istotnie różna od zera (ten test jest popularną alternatywą dla sparowanego testu t-studenta w sytuacji, gdy nie można zakładać, że badane próbki są opisane rozkładem normalnym). Poniżej zaprezentowano przykłady wykorzystania wybranych funkcji statystycznych. Pierwszy przykład pokazuje testowanie hipotezy dotyczącej średniej płacy pracowników (badamy, czy średnia pensja pracowników jest statystycznie istotnie różna od 2000). SQL> SELECT AVG(sal), STATS_T_TEST_ONE(sal, 2000, 'STATISTIC') t_statistic, STATS_T_TEST_ONE(sal, 2000,'TWO_SIDED_SIG') t_sig FROM emp; AVG(SAL) T_STATISTIC T_SIG Jak widać, niska wartość statystyki i duża istotność pozwalają na przyjęcie hipotezy, że średnia płaca pracowników nie jest istotnie różna od Kolejne zapytanie przedstawia weryfikację hipotezy o tym, czy średnia płaca pracowników jest istotnie różna od średniej płacy przełożonych. W tym celu należy się posłużyć sparowanym testem t-studenta. SQL> SELECT AVG(sal), AVG(mgr_sal), STATS_T_TEST_PAIRED(sal, mgr_sal, 'STATISTIC') t_statistic, STATS_T_TEST_PAIRED(sal, mgr_sal, 'TWO_SIDED_SIG') t_sig FROM ( SELECT e.sal, m.sal AS mgr_sal FROM emp e JOIN emp m ON (e.mgr = m.empno) ); AVG(SAL) AVG(MGR_SAL) T_STATISTIC T_SIG W tym przypadku bardzo niska wartość istotności (poniżej domyślnego poziomu istotności) pozwala jednoznacznie odrzucić hipotezę zerową o braku różnic między płacami pracowników i ich przełożonych. Następny przykład pokazuje użycie testu t-studenta w przypadku, gdy dysponujemy dwoma niezależnymi próbkami. Funkcja STATS_T_STAT_INDEP() pozwoli nam sprawdzić, czy istnieje istotna różnica między średnimi płacami dla dwóch wybranych etatów. SQL> SELECT (SELECT AVG(sal) FROM emp WHERE job='salesman') AS salesman_avg, (SELECT AVG(sal) FROM emp WHERE job='clerk') AS clerk_avg, t_statistic, t_sig FROM ( SELECT STATS_T_TEST_INDEP(job, sal, 'STATISTIC', 'SALESMAN') t_statistic, STATS_T_TEST_INDEP(job, sal, 'TWO_SIDED_SIG') t_sig FROM emp WHERE job IN ('SALESMAN','CLERK')); SALESMAN_AVG CLERK_AVG T_STATISTIC T_SIG
10 290 Mikołaj Morzy Wynik testu jest niejednoznaczny. Co prawda obserwowana istotność leży poniżej domyślnej wartości progowej (p = 0.05), ale jest na tyle blisko progu, że należy wykazać ostrożność przy decydowaniu o odrzuceniu hipotezy zerowej. Najprawdopodobniej należałoby wykonać dodatkowe testy, np. sprawdzić, czy badana cecha ma rozkład normalny (w przeciwnym wypadku należałoby się posłużyć innym testem na statystyczną istotność różnicy średnich). 4. Badanie korelacji Przykłady narzędzi przedstawionych w poprzednim rozdziale umożliwiały analizę pojedynczej cechy. W wielu aplikacjach interesujące jest zbadanie współzależności między dwoma lub więcej cechami. W takich przypadkach najczęściej wykorzystywaną techniką statystyczną jest badanie korelacji między zmiennymi. Baza danych Oracle 11g oferuje trzy różne metody badania korelacji między zmiennymi dostępne z poziomu funkcji języka SQL. Najpopularniejszym narzędziem jeśli chodzi o badanie korelacji jest bez wątpienia klasyczny współczynnik korelacji Pearsona, zdefiniowany jako Jest to iloraz kowariancji zmiennych i iloczynu odchyleń standardowych tych zmiennych. Współczynnik korelacji Pearsona przyjmuje wartości z przedziału, przy czym wartość -1 reprezentuje pełną ujemną zależność liniową między zmiennymi, wartość 0 oznacza brak zależności liniowej, zaś wartość 1 oznacza pełną dodatnią zależność liniową. Należy przy tym podkreślić, że wartość 0 nie pozwala stwierdzić, że między zmiennymi nie występuje żadna zależność. Oznacza ona jedynie brak występowania zależności liniowej. Do wyliczenia współczynnika korelacji służy w bazie danych Oracle 11g funkcja CORR() przedstawiona na poniższym przykładzie. SQL> SELECT CORR(sal, EXTRACT(YEAR FROM hiredate)) AS pearson_corr FROM emp; PEARSON_CORR Jak widać, między płacą pracownika a datą jego zatrudnienia nie występuje absolutnie żadna zależność liniowa. Poza współczynnikiem korelacji Pearsona baza danych Oracle 11g oferuje także dwie dodatkowe metody wyznaczania współzależności między zmiennymi. Korelacja rangowa jest realizowana za pomocą funkcji CORR_S(), która wylicza współczynnik korelacji ρ Spearmana. W przeciwieństwie do współczynnika korelacji Pearsona, współczynnik korelacji ρ Spearmana nie bierze pod uwagę wartości badanych zmiennych, a jedynie ich numer porządkowy w rankingu. W rezultacie, współczynnik korelacji ρ Spearmana informuje o istnieniu jakiejkolwiek zależności monotonicznej między zmiennymi (a nie jedynie zależności liniowej). Poniższy przykład pokazuje użycie korelacji rangowej. SQL> SELECT CORR_S(sal,DECODE(job,'PRESIDENT',5,'MANAGER',4,'ANALYST',3, 'SALESMAN',2, 'CLERK',1)) AS spearman_corr FROM emp; SPEARMAN_CORR Bardzo podobny do współczynnika korelacji ρ Spearmana jest współczynnik korelacji τ Kendalla. Jest to miara badająca zgodność par wartości analizowanych zmiennych, przy czym para obserwacji jest uważana za zgodną, jeśli większym wartościom jednej zmiennej odpowiadają
11 Oracle Statistical Functions 11g: statystyka dla dużych i małych 291 większe wartości drugiej zmiennej. W poniższym przykładzie zbadano, czy istnieje taki związek między płacą pracownika i procentowym zyskiem ze sprzedaży. SQL> SELECT CORR_K(sal, NVL(comm,0), 'COEFFICIENT') AS coeff, CORR_K(sal, NVL(comm,0), 'TWO_SIDED_SIG') AS sig FROM emp; COEFF SIG Ostatnia metoda badania współzależności między dwoma zmiennymi wykorzystuje test χ 2. Jest ona dostępna w bazie danych Oracle 11g pod postacią funkcji STATS_CROSSTAB(). Funkcja ta przyjmuje, jako parametry, nazwy badanych zmiennych, oraz trzeci argument definiujący zwracaną wartość. Funkcja może zwrócić obserwowaną wartość statystyki, istotność obserwowanej statystyki, liczbę stopni swobody rozkładu, ale także współczynnik ϕ lub współczynnik κ Cohena. Poniższy przykład pokazuje sposób odczytania wybranych wyników testu χ 2 SQL> SELECT STATS_CROSSTAB(sal, NVL(comm,0), 'CHISQ_OBS') AS chi_obs, STATS_CROSSTAB(sal, NVL(comm,0), 'CHISQ_SIG') AS chi_sig FROM emp; CHI_OBS CHI_SIG Regresja liniowa Ostatnią metodą statystyczną omawianą w niniejszym artykule jest regresja liniowa. Jest to bez wątpienia jedna z najpopularniejszych i najczęściej stosowanych technik statystycznych. W dużym uproszczeniu metoda regresji liniowej polega na znalezieniu zależności w postaci między zmienną objaśnianą y (zwaną także zmienną zależną) a zmienną objaśniającą x (zwaną także zmienną niezależną). Najczęściej do znalezienia konkretnych wartości współczynników a i b wykorzystuje się metodę najmniejszych kwadratów. Istnieją także bardziej złożone rodzaje zależności, które mogą być wykrywane za pomocą metod takich, jak regresja logarytmiczna, regresja logitowa, czy regresja wieloraka. W przypadku bazy danych Oracle 11g prosta regresja liniowa jest dostępna z poziomu funkcji języka SQL, natomiast bardziej zaawansowane modele można tworzyć przy wykorzystaniu opcji Oracle Data Mining (jest tam między innymi dostępny w postaci algorytmów Generalized Linear Models i Support Vector Machines). Poniższe zapytanie pokazuje sposób użycia prostych funkcji języka SQL do skonstruowania równania regresji. Wykorzystamy do tego celu funkcje REGR_SLOPE() i REGR_INTERCEPT(), zwracające wartości parametrów modelu a i b, odpowiednio. SQL> SELECT REGR_SLOPE(sal, EXTRACT (YEAR FROM sysdate) EXTRACT (YEAR FROM hiredate)) AS reg_slope, REGR_INTERCEPT(sal, EXTRACT (YEAR FROM sysdate) EXTRACT (YEAR FROM hiredate)) AS reg_intercept FROM emp; REG_SLOPE REG_INTERCEPT Wynik powyższego zapytania oznacza, że aby oszacować pensję pracownika, który przepracował 35 lat, należałoby skorzystać z formuły (w rzeczywistości w przypadku tabeli EMP proste wykreślenie zmiennej objaśnianej i objaśniającej dobitnie wskazuje, że pomiędzy nimi nie występuje żadna zależność liniowa i w tym przypadku użycie modelu regresji liniowej jest całkowicie nieuzasadnione.
12 292 Mikołaj Morzy 6. Podsumowanie W niniejszym artykule przedstawiono przegląd podstawowych narzędzi oferowanych przez bazę danych Oracle 11g do przetwarzania statystycznego. Omówione zostały podstawowe funkcje grupowe oraz funkcje analityczne, które umożliwiają wykonywanie zaawansowanych zapytań bezpośrednio z poziomu języka SQL. Dalej, przedstawiono zawartość pakietu DBMS_STAT_FUNCS który zawiera przede wszystkim procedury do testowania zgodności rozkładu badanej cechy z jednym z dobrze znanych rozkładów statystycznych. Baza danych Oracle 11g umożliwia także testowanie różnorakich hipotez, np. testowanie statystycznej istotności różnic średnich. Przykładowe zapytania zawarte w artykule prezentowały podstawowe funkcje SQL wykorzystywane do przeprowadzania testów parametrycznych i bezparametrycznych. W drugiej części artykułu skupiono się na narzędziach umożliwiających badanie korelacji między cechami i przedstawiono cztery różne funkcje realizujące to zadanie. Na koniec przedstawiono w dużym skrócie prostą metodę wyliczania współczynników regresji liniowej. Środowisko współczesnego systemu zarządzania bazą danych stanowi kompletne i bogate rozwiązanie dla przetwarzania statystycznego. Wiele zadań, w szczególności zadań nie wymagających najbardziej skomplikowanego aparatu statystycznego, może być z powodzeniem realizowane wewnątrz bazy danych, bez konieczności eksportowania danych do zewnętrznych specjalizowanych narzędzi. Dodatkowo, dostępność narzędzi statystycznych umożliwia prostą integrację modeli statystycznych w aplikacjach bazodanowych, co może zaowocować znaczącym wzrostem użyteczności tych aplikacji. Bibliografia [1] Hastie, T., Tibshirani, R., & Friedman, J. (2001). Elements of Statistical Learning. New York: Springer. [2] Koronacki, J., & Ćwik, J. (2005). Statystyczne systemy uczące się. Warszawa: Wydawnictwa Naukowo-Techniczne. [3] Koronacki, J., & Mielniczuk, J. (2001). Statystyka dla studentów kierunków technicznych i przyrodniczych. Warszawa: Wydawnictwa Naukowo-Techniczne. [4] Lorentz, D., & Roese, M. B. (2009). Oracle Database SQL Language Reference, 11g Release 2 (11.2). Oracle Corporation. [5] Raphaely, D. (2009). Oracle Database PL/SQL Packages and Types Reference, 11g Release 2 (11.2). Oracle Corporation.
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący
Funkcje analityczne SQL CUBE (1)
Funkcje analityczne SQL CUBE (1) JOB DEPTNO SUM(SAL) --------- ---------- ---------- 29025 10 8750 20 10875 30 9400 CLERK 4150 CLERK 10 1300 CLERK 20 1900 CLERK 30 950 ANALYST 6000 ANALYST 20 6000 MANAGER
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...
Hurtownie danych - przegląd technologii
Funkcje analityczne SQL CUBE (1) Hurtownie danych - przegląd technologii Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel JOB DEPTNO SUM(SAL) 8750
ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH
1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki
KORELACJE I REGRESJA LINIOWA
KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem
PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com
Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych
Analiza wariancji. dr Janusz Górczyński
Analiza wariancji dr Janusz Górczyński Wprowadzenie Powiedzmy, że badamy pewną populację π, w której cecha Y ma rozkład N o średniej m i odchyleniu standardowym σ. Powiedzmy dalej, że istnieje pewien czynnik
Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi
Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska D syst D śr m 1 3 5 2 4 6 śr j D 1
ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x
ZJAZD 4 KORELACJA, BADANIE NIEZALEŻNOŚCI, ANALIZA REGRESJI Analiza korelacji i regresji jest działem statystyki zajmującym się badaniem zależności i związków pomiędzy rozkładami dwu lub więcej badanych
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
Kolokwium ze statystyki matematycznej
Kolokwium ze statystyki matematycznej 28.05.2011 Zadanie 1 Niech X będzie zmienną losową z rozkładu o gęstości dla, gdzie 0 jest nieznanym parametrem. Na podstawie pojedynczej obserwacji weryfikujemy hipotezę
Testy nieparametryczne
Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów
Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ
Współczynnik korelacji Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Własności współczynnika korelacji 1. Współczynnik korelacji jest liczbą niemianowaną 2. ϱ 1,
Wprowadzenie do analizy korelacji i regresji
Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących
Spis treści 3 SPIS TREŚCI
Spis treści 3 SPIS TREŚCI PRZEDMOWA... 1. WNIOSKOWANIE STATYSTYCZNE JAKO DYSCYPLINA MATEMATYCZNA... Metody statystyczne w analizie i prognozowaniu zjawisk ekonomicznych... Badania statystyczne podstawowe
Jak sprawdzić normalność rozkładu w teście dla prób zależnych?
Jak sprawdzić normalność rozkładu w teście dla prób zależnych? W pliku zalezne_10.sta znajdują się dwie zmienne: czasu biegu przed rozpoczęciem cyklu treningowego (zmienna 1) oraz czasu biegu po zakończeniu
Weryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta
Testowanie hipotez statystycznych.
Bioinformatyka Wykład 4 Wrocław, 17 października 2011 Temat. Weryfikacja hipotez statystycznych dotyczących wartości oczekiwanej w dwóch populacjach o rozkładach normalnych. Model 3. Porównanie średnich
STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE
STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE 1 W trakcie badania obliczono wartości średniej (15,4), mediany (13,6) oraz dominanty (10,0). Określ typ asymetrii rozkładu. 2 Wymień 3 cechy rozkładu Gauss
Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski
Statystyczna analiza danych w programie STATISTICA (wykład ) Dariusz Gozdowski Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW Weryfikacja (testowanie) hipotez statystycznych
Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )
Statystyka Rozkład prawdopodobieństwa Testowanie hipotez Wykład III (04.01.2016) Rozkład t-studenta Rozkład T jest rozkładem pomocniczym we wnioskowaniu statystycznym; stosuje się go wyznaczenia przedziału
Testowanie hipotez statystycznych. Wnioskowanie statystyczne
Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy
Testowanie hipotez statystycznych.
Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie
LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej
LABORATORIUM 3 Przygotowanie pliku (nazwy zmiennych, export plików.xlsx, selekcja przypadków); Graficzna prezentacja danych: Histogramy (skategoryzowane) i 3-wymiarowe; Wykresy ramka wąsy; Wykresy powierzchniowe;
Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;
LABORATORIUM 4 Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona; dwie zmienne zależne mierzalne małe próby duże próby rozkład normalny
weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)
PODSTAWY STATYSTYKI. Teoria prawdopodobieństwa i elementy kombinatoryki. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5. Testy parametryczne (na
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y
( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:
ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość
Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa
Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący
Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych
Statystyka matematyczna. Wykład IV. e-mail:e.kozlovski@pollub.pl Spis treści 1 2 3 Definicja 1 Hipoteza statystyczna jest to przypuszczenie dotyczące rozkładu (wielkości parametru lub rodzaju) zmiennej
W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:
Na dzisiejszym wykładzie omówimy najważniejsze charakterystyki liczbowe występujące w statystyce opisowej. Poszczególne wzory będziemy podawać w miarę potrzeby w trzech postaciach: dla szeregu szczegółowego,
Prawdopodobieństwo i statystyka r.
Zadanie. Niech (X, Y) ) będzie dwuwymiarową zmienną losową, o wartości oczekiwanej (μ, μ, wariancji każdej ze współrzędnych równej σ oraz kowariancji równej X Y ρσ. Staramy się obserwować niezależne realizacje
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl
Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU
Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów
Sposoby prezentacji problemów w statystyce
S t r o n a 1 Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki
MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ
MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ Opracowała: Milena Suliga Wszystkie pliki pomocnicze wymienione w treści
Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści
Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, 2018 Spis treści Przedmowa 13 O Autorach 15 Przedmowa od Tłumacza 17 1. Wprowadzenie i statystyka opisowa 19 1.1.
STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2
STATYSTYKA I DOŚWIADCZALNICTWO Wykład Parametry przedziałowe rozkładów ciągłych określane na podstawie próby (przedziały ufności) Przedział ufności dla średniej s X t( α;n 1),X + t( α;n 1) n s n t (α;
Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych
dr Piotr Sulewski POMORSKA AKADEMIA PEDAGOGICZNA W SŁUPSKU KATEDRA INFORMATYKI I STATYSTYKI Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych Wprowadzenie Obecnie bardzo
STATYSTYKA MATEMATYCZNA
STATYSTYKA MATEMATYCZNA 1. Wykład wstępny 2. Zmienne losowe i teoria prawdopodobieństwa 3. Populacje i próby danych 4. Testowanie hipotez i estymacja parametrów 5. Najczęściej wykorzystywane testy statystyczne
Wykład 12 Testowanie hipotez dla współczynnika korelacji
Wykład 12 Testowanie hipotez dla współczynnika korelacji Wrocław, 23 maja 2018 Współczynnik korelacji Niech będą dane dwie próby danych X = (X 1, X 2,..., X n ) oraz Y = (Y 1, Y 2,..., Y n ). Współczynnikiem
Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa
Weryfikacja hipotez statystycznych Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o prawdziwości lub fałszywości którego wnioskuje się na podstawie
Wykład 12 Testowanie hipotez dla współczynnika korelacji
Wykład 12 Testowanie hipotez dla współczynnika korelacji Wrocław, 24 maja 2017 Współczynnik korelacji Niech będą dane dwie próby danych X = (X 1, X 2,..., X n ) oraz Y = (Y 1, Y 2,..., Y n ). Współczynnikiem
Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22
Spis treści Przedmowa do wydania pierwszego.... 11 Przedmowa do wydania drugiego.... 15 Wykaz symboli.... 17 Litery alfabetu greckiego wykorzystywane w podręczniku.... 17 Symbole wykorzystywane w zagadnieniach
OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp
tel.: +48 662 635 712 Liczba stron: 15 Data: 20.07.2010r OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA z wykorzystaniem programu obliczeniowego Q maxp DŁUGIE
Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii
SPIS TREŚCI Przedmowa... 11 Wykaz symboli... 15 Litery alfabetu greckiego wykorzystywane w podręczniku... 15 Symbole wykorzystywane w zagadnieniach teorii mnogości (rachunku zbiorów)... 16 Symbole stosowane
STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów
STATYSTYKA MATEMATYCZNA WYKŁAD 4 Testowanie hipotez Estymacja parametrów WSTĘP 1. Testowanie hipotez Błędy związane z testowaniem hipotez Etapy testowana hipotez Testowanie wielokrotne 2. Estymacja parametrów
parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,
诲 瞴瞶 瞶 ƭ0 ƭ 瞰 parametrów strukturalnych modelu Y zmienna objaśniana, = + + + + + X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, α 0, α 1, α 2,,α k parametry strukturalne modelu, k+1 parametrów
1 Podstawy rachunku prawdopodobieństwa
1 Podstawy rachunku prawdopodobieństwa Dystrybuantą zmiennej losowej X nazywamy prawdopodobieństwo przyjęcia przez zmienną losową X wartości mniejszej od x, tzn. F (x) = P [X < x]. 1. dla zmiennej losowej
Korelacja krzywoliniowa i współzależność cech niemierzalnych
Korelacja krzywoliniowa i współzależność cech niemierzalnych Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki Szczecińskiej
W1. Wprowadzenie. Statystyka opisowa
W1. Wprowadzenie. Statystyka opisowa dr hab. Jerzy Nakielski Zakład Biofizyki i Morfogenezy Roślin Plan wykładu: 1. O co chodzi w statystyce 2. Etapy badania statystycznego 3. Zmienna losowa, rozkład
Analiza autokorelacji
Analiza autokorelacji Oblicza się wartości współczynników korelacji między y t oraz y t-i (dla i=1,2,...,k), czyli współczynniki autokorelacji różnych rzędów. Bada się statystyczną istotność tych współczynników.
Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.
tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1
WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO
Zał. nr 4 do ZW WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO KARTA PRZEDMIOTU Nazwa w języku polskim STATYSTYKA STOSOWANA Nazwa w języku angielskim APPLIED STATISTICS Kierunek studiów (jeśli dotyczy): Specjalność
1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:
Wprowadzenie Statystyka opisowa to dział statystyki zajmujący się metodami opisu danych statystycznych (np. środowiskowych) uzyskanych podczas badania statystycznego (np. badań terenowych, laboratoryjnych).
Wykład 9 Testy rangowe w problemie dwóch prób
Wykład 9 Testy rangowe w problemie dwóch prób Wrocław, 18 kwietnia 2018 Test rangowy Testem rangowym nazywamy test, w którym statystyka testowa jest konstruowana w oparciu o rangi współrzędnych wektora
X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9
Zadanie W celu sprawdzenia, czy pipeta jest obarczona błędem systematycznym stałym lub zmiennym wykonano szereg pomiarów przy różnych ustawieniach pipety. Wyznacz równanie regresji liniowej, które pozwoli
7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej
7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej Definicja 1 n-elementowa losowa próba prosta nazywamy ciag n niezależnych zmiennych losowych o jednakowych rozkładach
STATYSTYKA MATEMATYCZNA
STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez statystycznych
STATYSTYKA
Wykład 1 20.02.2008r. 1. ROZKŁADY PRAWDOPODOBIEŃSTWA 1.1 Rozkład dwumianowy Rozkład dwumianowy, 0 1 Uwaga: 1, rozkład zero jedynkowy. 1 ; 1,2,, Fakt: Niech,, będą niezależnymi zmiennymi losowymi o jednakowym
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y
Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4
Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4 Konrad Miziński, nr albumu 233703 31 maja 2015 Zadanie 1 Wartości oczekiwane µ 1 i µ 2 oszacowano wg wzorów: { µ1 = 0.43925 µ = X
Badanie zależności skala nominalna
Badanie zależności skala nominalna I. Jak kształtuje się zależność miedzy płcią a wykształceniem? II. Jak kształtuje się zależność między płcią a otyłością (opis BMI)? III. Jak kształtuje się zależność
Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)
Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej) 1 Podział ze względu na zakres danych użytych do wyznaczenia miary Miary opisujące
Prawdopodobieństwo i statystyka r.
Prawdopodobieństwo i statystyka 9.06.999 r. Zadanie. Rzucamy pięcioma kośćmi do gry. Następnie rzucamy ponownie tymi kośćmi, na których nie wypadły szóstki. W trzeciej rundzie rzucamy tymi kośćmi, na których
TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.
TEST STATYSTYCZNY Testem statystycznym nazywamy regułę postępowania rozstrzygająca, przy jakich wynikach z próby hipotezę sprawdzaną H 0 należy odrzucić, a przy jakich nie ma podstaw do jej odrzucenia.
Zmienne zależne i niezależne
Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }
Podstawy statystyki dla psychologów. Podręcznik akademicki. Wydanie drugie poprawione. Wiesław Szymczak
Podstawy statystyki dla psychologów. Podręcznik akademicki. Wydanie drugie poprawione. Wiesław Szymczak Autor prezentuje spójny obraz najczęściej stosowanych metod statystycznych, dodatkowo omawiając takie
Wnioskowanie statystyczne. Statystyka w 5
Wnioskowanie statystyczne tatystyka w 5 Rozkłady statystyk z próby Próba losowa pobrana z populacji stanowi realizacje zmiennej losowej jak ciąg zmiennych losowych (X, X,... X ) niezależnych i mających
Opis przedmiotu: Probabilistyka I
Opis : Probabilistyka I Kod Nazwa Wersja TR.SIK303 Probabilistyka I 2012/13 A. Usytuowanie w systemie studiów Poziom Kształcenia Stopień Rodzaj Kierunek studiów Profil studiów Specjalność Jednostka prowadząca
POLITECHNIKA OPOLSKA
POLITECHNIKA OPOLSKA WYDZIAŁ MECHANICZNY Katedra Technologii Maszyn i Automatyzacji Produkcji Laboratorium Podstaw Inżynierii Jakości Ćwiczenie nr 4 Temat: Analiza korelacji i regresji dwóch zmiennych
dr Jerzy Pusz, st. wykładowca, Wydział Matematyki i Nauk Informacyjnych Politechniki Warszawskiej B. Ogólna charakterystyka przedmiotu
Kod przedmiotu TR.SIK303 Nazwa przedmiotu Probabilistyka I Wersja przedmiotu 2015/16 A. Usytuowanie przedmiotu w systemie studiów Poziom kształcenia Studia I stopnia Forma i tryb prowadzenia studiów Stacjonarne
RÓWNOWAŻNOŚĆ METOD BADAWCZYCH
RÓWNOWAŻNOŚĆ METOD BADAWCZYCH Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska Równoważność metod??? 2 Zgodność wyników analitycznych otrzymanych z wykorzystaniem porównywanych
Rozkłady statystyk z próby
Rozkłady statystyk z próby Rozkłady statystyk z próby Przypuśćmy, że wykonujemy serię doświadczeń polegających na 4 krotnym rzucie symetryczną kostką do gry, obserwując liczbę wyrzuconych oczek Nr kolejny
Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/
Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, bud. CIW, p. 221 e-mail: zdzislaw.otachel@up.lublin.pl
STATYSTYKA MATEMATYCZNA
Zał. nr 4 do ZW WYDZIAŁ ELEKTRONIKI KARTA PRZEDMIOTU Nazwa w języku polskim STATYSTYKA MATEMATYCZNA Nazwa w języku angielskim Mathematical Statistics Kierunek studiów (jeśli dotyczy): Specjalność (jeśli
Stanisław Cichocki. Natalia Nehrebecka. Wykład 9
Stanisław Cichocki Natalia Nehrebecka Wykład 9 1 1. Dodatkowe założenie KMRL 2. Testowanie hipotez prostych Rozkład estymatora b Testowanie hipotez prostych przy użyciu statystyki t 3. Przedziały ufności
Przykład 1. (A. Łomnicki)
Plan wykładu: 1. Wariancje wewnątrz grup i między grupami do czego prowadzi ich ocena 2. Rozkład F 3. Analiza wariancji jako metoda badań założenia, etapy postępowania 4. Dwie klasyfikacje a dwa modele
Testowanie hipotez statystycznych
Testowanie hipotez statystycznych Hipotezą statystyczną jest dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Prawdziwość tego przypuszczenia
Testowanie hipotez statystycznych
Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom
Zadania ze statystyki cz.8. Zadanie 1.
Zadania ze statystyki cz.8. Zadanie 1. Wykonano pewien eksperyment skuteczności działania pewnej reklamy na zmianę postawy. Wylosowano 10 osobową próbę studentów, których poproszono o ocenę pewnego produktu,
Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15
VI WYKŁAD STATYSTYKA 9/04/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 6 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI Weryfikacja hipotez ( błędy I i II rodzaju, poziom istotności, zasady
Wykład 9 Wnioskowanie o średnich
Wykład 9 Wnioskowanie o średnich Rozkład t (Studenta) Wnioskowanie dla jednej populacji: Test i przedziały ufności dla jednej próby Test i przedziały ufności dla par Porównanie dwóch populacji: Test i
Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33
Statystyka Wykład 4 Magdalena Alama-Bućko 19 marca 2018 Magdalena Alama-Bućko Statystyka 19 marca 2018 1 / 33 Analiza struktury zbiorowości miary położenia ( miary średnie) miary zmienności (rozproszenia,
Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r
Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów
ORACLE. System Zarządzania Bazą Danych Oracle. Oracle Advanced SQL
ORACLE System Zarządzania Bazą Danych Oracle Oracle Advanced SQL wersja 1.0 Politechnika Śląska 2008 Raportowanie z wykorzystaniem fraz rollup, cube Frazy cube, rollup, grouping sets umożliwiają rozszerzoną
166 Wstęp do statystyki matematycznej
166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej
Analiza Statystyczna
Lekcja 5. Strona 1 z 12 Analiza Statystyczna Do analizy statystycznej wykorzystać można wbudowany w MS Excel pakiet Analysis Toolpak. Jest on instalowany w programie Excel jako pakiet dodatkowy. Oznacza
Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia
Wykład 2 Statystyka opisowa - Miary rozkładu: Miary położenia Podział miar Miary położenia (measures of location): 1. Miary tendencji centralnej (measures of central tendency, averages): Średnia arytmetyczna
Statystyka matematyczna dla leśników
Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje
Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część
Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część populacji, którą podaje się badaniu statystycznemu
KARTA KURSU. (do zastosowania w roku akademickim 2015/16) Kod Punktacja ECTS* 3. Dr hab. Tadeusz Sozański
KARTA KURSU (do zastosowania w roku akademickim 2015/16) Nazwa Statystyka 2 Nazwa w j. ang. Statistics 2 Kod Punktacja ECTS* 3 Koordynator Dr hab. Tadeusz Sozański (koordynator, konwersatorium) Zespół
Materiały szkoleniowe. Podstawy języka SQL
Materiały szkoleniowe Podstawy języka SQL Spis treści Zawartość tabel wykorzystywanych na kursie... 4 Zawartość tabeli DEPT...5 Zawartość tabeli EMP...5 Zawartość tabeli SALGRADE...5 Budowa tabel wykorzystywanych
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych