Oracle Statistical Functions 11g: statystyka dla dużych i małych

Wielkość: px
Rozpocząć pokaz od strony:

Download "Oracle Statistical Functions 11g: statystyka dla dużych i małych"

Transkrypt

1 XVI Konferencja PLOUG Kościelisko Październik 2010 Oracle Statistical Functions 11g: statystyka dla dużych i małych Mikołaj Morzy Instytut Informatyki Politechniki Poznańskiej Abstrakt. Baza danych Oracle 11g posiada wbudowany bardzo szeroki wachlarz narzędzi statystycznych. W połączeniu z narzędziami Oracle OLAP i Oracle Data Mining zbiór narzędzi statystycznych, w które wyposażona jest baza danych Oracle 11g tworzy potężne środowisko analityczne. W zależności od potrzeb użytkownicy mogą wykorzystywać tylko najprostsze funkcje, np. statystykę opisową lub testowanie hipotez, funkcje analityczne lub funkcje regresji liniowej, ale mogą także sięgnąć po mocniejsze narzędzia: testowa-nie dopasowania rozkładów, analizę wariancji (ANOVA), parametryczne i bezparemetryczne modele kore-lacji czy testy c2. W niniejszym artykule przedstawiono przegląd narzędzi statystycznych oferowanych przez bazę danych Oracle 11g, ilustrując poszczególne narzędzia przykładami zastosowań.. Informacja o autorze. Dr hab. inż. Mikołaj Morzy jest adiunktem w Instytucie Informatyki Politechniki Poznańskiej. Jego zainteresowania naukowe koncentrują się przede wszystkim na tematyce eksploracji danych - jest on autorem ponad czterdziestu publikacji dotyczących tej tematyki. Drugą dziedziną zainteresowań i głównym tematem działalności dydaktycznej Mikołaja Morzego są technologie aplikacji internetowych i rozproszonych oraz technologie związane z bazami danych i hurtowniami danych.

2

3 Oracle Statistical Functions 11g: statystyka dla dużych i małych Analiza statystyczna w bazie danych Historycznie, silniki zarządzania bazami danych były przeznaczone do wykonywania nieskomplikowanych obliczeń na danych relacyjnych. Język SQL został zaprojektowany w oparciu o algebrę relacji i operatory relacyjne działające na zbiorach krotek. Początkowo, jedyna możliwość dokonywania jakichkolwiek obliczeń statystycznych ograniczała się do niewielkiego zbioru podstawowych funkcji grupowych, takich jak wyznaczanie najmniejszej i największej wartości w zbiorze, wyznaczanie wartości średniej, wariancji i odchylenia standardowego, czy wreszcie wyznaczanie liczności zbioru. Oprócz pracy na całym zbiorze krotek zwróconym przez zapytanie, język SQL oferował także klauzulę GROUP BY umożliwiającą dokonanie partycjonowania zbioru krotek na rozłączne podgrupy i wyznaczenie wybranych statystyk niezależnie w każdej grupie. Z biegiem lat okazało się, że tak proste możliwości analityczne są dalece niewystarczające i że konieczne jest rozszerzenie funkcjonalności baz danych o nowe, silniejsze narzędzia analityczne. Dostawcy systemów baz danych szybko dostrzegli możliwość zbudowania przewagi konkurencyjnej poprzez dostarczenie wraz z bazą danych narzędzi analitycznych. Tradycyjne podejście, bazujące na eksportowaniu surowych danych z bazy danych i wykonywaniu analiz statystycznych za pomocą narzędzi zewnętrznych, takich jak arkusze kalkulacyjne lub pakiety statystyczne, niosło ze sobą wiele niedogodności. Po pierwsze, wymagało fizycznego przenoszenia danych pomiędzy różnymi systemami. Po drugie, moment przeniesienia danych do systemu zewnętrznego zawsze obarczony był dużym ryzykiem. Niezależnie od jakości procedur bezpieczeństwa implementowanych na poziomie bazy danych, dane wyciekały poza organizację w wyniku ich rozproszenia pomiędzy różnymi narzędziami. Wreszcie, gwałtowny rozwój systemów informatycznych i gigantyczny wzrost wolumenów przetwarzanych danych postawił przed użytkownikami problem efektywności przetwarzania analitycznego za pomocą narzędzi uruchamianych na komputerach klasy desktop. Przeniesienie przetwarzania analitycznego bezpośrednio do silnika bazy danych niesie ze sobą wiele zalet. System informatyczny wykorzystujący bazę danych jako środowisko przeprowadzania analiz statystycznych jest bezpieczniejszy i solidniejszy, aplikacje krytyczne dla działania przedsiębiorstwa lub organizacji działają pewniej i cechują się zwiększoną dostępnością, przetwarzanie statystyczne wykorzystuje zasoby obliczeniowe przydzielone do serwera bazy danych (najczęściej te zasoby są wielokrotnie większe niż zasoby dostępne dla komputerów klasy desktop). Nie należy także bagatelizować zysków wynikających z uproszczonej integracji przetwarzania statystycznego z aplikacjami klienckimi: taka integracja jest dużo prostsza na poziomie serwera bazy danych niż samej aplikacji. Przetwarzanie statystyczne i analityczne realizowane na poziomie bazy danych może być bezpośrednio wplecione w złożone zapytania dostarczające dane do aplikacji desktopowych. W ten sposób aplikacje mogą być wzbogacone o wartość dodaną wynikającą ze zwiększenia jakości i użyteczności danych prezentowanych użytkownikowi końcowemu. Nawet najtrudniejsze i najbardziej zasobochłonne zapytania statystyczne mogą być efektywnie przetworzone, np. poprzez wykorzystanie możliwości zrównoleglenia przetwarzania realizowanego na poziomie serwera bazy danych. Realizowanie przetwarzania statystycznego na poziomie bazy danych umożliwia także rozproszenie kosztownych obliczeń pomiędzy węzły systemu gridowego, jeśli baza danych pracuje w takiej architekturze. Obliczenia mogą być realizowane praktycznie w trybie czasu rzeczywistego, dostarczając wymaganą informację (oraz wiedzę) do użytkowników końcowych i umożliwiając im podejmowanie świadomych decyzji biznesowych. Wreszcie, architektura serwera bazy danych pozwala także na planowanie i szeregowanie zadań w postaci pakietów obliczeń wsadowych, co umożliwia przeniesienie najkosztowniejszych obliczeń do najbardziej odpowiednich okien czasowych i pełniejsze wykorzystanie zasobów.

4 284 Mikołaj Morzy 2. Funkcje grupowe i analityczne Jak już wcześniej wspomniano, poszczególni dostawcy systemów baz danych szybko rozpoczęli rozszerzanie możliwości analitycznych oferowanych przez siebie produktów poprzez dodawanie nowych, niestandardowych funkcji grupowych. Przykładowo, w bazie danych Oracle 11g wartość średnią w zbiorze można wyznaczyć na trzy sposoby, w zależności od rozumienia pojęcia wartość średnia (użytego w sensie kolokwialnym): SQL> SELECT AVG(sal), MEDIAN(sal), STATS_MODE(sal) FROM emp; AVG(SAL) MEDIAN(SAL) STATS_MODE(SAL) W powyższym przykładzie funkcja AVG(sal) wyznacza średnią arytmetyczną zbioru liczb reprezentujących pensje pracowników, funkcja MEDIAN(sal) wyznacza medianę zbioru, natomiast funkcja STATS_MODE(sal) wyznacza wartość modalną w zbiorze. Dla przypomnienia, medianą zbioru (wartością środkową, drugim kwantylem) nazywamy tę wartość cechy w szeregu uporządkowanym, powyżej i poniżej której znajduje się dokładnie tyle samo wartości. Jeśli w zbiorze mamy nieparzystą liczbę wartości n, to medianą zbioru będzie wartość elementu o numerze, jeśli zaś zbiór zawiera parzystą liczbę elementów, to medianą zbioru jest średnia arytmetyczna między elementami o numerach oraz (oczywiście mowa tu o numerach elementów zbioru w szeregu uporządkowanym). Wartość modalna (wartość najczęstsza, moda, dominanta) w zbiorze to wartość najczęściej występująca, zatem o ile wartość średnia i wartość środkowa nie muszą zawierać się w zbiorze, o tyle wartość modalna zawsze jest zawarta w zbiorze. W trakcie analizy zbiorów liczb statystycy bardzo często posługują się pojęciami wariancji i odchylenia standardowego. Wariancja zbioru liczb jest miarą zróżnicowania tego zbioru, tzn. miarą odchylenia wartości w zbiorze od wartości średniej. Formalnie, wariancja jest zdefiniowana jako Var [ X ] = E[( X μ)] gdzie oznacza wartość oczekiwaną zmiennej. Wariancję najczęściej estymuje się na podstawie reprezentatywnej próby, w takim wypadku wariancję populacji można oszacować za pomocą następującego estymatora Podstawową wadą wariancji jest fakt, że wariancja jest wyrażona w innych jednostkach niż zmienna, której wariancja podlega badaniu. Przykładowo, jeśli zmienna reprezentuje pensje pracowników, to wariancja jest mierzona w PLN podniesionych do kwadratu. Z tego względu w praktycznych zastosowaniach wygodniej jest posługiwać się pojęciem odchylenia standardowego. Odchylenie standardowe informuje, jak szeroko wartości zmiennej są rozproszone wokół wartości średniej tej zmiennej. Pod pojęciem odchylenia standardowego kryją się w rzeczywistości trzy różne pojęcia: odchylenie standardowe w populacji: jeśli zbiór zawiera wszystkie wartości z badanej populacji (np. jeśli dysponujemy wszystkimi pensjami pracowników), to odchylenie standardowe zmiennej będzie identyczne z odchyleniem standardowym mierzonej cechy w populacji, ponieważ zmienna będzie miała identyczny rozkład co cecha w populacji

5 Oracle Statistical Functions 11g: statystyka dla dużych i małych 285 odchylenie standardowe w próbce: jeśli zbiór zawiera jedynie próbkę wartości cechy z populacji, to odchylenie standardowe zmiennej stanowi jedynie oszacowanie (estymator) odchylenia standardowego cechy w populacji odchylenie standardowe zmiennej losowej: stanowi informację o cesze wyliczoną na podstawie rozkładu wartości badanej cechy, w rzeczywistości rozkład ten jest rzadko znany, stąd wartość odchylenia standardowego zmiennej losowej jest w praktyce mało przydatna. Baza danych Oracle 11g zawiera funkcje do wyznaczenia każdego z rodzajów odchylenia standardowego. Przykładowo, wyznaczenie powyższych odchyleń standardowych dla pensji pracowniczych może być wyrażone w języku SQL w następujący sposób: SQL> SELECT STDDEV(sal), STDDEV_SAMP(sal), STDDEV_POP(sal) FROM emp; STDDEV(SAL) STDDEV_SAMP(SAL) STDDEV_POP(SAL) Funkcje STDDEV(sal) i STDDEV_SAMP(sal) wyliczają odchylenie standardowe zmiennej losowej oraz odchylenie standardowe w próbce, odpowiednio. Jedyna różnica między tymi funkcjami polega na tym, że funkcja STDDEV(sal) zwraca wartość 0 dla zbioru składającego się z jednego elementu, podczas gdy funkcja STDDEV_SAMP(sal) zwróciłaby w takim przypadku wartość NULL. Funkcja STDDEV_POP(sal) zwraca wartość odchylenia standardowego w populacji, korzystając z estymatora nieobciążonego: s = n i= i ( x x) i n 1 Dla wyznaczania wartości wariancji baza danych Oracle 11g oferuje analogiczne trzy funkcje: VARIANCE(), VAR_SAMP() oraz VAR_POP(). Jednym z najciekawszych rozwiązań w domenie przetwarzania analitycznego i statystycznego było wprowadzenie przez Oracle funkcji analitycznych. Jest to rozszerzenie standardu funkcji grupowych o możliwości wyznaczania agregatów na różnych poziomach agregacji, raportowania, oraz wyznaczania agregatów za pomocą okienek o zmiennym rozmiarze (tzw. funkcje okienkowe). Funkcje analityczne zrewolucjonizowały rynek i szybko zdobyły sobie ogromną popularność, przede wszystkim ze względu na prostotę i bardzo dużą moc wyrażania. Poniżej przedstawiono przykład funkcji analitycznej wyznaczającej procentowy udział poszczególnych wartości w sumie oraz przykład zapytania wykorzystującego funkcje grupowe wyliczające agregaty na różnych poziomach agregacji. SQL> SELECT job, SUM(sal), RATIO_TO_REPORT(SUM(sal)) OVER () FROM emp GROUP BY job; 2 JOB SUM(SAL) RATIO_TO_REPORT(SUM(SAL))OVER() ANALYST CLERK MANAGER PRESIDENT SALESMAN

6 286 Mikołaj Morzy SQL> SELECT ename, sal, job, deptno, SUM(sal) OVER () AS S1, SUM(sal) OVER (PARTITION BY job) AS S2, SUM(sal) OVER (PARTITION BY deptno) AS S3 FROM emp GROUP BY ename, sal, job, deptno; ENAME SAL JOB DEPTNO S1 S2 S CLARK 2450 MANAGER KING 5000 PRESIDENT MILLER 1300 CLERK JONES 2975 MANAGER SCOTT 3000 ANALYST SMITH 800 CLERK FORD 3000 ANALYST ADAMS 1100 CLERK MARTIN 1250 SALESMAN BLAKE 2850 MANAGER ALLEN 1600 SALESMAN WARD 1250 SALESMAN TURNER 1500 SALESMAN JAMES 950 CLERK Równie interesująca jest możliwość wyznaczania wartości statystycznych za pomocą funkcji okienkowych. Funkcje te umożliwiają dynamiczne wyznaczanie partycji danych, dla których wyliczane są statystyki, w zależności od bezwzględnej liczby krotek, różnicy w wartościach atrybutów, lub w zmiennych przedziałach czasu. Przykładowo, w wielu analizach statystycznych wygodnie jest posługiwać się pojęciem wygładzonej średniej, która zmienia się wolniej niż sama zmienna lub trend. Wyznaczenie takiej statystyki przy wykorzystaniu okienkowych funkcji analitycznych staje się bardzo proste. Poniżej przedstawiono przykład zapytania wyznaczającego wygładzoną pensję pracowników, gdzie wygładzanie odbywa się w przedziałach o szerokości jednego roku. SQL> SELECT ename, sal, hiredate, AVG(sal) OVER (ORDER BY hiredate RANGE BETWEEN INTERVAL '1' YEAR PRECEDING AND CURRENT ROW) AS smooth_sal FROM emp; ENAME SAL HIREDATE SMOOTH_SAL SMITH DEC ALLEN FEB WARD FEB JONES APR BLAKE MAY CLARK JUN TURNER SEP MARTIN SEP KING NOV JAMES DEC FORD DEC MILLER JAN SCOTT APR ADAMS MAY

7 Oracle Statistical Functions 11g: statystyka dla dużych i małych Pakiet DBMS_STAT_FUNCS Pakiet DBMS_STAT_FUNCS zawiera kilka przydatnych procedur, umożliwiających testowanie zgodności rozkładu badanej cechy z jednym z popularnych rozkładów zmiennych losowych. Pakiet umożliwia sprawdzenie, czy badana cecha ma rozkład zgodny z rozkładem normalnym, rozkładem Poissona, rozkładem wykładniczym, rozkładem jednostajnym oraz rozkładem Weibulla. Oprócz procedur do testowania zgodności rozkładów pakiet zawiera przydatną procedurę SUMMA- RY(), która zbiera i prezentuje ogólną charakterystykę wybranego atrybutu. Poniżej przedstawiono przykład zastosowania tej procedury. DECLARE l_sigma_value NUMBER; l_summary DBMS_STAT_FUNCS.summaryType; BEGIN l_sigma_value := 2; DBMS_STAT_FUNCS.SUMMARY('SCOTT','EMP','SAL', l_sigma_value, l_summary); DBMS_OUTPUT.PUT_LINE('Count: ' l_summary.count); DBMS_OUTPUT.PUT_LINE('Min: ' l_summary.min); DBMS_OUTPUT.PUT_LINE('Max: ' l_summary.max); DBMS_OUTPUT.PUT_LINE('Range: ' l_summary.range); DBMS_OUTPUT.PUT_LINE('Mean: ' round(l_summary.mean)); DBMS_OUTPUT.PUT_LINE('Mode Count: ' l_summary.cmode.count); DBMS_OUTPUT.PUT_LINE('Mode: ' l_summary.cmode(1)); DBMS_OUTPUT.PUT_LINE('Variance: ' round(l_summary.variance)); DBMS_OUTPUT.PUT_LINE('Stddev: ' round(l_summary.stddev)); DBMS_OUTPUT.PUT_LINE('Quantile 5 ' l_summary.quantile_5); DBMS_OUTPUT.PUT_LINE('Quantile 25 ' l_summary.quantile_25); DBMS_OUTPUT.PUT_LINE('Median ' l_summary.median); DBMS_OUTPUT.PUT_LINE('Quantile 75 ' l_summary.quantile_75); DBMS_OUTPUT.PUT_LINE('Quantile 95 ' l_summary.quantile_95); DBMS_OUTPUT.PUT_LINE('Extreme Count: ' l_summary.extreme_values.count); DBMS_OUTPUT.PUT_LINE('Extremes: ' l_summary.extreme_values(1)); DBMS_OUTPUT.PUT_LINE('Top 3: ' l_summary.top_5_values(1) ', ' l_summary.top_5_values(2) ',' l_summary.top_5_values(3)); DBMS_OUTPUT.PUT_LINE('Bottom 3: ' l_summary.bottom_5_values(5) ', ' l_summary.bottom_5_values(4) ',' l_summary.bottom_5_values(3)); END; / Count: 14 Min: 800 Max: 5000 Range: 4200 Mean: 2073 Mode Count: 2 Mode: 1250 Variance: Stddev: 1183 Quantile Quantile Median 1550 Quantile Quantile Extreme Count: 1 Extremes: 5000

8 288 Mikołaj Morzy Top 3: 5000,3000,3000 Bottom 3: 800,950,1100 akiet DBMS_STAT_FUNCS służy jednak przede wszystkim do testowania zgodności rozkładu badanej cechy z jednym z dobrze znanych rozkładów. Aby prawidłowo dokonać dopasowania, konieczna jest znajomość podstawowych parametrów rozkładów, do których następuje dopasowanie. Przykładowo, dopasowując rozkład cechy do rozkładu normalnego konieczne jest podanie wartości średniej i odchylenia standardowego dopasowywanego rozkładu, a dopasowując rozkład cechy do rozkładu Poissona konieczne jest podanie wartości parametru λ. Poniżej przedstawiono procedurę dopasowania rozkładu płacy pracowników do rozkładu normalnego i rozkładu Poissona. DECLARE l_fit NUMBER := 0; l_mean NUMBER := 2073; l_stddev NUMBER := 1182; l_lambda NUMBER := 1; BEGIN DBMS_STAT_FUNCS.NORMAL_DIST_FIT('SCOTT','EMP','SAL','SHAPIRO_WILKS', l_mean,l_stddev,l_fit); DBMS_OUTPUT.PUT_LINE('Fit: ' l_fit); DBMS_STAT_FUNCS.POISSON_DIST_FIT('SCOTT','EMP','SAL','KOLMOGOROV_SMIRNOV', l_lambda,l_fit); DBMS_OUTPUT.PUT_LINE('Fit: ' l_fit); END; / W value : Fit: D value : Fit: Jak widać, w obu przypadkach dopasowanie jest poniżej domyślnego poziomu istotności (p=0.05), zatem możemy założyć, że badana cecha nie jest scharakteryzowana ani rozkładem normalnym, ani rozkładem Poissona. W przypadku każdego z testów (oraz testów wykonywanych przez procedury EXPONENTIAL_DIST_FIT(), UNIFORM_DIST_FIT() i WEIBULL_ DIST_FIT()) zakładana jest hipoteza zerowa o zgodności rozkładu badanej cechy z danym rozkładem. Niska wartość zwrócona przez każdą z procedur umożliwia odrzucenie hipotezy zerowej. Procedury dopasowywania rozkładu cechy do zadanego rozkładu wykorzystują jeden z wielu dostępnych w literaturze testów. Przykładowo, testowanie zgodności z rozkładem normalnym może być wykonane za pomocą standardowego testu Shapiro-Wilksa, ale można się też posłużyć testem χ 2, testem Kołmogorowa-Smirnowa, lub testem Andersona-Darlinga. 3. Testowanie hipotez Jedną z najczęściej wykorzystywanych technik statystycznych jest przeprowadzanie testów parametrycznych dla wartości średnich i wariancji. Baza danych Oracle 11g umożliwia wykonywanie takich testów w kilku trybach. Dostępne są m.in. test t-studenta zgodności ze średnią dla zmiennej opisanej rozkładem normalnym, test t-studenta na statystyczną istotność różnic średnich z niezależnych próbek, a także sparowany test t-studenta. Dla zbadania statystycznej istotności różnicy w wariancjach można posłużyć się testem f-fishera. Informację o statystycznej istotności w różnicach średnich można także uzyskać stosując analizę wariancji, zaimplementowaną w Oracle 11g jako ANOVA (do wykonania tego obliczenia należy posłużyć się funkcją STATS_ ONE_WAY_ANOVA()). Baza danych umożliwia także testowanie, czy dwie próbki pochodzą z tej

9 Oracle Statistical Functions 11g: statystyka dla dużych i małych 289 samej populacji, ew. czy dwie próbki są scharakteryzowane tym samym rozkładem. Należy przy tym zaznaczyć, że nie chodzi tu o sprawdzenie dopasowania do konkretnego rozkładu (jak w przypadku pakietu DBMS_STAT_FUNCS), a raczej sprawdzenie, czy dwie próbki mają ten sam dowolny rozkład. Oracle 11g oferuje test Manna-Whitneya zgodności rozkładów oraz test Kołmogorowa-Smirnowa zgodności rozkładów. Wreszcie, można uruchomić także test Wilcoxona do sprawdzenia, czy mediana różnic między próbkami jest istotnie różna od zera (ten test jest popularną alternatywą dla sparowanego testu t-studenta w sytuacji, gdy nie można zakładać, że badane próbki są opisane rozkładem normalnym). Poniżej zaprezentowano przykłady wykorzystania wybranych funkcji statystycznych. Pierwszy przykład pokazuje testowanie hipotezy dotyczącej średniej płacy pracowników (badamy, czy średnia pensja pracowników jest statystycznie istotnie różna od 2000). SQL> SELECT AVG(sal), STATS_T_TEST_ONE(sal, 2000, 'STATISTIC') t_statistic, STATS_T_TEST_ONE(sal, 2000,'TWO_SIDED_SIG') t_sig FROM emp; AVG(SAL) T_STATISTIC T_SIG Jak widać, niska wartość statystyki i duża istotność pozwalają na przyjęcie hipotezy, że średnia płaca pracowników nie jest istotnie różna od Kolejne zapytanie przedstawia weryfikację hipotezy o tym, czy średnia płaca pracowników jest istotnie różna od średniej płacy przełożonych. W tym celu należy się posłużyć sparowanym testem t-studenta. SQL> SELECT AVG(sal), AVG(mgr_sal), STATS_T_TEST_PAIRED(sal, mgr_sal, 'STATISTIC') t_statistic, STATS_T_TEST_PAIRED(sal, mgr_sal, 'TWO_SIDED_SIG') t_sig FROM ( SELECT e.sal, m.sal AS mgr_sal FROM emp e JOIN emp m ON (e.mgr = m.empno) ); AVG(SAL) AVG(MGR_SAL) T_STATISTIC T_SIG W tym przypadku bardzo niska wartość istotności (poniżej domyślnego poziomu istotności) pozwala jednoznacznie odrzucić hipotezę zerową o braku różnic między płacami pracowników i ich przełożonych. Następny przykład pokazuje użycie testu t-studenta w przypadku, gdy dysponujemy dwoma niezależnymi próbkami. Funkcja STATS_T_STAT_INDEP() pozwoli nam sprawdzić, czy istnieje istotna różnica między średnimi płacami dla dwóch wybranych etatów. SQL> SELECT (SELECT AVG(sal) FROM emp WHERE job='salesman') AS salesman_avg, (SELECT AVG(sal) FROM emp WHERE job='clerk') AS clerk_avg, t_statistic, t_sig FROM ( SELECT STATS_T_TEST_INDEP(job, sal, 'STATISTIC', 'SALESMAN') t_statistic, STATS_T_TEST_INDEP(job, sal, 'TWO_SIDED_SIG') t_sig FROM emp WHERE job IN ('SALESMAN','CLERK')); SALESMAN_AVG CLERK_AVG T_STATISTIC T_SIG

10 290 Mikołaj Morzy Wynik testu jest niejednoznaczny. Co prawda obserwowana istotność leży poniżej domyślnej wartości progowej (p = 0.05), ale jest na tyle blisko progu, że należy wykazać ostrożność przy decydowaniu o odrzuceniu hipotezy zerowej. Najprawdopodobniej należałoby wykonać dodatkowe testy, np. sprawdzić, czy badana cecha ma rozkład normalny (w przeciwnym wypadku należałoby się posłużyć innym testem na statystyczną istotność różnicy średnich). 4. Badanie korelacji Przykłady narzędzi przedstawionych w poprzednim rozdziale umożliwiały analizę pojedynczej cechy. W wielu aplikacjach interesujące jest zbadanie współzależności między dwoma lub więcej cechami. W takich przypadkach najczęściej wykorzystywaną techniką statystyczną jest badanie korelacji między zmiennymi. Baza danych Oracle 11g oferuje trzy różne metody badania korelacji między zmiennymi dostępne z poziomu funkcji języka SQL. Najpopularniejszym narzędziem jeśli chodzi o badanie korelacji jest bez wątpienia klasyczny współczynnik korelacji Pearsona, zdefiniowany jako Jest to iloraz kowariancji zmiennych i iloczynu odchyleń standardowych tych zmiennych. Współczynnik korelacji Pearsona przyjmuje wartości z przedziału, przy czym wartość -1 reprezentuje pełną ujemną zależność liniową między zmiennymi, wartość 0 oznacza brak zależności liniowej, zaś wartość 1 oznacza pełną dodatnią zależność liniową. Należy przy tym podkreślić, że wartość 0 nie pozwala stwierdzić, że między zmiennymi nie występuje żadna zależność. Oznacza ona jedynie brak występowania zależności liniowej. Do wyliczenia współczynnika korelacji służy w bazie danych Oracle 11g funkcja CORR() przedstawiona na poniższym przykładzie. SQL> SELECT CORR(sal, EXTRACT(YEAR FROM hiredate)) AS pearson_corr FROM emp; PEARSON_CORR Jak widać, między płacą pracownika a datą jego zatrudnienia nie występuje absolutnie żadna zależność liniowa. Poza współczynnikiem korelacji Pearsona baza danych Oracle 11g oferuje także dwie dodatkowe metody wyznaczania współzależności między zmiennymi. Korelacja rangowa jest realizowana za pomocą funkcji CORR_S(), która wylicza współczynnik korelacji ρ Spearmana. W przeciwieństwie do współczynnika korelacji Pearsona, współczynnik korelacji ρ Spearmana nie bierze pod uwagę wartości badanych zmiennych, a jedynie ich numer porządkowy w rankingu. W rezultacie, współczynnik korelacji ρ Spearmana informuje o istnieniu jakiejkolwiek zależności monotonicznej między zmiennymi (a nie jedynie zależności liniowej). Poniższy przykład pokazuje użycie korelacji rangowej. SQL> SELECT CORR_S(sal,DECODE(job,'PRESIDENT',5,'MANAGER',4,'ANALYST',3, 'SALESMAN',2, 'CLERK',1)) AS spearman_corr FROM emp; SPEARMAN_CORR Bardzo podobny do współczynnika korelacji ρ Spearmana jest współczynnik korelacji τ Kendalla. Jest to miara badająca zgodność par wartości analizowanych zmiennych, przy czym para obserwacji jest uważana za zgodną, jeśli większym wartościom jednej zmiennej odpowiadają

11 Oracle Statistical Functions 11g: statystyka dla dużych i małych 291 większe wartości drugiej zmiennej. W poniższym przykładzie zbadano, czy istnieje taki związek między płacą pracownika i procentowym zyskiem ze sprzedaży. SQL> SELECT CORR_K(sal, NVL(comm,0), 'COEFFICIENT') AS coeff, CORR_K(sal, NVL(comm,0), 'TWO_SIDED_SIG') AS sig FROM emp; COEFF SIG Ostatnia metoda badania współzależności między dwoma zmiennymi wykorzystuje test χ 2. Jest ona dostępna w bazie danych Oracle 11g pod postacią funkcji STATS_CROSSTAB(). Funkcja ta przyjmuje, jako parametry, nazwy badanych zmiennych, oraz trzeci argument definiujący zwracaną wartość. Funkcja może zwrócić obserwowaną wartość statystyki, istotność obserwowanej statystyki, liczbę stopni swobody rozkładu, ale także współczynnik ϕ lub współczynnik κ Cohena. Poniższy przykład pokazuje sposób odczytania wybranych wyników testu χ 2 SQL> SELECT STATS_CROSSTAB(sal, NVL(comm,0), 'CHISQ_OBS') AS chi_obs, STATS_CROSSTAB(sal, NVL(comm,0), 'CHISQ_SIG') AS chi_sig FROM emp; CHI_OBS CHI_SIG Regresja liniowa Ostatnią metodą statystyczną omawianą w niniejszym artykule jest regresja liniowa. Jest to bez wątpienia jedna z najpopularniejszych i najczęściej stosowanych technik statystycznych. W dużym uproszczeniu metoda regresji liniowej polega na znalezieniu zależności w postaci między zmienną objaśnianą y (zwaną także zmienną zależną) a zmienną objaśniającą x (zwaną także zmienną niezależną). Najczęściej do znalezienia konkretnych wartości współczynników a i b wykorzystuje się metodę najmniejszych kwadratów. Istnieją także bardziej złożone rodzaje zależności, które mogą być wykrywane za pomocą metod takich, jak regresja logarytmiczna, regresja logitowa, czy regresja wieloraka. W przypadku bazy danych Oracle 11g prosta regresja liniowa jest dostępna z poziomu funkcji języka SQL, natomiast bardziej zaawansowane modele można tworzyć przy wykorzystaniu opcji Oracle Data Mining (jest tam między innymi dostępny w postaci algorytmów Generalized Linear Models i Support Vector Machines). Poniższe zapytanie pokazuje sposób użycia prostych funkcji języka SQL do skonstruowania równania regresji. Wykorzystamy do tego celu funkcje REGR_SLOPE() i REGR_INTERCEPT(), zwracające wartości parametrów modelu a i b, odpowiednio. SQL> SELECT REGR_SLOPE(sal, EXTRACT (YEAR FROM sysdate) EXTRACT (YEAR FROM hiredate)) AS reg_slope, REGR_INTERCEPT(sal, EXTRACT (YEAR FROM sysdate) EXTRACT (YEAR FROM hiredate)) AS reg_intercept FROM emp; REG_SLOPE REG_INTERCEPT Wynik powyższego zapytania oznacza, że aby oszacować pensję pracownika, który przepracował 35 lat, należałoby skorzystać z formuły (w rzeczywistości w przypadku tabeli EMP proste wykreślenie zmiennej objaśnianej i objaśniającej dobitnie wskazuje, że pomiędzy nimi nie występuje żadna zależność liniowa i w tym przypadku użycie modelu regresji liniowej jest całkowicie nieuzasadnione.

12 292 Mikołaj Morzy 6. Podsumowanie W niniejszym artykule przedstawiono przegląd podstawowych narzędzi oferowanych przez bazę danych Oracle 11g do przetwarzania statystycznego. Omówione zostały podstawowe funkcje grupowe oraz funkcje analityczne, które umożliwiają wykonywanie zaawansowanych zapytań bezpośrednio z poziomu języka SQL. Dalej, przedstawiono zawartość pakietu DBMS_STAT_FUNCS który zawiera przede wszystkim procedury do testowania zgodności rozkładu badanej cechy z jednym z dobrze znanych rozkładów statystycznych. Baza danych Oracle 11g umożliwia także testowanie różnorakich hipotez, np. testowanie statystycznej istotności różnic średnich. Przykładowe zapytania zawarte w artykule prezentowały podstawowe funkcje SQL wykorzystywane do przeprowadzania testów parametrycznych i bezparametrycznych. W drugiej części artykułu skupiono się na narzędziach umożliwiających badanie korelacji między cechami i przedstawiono cztery różne funkcje realizujące to zadanie. Na koniec przedstawiono w dużym skrócie prostą metodę wyliczania współczynników regresji liniowej. Środowisko współczesnego systemu zarządzania bazą danych stanowi kompletne i bogate rozwiązanie dla przetwarzania statystycznego. Wiele zadań, w szczególności zadań nie wymagających najbardziej skomplikowanego aparatu statystycznego, może być z powodzeniem realizowane wewnątrz bazy danych, bez konieczności eksportowania danych do zewnętrznych specjalizowanych narzędzi. Dodatkowo, dostępność narzędzi statystycznych umożliwia prostą integrację modeli statystycznych w aplikacjach bazodanowych, co może zaowocować znaczącym wzrostem użyteczności tych aplikacji. Bibliografia [1] Hastie, T., Tibshirani, R., & Friedman, J. (2001). Elements of Statistical Learning. New York: Springer. [2] Koronacki, J., & Ćwik, J. (2005). Statystyczne systemy uczące się. Warszawa: Wydawnictwa Naukowo-Techniczne. [3] Koronacki, J., & Mielniczuk, J. (2001). Statystyka dla studentów kierunków technicznych i przyrodniczych. Warszawa: Wydawnictwa Naukowo-Techniczne. [4] Lorentz, D., & Roese, M. B. (2009). Oracle Database SQL Language Reference, 11g Release 2 (11.2). Oracle Corporation. [5] Raphaely, D. (2009). Oracle Database PL/SQL Packages and Types Reference, 11g Release 2 (11.2). Oracle Corporation.

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza

Bardziej szczegółowo

Analiza wariancji. dr Janusz Górczyński

Analiza wariancji. dr Janusz Górczyński Analiza wariancji dr Janusz Górczyński Wprowadzenie Powiedzmy, że badamy pewną populację π, w której cecha Y ma rozkład N o średniej m i odchyleniu standardowym σ. Powiedzmy dalej, że istnieje pewien czynnik

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski Statystyczna analiza danych w programie STATISTICA (wykład ) Dariusz Gozdowski Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW Weryfikacja (testowanie) hipotez statystycznych

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

Testy nieparametryczne

Testy nieparametryczne Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów

Bardziej szczegółowo

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie: ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2 STATYSTYKA I DOŚWIADCZALNICTWO Wykład Parametry przedziałowe rozkładów ciągłych określane na podstawie próby (przedziały ufności) Przedział ufności dla średniej s X t( α;n 1),X + t( α;n 1) n s n t (α;

Bardziej szczegółowo

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych dr Piotr Sulewski POMORSKA AKADEMIA PEDAGOGICZNA W SŁUPSKU KATEDRA INFORMATYKI I STATYSTYKI Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych Wprowadzenie Obecnie bardzo

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1. tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1

Bardziej szczegółowo

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej 7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej Definicja 1 n-elementowa losowa próba prosta nazywamy ciag n niezależnych zmiennych losowych o jednakowych rozkładach

Bardziej szczegółowo

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć: Wprowadzenie Statystyka opisowa to dział statystyki zajmujący się metodami opisu danych statystycznych (np. środowiskowych) uzyskanych podczas badania statystycznego (np. badań terenowych, laboratoryjnych).

Bardziej szczegółowo

Podstawy statystyki dla psychologów. Podręcznik akademicki. Wydanie drugie poprawione. Wiesław Szymczak

Podstawy statystyki dla psychologów. Podręcznik akademicki. Wydanie drugie poprawione. Wiesław Szymczak Podstawy statystyki dla psychologów. Podręcznik akademicki. Wydanie drugie poprawione. Wiesław Szymczak Autor prezentuje spójny obraz najczęściej stosowanych metod statystycznych, dodatkowo omawiając takie

Bardziej szczegółowo

Sposoby prezentacji problemów w statystyce

Sposoby prezentacji problemów w statystyce S t r o n a 1 Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki

Bardziej szczegółowo

Materiały szkoleniowe. Podstawy języka SQL

Materiały szkoleniowe. Podstawy języka SQL Materiały szkoleniowe Podstawy języka SQL Spis treści Zawartość tabel wykorzystywanych na kursie... 4 Zawartość tabeli DEPT...5 Zawartość tabeli EMP...5 Zawartość tabeli SALGRADE...5 Budowa tabel wykorzystywanych

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

ORACLE. System Zarządzania Bazą Danych Oracle. Oracle Advanced SQL

ORACLE. System Zarządzania Bazą Danych Oracle. Oracle Advanced SQL ORACLE System Zarządzania Bazą Danych Oracle Oracle Advanced SQL wersja 1.0 Politechnika Śląska 2008 Raportowanie z wykorzystaniem fraz rollup, cube Frazy cube, rollup, grouping sets umożliwiają rozszerzoną

Bardziej szczegółowo

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona Badanie zależności między cechami Obserwujemy dwie cechy: X oraz Y Obiekt (X, Y ) H 0 : Cechy X oraz Y są niezależne Próba: (X 1, Y 1 ),..., (X n, Y n ) Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności

Bardziej szczegółowo

Systemy GIS Tworzenie zapytań w bazach danych

Systemy GIS Tworzenie zapytań w bazach danych Systemy GIS Tworzenie zapytań w bazach danych Wykład nr 6 Analizy danych w systemach GIS Jak pytać bazę danych, żeby otrzymać sensowną odpowiedź......czyli podstawy języka SQL INSERT, SELECT, DROP, UPDATE

Bardziej szczegółowo

Analiza Statystyczna

Analiza Statystyczna Lekcja 5. Strona 1 z 12 Analiza Statystyczna Do analizy statystycznej wykorzystać można wbudowany w MS Excel pakiet Analysis Toolpak. Jest on instalowany w programie Excel jako pakiet dodatkowy. Oznacza

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Testowanie hipotez statystycznych Hipotezą statystyczną jest dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Prawdziwość tego przypuszczenia

Bardziej szczegółowo

S t a t y s t y k a, część 3. Michał Żmihorski

S t a t y s t y k a, część 3. Michał Żmihorski S t a t y s t y k a, część 3 Michał Żmihorski Porównanie średnich -test T Założenia: Zmienne ciągłe (masa, temperatura) Dwie grupy (populacje) Rozkład normalny* Równe wariancje (homoscedasticity) w grupach

Bardziej szczegółowo

Spis treści. Laboratorium III: Testy statystyczne. Inżynieria biomedyczna, I rok, semestr letni 2013/2014 Analiza danych pomiarowych

Spis treści. Laboratorium III: Testy statystyczne. Inżynieria biomedyczna, I rok, semestr letni 2013/2014 Analiza danych pomiarowych 1 Laboratorium III: Testy statystyczne Spis treści Laboratorium III: Testy statystyczne... 1 Wiadomości ogólne... 2 1. Krótkie przypomnienie wiadomości na temat testów statystycznych... 2 1.1. Weryfikacja

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin. Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Zadania analityczne (1) Analiza przewiduje badanie podobieństw

Bardziej szczegółowo

Przestrzenne bazy danych Podstawy języka SQL

Przestrzenne bazy danych Podstawy języka SQL Przestrzenne bazy danych Podstawy języka SQL Stanisława Porzycka-Strzelczyk porzycka@agh.edu.pl home.agh.edu.pl/~porzycka Konsultacje: wtorek godzina 16-17, p. 350 A (budynek A0) 1 SQL Język SQL (ang.structured

Bardziej szczegółowo

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski Narzędzia statystyczne i ekonometryczne Wykład 1 dr Paweł Baranowski Informacje organizacyjne Wydział Ek-Soc, pok. B-109 pawel@baranowski.edu.pl Strona: baranowski.edu.pl (w tym materiały) Konsultacje:

Bardziej szczegółowo

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW ODRZUCANIE WYNIKÓW OJEDYNCZYCH OMIARÓW W praktyce pomiarowej zdarzają się sytuacje gdy jeden z pomiarów odstaje od pozostałych. Jeżeli wykorzystamy fakt, że wyniki pomiarów są zmienną losową opisywaną

Bardziej szczegółowo

Wykład 10 (12.05.08). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego

Wykład 10 (12.05.08). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego Wykład 10 (12.05.08). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego Przykład Cena metra kwadratowego (w tys. zł) z dla 14 losowo wybranych mieszkań w

Bardziej szczegółowo

Laboratorium 10. Odkrywanie cech i algorytm Non-Negative Matrix Factorization.

Laboratorium 10. Odkrywanie cech i algorytm Non-Negative Matrix Factorization. Laboratorium 10 Odkrywanie cech i algorytm Non-Negative Matrix Factorization. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie

Bardziej szczegółowo

188 Funkcje analityczne

188 Funkcje analityczne Funkcje analityczne 188 Plan rozdziału 189 Wprowadzenie do funkcji analitycznych Funkcje rankingu Funkcje okna Funkcje raportujące Funkcje LAG/LEAD Funkcje FIRST/LAST Odwrotne funkcje percentyli Funkcje

Bardziej szczegółowo

TECHNOLOGIE BAZ DANYCH

TECHNOLOGIE BAZ DANYCH TECHNOLOGIE BAZ DANYCH WYKŁAD 3 Diagramy związków encji. Funkcje agregujące. (Wybrane materiały) Dr inż. E. Busłowska Copyright 2014-2015 E. Busłowska. 1 DIAGRAMY ZWIĄZKÓW ENCJI (DZE) Metoda graficznej

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Zadanie 1 Eksploracja (EXAMINE) Informacja o analizowanych danych Obserwacje Uwzględnione Wykluczone Ogółem

Bardziej szczegółowo

Sterowanie wielkością zamówienia w Excelu - cz. 3

Sterowanie wielkością zamówienia w Excelu - cz. 3 Sterowanie wielkością zamówienia w Excelu - cz. 3 21.06.2005 r. 4. Planowanie eksperymentów symulacyjnych Podczas tego etapu ważne jest określenie typu rozkładu badanej charakterystyki. Dzięki tej informacji

Bardziej szczegółowo

ANALIZA KORELACJI Korelacja między zmiennymi X i Y jest miarą siły liniowego związku między tymi zmiennymi.

ANALIZA KORELACJI Korelacja między zmiennymi X i Y jest miarą siły liniowego związku między tymi zmiennymi. ANALIZA KORELACJI Większość zjawisk w otaczającym nas świecie występuje nie samotnie a w różnorodnych związkach. Odnosi się to również do zjawisk biologiczno-medycznych. O powiązaniach między nimi mówią

Bardziej szczegółowo

Wykład XII. optymalizacja w relacyjnych bazach danych

Wykład XII. optymalizacja w relacyjnych bazach danych Optymalizacja wyznaczenie spośród dopuszczalnych rozwiązań danego problemu, rozwiązania najlepszego ze względu na przyjęte kryterium jakości ( np. koszt, zysk, niezawodność ) optymalizacja w relacyjnych

Bardziej szczegółowo

Statystyka. Tematyka wykładów. Przykładowe pytania. dr Tomasz Giętkowski www.krajobraz.ukw.edu.pl. wersja 20.01.2013/13:40

Statystyka. Tematyka wykładów. Przykładowe pytania. dr Tomasz Giętkowski www.krajobraz.ukw.edu.pl. wersja 20.01.2013/13:40 Statystyka dr Tomasz Giętkowski www.krajobraz.ukw.edu.pl wersja 20.01.2013/13:40 Tematyka wykładów 1. Definicja statystyki 2. Populacja, próba 3. Skale pomiarowe 4. Miary położenia (klasyczne i pozycyjne)

Bardziej szczegółowo

STATYSTYKA OD PODSTAW Z SYSTEMEM SAS. wersja 9.2 i 9.3. Szkoła Główna Handlowa w Warszawie

STATYSTYKA OD PODSTAW Z SYSTEMEM SAS. wersja 9.2 i 9.3. Szkoła Główna Handlowa w Warszawie STATYSTYKA OD PODSTAW Z SYSTEMEM SAS wersja 9.2 i 9.3 Szkoła Główna Handlowa w Warszawie Spis treści Wprowadzenie... 6 1. Podstawowe informacje o systemie SAS... 9 1.1. Informacje ogólne... 9 1.2. Analityka...

Bardziej szczegółowo

INFORMATYKA W SELEKCJI

INFORMATYKA W SELEKCJI INFORMATYKA W SELEKCJI INFORMATYKA W SELEKCJI - zagadnienia 1. Dane w pracy hodowlanej praca z dużym zbiorem danych (Excel) 2. Podstawy pracy z relacyjną bazą danych w programie MS Access 3. Systemy statystyczne

Bardziej szczegółowo

SPIS TREŚCI. Do Czytelnika... 7

SPIS TREŚCI. Do Czytelnika... 7 SPIS TREŚCI Do Czytelnika.................................................. 7 Rozdział I. Wprowadzenie do analizy statystycznej.............. 11 1.1. Informacje ogólne..........................................

Bardziej szczegółowo

Ćwiczenie 3 funkcje agregujące

Ćwiczenie 3 funkcje agregujące Ćwiczenie 3 funkcje agregujące Funkcje agregujące, klauzule GROUP BY, HAVING Ćwiczenie 3 funkcje agregujące Celem ćwiczenia jest zaprezentowanie zagadnień dotyczących stosowania w zapytaniach języka SQL

Bardziej szczegółowo

Zastosowanie Excela w matematyce

Zastosowanie Excela w matematyce Zastosowanie Excela w matematyce Komputer w dzisiejszych czasach zajmuje bardzo znamienne miejsce. Trudno sobie wyobrazić jakąkolwiek firmę czy instytucję działającą bez tego urządzenia. W szkołach pierwsze

Bardziej szczegółowo

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1 Zadanie 1 a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1 b) W naszym przypadku populacja są inżynierowie w Tajlandii. Czy można jednak przypuszczać, że na zarobki kobiet-inżynierów

Bardziej szczegółowo

Statystyczna analiza danych

Statystyczna analiza danych Statystyczna analiza danych Marek Ptak 21 października 2013 Marek Ptak Statystyka 21 października 2013 1 / 70 Część I Wstęp Marek Ptak Statystyka 21 października 2013 2 / 70 LITERATURA A. Łomnicki, Wprowadzenie

Bardziej szczegółowo

Instytut Matematyczny Uniwersytet Wrocławski. Zakres egzaminu magisterskiego. Wybrane rozdziały anazlizy i topologii 1 i 2

Instytut Matematyczny Uniwersytet Wrocławski. Zakres egzaminu magisterskiego. Wybrane rozdziały anazlizy i topologii 1 i 2 Instytut Matematyczny Uniwersytet Wrocławski Zakres egzaminu magisterskiego Wybrane rozdziały anazlizy i topologii 1 i 2 Pojęcia, fakty: Definicje i pojęcia: metryka, iloczyn skalarny, norma supremum,

Bardziej szczegółowo

4.2. Statystyczne opracowanie zebranego materiału

4.2. Statystyczne opracowanie zebranego materiału 4.2. Statystyczne opracowanie zebranego materiału Zebrany i pogrupowany materiał badawczy należy poddać analizie statystycznej w celu dokonania pełnej i szczegółowej charakterystyki interesujących badacza

Bardziej szczegółowo

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW Dwuczynnikowa analiza wariancji (2-way

Bardziej szczegółowo

Outlier to dana (punkt, obiekt, wartośd w zbiorze) znacznie odstająca od reszty. prezentacji punktów odstających jest rysunek poniżej.

Outlier to dana (punkt, obiekt, wartośd w zbiorze) znacznie odstająca od reszty. prezentacji punktów odstających jest rysunek poniżej. Temat: WYKRYWANIE ODCHYLEO W DANYCH Outlier to dana (punkt, obiekt, wartośd w zbiorze) znacznie odstająca od reszty. prezentacji punktów odstających jest rysunek poniżej. Przykładem Box Plot wygodną metodą

Bardziej szczegółowo

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie. SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:

Bardziej szczegółowo

POLITECHNIKA WARSZAWSKA

POLITECHNIKA WARSZAWSKA POLITECHNIKA WARSZAWSKA WYDZIAŁ BUDOWNICTWA, MECHANIKI I PETROCHEMII INSTYTUT INŻYNIERII MECHANICZNEJ STATYSTYCZNA KONTROLA PROCESU (SPC) Ocena i weryfikacja statystyczna założeń przyjętych przy sporządzaniu

Bardziej szczegółowo

Statystyczne metody analizy danych

Statystyczne metody analizy danych Statystyczne metody analizy danych Statystyka opisowa Wykład I-III Agnieszka Nowak - Brzezińska Definicje Statystyka (ang.statistics) - to nauka zajmująca się zbieraniem, prezentowaniem i analizowaniem

Bardziej szczegółowo

Wykorzystanie funkcji powiązań do pomiaru ryzyka rynkowego. Katarzyna Kuziak

Wykorzystanie funkcji powiązań do pomiaru ryzyka rynkowego. Katarzyna Kuziak Wykorzystanie funkcji powiązań do pomiaru ryzyka rynkowego Katarzyna Kuziak Cel: łączenie różnych rodzajów ryzyka rynkowego za pomocą wielowymiarowej funkcji powiązań 2 Ryzyko rynkowe W pomiarze ryzyka

Bardziej szczegółowo

SQL (ang. Structured Query Language)

SQL (ang. Structured Query Language) SQL (ang. Structured Query Language) SELECT pobranie danych z bazy, INSERT umieszczenie danych w bazie, UPDATE zmiana danych, DELETE usunięcie danych z bazy. Rozkaz INSERT Rozkaz insert dodaje nowe wiersze

Bardziej szczegółowo

Laboratorium nr 5. Temat: Funkcje agregujące, klauzule GROUP BY, HAVING

Laboratorium nr 5. Temat: Funkcje agregujące, klauzule GROUP BY, HAVING Laboratorium nr 5 Temat: Funkcje agregujące, klauzule GROUP BY, HAVING Celem ćwiczenia jest zaprezentowanie zagadnień dotyczących stosowania w zapytaniach języka SQL predefiniowanych funkcji agregujących.

Bardziej szczegółowo

kod nr w planie ECTS Przedmiot studiów PODSTAWY STATYSTYKI 7 2

kod nr w planie ECTS Przedmiot studiów PODSTAWY STATYSTYKI 7 2 kod nr w planie ECTS Przedmiot studiów PODSTAWY STATYSTYKI 7 2 Kierunek Turystyka i Rekreacja Poziom kształcenia II stopień Rok/Semestr 1/2 Typ przedmiotu (obowiązkowy/fakultatywny) obowiązkowy y/ ćwiczenia

Bardziej szczegółowo

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji. Ćwiczenie: Wybrane zagadnienia z korelacji i regresji. W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Guillforda Przedział Zależność Współczynnik [0,00±0,20)

Bardziej szczegółowo

Spis treści. LaboratoriumV: Podstawy korelacji i regresji. Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

Spis treści. LaboratoriumV: Podstawy korelacji i regresji. Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych 1 LaboratoriumV: Podstawy korelacji i regresji Spis treści Laboratorium V: Podstawy korelacji i regresji...1 Wiadomości ogólne...2 1. Wstęp teoretyczny....2 1.1 Korelacja....2 1.2 Funkcja regresji....5

Bardziej szczegółowo

Zadanie 2.Na III roku bankowości złożonym z 20 studentów i 10 studentek przeprowadzono test pisemny ze statystyki. Oto wyniki w obu podgrupach.

Zadanie 2.Na III roku bankowości złożonym z 20 studentów i 10 studentek przeprowadzono test pisemny ze statystyki. Oto wyniki w obu podgrupach. Zadanie 1.Wiadomo, że dominanta wagi tuczników jest umiejscowiona w przedziale [120 kg, 130 kg] i wynosi 122,5 kg. Znane są również liczebności przedziałów poprzedzającego i następnego po przedziale dominującym:

Bardziej szczegółowo

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej Paweł Cibis pawel@cibis.pl 23 lutego 2007 1 Regresja liniowa 2 wzory funkcje 3 Korelacja liniowa

Bardziej szczegółowo

Model procesu dydaktycznego

Model procesu dydaktycznego Model procesu dydaktycznego w zakresie Business Intelligence Zenon Gniazdowski 1,2), Andrzej Ptasznik 1) 1) Warszawska Wyższa Szkoła Informatyki, ul. Lewartowskiego 17, Warszawa 2) Instytut Technologii

Bardziej szczegółowo

Wprowadzenie 2010-10-20

Wprowadzenie 2010-10-20 PODSTAWY STATYSTYKI Dr hab. inż. Piotr Konieczka piotr.konieczka@pg.gda.pl 1 Wprowadzenie Wynik analityczny to efekt przeprowadzonego pomiaru(ów). Pomiar to zatem narzędzie wykorzystywane w celu uzyskania

Bardziej szczegółowo

Analiza Współzależności

Analiza Współzależności Statystyka Opisowa z Demografią oraz Biostatystyka Analiza Współzależności Aleksander Denisiuk denisjuk@euh-e.edu.pl Elblaska Uczelnia Humanistyczno-Ekonomiczna ul. Lotnicza 2 82-300 Elblag oraz Biostatystyka

Bardziej szczegółowo

Podstawowe operacje i rodzaje analiz dostępne w pakiecie Statistica

Podstawowe operacje i rodzaje analiz dostępne w pakiecie Statistica Podstawowe operacje i rodzaje analiz dostępne w pakiecie Statistica 1. Zarządzanie danymi. Pierwszą czynnością w pracy z pakietem Statistica jest zazwyczaj wprowadzenie danych do arkusza. Oprócz możliwości

Bardziej szczegółowo

metoda momentów, Wartość oczekiwana (pierwszy moment) dla zmiennej o rozkładzie γ(α, λ) to E(X) = αλ, drugi moment (wariancja) to

metoda momentów, Wartość oczekiwana (pierwszy moment) dla zmiennej o rozkładzie γ(α, λ) to E(X) = αλ, drugi moment (wariancja) to 3.1 Wprowadzenie do estymacji Ile mamy czerwonych krwinek w krwi? Ile karpi żyje w odrze? Ile ton trzody chlewnej będzie wyprodukowane w przyszłym roku? Ile białych samochodów jeździ ulicami Warszawy?

Bardziej szczegółowo

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota Ekonometria ćwiczenia 3 Prowadzący: Sebastian Czarnota Strona - niezbędnik http://sebastianczarnota.com/sgh/ Normalność rozkładu składnika losowego Brak normalności rozkładu nie odbija się na jakości otrzymywanych

Bardziej szczegółowo

Temat: Arkusze kalkulacyjne. Program Microsoft Office Excel. Podstawy

Temat: Arkusze kalkulacyjne. Program Microsoft Office Excel. Podstawy Temat: Arkusze kalkulacyjne. Program Microsoft Office Excel. Podstawy Arkusz kalkulacyjny to program przeznaczony do wykonywania różnego rodzaju obliczeń oraz prezentowania i analizowania ich wyników.

Bardziej szczegółowo

Statystyka i Analiza Danych

Statystyka i Analiza Danych Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014 Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych Janusz Wątroba StatSoft Polska Centrum Zastosowań Matematyki -

Bardziej szczegółowo

2008-03-18 wolne wolne 2008-03-25 wolne wolne

2008-03-18 wolne wolne 2008-03-25 wolne wolne PLAN SPOTKAŃ ĆWICZEŃ: Data Grupa 2a Grupa 4a Grupa 2b Grupa 4b 2008-02-19 Zajęcia 1 Zajęcia 1 2008-02-26 Zajęcia 1 Zajęcia 1 2008-03-04 Zajęcia 2 Zajęcia 2 2008-03-11 Zajęcia 2 Zajęcia 2 2008-03-18 wolne

Bardziej szczegółowo

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl Wprowadzenie Podstawowe cele analizy zbiorów danych Uogólniony opis poszczególnych

Bardziej szczegółowo

PRZEWODNIK PO PRZEDMIOCIE

PRZEWODNIK PO PRZEDMIOCIE Nazwa przedmiotu: Kierunek: Statystyka komputerowa Computer statistics Zarządzanie i Inżynieria Produkcji Management and Engineering of Production Rodzaj przedmiotu: Fakultatywny - oferta Poziom studiów:

Bardziej szczegółowo

Pytanie: Kiedy do testowania hipotezy stosujemy test F (Fishera-Snedecora)?

Pytanie: Kiedy do testowania hipotezy stosujemy test F (Fishera-Snedecora)? Pytanie: Kiedy do testowania hipotezy stosujemy test F (Fishera-Snedecora)? Gdy: badana cecha jest mierzalna (ewentualnie policzalna); dysponujemy dwoma próbami; chcemy porównać, czy wariancje w tych próbach

Bardziej szczegółowo

Własności estymatora parametru lambda transformacji potęgowej. Janusz Górczyński, Andrzej Zieliński, Wojciech Zieliński

Własności estymatora parametru lambda transformacji potęgowej. Janusz Górczyński, Andrzej Zieliński, Wojciech Zieliński Własności estymatora parametru lambda transformacji potęgowej Janusz Górczyński, Andrzej Zieliński, Wojciech Zieliński 1. Wstęp Najczęstszym powodem transformowania zmiennej losowej jest jej normalizacja,

Bardziej szczegółowo

REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym.

REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym. REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym. Zadanie 1 W celu ustalenia zależności między liczbą braków a wielkością produkcji części

Bardziej szczegółowo

Testy t-studenta są testami różnic pomiędzy średnimi czyli służą do porównania ze sobą dwóch średnich

Testy t-studenta są testami różnic pomiędzy średnimi czyli służą do porównania ze sobą dwóch średnich Testy t-studenta są testami różnic pomiędzy średnimi czyli służą do porównania ze sobą dwóch średnich Zmienne muszą być zmiennymi ilościowym (liczymy i porównujemy średnie!) Są to testy parametryczne Nazwa

Bardziej szczegółowo

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl Wprowadzenie Podstawowe cele analizy zbiorów danych Uogólniony opis poszczególnych

Bardziej szczegółowo

STATYSTYKA wykład 5-6

STATYSTYKA wykład 5-6 TATYTYKA wykład 5-6 Twierdzenia graniczne Rozkłady statystyk z próby Wanda Olech Twierdzenia graniczne Jeżeli rozpatrujemy ciąg zmiennych losowych {X ; X ;...; X n }, to zdarza się, że ich rozkłady przy

Bardziej szczegółowo

WYDZIAŁ PODSTAWOWYCH PROBLEMÓW TECHNIKI KARTA PRZEDMIOTU

WYDZIAŁ PODSTAWOWYCH PROBLEMÓW TECHNIKI KARTA PRZEDMIOTU Zał. nr 4 do ZW WYDZIAŁ PODSTAWOWYCH PROBLEMÓW TECHNIKI KARTA PRZEDMIOTU Nazwa w języku polskim STATYSTYCZNA ANALIZA DANYCH Nazwa w języku angielskim STATISTICAL DATA ANALYSIS Kierunek studiów (jeśli dotyczy):

Bardziej szczegółowo

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA Zadanie 0.1 Zmienna losowa X ma rozkład określony funkcją prawdopodobieństwa: x k 0 4 p k 1/3 1/6 1/ obliczyć EX, D X. (odp. 4/3;

Bardziej szczegółowo

Parametry statystyczne

Parametry statystyczne I. MIARY POŁOŻENIA charakteryzują średni lub typowy poziom wartości cechy, wokół nich skupiają się wszystkie pozostałe wartości analizowanej cechy. I.1. Średnia arytmetyczna x = x 1 + x + + x n n = 1 n

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Przykład. Producent pewnych detali twierdzi, że wadliwość jego produkcji nie przekracza 2%. Odbiorca pewnej partii tego produktu chce sprawdzić, czy może wierzyć producentowi.

Bardziej szczegółowo

ANALIZA STATYSTYCZNA WYNIKÓW BADAŃ

ANALIZA STATYSTYCZNA WYNIKÓW BADAŃ ANALIZA STATYSTYCZNA WYNIKÓW BADAŃ Dopasowanie rozkładów Dopasowanie rozkładów- ogólny cel Porównanie średnich dwóch zmiennych 2 zmienne posiadają rozkład normalny -> test parametryczny (t- studenta) 2

Bardziej szczegółowo

Bazy danych wykład dwunasty. dwunasty Wykonywanie i optymalizacja zapytań SQL 1 / 36

Bazy danych wykład dwunasty. dwunasty Wykonywanie i optymalizacja zapytań SQL 1 / 36 Bazy danych wykład dwunasty Wykonywanie i optymalizacja zapytań SQL Konrad Zdanowski Uniwersytet Kardynała Stefana Wyszyńskiego, Warszawa dwunasty Wykonywanie i optymalizacja zapytań SQL 1 / 36 Model kosztów

Bardziej szczegółowo

Etapy modelowania ekonometrycznego

Etapy modelowania ekonometrycznego Etapy modelowania ekonometrycznego jest podstawowym narzędziem badawczym, jakim posługuje się ekonometria. Stanowi on matematyczno-statystyczną formę zapisu prawidłowości statystycznej w zakresie rozkładu,

Bardziej szczegółowo

Quick Launch Manual:

Quick Launch Manual: egresja Odds atio Quick Launch Manual: regresja logistyczna i odds ratio Uniwesytet Warszawski, Matematyka 28.10.2009 Plan prezentacji egresja Odds atio 1 2 egresja egresja logistyczna 3 Odds atio 4 5

Bardziej szczegółowo

Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu - metodologia badań

Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu - metodologia badań Raport 1/2015 Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu - metodologia badań autor: Michał Osmoła INIME Instytut nauk informatycznych i matematycznych z zastosowaniem

Bardziej szczegółowo

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007 Modele regresji wielorakiej - dobór zmiennych, szacowanie Paweł Cibis pawel@cibis.pl 1 kwietnia 2007 1 Współczynnik zmienności Współczynnik zmienności wzory Współczynnik zmienności funkcje 2 Korelacja

Bardziej szczegółowo

ZALICZENIA. W celu uzyskania zaliczenia należy wybrać jeden z trzech poniższych wariantów I, II lub III

ZALICZENIA. W celu uzyskania zaliczenia należy wybrać jeden z trzech poniższych wariantów I, II lub III ZALICZENIA W celu uzyskania zaliczenia należy wybrać jeden z trzech poniższych wariantów I, II lub III 1 Wariant I. PROBLEM WŁASNY Sformułować własne zadanie statystyczne związane z własną pracą badawczą

Bardziej szczegółowo

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty

Bardziej szczegółowo

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Regresja wielokrotna Model dla zależności liniowej: Y=a+b 1 X 1 +b 2 X 2 +...+b n X n Cząstkowe współczynniki regresji wielokrotnej: b 1,..., b n Zmienne niezależne (przyczynowe): X 1,..., X n Zmienna

Bardziej szczegółowo

Satysfakcja z życia rodziców dzieci niepełnosprawnych intelektualnie

Satysfakcja z życia rodziców dzieci niepełnosprawnych intelektualnie Satysfakcja z życia rodziców dzieci niepełnosprawnych intelektualnie Zadanie Zbadano satysfakcję z życia w skali 1 do 10 w dwóch grupach rodziców: a) Rodzice dzieci zdrowych oraz b) Rodzice dzieci z niepełnosprawnością

Bardziej szczegółowo

Matematyka ubezpieczeń majątkowych 1.10.2012 r.

Matematyka ubezpieczeń majątkowych 1.10.2012 r. Zadanie. W pewnej populacji każde ryzyko charakteryzuje się trzema parametrami q, b oraz v, o następującym znaczeniu: parametr q to prawdopodobieństwo, że do szkody dojdzie (może zajść co najwyżej jedna

Bardziej szczegółowo

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy MODEL REGRESJI LINIOWEJ. METODA NAJMNIEJSZYCH KWADRATÓW Analiza regresji zajmuje się badaniem zależności pomiędzy interesującymi nas wielkościami (zmiennymi), mające na celu konstrukcję modelu, który dobrze

Bardziej szczegółowo

Wielkość dziennego obrotu w tys. zł. (y) Liczba ekspedientek (x) 6 2 4 5,5 6,6

Wielkość dziennego obrotu w tys. zł. (y) Liczba ekspedientek (x) 6 2 4 5,5 6,6 Zad. 1. Zbadano wydajność odmiany pomidorów na 100 poletkach doświadczalnych. W wyniku przeliczeń otrzymano przeciętną wydajność na w tonach na hektar x=30 i s 2 x =7. Przyjmując, że rozkład plonów pomidora

Bardziej szczegółowo

1. Język T SQL wprowadzenie do tworzenia zapytań i modyfikowania bazy danych

1. Język T SQL wprowadzenie do tworzenia zapytań i modyfikowania bazy danych 1. Język T SQL wprowadzenie do tworzenia zapytań i modyfikowania bazy danych Opracował: Sławomir Samolej, Andrzej Bożek Politechnika Rzeszowska, Katedra Informatyki i Automatyki, Rzeszów, 2008. 1.1. Wprowadzenie

Bardziej szczegółowo

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2012/2013

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2012/2013 Krakowska Akademia im. Andrzeja Frycza Modrzewskiego Karta przedmiotu obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 01/01 Wydział Prawa, Administracji i Stosunków Miedzynarodowych Kierunek

Bardziej szczegółowo

Kierunek i poziom studiów: Biologia, poziom drugi Sylabus modułu: Metody statystyczne w naukach przyrodniczych

Kierunek i poziom studiów: Biologia, poziom drugi Sylabus modułu: Metody statystyczne w naukach przyrodniczych Uniwersytet Śląski w Katowicach str. 1 Kierunek i poziom studiów: Biologia, poziom drugi Sylabus modułu: Metody statystyczne w naukach przyrodniczych kod modułu: 2BL_02 1. Informacje ogólne koordynator

Bardziej szczegółowo