Bazy danych. Andrzej Łachwa, UJ, /15

Podobne dokumenty
Poznaj Firebird w dwie minuty (fragmenty artykułu Carlosa H. Cantu)

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

1 Podstawy rachunku prawdopodobieństwa

Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia

Wykład 05 Bazy danych

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

Bazy danych. dr inż. Arkadiusz Mirakowski

Grupowanie i funkcje agregujące

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Wykład 3. Opis struktury zbiorowości. 1. Parametry opisu rozkładu badanej cechy. 3. Średnia arytmetyczna. 4. Dominanta. 5. Kwantyle.

Zmienne losowe. Statystyka w 3

SQL (ang. Structured Query Language)

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Agregacja i Grupowanie Danych. Funkcje Agregacji. Opcje GROUP BY oraz HAVING

Przestrzenne bazy danych Podstawy języka SQL

Wykład 4: Statystyki opisowe (część 1)

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Konstruowanie Baz Danych DQL agregacja danych

Statystyka. Opisowa analiza zjawisk masowych

Plan. Wyświetlanie n początkowych wartości (TOP n) Użycie funkcji agregujących. Grupowanie danych - klauzula GROUP BY

Statystyka. Wykład 2. Magdalena Alama-Bućko. 27 lutego Magdalena Alama-Bućko Statystyka 27 lutego / 39

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Informatyka (5) SQL. dr inż. Katarzyna Palikowska Katedra Transportu Szynowego p. 4 Hydro

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Przykłady najlepiej wykonywać od razu na bazie i eksperymentować z nimi.

Statystyczne metody analizy danych

ACESS- zadania z wykorzystaniem poleceń SQL

Paweł Rajba

Wykład 8. SQL praca z tabelami 5

a) ile wynosiła populacja najbardziej i najmniej ludnego z województw (oraz jakie były ich nazwy)

SQL praca z tabelami 4. Wykład 7

Perspektywy Stosowanie perspektyw, tworzenie perspektyw prostych i złożonych, perspektywy modyfikowalne i niemodyfikowalne, perspektywy wbudowane.

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

Rachunek prawdopodobieństwa i statystyka

Ćwiczenia laboratoryjne nr 11 Bazy danych i SQL.

Miary statystyczne w badaniach pedagogicznych

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

Bazy Danych - Instrukcja do Ćwiczenia laboratoryjnego nr 8

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

Parametry statystyczne

CREATE TABLE logika (p BOOLEAN); INSERT INTO logika VALUES(true); INSERT INTO logika VALUES(false); INSERT INTO logika VALUES(NULL);

Relacyjne bazy danych. Podstawy SQL

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

METODY BADAŃ NA ZWIERZĘTACH ze STATYSTYKĄ wykład 3-4. Parametry i wybrane rozkłady zmiennych losowych

Wykład 6. SQL praca z tabelami 3

Język SQL. Rozdział 10. Perspektywy Stosowanie perspektyw, tworzenie perspektyw prostych i złożonych, perspektywy modyfikowalne i niemodyfikowalne.

Język SQL. Rozdział 4. Funkcje grupowe Funkcje grupowe, podział relacji na grupy, klauzule GROUP BY i HAVING.

Laboratorium 3 - statystyka opisowa

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

BAZY DANYCH wprowadzenie do języka SQL. Opracował: dr inż. Piotr Suchomski

Autor: Joanna Karwowska

Systemy GIS Tworzenie zapytań w bazach danych

Autor: Joanna Karwowska

Widok Connections po utworzeniu połączenia. Obszar roboczy

1 DML - zapytania, część II Grupowanie Operatory zbiorowe DML - modyfikacja 7. 3 DCL - sterowanie danymi 9.

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Rachunek prawdopodobieństwa i statystyka

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

Wykład 7 Implementacja języka SQL w systemach baz danych Oracle sortowanie, funkcje agregujące i podzapytania.

W1. Wprowadzenie. Statystyka opisowa

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

Relacyjne bazy danych. Podstawy SQL

Komputerowa analiza danych doświadczalnych

Bazy danych 10. SQL Widoki

Język SQL, zajęcia nr 2

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Bazy danych SQL Server 2005

Bazy danych - Materiały do laboratoriów IV

77. Modelowanie bazy danych rodzaje połączeń relacyjnych, pojęcie klucza obcego.

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Przykładowa baza danych BIBLIOTEKA

Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna.

Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy)

Jerzy Nawrocki, Wprowadzenie do informatyki

Podstawy języka SQL. standardy SQL formułowanie zapytań operacje na strukturach danych manipulowanie danymi. Bazy danych s.5-1

Ćwiczenie zapytań języka bazy danych PostgreSQL

Bazy danych 6. Podzapytania i grupowanie. P. F. Góra

P o d s t a w y j ę z y k a S Q L

Analiza struktury i przeciętnego poziomu cechy

Wykład 5: Statystyki opisowe (część 2)

PODZAPYTANIE (SUBSELECT)

Podstawy języka SQL. SQL Structured Query Languagestrukturalny

SELECT * FROM tabela WHERE warunek wybiera dane spełniające podany warunek

Bazy danych. Andrzej Grzybowski. Instytut Fizyki, Uniwersytet Śląski

Kolokwium ze statystyki matematycznej

Laboratorium 13. Eksploracja danych tekstowych.

Outlier to dana (punkt, obiekt, wartośd w zbiorze) znacznie odstająca od reszty. prezentacji punktów odstających jest rysunek poniżej.

Wykład 3. Rozkład normalny

Laboratorium 10. Odkrywanie cech i algorytm Non-Negative Matrix Factorization.

EGZAMIN MATURALNY Z INFORMATYKI WYBRANE: ... (system operacyjny) ... (program użytkowy) ... (środowisko programistyczne)

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

SQL do zaawansowanych analiz danych część 1.

Transkrypt:

Bazy danych Andrzej Łachwa, UJ, 2013 andrzej.lachwa@uj.edu.pl www.uj.edu.pl/web/zpgk/materialy 6/15

Statystyki w języku SQL W różnych produktach SQL spotkamy rozmaite funkcje wbudowane ułatwiające analizy statystyczne. Jeżeli nie zależy nam na przenośności kodu, to lepiej użyć funkcji wbudowanych.

Zacznijmy od najprostszych statystyk (dla bazy World): select c.continent, count(c.continent) as frequency, round(100.0*(count(c.continent))/ (select count(*) from country),2) as percent from country as c group by continent; create temporary table statistics as select c.continent, count(c.continent) frequency, round(100.0*(count(c.continent))/ (select count(*) from country),2) as percent from country as c group by continent order by percent desc;

select continent,stat.frequency, (select sum(s.frequency) from stats as s where s.frequency>=stat.frequency) as cumulative from stats as stat;

select continent, stat.frequency, percent, (select sum(s.percent) from stats as s where s.percent>=stat.percent) as cum_percent from stats as stat;

Wartość modalna Wartość modalna to wartość najczęściej pojawiająca się w zbiorze (jeśli są takie dwie wartości, to mówimy że rozkład jest dwumodalny, podobnie trzymodalny etc.). Wykonajmy to zapytanie w kilku krokach:

Wartość modalna jest słabą statystyką. Na przykład 1. gdy liczymy modalne pobory wśród pracowników, to dokładna wartość tej zmiennej nie jest dobra lepiej dopuścić kilkuprocentowe odchylenie: having count(*)>= all (select count(*)*0.95 from 2. gdy dwie częstości są blisko siebie to dobrym rozwiązaniem jest dopuszczenie odchylenia k wartości

Wartość średnia

Mediana Jest to wartość, dla której jest dokładnie tyle samo elementów o wartościach od niej niższych, co elementów o wartościach od niej wyższych. Jeśli taka wartość istnieje w zbiorze danych to nazywamy ją medianą statystyczną, jeżeli nie, to oblicza się medianę finansową. Zbiór danych dzieli się wtedy na dwa równoliczne, tak by elementy pierwszego były mniejsze od elementów drugiego, następnie oblicza się średnią między maksimum pierwszego i minimum drugiego. Inne nazwy: wartość środkowa, wartość przeciętna. Z medianą statystyczną jest problem, gdy wartości środkowych jest kilka (wskazany wyżej podział jest wówczas niemożliwy).

Kwartyle Kwartyle dzielą wszystkie obserwacje na cztery równe co do ilości grupy.kwartyl pierwszy (Q1) dzieli obserwacje w stosunku 25% do 75%, co oznacza, że 25% obserwacji jest niższa bądź równa wartości Q1, a 75% obserwacji jest równa bądź większa niż Q1. Kwartyl drugi (Q2), inaczej zwany medianą(!), dzieli obserwacje na dwie części w stosunku 50% do 50%. Kwartyl trzeci (Q3) dzieli obserwacje w stosunku 75% do 25%, co oznacza, że 75% obserwacji jest niższa bądź równa wartości Q3, a 25% obserwacji jest równa bądź większa niż Q3. Odchylenie ćwiartkowe (Q), to połowa różnicy między trzecim a pierwszym kwartylem.

Kwantyle Kwantylem rzędu p z przedziału (0,1) jest taka wartość xp zmiennej losowej, że wartości xp są przyjmowane z prawdopodobieństwem co najmniej p, a wartości xp są przyjmowane z prawdopodobieństwem co najmniej 1 p. Kwantyl rzędu ½ to inaczej mediana. Kwantyle rzędu ¼, 2 /4, 3 /4 to kwartyle Kwantyle rzędu ⅕, ⅖, ⅗, ⅘ to kwintyle. Kwantyle rzędu 1 /10, 2 /10, to decyle.

Przykład

Pierwsza mediana Date'a 2 2 2 3 6 6 6 7 9 12 12 4 17 2 30 2 2 2 2 3 4 6 6 6 7 9 12 12 17 30

2 2 2 2 3 4 6 6 6 7 9 12 12 17 30 30 130 104 105 a teraz dodam 4 i powinno być 2 2 2 2 3 4 4 6 6 6 7 9 12 12 17 30 30 130 104 105 6.5

skrypt.txt insert into foo(bar) value (4); drop view foo1; drop view foo2; create view foo1 as select bar from foo union all select bar from foo; create view foo2 as select bar from foo1 where (select count(*) from foo)<= (select count(*) from foo1 as f1 where f1.bar>=foo1.bar) and (select count(*) from foo)<= (select count(*) from foo1 as f2 where f2.bar<=foo1.bar); select avg(distinct bar) as median from foo2;

Pierwsza mediana Celko Liczymy osobno najmniejszą wartość w górnej połowie i największą wartość w dolnej połowie. Operacja grupowania przebiega po wszystkich wierszach tabeli F1 i dlatego należy tabelę FOO uzupełnić o klucz ID:

Tabela krzyżowa Tworzymy tabelę pomocniczą a następnie połaczymy ją z tabelą danych sprzedaży z czterech lat od 2003 do 2006.