Grupowanie i funkcje agregacji

Grupowanie i funkcje agregacji Funkcje agregujące: COUNT([DISTINCT] wyrażenie *), MIN(wyrażenie), MAX(wyrażenie), SUM([DISTINCT] wyrażenie), AVG([DISTINCT] wyrażenie). Klauzula GROUP BY Grupowanie polega na podzieleniu zbioru wierszy na grupy, które mają pewną wspólną cechę. Grupowania dokonuje się w celu zastosowania funkcji agregujących nie w stosunku do całego zbioru wierszy, ale do poszczególnych grup wierszy. W celu zgrupowania rekordów należy dodać klauzulę GROUP BY oraz kolumny lub wyrażenia, według których mają być pogrupowane wiersze. Na liście klauzuli SELECT mogą się znaleźć tylko kolumny i wyrażenia, według których zapytanie jest grupowane, oraz wywołania funkcji agregujących.

Grupowanie z użyciem rollup Dodanie słowa kluczowego rollup do group by spowoduje wyświetlenie podsumowań dla każdej grupy. SELECT department_id,manager_id, SUM(salary) FROM employees GROUP BY ROLLUP(department_id, manager_id); W tym przykładzie wyświetlamy sumy zarobków pracowników podległych pod każdego managera, ale równocześnie wyświetlamy podsumowanie zarobków pracowników każdego działu, jak również sumę zarobków wszystkich pracowników. Uwaga. W wierszach zawierających podsumowania dla działów w kolumnie manager_id mamy NULL. Podobnie w wierszu zawierającym podsumowanie całej tabeli występuje NULL w kolumnach manager_id i department_id.

Grupowanie z użyciem cube Dodanie słowa kluczowego cube do group by spowoduje wyświetlenie podsumowań dla wszystkich możliwych kombinacji wybranych kolumn. SELECT department_id,manager_id, SUM(salary) FROM employees GROUP BY CUBE(department_id, manager_id); W tym przykładzie wyświetlamy sumy zarobków pracowników podległych pod każdego managera, ale równocześnie wyświetlamy podsumowanie zarobków pracowników każdego działu, pracowników podległych pod każdego managera, jak również sumę zarobków wszystkich pracowników.

Użycie klauzuli GROUPING Przy użyciu opcji rollup lub cube w zapytaniu z klauzulą GROUP BY występuje NULL w wierszu podsumowania. Jeżeli dana kolumna także zawiera wartości puste, powstaje problem z identyfikacją, które wiersze zawierają podsumowanie, a które zawierają wartość pustą z danej kolumny. Rozwiązaniem jest użycie klauzuli GROUPING. Rozważmy przykładowe zapytanie: select department_id, manager_id, count(*), round(avg(salary)) from employees group by rollup(department_id,manager_id); W wierszach podsumowania występuje NULL w kolumnie manager_id, ale NULL występuje w tej kolumnie także w innych wierszach, odpowiadających sytuacji, gdy nie manager nie jest określony.

Użycie klauzuli GROUPING Przy użyciu opcji rollup lub cube w zapytaniu z klauzulą GROUP BY występuje NULL w wierszu podsumowania. Jeżeli dana kolumna także zawiera wartości puste, powstaje problem z identyfikacją, które wiersze zawierają podsumowanie, a które zawierają wartość pustą z danej kolumny. Rozwiązaniem jest użycie klauzuli GROUPING. Zapytanie z użyciem GROUPING. select grouping(department_id), grouping(manager_id), department_id, manager_id, count(*), round(avg(salary)) from employees group by rollup(department_id,manager_id); Klauzula GROUPING zwróci nam wartość 1 lub 0 w zależności, czy dany wiersz zawiera podsumowanie, czy nie. Stosujemy do kolumn, wzgl. których grupujemy.

Operatory zbiorowe: UNION, INTERSECT, MINUS Operatory zbiorowe stosują algebrę zbiorów do operacji na wynikach dwóch lub więcej zapytań. Podstawowe zasady działania operatorów: Zapytania muszą zwracać tą samą liczbę kolumn. Kolumny na tych samych pozycjach muszą być tego samego typu. Nazwy kolumn w wyniku pobierane są z pierwszego zapytania. Sortować można tylko wynik całości

Operatory zbiorowe: UNION, INTERSECT, MINUS UNION: wyświetla sumę zbiorów wierszy z dwóch lub więcej zapytań, jeżeli były wiersze, które się powtarzały (w różnych lub w tym samym zapytaniu), to takie wiersze będą uwzględnione tylko raz. UNION domyślnie sortuje wynik rosnąco.

Operatory zbiorowe: UNION, INTERSECT, MINUS UNION: wyświetla sumę zbiorów wierszy z dwóch lub więcej zapytań, jeżeli były wiersze, które się powtarzały (w różnych lub w tym samym zapytaniu), to takie wiersze będą uwzględnione tylko raz. UNION domyślnie sortuje wynik rosnąco. SELECT city, state_province AS "CITY" FROM locations WHERE country_id= US UNION SELECT city FROM locations WHERE country_id<> US ;

Operatory zbiorowe: UNION, INTERSECT, MINUS UNION ALL: zwraca sumę zbiorów wierszy z dwóch lub więcej zapytań, uwzględnia wszystkie powtórzenia wierszy. UNION ALL nie sortuje wierszy. SELECT employee_id AS id, first_name AS imie, last_name AS nazwisko, manager_id AS szef, department_id AS "DZIAŁ" FROM employees WHERE manager_id=101 UNION ALL SELECT employee_id, first_name, last_name, manager_id, department_id FROM employees WHERE department_id=100;

Operatory zbiorowe: UNION, INTERSECT, MINUS INTERSECT: zwraca część wspólną zbiorów wierszy z dwóch lub więcej zapytań.

Operatory zbiorowe: UNION, INTERSECT, MINUS INTERSECT: zwraca część wspólną zbiorów wierszy z dwóch lub więcej zapytań. SELECT employee_id AS id, first_name AS imie, last_name AS nazwisko, manager_id AS szef, department_id AS "DZIAŁ" FROM employees WHERE manager_id=101 INTERSECT SELECT employee_id, first_name, last_name, manager_id, department_id FROM employees WHERE department_id=100;

Operatory zbiorowe: UNION, INTERSECT, MINUS INTERSECT: zwraca część wspólną zbiorów wierszy z dwóch lub więcej zapytań. SELECT employee_id AS id, first_name AS imie, last_name AS nazwisko, manager_id AS szef, department_id AS "DZIAŁ" FROM employees WHERE manager_id=101 INTERSECT SELECT employee_id, first_name, last_name, manager_id, department_id FROM employees WHERE department_id=100; Poprzednie zapytanie można zapisać jako: SELECT employee_id AS id, first_name AS imie, last_name AS nazwisko, manager_id AS szef, department_id AS "DZIAŁ" FROM employees WHERE manager_id=101 AND department_id=100;

Operatory zbiorowe: UNION, INTERSECT, MINUS MINUS: tworzy różnicę zbiorów wierszy z dwóch zapytań.

Operatory zbiorowe: UNION, INTERSECT, MINUS MINUS: tworzy różnicę zbiorów wierszy z dwóch zapytań. SELECT * FROM employees WHERE salary >= 10000 MINUS SELECT * FROM employees WHERE job_id = SA_MAN

Operatory zbiorowe: UNION, INTERSECT, MINUS MINUS: tworzy różnicę zbiorów wierszy z dwóch zapytań. SELECT * FROM employees WHERE salary >= 10000 MINUS SELECT * FROM employees WHERE job_id = SA_MAN Powyższe jest równoważne zapytaniu: SELECT * FROM employees WHERE salary >= 10000 AND NOT(job_id = SA_MAN )

Podzapytania Podzapytaniem nazywamy dowolną, ujętą w nawiasy, instrukcję SELECT, zagnieżdżoną wewnątrz innej instrukcji. Podzapytanie możemy umieścić w następujących klauzulach instrukcji SELECT: (1) we FROM, w miejsce tabeli: SELECT... FROM (SELECT...) (2) na liście zwracanych wartości: SELECT..., (SELECT...),... FROM... (3) w klauzuli ORDER BY: SELECT... FROM... ORDER BY (SELECT...); (4) w warunkach w klauzulach WHERE lub HAVING. W sytuacji (2) i (3), podzapytanie zawsze musi zwracać pojedyncz a wartość, w (4) - zależnie od kontekstu.

Podzapytania Podzapytania w klauzuli WHERE (HAVING): SELECT * FROM tabela WHERE kolumna OPERATOR (SELECT kolumna FROM tabela); gdzie operator to: IN, lub operator relacji (>=, <=, =), gdy podzapytanie zwraca dokładnie jeden wiersz, lub operator relacji w połączeniu z ALL/ANY, gdy podzapytanie może zwrócić wiele wierszy. W obu sytuacjach, podzapytanie może zwracać tylko jedną kolumnę. SELECT * FROM tabela WHERE [NOT] EXISTS (SELECT kolumna * FROM tabela); Tutaj nie ma znaczenia, czy wartość będzie jednoelementowa (jedna kolumna) i czy będzie zwracany więcej niż jeden wiersz.

Podzapytania skorelowane W tego typu podzapytaniach istnieje związek pomiędzy podzapytaniem a zapytaniem zewnętrznym - podzapytanie odwołuje się do zapytania zewnętrznego. Wynik podzapytania jest uzależniony od wartości w wierszach zapytania zewnętrznego. Podzapytanie skorelowane jest wyliczane dla każdego wiersza zapytania zewnętrznego (w przeciwieństwie do podzapytania prostego, które jest wyliczane tylko raz). W podzapytaniu skorelowanym niezbędne jest korzystanie z aliasów. SELECT * FROM employees e WHERE e.salary>(select AVG(salary) FROM employees e1 WHERE e1.department_id=e.department_id); Podzapytania skorelowane często wykorzystuje się razem z EXISTS.

Podzapytanie na liście SELECT Podzapytania możemy umieszczać na liście wartości SELECT, ale muszą wtedy zwracać pojedynczą wartość, np. Wybieramy zarobki pracownika i średnie zarobki w jego dziale: SELECT last_name, salary, (SELECT AVG(salary) from employees e1 WHERE e1.department_id=e.department_id) AS srednie FROM employees e;

SELECT z podzapytania SELECT... FROM (SELECT...)... Ważne: aby możliwe było odwołanie do wartości z podzapytania, trzeba ją nazwać (czyli nadać jej alias w podzapytaniu). O takich podzapytaniach można myśleć jak o perspektywach zapisanych bezpośrednio w zapytaniu, np. Wybieramy różnicę między zarobkami pracownika, a średnią w jego dziale: SELECT last_name, salary-srednia FROM (SELECT Avg(salary) AS srednia, department_id FROM employees GROUP BY department_id) e1 JOIN employees e2 ON e1.department_id=e2.department_id;

SELECT z podzapytania SELECT... FROM (SELECT...)... Ważne: aby możliwe było odwołanie do wartości z podzapytania, trzeba ją nazwać (czyli nadać jej alias w podzapytaniu). O takich podzapytaniach można myśleć jak o perspektywach zapisanych bezpośrednio w zapytaniu, Tego typu podzapytania warto stosować, gdy musimy nałożyć funkcję agregacji na funkcję agregacji, np. Wybieramy średnią liczbę pracowników w dziale: SELECT Avg(ile) FROM (SELECT Count(*) AS ile FROM employees GROUP BY department_id);

Złaczenia Dane, które chcemy uzyskać z bazy danych zazwyczaj znajdują się w więcej niż jednej tabeli bazodanowej. W takim przypadku nasze zapytanie musi się odpowiednio odwołać do więcej niż jednej tabeli. Mechanizm ten nazywa się w SQL złączeniami. Rodzaje złączeń: ZŁACZENIE KARTEZJAŃSKIE ZŁACZENIE WEWNETRZNE ZŁACZENIE ZEWNETRZNE (+) Złączenie wewnętrzne z użyciem JOIN ON NATURAL JOIN Złączenie za pomocą JOIN USING() Złączenia zewnętrzne: LEFT OUTER JOIN, RIGHT OUTER JOIN, FULL OUTER JOIN

Złaczenia

Złaczenia ZŁ ACZENIE KARTEZJAŃSKIE SELECT last_name, department_name FROM employees, departments; Zwraca iloczyn kartezjański wierszy z obu tabel. Złączenia kartezjańskie stosuje się bardzo rzadko, gdyż produkują bardzo dużą ilość wierszy, które nie zawierają logicznie spójnych informacji. W powyższym przykładzie ilość wierszy powstałych w wyniku złączenia kartezjańskiego jest iloczynem ilości wierszy w tabelach employees oraz departments.

Złaczenia ZŁACZENIE WEWNETRZNE SELECT last_name, department_name FROM employees e, departments d WHERE e.department_id=d.department_id; Najczęściej, kiedy zadajemy zapytanie do dwu tabel, zależy nam na uzyskaniu tylko takich kombinacji wierszy z obu tabel, które sobie w jakiś sposób odpowiadają. Złączenia zwracające właśnie taki zbiór wierszy z obu tabel nazywamy złączeniami wewnętrznymi. Uwaga: Jeśli nadamy tabeli alias, nie będziemy mogli odnosić się do niej po nazwie.

Złaczenia ZŁACZENIE ZEWNETRZNE (+) SELECT last_name, department_name FROM employees e, departments d WHERE e.department_id(+)=d.department_id; W przypadku złączeń wewnętrznych, jeżeli w jednej z tabel istnieje rekord, który nie ma żadnego odpowiednika w drugiej tabeli, to rekord ten jest pomijany w końcowym wyniku. Jeżeli chcemy uwzględnić takie rekordy, to można wyróżnić jedną z tabel i wykonać złączenie zewnętrzne, aby otrzymać z wyróżnionej tabeli wszystkie rekordy, nawet te, które nie mają swojego odpowiednika w drugiej z tabel. Korzystamy z operatora złączenia zewnętrznego (+). Umieszczamy go w warunku złączenia po nazwie kolumny z tej tabeli, która jest uboższa, czyli tam, gdzie brakuje rekordów i musimy jakieś dodać. Powyższe zapytanie uwzględni wszystkie działy, także te, które nie mają pracowników.

Złaczenia Złączenie wewnętrzne z użyciem JOIN ON SELECT last_name, department_name FROM employees e JOIN departments d ON e.department_id=d.department_id;

Złaczenia Złączenie wewnętrzne z użyciem JOIN ON SELECT last_name, department_name FROM employees e JOIN departments d ON e.department_id=d.department_id; NATURAL JOIN Tabele departments oraz employees posiadają pole o tej samej nazwie, które służy nam do łączenia tych tabel. W takiej sytuacji możemy skorzystać z NATURAL JOIN: SELECT last_name, department_name FROM employees NATURAL JOIN departments;

Złaczenia Złączenie za pomocą JOIN USING() Identyczne zastosowanie jak NATURAL JOIN ma JOIN USING. W tym przypadku musimy podać nazwę kolumny, która ma służyć jako złączenie. Powinno się korzystać z tej formy, a nie z NATURAL JOIN, jeśli w dwóch tabelach, które chcemy połączyć, występuje więcej niż jedna kolumna o identycznej nazwie i typie danych. SELECT last_name, department_name FROM employees JOIN departments USING(department_id);

Złaczenia Złączenia zewnętrzne: LEFT OUTER JOIN, RIGHT OUTER JOIN, FULL OUTER JOIN Odpowiednikiem złączenia zewnętrznego za pomocą operatora (+) jest użycie LEFT OUTER JOIN lub RIGHT OUTER JOIN. Konstrukcja: SELECT last_name, department_name FROM departments d LEFT OUTER JOIN employees e ON e.department_id=d.department_id; jest równoważna z konstrukcją: SELECT last_name, department_name FROM departments d, employees e WHERE d.department_id=e.department_id(+) FULL OUTER JOIN jest połączeniem RIGHT OUTER JOIN i LEFT OUTER JOIN. Wyświetla niedopasowane elementy z obu tabel.

Zapytania hierarchiczne Przykład: hierarchia zatrudnienia w firmie. każdy pracownik (z wyjątkiem prezesa) podlega pod jakiegoś kierownika (dokładnie jednego); każdy kierownik też jest pracownikiem firmy; prezes jest "najwyższym" przełożonym. Powyższa struktura jest odwzorowana w tabeli employees: numer przełożonego danego pracownika jest zapisany w polu manager_id, jest to numer pracownika będącego przełożonym (czyli wartość pola employee_id dla kierownika).

Hierarchia zatrudnienia odwzorowana w tabeli employees: numer przełożonego danego pracownika jest zapisany w polu manager_id, jest to numer pracownika będącego przełożonym (czyli wartość pola employee_id dla kierownika).

Zapytania hierarchiczne Aby skonstruować drzewo tej hierarchii, używamy polecenia: SELECT (LPad(,5*(LEVEL-1))) last_name first_name FROM employees START WITH manager_id IS NULL CONNECT BY PRIOR employee_id=manager_id;

Zapytania hierarchiczne Aby skonstruować drzewo tej hierarchii, używamy polecenia: SELECT (LPad(,5*(LEVEL-1))) last_name first_name FROM employees START WITH manager_id IS NULL CONNECT BY PRIOR employee_id=manager_id; W klauzuli SELECT zapytania ustawiamy odpowiedni sposób sformatowania wyniku. LEVEL - poziom zagłębienia w strukturze (prezes ma poziom 1). START WITH określa, od którego miejsca mamy budować drzewo. CONNECT BY PRIOR employee_id=manager_id - jak ma być tworzone drzewo, podaje sposób łączenia wierszy. W tym przypadku tak: na kolejnym poziomie będą pracownicy, których manager_id jest równe employee_id z poprzedniego poziomu. PRIOR określa, która z kolumn jest nadrzędna (tutaj - employee_id).

Zapytania hierarchiczne Aby zapytanie hierarchiczne było poprawnie zbudowane, zależność określająca sposób łączenia rekordów musi być jednoznacznie określona, tzn. dla każdego wiersza może być tylko jeden wiersz nadrzędny. W poprzednim przykładzie tak jest - związek manager_id=employee_id w sposób jednoznaczny określa, który wiersz jest nadrzędny dla danego, wynika to z faktu, że pole employee_id jest kluczem głównym tabeli employee. Powyższa reguła jest zgodna z logiką: żaden z pracowników nie ma dwóch bezpośrednich przełożonych. W zapytaniu hierarchicznym nie może pojawić się pętla, tzn. taka sytuacja, gdy jeden z wierszy jest jednocześnie przodkiem i potomkiem dla innego. Dostaniemy wówczas błąd.

Zapytanie hierarchiczne - konstrukcja klauzuli hierarchicznej CONNECT BY warunek1 [AND warunek2...] START WITH warunek START WITH określa wybór wiersza (lub wierszy) będących korzeniami w hierarchi; nie jest wymagany w zapytaniu; Warunek określony w klauzuli CONNECT BY musi zawierać operator PRIOR, który określa sposób wiązania wierszy potomków z wierszami rodzica. Zazwyczaj warunek ma postać porównania przez równość wartości odpowiednich kolumn, np. CONNECT BY PRIOR employee_id=manager_id employee_id jest kolumną nadrzędną, czyli wskazuje na wiersz rodzica, natomiast manager_id na wiersz potomka.

Zapytanie hierarchiczne SELECT employee_id, last_name, first_name, manager_id FROM employees CONNECT BY PRIOR employee_id=manager_id START WITH manager_id IS NULL

Zapytanie hierarchiczne SELECT employee_id, last_name, first_name, manager_id FROM employees CONNECT BY PRIOR employee_id=manager_id START WITH manager_id IS NULL Sposób przetwarzania tego zapytania jest następujący: Korzeniami w hierarchii są w tym przypadku wiersze tych pracowników, którzy nie mają nad sobą żadnego managera. Najpierw dla pierwszego wiersza - korzenia są wybierane jego dzieci, potem dzieci tych dzieci, itp. Powtarzane jest to dla każdego kolejnego wiersza będącego korzeniem: wybierany jest korzeń, potem są wybierane wiersze - dzieci, potem dzieci dla tych wierszy, itd.

Zapytanie hierarchiczne SELECT employee_id, last_name, first_name, manager_id FROM employees WHERE LEVEL IN(2,3) CONNECT BY PRIOR employee_id=manager_id

Zapytanie hierarchiczne SELECT employee_id, last_name, first_name, manager_id FROM employees WHERE LEVEL IN(2,3) CONNECT BY PRIOR employee_id=manager_id Sposób przetwarzania tego zapytania jest następujący: Korzeniami w hierarchii są w tym przypadku wiersze tych pracowników, którzy nie mają nad sobą żadnego managera. Najpierw dla pierwszego wiersza - korzenia są wybierane jego dzieci, potem dzieci tych dzieci, itp. Powtarzane jest to dla każdego kolejnego wiersza będącego korzeniem. Klauzula WHERE jest przetwarzana jako ostatnia, dla każdego z wybranych wcześniej wierszy osobno. Uwaga. Gdyby zapytanie zawierało złączenie, to złączenie byłoby przetwarzane przed ewaluacją klauzuli CONNECT BY.

Zapytania hierarchiczne Sortowanie oraz grupowanie zaburza wyniki zapytania hierarchicznego (czyli nie używamy klauzul GROUP BY ani ORDER BY). Można sortować w obrębie poszczególnych gałęzi (czyli w obrębie wierszy podlegających pod ten sam wiersz nadrzędny): ORDER SIBLINGS BY Dodatkowe wartości (funkcje), z których możemy skorzystać przy zapytaniach do obsługi struktur hierarchicznych: CONNECT_BY_ISLEAF określa, czy dany wiersz (rekord) jest liściem (tzn. nie ma już wierszy podrzędnych); 1 odpowiada liść, 0 przeciwnie; LEVEL podaje poziom zagłębienia danego wiersza w wyświetlanej strukturze hierarchicznej; SYS_CONNECT_BY_PATH(wartość, separator)- buduje pełną ścieżkę dla danego rekordu (od rekordu na najwyższym poziomie) na podstawie danego pola.

Zapytania hierarchiczne SELECT employee_id, last_name, first_name, manager_id, CONNECT_BY_ISLEAF FROM employees where CONNECT_BY_ISLEAF=1 CONNECT BY PRIOR employee_id=manager_id start with manager_id is null order siblings by last_name;