1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty algorytmów eksploracji danych 1.5.1. Funkcje oceny 1.5.2. Metody optymalizacji i przeszukiwania 1.5.3. Strategie zarządzania danymi 1.6. Wzajemne oddziaływanie statystyki i eksploracji danych 1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie 1.8. Podsumowanie 1.9. Literatura dodatkowa 2. Pomiary i dane 2.1. Wprowadzenie 2.2. Typy pomiarów 2.3. Miary odległości 2.4. Przekształcanie danych 2.5. Postać danych 2.6. Jakość pomiarów jednostkowych

2.7. Jakość zbiorów danych 2.8. Zakończenie 2.9. Literatura dodatkowa 3. Wizualizacja i eksploracja danych 3.1. Wprowadzenie 3.2. Podsumowywanie danych kilka prostych przykładów 3.3. Narzędzia do przedstawiania pojedynczych zmiennych 3.4. Narzędzia do przedstawiania zależności między dwoma zmiennymi 3.5. Narzędzia do przedstawiania więcej niż dwóch zmiennych 3.6. Analiza składowych głównych 3.7. Skalowanie wielowymiarowe 3.8. Literatura dodatkowa 4. Analiza danych a niepewność 4.1. Wprowadzenie 4.2. Radzenie sobie z niepewnością 4.3. Zmienne losowe i ich zależności 4.3.1. Wielowymiarowe zmienne losowe 4.4. Próbki i wnioskowanie statystyczne 4.5. Estymacja (szacowanie) 4.5.1. Pożądane własności estymatorów 4.5.2. Estymacja metodą największej wiarygodności 4.5.3. Estymacja bayesowska 4.6. Testowanie hipotez 4.6.1. Klasyczne testowanie hipotez 4.6.2. Testowanie hipotez w kontekście

4.7. Metody próbkowania 4.8. Zakończenie 4.9. Literatura dodatkowa 5. Usystematyzowany przegląd algorytmów eksploracji danych 5.1. Wprowadzenie 5.2. Przykład: Algorytm CART do tworzenia klasyfikatorów drzewiastych 5.3. Uproszczone spojrzenie na algorytmy eksploracji danych 5.3.1. Perceptrony wielowarstwowe do regresji i klasyfikacji 5.3.2. Algorytm Apriori do uczenia się reguł asocjacyjnych 5.3.3. Przestrzennowektorowe algorytmy do wyszukiwania tekstu 5.4. Dyskusja 5.5. Literatura dodatkowa 6. Modele i wzorce 6.1. Wprowadzenie 6.2. Podstawowe zasady modelowania 6.3. Struktury modelu do przewidywania 6.3.1. Modele regresji o strukturze liniowej 6.3.2. Lokalne segmentowe struktury modeli do regresji 6.3.3. Nieparametryczne lokalne modele pamięciowe 6.3.4. Stochastyczne komponenty struktury modelu 6.3.5. Modele przewidywania do klasyfikacji 6.3.6. Na marginesie: Wybieranie modeli odpowiedniej złożoności 6.4. Modele rozkładów prawdopodobieństwa i funkcji gęstości 6.4.1. Ogólne pojęcia 6.4.2. Mieszane modele parametryczne

6.4.3. Rozkłady łączne dla nieuporządkowanych danych kategorycznych 6.4.4. Faktoryzacja i niezależność w wysokich wymiarach 6.5. Przekleństwo wymiarowości 6.5.1. Wybieranie zmiennych dla danych wysokowymiarowych 6.5.2. Przekształcenia dla danych wysokowymiarowych 6.6. Modele dla danych ustrukturalizowanych 6.7. Struktury wzorców 6.7.1. Wzorce w macierzach danych 6.7.2. Wzorce dla ciągów znaków 6.8. Literatura dodatkowa 7. Funkcje oceny dla algorytmów eksploracji danych 7.1. Wprowadzenie 7.2. Ocenianie wzorców 7.3. Przewidujące a opisowe funkcje oceny 7.3.1. Funkcje ocen dla modeli przewidywania 7.3.2. Funkcje oceny dla modeli opisowych 7.4. Ocenianie modeli o różnej złożoności 7.4.1. Ogólne koncepcje oceniania modeli 7.4.2. Obciążeniewariancja po raz kolejny 7.4.3. Funkcje oceny karzące złożoność 7.4.4. Funkcje oceny używające zewnętrznej walidacji 7.5. Ocenianie modeli i wzorców 7.6. Metody odporne 7.7. Literatura dodatkowa 8. Metody przeszukiwania i optymalizacji 8.1. Wprowadzenie

8.2. Przeszukiwanie dla modeli i wzorców 8.2.1. Tło przeszukiwania 8.2.2. Sformułowanie stanowoprzestrzenne dla przeszukiwania w eksploracji danych 8.2.3. Prosty algorytm zachłannego przeszukiwania 8.2.4. Przeszukiwanie systematyczne i heurystyki przeszukiwania 8.2.5. Metoda podziału i ograniczeń 8.3. Metody optymalizacji parametrów 8.3.1. Optymalizacja parametrów: tło 8.3.2. Metody zamkniętej postaci i metody algebry liniowej 8.3.3. Metody gradientowe optymalizacji funkcji gładkich 8.3.4. Optymalizacja parametrów jednowymiarowych 8.3.5. Optymalizacja parametrów wielowymiarowych 8.3.6. Optymalizacja ograniczona 8.4. Optymalizacja przy brakujących danych: Algorytm EM 8.5. Algorytmy bezpośrednie i o pojedynczym skanowaniu 8.6. Przeszukiwania stochastyczne i techniki optymalizacji 8.7. Literatura dodatkowa 9. Modelowanie opisowe 9.1. Wprowadzenie 9.2. Opisywanie danych przez rozkłady prawdopodobieństwa i ich gęstości 9.2.1. Wprowadzenie 9.2.2. Funkcje oceny do szacowania rozkładów prawdopodobieństwa i ich gęstości 9.2.3. Parametryczne modele gęstości 9.2.4. Mieszane rozkłady i gęstości 9.2.5. Algorytm EM dla modeli mieszanych

9.2.6. Nieparametryczna estymacja gęstości 9.2.7. Rozkłady łączne dla danych kategorycznych 9.3. Podłoże analizy skupień 9.4. Algorytmy grupowania oparte na podziale 9.4.1. Funkcje oceny dla grupowania opartego na podziale 9.4.2. Podstawowe algorytmy dla grupowania opartego na podziale 9.5. Grupowanie hierarchiczne 9.5.1. Metody aglomeracyjne 9.5.2. Metody rozdzielające 9.6. Grupowanie oparte na modelu probabilistycznym przy użyciu modeli mieszanych 9.7. Literatura dodatkowa 10. Modelowanie przewidujące dla klasyfikacji 10.1. Krótki przegląd modelowania przewidującego 10.2. Wprowadzenie do modelowania klasyfikacji 10.2.1. Klasyfikacja rozróżniająca i granice decyzyjne 10.2.2. Modele probabilistyczne dla klasyfikacji 10.2.3. Budowanie rzeczywistych klasyfikatorów 10.3. Perceptron 10.4. Liniowe funkcje dyskryminacyjne 10.5. Modele drzewiaste 10.6. Metody najbliższego sąsiedztwa 10.7. Analiza logistycznych funkcji dyskryminacyjnych 10.8. Naiwny model Bayesa 10.9. Inne metody 10.10. Ocenianie i porównywanie klasyfikatorów 10.11. Dobór cech dla klasyfikacji w wysokich wymiarach

10.12. Literatura dodatkowa 11. Modelowanie przewidujące dla regresji 11.1. Wprowadzenie 11.2. Modele liniowe i dopasowanie metodą najmniejszych kwadratów 11.2.1. Kwestie obliczeniowe przy dopasowywaniu modeli 11.2.2. Probabilistyczna interpretacja regresji liniowej 11.2.3. Interpretowanie dopasowanych modeli 11.2.4. Wnioskowanie i uogólnienie 11.2.5. Przeszukiwanie modeli i budowanie modelu 11.2.6. Diagnostyka i sprawdzanie modeli 11.3. Uogólnianie modeli liniowych 11.4. Sztuczne sieci neuronowe 11.5. Inne modele wysoko sparametryzowane 11.5.1. Uogólnione modele addytywne 11.5.2. Regresja poszukiwania projekcji 11.6. Literatura dodatkowa 12. Organizacja danych i bazy danych 12.1. Wprowadzenie 12.2. Hierarchia pamięci 12.3. Struktury indeksowe 12.3.1. B-drzewa 12.3.2. Indeksy haszowane 12.4. Indeksowanie wielowymiarowe 12.5. Relacyjne bazy danych 12.6. Operacje na tabelach

12.7. Strukturalny język zapytań (SQL) 12.8. Wykonywanie zapytań i optymalizacja 12.9. Hurtownie danych i bezpośrednie przetwarzanie analityczne (OLAP) 12.10. Struktury danych dla OLAP 12.11. Bazy danych ciągów znakowych 12.12. Ogromne zbiory danych, zarządzanie danymi i eksploracja danych 12.12.1. Pakowanie danych do pamięci operacyjnej 12.12.2. Skalowalne wersje algorytmów eksploracji danych 12.12.3. Specjalizowane algorytmy dostępu do dysku 12.12.4. Zbiory pseudodanych i statystyki dostateczne 12.13. Literatura dodatkowa 13. Znajdowanie wzorców i reguł 13.1. Wprowadzenie 13.2. Reprezentacje reguł 13.3. Częste zbiory elementów i reguły asocjacyjne 13.3.1. Wprowadzenie 13.3.2. Znajdowanie zbiorów częstych i reguł asocjacyjnych 13.4. Uogólnienia 13.5. Znajdowanie epizodów w sekwencjach 13.6. Wybiórcze odkrywanie wzorców i reguł 13.6.1. Wprowadzenie 13.6.2. Przeszukiwanie heurystyczne do znajdowania wzorców 13.6.3. Kryteria dla reguł interesujących 13.7. Od lokalnych wzorców do globalnych modeli 13.8. Indukowanie reguł przewidywania

13.9. Literatura dodatkowa 14. Wyszukiwanie według zawartości 14.1. Wprowadzenie 14.2. Ocenianie systemów wyszukujących 14.2.1. Trudności w ocenie działania wyszukującego 14.2.2. Precyzja a przywołanie 14.2.3. Precyzja i przywołanie w praktyce 14.3. Wyszukiwanie tekstów 14.3.1. Reprezentowanie tekstów 14.3.2. Dopasowywanie zapytań i dokumentów 14.3.3. Ukryte indeksowanie semantyczne 14.3.4. Klasyfikacja dokumentów i tekstów 14.4. Modelowanie indywidualnych preferencji 14.4.1. Istotnościowe sprzężenie zwrotne 14.4.2. Systemy zautomatyzowanego rekomendowania 14.5. Wyszukiwanie obrazów 14.5.1. Zrozumienie obrazów 14.5.2. Reprezentowanie obrazów 14.5.3. Zapytania do obrazów 14.5.4. Niezmienniki obrazów 14.5.5. Uogólnienia wyszukiwania obrazów 14.6. Wyszukiwanie szeregów czasowych i sekwencji 14.6.1. Modele globalne dla danych szeregów czasowych 14.6.2. Struktura i kształt w szeregach czasowych 14.7. Podsumowanie 14.8. Literatura dodatkowa

Dodatek. Zmienne losowe Bibliografia Skorowidz