Wykrywanie nietypowości w danych rzeczywistych

Wielkość: px
Rozpocząć pokaz od strony:

Download "Wykrywanie nietypowości w danych rzeczywistych"

Transkrypt

1 Wykrywanie nietypowości w danych rzeczywistych dr Agnieszka NOWAK-BRZEZIŃSKA, mgr Artur TUROS 1

2 Agenda Cel badań Eksploracja odchyleń Metody wykrywania odchyleń Eksperymenty Wnioski Nowe badania 2

3 Cel badań ODCHYLENIE! ODCHYLENIA? ODCHYLENIA! ODCHYLENIE! 3

4 Odchylenia błędy czy istotne informacje (I) Odchylenie - obiekt tak bardzo odstający od reszty obserwacji, że istnieje podejrzenie, iż wygenerował go odmienny mechanizm.[hawkins] 4

5 Odchylenia błędy czy istotne informacje (II) Należy pamiętać o naturalnej zmienności danych. Nie zawsze znajdowane odchylenia muszą świadczyć o wykrytym błędzie! Wynagrodzenie prezesa spółki różni się od wynagrodzenia pozostałych pracowników, Nieautoryzowane wejścia do systemów, Metadane monitoringów IT, Wykrywanie oszustw (pranie brudnych pieniędzy, nietypowe użycia kart kredytowych), Specyficzne zachowania grup konsumentów, Identyfikacja wadliwych serii produkcyjnych. 5

6 Eksploracja odchyleń podział metod Oparte na rozkładzie danych (ang. distribution-based), Oparte na odległości danych (ang. distance-based), Oparte na gęstości (ang. density-based), Oparte na grupowaniu (ang. clustering-based). 6

7 Metody bazujące na rozkładzie danych Metoda ze średniej i odchylenia standardowego elementem odstającym V jest każda obserwacja V i oddalona o więcej niż p odchylenia od średniej: gdzie: srednia srednia(a) wartość średnia atrybutu, σ A odchylenie standardowe atrybutu, p parametr mocy testu (najczęstsze wartości w literaturze [2,3]), V i i-ta wartość atrybutu, V i i-ta wartość atrybutu po standaryzacji. Metoda z rozstępu międzykwartylnego elementem odstającym jest każda wartość, która jest położona przynajmniej o p razy IQR poniżej Q 1 lub p razy IQR powyżej Q 3 Q1 p IQR, Q3 p IQR gdzie: Q 1 kwartyl pierwszy, Q 3 kwartyl trzeci, A p A, srednia A p A IQR= Q 3 -Q 1, p parametr mocy testu (najczęstsze wartości w literaturze [1.5,3]. 7

8 Algorytm k-średnich 1. Podziel zbiór na k wstępnych skupień, 2. Oblicz centroidy dla każdej z grup, 3. Dokonaj ponownego podziału obiektów, przypisując je do tej grupy, której centroid leży najbliżej, 4. Powtarzaj kroki 2 3 dopóki następują zmiany przyporządkowania. MIARA GOWERA Dobrze sobie radzi ze zbiorami wielowymiarowymi Wspiera cechy jakościowe Elastyczność metody: łatwo dostosowuje się do danych binarnych, ciągłych, dyskretnych ODLEGŁOŚĆ EUKLIDESOWA Nie radzi sobie ze zbiorami wielowymiarowymi Brak wsparcia dla cech jakościowych (pomijanie w analizie cech jakościowych, bądź niemożliwość zastosowania algorytmu) Raczej do zastosowania przy analizie danych ciągłych 8

9 Metody oparte na grupowaniu danych (I) Odchylenie obiekt, który w przeciwieństwie do regularnych danych nie wchodzi w skład większego skupienia. Obiekt wpływowy (ang. influential outlier) definiowany jako obiekt odchylony o p od średniego podobieństwa/odległości w jego grupie. Skupienie wpływowe (ang. influential cluster) definiowane jako skupienie odchylone od średniego podobieństwa/odległości pomiędzy skupieniami o wartość wyrażaną jako p j dla parametru p i liczby dziesiątek liczby n obiektów w zbiorze (j), Skupienie odstające (ang. cluster outlier) definiowane jako skupienie, którego liczebność jest nie większa niż 2 j k, gdzie j liczba dziesiątek z liczby oznaczającej liczbę n obiektów w zbiorze zaś k oznacza liczbę skupień. 9

10 Metody oparte na grupowaniu danych (II) Przykładowo dla zbioru liczącego 110 tysięcy obserwacji, dla k=3 minimalna liczność skupienia by nie uznać go za odstające wynosi = 21,33 22, zaś dla k=33, skupienie małoliczne to zawierające 2 lub 1 obiekt (bo = 1,93), itd. Wykrycie odchyleń możliwe bazując na macierzy podobieństwa/odległości między obiektami a środkami skupień (centroidami) dla najlepszej iteracji (dostarczającej największej wartości sumy kwadratów różnic, TC). Podejście niebinarne do zbioru danych. Możliwość zbinaryzowania metody poprzez przeprowadzenie analizy dla poszczególnych atrybutów z osobna. Szukanie błędów w danych (podejście binarne), a wykrywanie danych nietypowych (podejście niebinarne). 10

11 Implementacja w R Nazwa funkcji quanqual.check() quanqual.freqdiagram() missing.insert() missing.remove() detectoutlier.meanstd, medianstd, quartile() detectoutlier.kmeans, kmeans2() removeoutlier.meanstd, medianstd, quartile() removeoutlier.kmeans, kmeans2() opis funkcji bada typy cech w zbiorze (jakosciowe i ilosciowe) graficzna reprezentacja rozłozenia typów cech w zbiorze danych (wykres kołowy (type= p ) lub słupkowy (type = b ) uzupełnia braki w danych srednia lub modalna, badz dowolnym symbolem usuwa obiekty z brakujacymi wartosciami identyfikuje obserwacje nietypowe przy użyciu metod: średniej arytmetycznej bądź mediany i odchylenia standardowego lub rozstępu międzykwartylowego wykrywa obiekty nietypowe przy uzyciu metody opartej o algorytm k-srednich usuwa odchylenia j.w. dla metody k-srednich summaryoutlier.meanstd,medianstd, quartile() summaryoutlier.kmeans,kmeans2() podsumowanie elementów nietypowych w danych j.w. dla metody k-średnich. 3 typy odchyleń są wykrywane: InfluentialOutlier (odchylenie wewnątrz grupy), InfluentialCluster (obiekty odchylonej grupy od pozostałych skupień), ClusterOutlier (małoliczne skupienie). 11

12 Plan eksperymentów Przeanalizowano 36 przypadków na zbiorach danych o różnym rozkładzie, wielkości i typie atrybutów. Cztery zbiory danych: Iris, Car Evaluation, Credit Approval, Movement Libras - dostępne w UCI Machine Learning Repository. Cztery metody wykrywania odchyleń: ze średniej i odchylenia standardowego, z rozstępu międzykwartylowego, oparte na analizie skupień (metoda klasyczna oraz autorska). Pięć mocy testu: 1,5;2;3 (dla metod opartych na rozkładzie danych); 0,1 ; 0,2 (dla metod opartych na analizie skupień). 12

13 Eksperymenty metody oparte na rozkładzie danych Nazwa zbioru Iris Credit Approval Car Evaluation Movement Libras p Średnia arytmetyczna i odchylenie standardowe Rozstęp międzykwartylny 1, ,67% 2,67% ,33% 0,67% ,67% 0% 1, % 31,7% % 26,3% ,54% 16,81% % 0% 1, ,6% 1,11% ,1% 0% ,6% 0,6% 13

14 Eksperymenty metody oparte na analizie skupień k-średnich Nazwa zbioru p 0,1 Iris 0,2 Credit Approval 0, Autorska Najlepsza iteracja 33,31% 0% 5,65% Klasyczna Najlepsza iteracja 67,33% 0% 23,4% Car Evaluation Movement Libras 0,2 0,1 0,2 0,1 0, ,58% 26,79% 1,39% 1,11% 0% ,16% 35,59% 19,91% 1,11% 0% 14

15 Eksperymenty - podsumowanie Wraz ze wzrostem parametru p (mocy testu) zmniejsza się liczba wykrytych odchyleń. Metody statystyczne dały satysfakcjonujące wyniki dopiero dla największej mocy testu (p = 3). Metody statystyczne nie poradziły sobie z typowo jakościowym zbiorem danych Car Evaluation. Zaproponowana metoda wykrywania odchyleń w oparciu o algorytm k-średnich zwróciła rozsądne wyniki. Należy określić przeznaczenie wykonywanego testu, ponieważ ma to kluczowe znaczeniu w traktowaniu zbioru w sposób binarny lub niebinarny. Metody oparte na analizie skupień mogą być uważane za rozwiązanie kompleksowe. Wartym przeanalizowania jest binaryzacja autorskiej metody wykrywania odchyleń opartej na analizie skupień. 15

16 Nowe badania Ze względu na niską złożoność obliczeniową metody oparte na rozkładzie danych doskonale nadają się do wykrywania odchyleń w metadanych monitoringów. 16

17 Bibliografia Larose D.: Odkrywanie wiedzy z danych, wprowadzenie do eksploracji danych, Wydawnictwo PWN, Jiawei Han, Micheline Kamber, Jian Pei: Data Mining: Concepts and Techniques, Elsevier, Nowak-Brzezińska A.: Eksploracja odchyleń w regułowych bazach wiedzy, Studia Informatica, Hawkins D.: Identification of Outliers, Chapman and Hall, Tomkowicz M.: Wpływ odchyleń na jakość grupowania danych wielowymiarowych. Praca magisterska, Uniwersytet Śląski, Nowak-Brzezińska A.: Wykrywanie reguł nietypowych metody oparte na analizie skupień, Studia Informatica, Turos A.: Analiza metod wykrywania odchyleń w danych wielowymiarowych, praca magisterska, Uniwersytet Śląski, MacQueen J.: Some Methods for classification and Analysis of Multivariate Observations, University of California, Tryon R.: Cluster Analysis, Xu R., Wunsch D.: Clustering, Willey, Myatt G., Johnson W.: Making sense of data, Willey,

18 Dane kontaktowe dr Agnieszka NOWAK-BRZEZIŃSKA Uniwersytet Śląski Instytut Informatyki Zakład Systemów Informatycznych ul. Będzińska Sosnowiec mgr Artur TUROS 18

19 Nowe podejście do wykrywania odchyleń z k-means Odchyleniem jest każde skupienie odstające K s = {x 1, x 2,,x i }, którego liczność j 2 (i) jest nie większa niż, gdzie: K s to s-te skupienie, k j- liczba dziesiątek liczby n obiektów w zbiorze, i liczba obiektów należących do skupienia, x i - i-ty obiekt należący do skupienia K s, k liczba skupień. Odchyleniem jest każdy obiekt wpływowy x is, którego podobieństwo jest p razy mniejsze od średniego podobieństwa jego skupienia K s : p( xis, K s ) (( p( K s ) ( p p( K, s gdzie p( x is, K- s ) podobieństwo i-tego obiektu do centrum jego s-tego skupienia, p( K - średnie podobieństwo w s-tym skupieniu, p parametr. Odchyleniem jest każde skupienie wpływowe K j, którego średnie podobieństwo do pozostałych skupień jest p j razy mniejsze od średniego podobieństwa pomiędzy skupieniami K: p( K, K s ) (( p( K ) ( p ( j ) p( K ))), gdzie: ( p( K ))- średnie podobieństwo skupienia K s z osiąganych podobieństw do pozostałych skupień, p( K, K s ) - średnie podobieństwo pomiędzy skupieniami, p parametr, j liczba dziesiątek n liczby obiektów. ))) ( s )) 19

20 Miara Gowera Miara uniwersalna radząca sobie z danymi ilościowymi jak również jakościowymi. gdzie: W ijk waga jest równa 0, gdy wartość k-tej zmiennej nie jest znana dla jednego lub dla obu obiektów o i oraz o j, natomiast 1 w przeciwnym przypadku S ijk wartość ocen podobieństwa ze względu na k-tą zmienną zależy od typu danych: Dla danych ilościowych: gdzie: R k rozstęp zmiennej k, x ik, x jk wartość k-tej zmiennej dla obiektów i, j. Dla danych jakościowych: gdy obiekty i, j maja taką samą k-tą zmienną, gdy obiekty i, j maja taką różną k-tą zmienną. 20

Metody wykrywania odchyleo w danych. Metody wykrywania braków w danych. Korelacja. PED lab 4

Metody wykrywania odchyleo w danych. Metody wykrywania braków w danych. Korelacja. PED lab 4 Metody wykrywania odchyleo w danych. Metody wykrywania braków w danych. Korelacja. PED lab 4 Co z danymi oddalonymi? Błędne dane typu dochód z minusem na początku: to błąd we wprowadzaniu danych, czy faktyczny

Bardziej szczegółowo

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu

Bardziej szczegółowo

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe Typy zmiennych Graficzne reprezentacje danych Statystyki opisowe Jakościowe charakterystyka przyjmuje kilka możliwych wartości, które definiują klasy Porządkowe: odpowiedzi na pytania w ankiecie ; nigdy,

Bardziej szczegółowo

Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak

Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin Henryk Bujak e-mail: h.bujak@ihar.edu.pl Ocena różnorodności fenotypowej Różnorodność fenotypowa kolekcji roślinnych zasobów

Bardziej szczegółowo

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY) STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY) Praca z danymi zaczyna się od badania rozkładu liczebności (częstości) zmiennych. Rozkład liczebności (częstości) zmiennej to jakie wartości zmienna

Bardziej szczegółowo

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym

Bardziej szczegółowo

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej) Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej) 1 Podział ze względu na zakres danych użytych do wyznaczenia miary Miary opisujące

Bardziej szczegółowo

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633 Grupowanie Grupowanie 7 6 5 4 y 3 2 1 0-3 -2-1 0 1 2 3 4 5-1 -2-3 -4 x Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633 Wprowadzenie Celem procesu grupowania jest podział zbioru

Bardziej szczegółowo

Laboratorium nr Wyznaczyć podstawowe statystyki (średnia, mediana, IQR, min, max) dla próby:

Laboratorium nr Wyznaczyć podstawowe statystyki (średnia, mediana, IQR, min, max) dla próby: Laboratorium nr 1 CZĘŚĆ I : STATYSTYKA OPISOWA : 1. Wyznaczyć podstawowe statystyki (średnia, mediana, IQR, min, max) dla próby: 6,9,1,2,5,2,6,2,1,0,1,4,5,6,3,7,3,2,2,3,8,5,3,4,8,0,8,0,5,1,6,4,8,0,3,2

Bardziej szczegółowo

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY) STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY) Dla opisania rozkładu badanej zmiennej, korzystamy z pewnych charakterystyk liczbowych. Dzielimy je na cztery grupy.. Określenie przeciętnej wartości

Bardziej szczegółowo

CLUSTERING. Metody grupowania danych

CLUSTERING. Metody grupowania danych CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means

Bardziej szczegółowo

Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania

Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania Wielowymiarowe metody segmentacji CHAID Metoda Automatycznej Detekcji Interakcji CHAID Cele CHAID Dane CHAID Przebieg analizy CHAID Parametry CHAID Wyniki Metody analizy skupień Wprowadzenie Charakterystyka

Bardziej szczegółowo

Outlier to dana (punkt, obiekt, wartośd w zbiorze) znacznie odstająca od reszty. prezentacji punktów odstających jest rysunek poniżej.

Outlier to dana (punkt, obiekt, wartośd w zbiorze) znacznie odstająca od reszty. prezentacji punktów odstających jest rysunek poniżej. Temat: WYKRYWANIE ODCHYLEO W DANYCH Outlier to dana (punkt, obiekt, wartośd w zbiorze) znacznie odstająca od reszty. prezentacji punktów odstających jest rysunek poniżej. Przykładem Box Plot wygodną metodą

Bardziej szczegółowo

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część populacji, którą podaje się badaniu statystycznemu

Bardziej szczegółowo

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych. Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych. Statystyka zajmuje się prawidłowościami zaistniałych zdarzeń. Teoria prawdopodobieństwa dotyczy przewidywania, jak często mogą zajść

Bardziej szczegółowo

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy Wykład Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy Zbiorowość statystyczna - zbiór elementów lub wyników jakiegoś procesu powiązanych ze sobą logicznie (tzn. posiadających wspólne cechy

Bardziej szczegółowo

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel: Wariancja z populacji: Podstawowe miary rozproszenia: 1 1 s x x x x k 2 2 k 2 2 i i n i1 n i1 Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel: 1 k 2 s xi x n 1 i1 2 Przykład 38,

Bardziej szczegółowo

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej cechy. Średnia arytmetyczna suma wartości zmiennej wszystkich

Bardziej szczegółowo

Miary zmienności STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

Miary zmienności STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018 STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 6 marca 2018 1 MIARY ZMIENNOŚCI (inaczej: rozproszenia, rozrzutu, zróżnicowania, dyspersji) informuja o zróżnicowaniu jednostek zbiorowości

Bardziej szczegółowo

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła 12.03.2017 Wydział Inżynierii Produkcji I Logistyki Statystyka opisowa Wykład 3 Dr inż. Adam Deptuła METODY OPISU DANYCH ILOŚCIOWYCH SKALARNYCH Wykresy: diagramy, histogramy, łamane częstości, wykresy

Bardziej szczegółowo

Eksploracja danych - wykład II

Eksploracja danych - wykład II - wykład 1/29 wykład - wykład Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Październik 2015 - wykład 2/29 W kontekście odkrywania wiedzy wykład - wykład 3/29 CRISP-DM - standaryzacja

Bardziej szczegółowo

Laboratorium 3 - statystyka opisowa

Laboratorium 3 - statystyka opisowa dla szeregu rozdzielczego Laboratorium 3 - statystyka opisowa Agnieszka Mensfelt 11 lutego 2019 dla szeregu rozdzielczego Statystyka opisowa dla szeregu rozdzielczego Przykład wyniki maratonu Wyniki 18.

Bardziej szczegółowo

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy MIARY POŁOŻENIA Opisują średni lub typowy poziom wartości cechy. Określają tą wartość cechy, wokół której skupiają się wszystkie pozostałe wartości badanej cechy. Wśród nich można wyróżnić miary tendencji

Bardziej szczegółowo

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii Plan wykładu Statystyka opisowa Dane statystyczne miary położenia miary rozproszenia miary asymetrii Statystyka matematyczna Podstawy estymacji Testowanie hipotez statystycznych Żródła Korzystałam z ksiażek:

Bardziej szczegółowo

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak Wzory dla szeregu szczegółowego: Wzory dla szeregu rozdzielczego punktowego: ->Średnia arytmetyczna ważona -> Średnia arytmetyczna (5) ->Średnia harmoniczna (1) ->Średnia harmoniczna (6) (2) ->Średnia

Bardziej szczegółowo

Sieci Kohonena Grupowanie

Sieci Kohonena Grupowanie Sieci Kohonena Grupowanie http://zajecia.jakubw.pl/nai UCZENIE SIĘ BEZ NADZORU Załóżmy, że mamy za zadanie pogrupować następujące słowa: cup, roulette, unbelievable, cut, put, launderette, loveable Nie

Bardziej szczegółowo

Zadania ze statystyki, cz.6

Zadania ze statystyki, cz.6 Zadania ze statystyki, cz.6 Zad.1 Proszę wskazać, jaką część pola pod krzywą normalną wyznaczają wartości Z rozkładu dystrybuanty rozkładu normalnego: - Z > 1,25 - Z > 2,23 - Z < -1,23 - Z > -1,16 - Z

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO

STATYSTYKA I DOŚWIADCZALNICTWO STATYSTYKA I DOŚWIADCZALNICTWO Wykład 9 Analiza skupień wielowymiarowa klasyfikacja obiektów Metoda, a właściwie to zbiór metod pozwalających na grupowanie obiektów pod względem wielu cech jednocześnie.

Bardziej szczegółowo

Inteligentna analiza danych

Inteligentna analiza danych Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki

Bardziej szczegółowo

Statystyczne metody analizy danych przy użyciu środowiska R

Statystyczne metody analizy danych przy użyciu środowiska R Statystyczne metody analizy danych przy użyciu środowiska R Agnieszka Nowak - Brzezińska Instytut Informatyki, Uniwersytet Śląski Wybrane zagadnienia Plan wystąpienia 1. Wprowadzenie. 2. Środowisko R.

Bardziej szczegółowo

Przykład Rezygnacja z usług operatora

Przykład Rezygnacja z usług operatora Przykład Rezygnacja z usług operatora Zbiór CHURN Zbiór zawiera dane o 3333 klientach firmy telefonicznej razem ze wskazaniem, czy zrezygnowali z usług tej firmy Dane pochodzą z UCI Repository of Machine

Bardziej szczegółowo

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41 Statystyka Wykład 4 Magdalena Alama-Bućko 13 marca 2017 Magdalena Alama-Bućko Statystyka 13 marca 2017 1 / 41 Na poprzednim wykładzie omówiliśmy następujace miary rozproszenia: Wariancja - to średnia arytmetyczna

Bardziej szczegółowo

1. Grupowanie Algorytmy grupowania:

1. Grupowanie Algorytmy grupowania: 1. 1.1. 2. 3. 3.1. 3.2. Grupowanie...1 Algorytmy grupowania:...1 Grupowanie metodą k-średnich...3 Grupowanie z wykorzystaniem Oracle Data Miner i Rapid Miner...3 Grupowanie z wykorzystaniem algorytmu K-Means

Bardziej szczegółowo

Rozkład normalny. Marcin Zajenkowski. Marcin Zajenkowski () Rozkład normalny 1 / 26

Rozkład normalny. Marcin Zajenkowski. Marcin Zajenkowski () Rozkład normalny 1 / 26 Rozkład normalny Marcin Zajenkowski Marcin Zajenkowski () Rozkład normalny 1 / 26 Rozkład normalny Krzywa normalna, krzywa Gaussa, rozkład normalny Rozkłady liczebności wielu pomiarów fizycznych, biologicznych

Bardziej szczegółowo

Wykład 10 Skalowanie wielowymiarowe

Wykład 10 Skalowanie wielowymiarowe Wykład 10 Skalowanie wielowymiarowe Wrocław, 30.05.2018r Skalowanie wielowymiarowe (Multidimensional Scaling (MDS)) Główne cele MDS: przedstawienie struktury badanych obiektów przez określenie treści wymiarów

Bardziej szczegółowo

W1. Wprowadzenie. Statystyka opisowa

W1. Wprowadzenie. Statystyka opisowa W1. Wprowadzenie. Statystyka opisowa dr hab. Jerzy Nakielski Zakład Biofizyki i Morfogenezy Roślin Plan wykładu: 1. O co chodzi w statystyce 2. Etapy badania statystycznego 3. Zmienna losowa, rozkład

Bardziej szczegółowo

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1 Grupowanie Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Grupowanie wykład 1 Sformułowanie problemu Dany jest zbiór obiektów (rekordów). Znajdź naturalne pogrupowanie

Bardziej szczegółowo

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów: Na dzisiejszym wykładzie omówimy najważniejsze charakterystyki liczbowe występujące w statystyce opisowej. Poszczególne wzory będziemy podawać w miarę potrzeby w trzech postaciach: dla szeregu szczegółowego,

Bardziej szczegółowo

1 Podstawy rachunku prawdopodobieństwa

1 Podstawy rachunku prawdopodobieństwa 1 Podstawy rachunku prawdopodobieństwa Dystrybuantą zmiennej losowej X nazywamy prawdopodobieństwo przyjęcia przez zmienną losową X wartości mniejszej od x, tzn. F (x) = P [X < x]. 1. dla zmiennej losowej

Bardziej szczegółowo

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34 Statystyka Wykład 2 Magdalena Alama-Bućko 5 marca 2018 Magdalena Alama-Bućko Statystyka 5 marca 2018 1 / 34 Banki danych: Bank danych lokalnych : Główny urzad statystyczny: Baza Demografia : https://bdl.stat.gov.pl/

Bardziej szczegółowo

Parametry statystyczne

Parametry statystyczne I. MIARY POŁOŻENIA charakteryzują średni lub typowy poziom wartości cechy, wokół nich skupiają się wszystkie pozostałe wartości analizowanej cechy. I.1. Średnia arytmetyczna x = x 1 + x + + x n n = 1 n

Bardziej szczegółowo

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne), Statystyka zbiór przetworzonych i zsyntetyzowanych danych liczbowych, nauka o ilościowych metodach badania zjawisk masowych, zmienna losowa będąca funkcją próby. Podstawowe pojęcia: populacja (zbiorowość

Bardziej szczegółowo

Podstawy grupowania danych w programie RapidMiner Michał Bereta

Podstawy grupowania danych w programie RapidMiner Michał Bereta Podstawy grupowania danych w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Grupowanie hierarchiczne Grupowanie (analiza skupieo, ang. clustering) ma na celu automatyczne wykrycie grup istniejących

Bardziej szczegółowo

Analiza zróżnicowania, asymetrii i koncentracji

Analiza zróżnicowania, asymetrii i koncentracji Analiza zróżnicowania, asymetrii i koncentracji Miary zróżnicowania Miary średnie, chociaż reprezentują wszystkie jednostki badanej zbiorowości, nie dają wyczerpującej charakterystyki szeregu statystycznego,

Bardziej szczegółowo

Mail: Pokój 214, II piętro

Mail: Pokój 214, II piętro Wykład 2 Mail: agnieszka.nowak@us.edu.pl Pokój 214, II piętro http://zsi.tech.us.edu.pl/~nowak Predykcja zdolność do wykorzystania wiedzy zgromadzonej w systemie do przewidywania wartości dla nowych danych,

Bardziej szczegółowo

Ewaluacja sprawdzianu 2009 klas szóstych szkoły podstawowej na podstawie sprawozdania sporządzonego przez OKE w Jaworznie

Ewaluacja sprawdzianu 2009 klas szóstych szkoły podstawowej na podstawie sprawozdania sporządzonego przez OKE w Jaworznie Zespół Szkolno - Przedszkolny w Rudzicy im. Jana Pawła II Ewaluacja sprawdzianu 2009 klas szóstych szkoły podstawowej na podstawie sprawozdania sporządzonego przez OKE w Jaworznie Rudzica 2009 SPIS TREŚCI

Bardziej szczegółowo

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie. SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:

Bardziej szczegółowo

Agnieszka Nowak Brzezińska

Agnieszka Nowak Brzezińska Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia

Bardziej szczegółowo

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA Statystyka opisowa PRZEDMIOT: PODSTAWY STATYSTYKI PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA Statystyka opisowa = procedury statystyczne stosowane do opisu właściwości próby (rzadziej populacji) Pojęcia:

Bardziej szczegółowo

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE 1 W trakcie badania obliczono wartości średniej (15,4), mediany (13,6) oraz dominanty (10,0). Określ typ asymetrii rozkładu. 2 Wymień 3 cechy rozkładu Gauss

Bardziej szczegółowo

Wykład 5: Statystyki opisowe (część 2)

Wykład 5: Statystyki opisowe (część 2) Wykład 5: Statystyki opisowe (część 2) Wprowadzenie Na poprzednim wykładzie wprowadzone zostały statystyki opisowe nazywane miarami położenia (średnia, mediana, kwartyle, minimum i maksimum, modalna oraz

Bardziej szczegółowo

Algorytm grupowania danych typu kwantyzacji wektorów

Algorytm grupowania danych typu kwantyzacji wektorów Algorytm grupowania danych typu kwantyzacji wektorów Wstęp Definicja problemu: Typowe, rozważane dotychczas problemy koncentrowały się na nauczeniu na podstawie zbioru treningowego i zbioru etykiet klasyfikacji

Bardziej szczegółowo

TEORETYCZNE PODSTAWY INFORMATYKI

TEORETYCZNE PODSTAWY INFORMATYKI 1 TEORETYCZNE PODSTAWY INFORMATYKI WFAiS UJ, Informatyka Stosowana II stopień studiów Wykład 13a 2 Eksploracja danych Co to są dane W jaki sposób zbieramy dane W jaki sposób reprezentujemy dane W jaki

Bardziej szczegółowo

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33 Statystyka Wykład 4 Magdalena Alama-Bućko 19 marca 2018 Magdalena Alama-Bućko Statystyka 19 marca 2018 1 / 33 Analiza struktury zbiorowości miary położenia ( miary średnie) miary zmienności (rozproszenia,

Bardziej szczegółowo

Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia

Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia Wykład 2 Statystyka opisowa - Miary rozkładu: Miary położenia Podział miar Miary położenia (measures of location): 1. Miary tendencji centralnej (measures of central tendency, averages): Średnia arytmetyczna

Bardziej szczegółowo

Elementy statystyki wielowymiarowej

Elementy statystyki wielowymiarowej Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych

Bardziej szczegółowo

Czym jest analiza skupień?

Czym jest analiza skupień? Statystyczna analiza danych z pakietem SAS Analiza skupień metody hierarchiczne Czym jest analiza skupień? wielowymiarowa technika pozwalająca wykrywać współzależności między obiektami; ściśle związana

Bardziej szczegółowo

Sztuczna inteligencja : Algorytm KNN

Sztuczna inteligencja : Algorytm KNN Instytut Informatyki Uniwersytetu Śląskiego 23 kwietnia 2012 1 Algorytm 1 NN 2 Algorytm knn 3 Zadania Klasyfikacja obiektów w oparciu o najbliższe obiekty: Algorytm 1-NN - najbliższego sąsiada. Parametr

Bardziej szczegółowo

Wykład 4: Statystyki opisowe (część 1)

Wykład 4: Statystyki opisowe (część 1) Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można

Bardziej szczegółowo

Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa

Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa Konrad Miziński 14 stycznia 2015 1 Temat projektu Grupowanie hierarchiczne na podstawie algorytmu k-średnich. 2 Dokumenty

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO

STATYSTYKA I DOŚWIADCZALNICTWO STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6 Test niezależności chi-kwadrat (χ 2 ) Cel: ocena występowania zależności między dwiema cechami jakościowymi/skategoryzowanymi X- pierwsza cecha; Y druga cecha Przykłady

Bardziej szczegółowo

Miary statystyczne w badaniach pedagogicznych

Miary statystyczne w badaniach pedagogicznych Miary statystyczne w badaniach pedagogicznych Szeregi statystyczne Szczegółowy - gdzie materiał uporządkowany jest rosnąco lub malejąco Rozdzielczy - gdzie poszczególnym wariantom zmiennej przyporządkowane

Bardziej szczegółowo

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34 Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34 Def. Charakterystyki liczbowe to wielkości wyznaczone na podstawie danych statystycznych, charakteryzujące własności badanej cechy. Klasyfikacja

Bardziej szczegółowo

Skalowanie wielowymiarowe idea

Skalowanie wielowymiarowe idea Skalowanie wielowymiarowe idea Jedną z wad metody PCA jest możliwość używania jedynie zmiennych ilościowych, kolejnym konieczność posiadania pełnych danych z doświadczenia(nie da się użyć PCA jeśli mamy

Bardziej szczegółowo

Algorytm grupowania danych typu kwantyzacji wektorów

Algorytm grupowania danych typu kwantyzacji wektorów Algorytm grupowania danych typu kwantyzacji wektorów Wstęp Definicja problemu: Typowe, problemem często spotykanym w zagadnieniach eksploracji danych (ang. data mining) jest zagadnienie grupowania danych

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Eksploracja danych Algorytmy klastujące Problem 3 Mając daną chmurę punktów chcielibyśmy zrozumieć ich

Bardziej szczegółowo

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 2 1 / 20 MIARY ROZPROSZENIA, Wariancja Wariancją z próby losowej X

Bardziej szczegółowo

Wstęp do grupowania danych

Wstęp do grupowania danych Eksploracja zasobów internetowych Wykład 5 Wstęp do grupowania danych mgr inż. Maciej Kopczyński Białystok 2014 Wstęp Istnieją dwie podstawowe metody klasyfikowania obiektów: metoda z nauczycielem, metoda

Bardziej szczegółowo

MODELE LINIOWE. Dr Wioleta Drobik

MODELE LINIOWE. Dr Wioleta Drobik MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą

Bardziej szczegółowo

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu

Bardziej szczegółowo

Przestrzeń algorytmów klastrowania

Przestrzeń algorytmów klastrowania 20 listopada 2008 Plan prezentacji 1 Podstawowe pojęcia Przykłady algorytmów klastrowania 2 Odległość algorytmów klastrowania Odległość podziałów 3 Dane wejściowe Eksperymenty Praca źródłowa Podstawowe

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817 Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817 Zadanie 1: wiek 7 8 9 1 11 11,5 12 13 14 14 15 16 17 18 18,5 19 wzrost 12 122 125 131 135 14 142 145 15 1 154 159 162 164 168 17 Wykres

Bardziej szczegółowo

Z-0033z Statystyka. Zarządzanie i Inżynieria Produkcji I stopień Ogólnoakademicki. Stacjonarne Wszystkie Katedra Matematyki dr Zdzisław Piasta

Z-0033z Statystyka. Zarządzanie i Inżynieria Produkcji I stopień Ogólnoakademicki. Stacjonarne Wszystkie Katedra Matematyki dr Zdzisław Piasta KARTA MODUŁU / KARTA PRZEDMIOTU Z-0033z Statystyka Kod modułu Nazwa modułu Nazwa modułu w języku angielskim Statistics Obowiązuje od roku akademickiego 2012/2013 A. USYTUOWANIE MODUŁU W SYSTEMIE STUDIÓW

Bardziej szczegółowo

ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA. dr inż. Aleksander Astel

ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA. dr inż. Aleksander Astel ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA dr inż. Aleksander Astel Gdańsk, 22.12.2004 CHEMOMETRIA dziedzina nauki i techniki zajmująca się wydobywaniem użytecznej informacji z wielowymiarowych

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Eksploracja danych Co to znaczy eksploracja danych Klastrowanie (grupowanie) hierarchiczne Klastrowanie

Bardziej szczegółowo

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych; STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych; - badanie skuteczności nowego leku; - badanie stopnia zanieczyszczenia gleb metalami

Bardziej szczegółowo

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE CECHY mogą być: jakościowe nieuporządkowane - skala nominalna płeć, rasa, kolor oczu, narodowość, marka samochodu,

Bardziej szczegółowo

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska D syst D śr m 1 3 5 2 4 6 śr j D 1

Bardziej szczegółowo

Statystyka. Opisowa analiza zjawisk masowych

Statystyka. Opisowa analiza zjawisk masowych Statystyka Opisowa analiza zjawisk masowych Typy rozkładów empirycznych jednej zmiennej Rozkładem empirycznym zmiennej nazywamy przyporządkowanie kolejnym wartościom zmiennej (x i ) odpowiadających im

Bardziej szczegółowo

Analiza wariancji. dr Janusz Górczyński

Analiza wariancji. dr Janusz Górczyński Analiza wariancji dr Janusz Górczyński Wprowadzenie Powiedzmy, że badamy pewną populację π, w której cecha Y ma rozkład N o średniej m i odchyleniu standardowym σ. Powiedzmy dalej, że istnieje pewien czynnik

Bardziej szczegółowo

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp tel.: +48 662 635 712 Liczba stron: 15 Data: 20.07.2010r OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA z wykorzystaniem programu obliczeniowego Q maxp DŁUGIE

Bardziej szczegółowo

Statystyki opisowe i szeregi rozdzielcze

Statystyki opisowe i szeregi rozdzielcze Statystyki opisowe i szeregi rozdzielcze - ćwiczenia ĆWICZENIA Piotr Ciskowski ramka-wąsy przykład 1. krwinki czerwone Stanisz W eksperymencie farmakologicznym analizowano oddziaływanie pewnego preparatu

Bardziej szczegółowo

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną

Bardziej szczegółowo

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28 Statystyka Wykład 3 Magdalena Alama-Bućko 6 marca 2017 Magdalena Alama-Bućko Statystyka 6 marca 2017 1 / 28 Szeregi rozdzielcze przedziałowe - kwartyle - przypomnienie Po ustaleniu przedziału, w którym

Bardziej szczegółowo

BANK NAJLEPSZY DLA ROLNIKA

BANK NAJLEPSZY DLA ROLNIKA 2017 BANK NAJLEPSZY DLA ROLNIKA 2017 Martin & Jacob przygotował ranking Bank Najlepszy dla Rolnika. Wstęp Ranking Bank Najlepszy dla Rolnika jest pierwszym tego typu rankingiem w Polsce. Zrealizowała go

Bardziej szczegółowo

Z-LOGN1-006 Statystyka Statistics

Z-LOGN1-006 Statystyka Statistics KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu Nazwa modułu Nazwa modułu w języku angielskim Z-LOGN-006 Statystyka Statistics Obowiązuje od roku akademickiego 0/0 A. USYTUOWANIE MODUŁU W SYSTEMIE STUDIÓW Kierunek

Bardziej szczegółowo

Statystyka Matematyczna Anna Janicka

Statystyka Matematyczna Anna Janicka Statystyka Matematyczna Anna Janicka wykład I, 22.02.2016 STATYSTYKA OPISOWA, cz. I Kwestie techniczne Kontakt: ajanicka@wne.uw.edu.pl Dyżur: strona z materiałami z przedmiotu: wne.uw.edu.pl/azylicz akson.sgh.waw.pl/~aborata

Bardziej szczegółowo

TRANSFORMACJE I JAKOŚĆ DANYCH

TRANSFORMACJE I JAKOŚĆ DANYCH METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING TRANSFORMACJE I JAKOŚĆ DANYCH Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

Wykrywanie anomalii w zbiorze danych o dużym wymiarze

Wykrywanie anomalii w zbiorze danych o dużym wymiarze Wykrywanie anomalii w zbiorze danych o dużym wymiarze Piotr Kroll Na podstawie pracy: Very Fast Outlier Detection In Large Multidimensional Data Set autorstwa: A. Chandhary, A. Shalay, A. Moore Różne rozwiązania

Bardziej szczegółowo

Statystyczne sterowanie procesem

Statystyczne sterowanie procesem Statystyczne sterowanie procesem SPC (ang. Statistical Process Control) Trzy filary SPC: 1. sporządzenie dokładnego diagramu procesu produkcji; 2. pobieranie losowych próbek (w regularnych odstępach czasu

Bardziej szczegółowo

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Wrocław University of Technology SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Jakub M. Tomczak Studenckie Koło Naukowe Estymator jakub.tomczak@pwr.wroc.pl 4.1.213 Klasteryzacja Zmienne

Bardziej szczegółowo

Statystyka matematyczna i ekonometria

Statystyka matematyczna i ekonometria Statystyka matematyczna i ekonometria Wykład 11 Anna Skowrońska-Szmer lato 2016/2017 Powtórzenie materiału 2 Zadanie 1 Wykład 1 Eksperyment polega na pojedynczym rzucie symetryczną kostką. Przestrzeń zdarzeń

Bardziej szczegółowo

KLASYFIKACJA. Słownik języka polskiego

KLASYFIKACJA. Słownik języka polskiego KLASYFIKACJA KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu

Bardziej szczegółowo

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski Literatura STATYSTYKA OPISOWA A. Aczel, Statystyka w Zarządzaniu, PWN, 2000 A. Obecny, Statystyka opisowa w Excelu dla szkół. Ćwiczenia praktyczne, Helion, 2002. A. Obecny, Statystyka matematyczna w Excelu

Bardziej szczegółowo

2.Wstępna analiza danych c.d.- wykład z 5.03.2006 Populacja i próba

2.Wstępna analiza danych c.d.- wykład z 5.03.2006 Populacja i próba 2.Wstępna analiza danych c.d.- wykład z 5.03.2006 Populacja i próba Populacja- zbiorowość skończona lub nieskończona, w stosunku do której mają być formułowane wnioski. Próba- skończony podzbiór populacji

Bardziej szczegółowo

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska e-mail: bartosz.krawczyk@pwr.wroc.pl Czym jest klasyfikacja

Bardziej szczegółowo

Co to jest grupowanie

Co to jest grupowanie Grupowanie danych Co to jest grupowanie 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Szukanie grup, obszarów stanowiących lokalne gromady punktów Co to jest grupowanie

Bardziej szczegółowo

Analiza skupień. Idea

Analiza skupień. Idea Idea Analiza skupień Analiza skupień jest narzędziem analizy danych służącym do grupowania n obiektów, opisanych za pomocą wektora p-cech, w K niepustych, rozłącznych i możliwie jednorodnych grup skupień.

Bardziej szczegółowo