Określanie ważności atrybutów. RapidMiner
|
|
- Przybysław Pawłowski
- 8 lat temu
- Przeglądów:
Transkrypt
1 Określanie ważności atrybutów RapidMiner
2 Klasyfikacja (1/2) TEMP BÓL WYSYPKA GARDŁO DIAGNOZA 36.6 T BRAK NORMA NIESTRAWNOŚĆ 37.5 N MAŁA PRZEKR. ALERGIA 36.0 N BRAK NORMA PRZECHŁODZENIE 39.5 T DUŻA PRZEKR. CZARNA OSPA Klasyfikator TEMP BÓL WYSYPKA GARDŁO 38.0 N BRAK NORMA DIAGNOZA ALERGIA Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 63/633
3 gardlo = przekrwione temp > 37 ból = N ? Klasyfikacja (2/2) P(BÓL ALERGIA)=0,3 P(TEMP>37 ANGINA)=0,5 angina przechlodzenie TEMP>37 BÓL=N WYSYPKA>MAŁA NIESTRAWNOŚĆ PRZECHŁODZENIE ALERGIA CZARNA OSPA Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 64/633
4 Wariancja i odchylenie standardowe Miara zmienności zmiennej losowej var X Można estymować wariancję z próby losowej za pomocą wzoru:, gdzie Odchylenie standardowe wyliczane jest jako pierwiastek wariancji. Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 65/633
5 Kowariancja Miara określająca zależność liniową zmiennej losowej cov X,Y Można estymować wariancję z próby losowej za pomocą wzoru:,, gdzie (y i analogicznie). Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 66/633
6 Współczynnik korelacji Pearsona (1) Kowariancja może przyjąć dowolne wartości. Trudność w analizie. Współczynnik korelacji Pearsona, to kowariancja znormalizowana do przedziału [- 1,1] ρ, r, Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 67/633
7 Współczynnik korelacji Pearsona (2) Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 68/633
8 DatasetSonar 60 atrybutów + 1 atrybut decyzyjny 208 pomiarów Każdy z 60 atrybutów to ilość energii odpowiadającej określonej częstotliwości dźwięku zebranej podczas pomiaru w jakimś okresie czasu. Atrybut decyzyjny ma dwie wartości: rock, mine Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 69/633
9 Usuwanie atrybutów skorelowanych Data transformation\attributeset reductionand transformation\selection Wartość graniczna współczynnika Pearsona Czy ignorujemy znak przed wartością współczynnika Pearsona Usuwamy atrybuty o korelacji większej czy mniejszej of wartości granicznej Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 70/633
10 Zadanie Zbuduj przepływ: Źródło danych: sonar Usuń atrybuty o współczynniku korelacji >0.6 Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 71/633
11 Usuwanie atrybutów o małej zmienności Data transformation\attributeset reductionand transformation\selection Usuń atrybuty numeryczne, których odchylenie standardowe jest mniejsze niż ta wartość Usuń atrybuty nominalne, których najczęściej występująca wartość występuje w więcej niż zadanym procencie rekordów Usuń atrybuty nominalne, których najczęściej występująca wartość występuje w mniej niż zadanym procencie rekordów Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 72/633
12 Zadanie Zbuduj przepływ: Źródło danych: sonar Usuń atrybuty o odchyleniu standardowym mniejszym niż 0.2 Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 73/633
13 Miara Relief (1) Miara Relief to wynik działania algorytmu wyznaczającego relatywną ważność atrybutów. Miara relief ocenia jak dobrze poszczególne atrybuty nadają się do przewidywania wartości jednego wybranego atrybutu binarnego, tzw. atrybutu decyzyjnego. Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 74/633
14 Miara Relief (2) 5 4 Na początku: w x =0 w y =0 Y 3 Dla każdego punktu w x =w x -b x2 +a x 2 w y =w y -b y2 +a y b y a y Na końcu w x =w x /n w y =w y /n 0 b x a x X (n to liczba punktów) Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 75/633
15 Weightby Relief Posortuj obliczone wagi Ile sąsiadów brać pod uwagę dla każdego obiektu Pozostaw atrybuty o wagach które są Próg Jaki procent obiektów brać pod uwagę Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 76/633
16 One rulemodel (OneR) Bardzo prosty mechanizm klasyfikacji Tworzy 1-dno poziomowe drzewo decyzyjne. A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F T X F A A 1 2 T 3 (1) F 1 (0) X T F B B 5 7 T 2(1) F 1(1) Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 77/633
17 Ocena atrybutu za pomocą OneR Usuń oceniany atrybut z tabeli danych. Zbuduj model OneRi policz liczbę błędów Liczba błędów to waga atrybutu. Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 78/633
18 Weightby Rule Posortuj obliczone wagi Normalizuj wagi do przedziału 0-1 Pozostaw atrybuty o wagach które są Próg Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 79/633
19 Zadanie 1 Zbuduj przepływ: Źródło danych: sonar Ocena atrybutów: miara relief Liczba sąsiadów 10, Sample ratio: 1.0 (wykorzystaj wszystkie przykłady) Zachowaj atrybuty o wadze większej niż 0.5 Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 80/633
20 Zadanie 2 Zmodyfikuj liczbę sąsiadów na: i zobacz jak wpływa to na wyniki (wagi i liczbę pozostawionych atrybutów) Zmodyfikuj próg akceptacji na: izobacz jak to wpływa na wyniki (liczbę pozostawionych atrybutów) Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 81/633
21 Zadanie 3 Zbuduj przepływ: Źródło danych: sonar Ocena atrybutów: miara rule Obejrzyj wynikowe wagi Zachowaj atrybuty o wadze większej niż: Zobacz jak wpływa to na liczbę pozostawionych atrybutów Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 82/633
Odkrywanie reguł asocjacyjnych. Rapid Miner
Odkrywanie reguł asocjacyjnych Rapid Miner Zbiory częste TS ID_KLIENTA Koszyk 12:57 1123 {mleko, pieluszki, piwo} 13:12 1412 {mleko, piwo, bułki, masło, pieluszki} 13:55 1425 {piwo, wódka, wino, paracetamol}
Wprowadzenie do klasyfikacji
Wprowadzenie do klasyfikacji ZeroR Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F Tutaj jest więcej obiektów klasy T, więc klasyfikator
Eksploracja Danych. podstawy
Eksploracja Danych podstawy Bazy danych (1) Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 2/633 Bazy danych (2) Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 3/633
Agnieszka Nowak Brzezińska
Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia
PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com
Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych
X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9
Zadanie W celu sprawdzenia, czy pipeta jest obarczona błędem systematycznym stałym lub zmiennym wykonano szereg pomiarów przy różnych ustawieniach pipety. Wyznacz równanie regresji liniowej, które pozwoli
Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Wprowadzenie do programu RapidMiner, część 4 Michał Bereta
Wprowadzenie do programu RapidMiner, część 4 Michał Bereta www.michalbereta.pl 1. Wybór atrybutów (ang. attribute selection, feature selection). Jedną z podstawowych metod analizy współoddziaływania /
Rozkłady dwóch zmiennych losowych
Rozkłady dwóch zmiennych losowych Uogólnienie pojęć na rozkład dwóch zmiennych Dystrybuanta i gęstość prawdopodobieństwa Rozkład brzegowy Prawdopodobieństwo warunkowe Wartości średnie i odchylenia standardowe
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe
Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe Nierówność Czebyszewa Niech X będzie zmienną losową o skończonej wariancji V ar(x). Wtedy wartość oczekiwana E(X) też jest skończona i
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
dr hab. Renata Karkowska 1
dr hab. Renata Karkowska 1 Miary zmienności: obrazują zmiany cen, stóp zwrotu instrumentów finansowych, opierają się na rozproszeniu ich rozkładu, tym samym uśredniają ryzyko: wariancja stopy zwrotu, odchylenie
Psychometria PLAN NAJBLIŻSZYCH WYKŁADÓW. Co wyniki testu mówią nam o samym teście? A. Rzetelność pomiaru testem. TEN SLAJD JUŻ ZNAMY
definicja rzetelności błąd pomiaru: systematyczny i losowy Psychometria Co wyniki testu mówią nam o samym teście? A. Rzetelność pomiaru testem. rozkład X + błąd losowy rozkład X rozkład X + błąd systematyczny
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący
Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
Prawdopodobieństwo i statystyka
Wykład XV: Zagadnienia redukcji wymiaru danych 2 lutego 2015 r. Standaryzacja danych Standaryzacja danych Własności macierzy korelacji Definicja Niech X będzie zmienną losową o skończonym drugim momencie.
Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
Komputerowa analiza danych doświadczalnych
Komputerowa analiza danych doświadczalnych Wykład 3 11.03.2016 dr inż. Łukasz Graczykowski lgraczyk@if.pw.edu.pl Wykłady z poprzednich lat (dr inż. H. Zbroszczyk): http://www.if.pw.edu.pl/~gos/student
Komputerowa Analiza Danych Doświadczalnych
Komputerowa Analiza Danych Doświadczalnych Prowadząca: dr inż. Hanna Zbroszczyk e-mail: gos@if.pw.edu.pl tel: +48 22 234 58 51 konsultacje: poniedziałek, 10-11, środa: 11-12 www: http://www.if.pw.edu.pl/~gos/students/kadd
1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:
Metoda analizy macierzy współczynników korelacji Idea metody sprowadza się do wyboru takich zmiennych objaśniających, które są silnie skorelowane ze zmienną objaśnianą i równocześnie słabo skorelowane
Inteligentna analiza danych
Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki
Statystyka i eksploracja danych
Wykład XII: Zagadnienia redukcji wymiaru danych 12 maja 2014 Definicja Niech X będzie zmienną losową o skończonym drugim momencie. Standaryzacją zmiennej X nazywamy zmienną losową Z = X EX Var (X ). Definicja
Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński
Wstęp do teorii niepewności pomiaru Danuta J. Michczyńska Adam Michczyński Podstawowe informacje: Strona Politechniki Śląskiej: www.polsl.pl Instytut Fizyki / strona własna Instytutu / Dydaktyka / I Pracownia
STATYSTYKA MATEMATYCZNA
STATYSTYKA MATEMATYCZNA 1. Wykład wstępny 2. Zmienne losowe i teoria prawdopodobieństwa 3. Populacje i próby danych 4. Testowanie hipotez i estymacja parametrów 5. Najczęściej wykorzystywane testy statystyczne
Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35
Statystyka Wykład 7 Magdalena Alama-Bućko 16 kwietnia 2017 Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 1 / 35 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
Ważne rozkłady i twierdzenia c.d.
Ważne rozkłady i twierdzenia c.d. Funkcja charakterystyczna rozkładu Wielowymiarowy rozkład normalny Elipsa kowariacji Sploty rozkładów Rozkłady jednostajne Sploty z rozkładem normalnym Pobieranie próby
Sztuczna inteligencja : Algorytm KNN
Instytut Informatyki Uniwersytetu Śląskiego 23 kwietnia 2012 1 Algorytm 1 NN 2 Algorytm knn 3 Zadania Klasyfikacja obiektów w oparciu o najbliższe obiekty: Algorytm 1-NN - najbliższego sąsiada. Parametr
( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:
ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość
Statystyka matematyczna dla kierunku Rolnictwo w SGGW. BADANIE WSPÓŁZALEśNOŚCI DWÓCH CECH. ANALIZA KORELACJI PROSTEJ.
BADANIE WSPÓŁZALEśNOŚCI DWÓCH CECH. ANALIZA KORELACJI PROSTEJ. IDEA OPISU WSPÓŁZALEśNOŚCI CECH X, Y cechy obserwowane w doświadczeniu, n liczba jednostek doświadczalnych, Wyniki doświadczenia: wartości
Analiza korelacji
Analiza korelacji Zakres szkolenia Wstęp Podstawowe pojęcia korelacji Współczynnik korelacji liniowej Pearsona Współczynnik korelacji rang Spearmana Test istotności Zadania 2 Wstęp Do czego służy korelacja:
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y
Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa
Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący
Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego
Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego Współczynnik korelacji opisuje siłę i kierunek związku. Jest miarą symetryczną. Im wyższa korelacja tym lepiej potrafimy
Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007
Modele regresji wielorakiej - dobór zmiennych, szacowanie Paweł Cibis pawel@cibis.pl 1 kwietnia 2007 1 Współczynnik zmienności Współczynnik zmienności wzory Współczynnik zmienności funkcje 2 Korelacja
TEMP BÓL WYSYPKA GARDŁO DIAGNOZA
Klasyfikacja Klasyfikacja TEMP BÓL WYSYPKA GARDŁO DIAGNOZA 36.6 T BRAK NORMA NIESTRAWNOŚĆ 37.5 N MAŁA PRZEKR. ALERGIA 36.0 N BRAK NORMA PRZECHŁODZENIE 39.5 T DUŻA PRZEKR. CZARNA OSPA Klasyfikator TEMP
3. Optymalizacja portfela inwestycyjnego Model Markowitza Model jednowskaźnikowy Sharpe a Model wyceny aktywów kapitałowych CAPM
3. Optymalizacja portfela inwestycyjnego Model Markowitza Model jednowskaźnikowy Sharpe a Model wyceny aktywów kapitałowych CAPM Oczekiwana stopa zwrotu portfela dwóch akcji: E(r p ) = w 1 E(R 1 ) + w
Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,
Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której
Rzetelność ma dwa aspekty: konsystencja (precyzja pomiaru) stabilność pomiaru (powtarzalność wyników)
6. RZETELNOŚĆ TESTU Metody szacowania rzetelności Rodzaje testu a wybór metody szacowania rzetelności Czynniki wpływające na rzetelność pomiaru Kryteria akceptacji rzetelności pomiaru Praktyczne wykorzystanie
Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ
Współczynnik korelacji Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Własności współczynnika korelacji 1. Współczynnik korelacji jest liczbą niemianowaną 2. ϱ 1,
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y
I jest narzędziem służącym do porównywania rozproszenia dwóch zmiennych. Używamy go tylko, gdy pomiędzy zmiennymi istnieje logiczny związek
ZADANIA statystyka opisowa i CTG 1. Dokonano pomiaru stężenia jonów azotanowych w wodzie μg/ml 1 0.51 0.51 0.51 0.50 0.51 0.49 0.52 0.53 0.50 0.47 0.51 0.52 0.53 0.48 0.59 0.50 0.52 0.49 0.49 0.50 0.49
X WYKŁAD STATYSTYKA. 14/05/2014 B8 sala 0.10B Godz. 15:15
X WYKŁAD STATYSTYKA 14/05/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 10 ANALIZA KORELACJI Korelacja 1. Współczynnik korelacji 2. Kowariancja 3. Współczynnik korelacji liniowej definicja 4. Estymacja współczynnika
Analiza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA
WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA Powtórka Powtórki Kowiariancja cov xy lub c xy - kierunek zależności Współczynnik korelacji liniowej Pearsona r siła liniowej zależności Istotność
zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych
zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych 1. [E.A 5.10.1996/zad.4] Funkcja gęstości dana jest wzorem { 3 x + 2xy + 1 y dla (x y) (0 1) (0 1) 4 4 P (X > 1 2 Y > 1 2 ) wynosi:
Algorytmy klasyfikacji
Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny
Kompresja danych Streszczenie Studia Dzienne Wykład 10,
1 Kwantyzacja wektorowa Kompresja danych Streszczenie Studia Dzienne Wykład 10, 28.04.2006 Kwantyzacja wektorowa: dane dzielone na bloki (wektory), każdy blok kwantyzowany jako jeden element danych. Ogólny
STATYSTYKA MATEMATYCZNA
STATYSTYKA MATEMATYCZNA 1. Wykład wstępny 2. Teoria prawdopodobieństwa i elementy kombinatoryki 3. Zmienne losowe 4. Populacje i próby danych 5. Testowanie hipotez i estymacja parametrów 6. Test t 7. Test
KORELACJE I REGRESJA LINIOWA
KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem
Określanie ważności atrybutów. OracleData Miner
Określanie ważności atrybutów OracleData Miner Algorytm MDL (intuicja) (1) William of Ockham (1285-1349): Nie należy mnożyć bytów ponad potrzebę Reguła minimalnej długości opisu (Minimum DescriptionLengthMDL)
Drzewa klasyfikacyjne algorytm podstawowy
DRZEWA DECYZYJNE Drzewa klasyfikacyjne algorytm podstawowy buduj_drzewo(s przykłady treningowe, A zbiór atrybutów) { utwórz węzeł t (korzeń przy pierwszym wywołaniu); if (wszystkie przykłady w S należą
Oszacowanie i rozkład t
Oszacowanie i rozkład t Marcin Zajenkowski Marcin Zajenkowski () Oszacowanie i rozkład t 1 / 31 Oszacowanie 1 Na podstawie danych z próby szacuje się wiele wartości w populacji, np.: jakie jest poparcie
Mail: Pokój 214, II piętro
Wykład 2 Mail: agnieszka.nowak@us.edu.pl Pokój 214, II piętro http://zsi.tech.us.edu.pl/~nowak Predykcja zdolność do wykorzystania wiedzy zgromadzonej w systemie do przewidywania wartości dla nowych danych,
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki
ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x
ZJAZD 4 KORELACJA, BADANIE NIEZALEŻNOŚCI, ANALIZA REGRESJI Analiza korelacji i regresji jest działem statystyki zajmującym się badaniem zależności i związków pomiędzy rozkładami dwu lub więcej badanych
Statystyczna analiza danych
Statystyczna analiza danych Korelacja i regresja Ewa Szczurek szczurek@mimuw.edu.pl Instytut Informatyki Uniwersytet Warszawski 1/30 Ostrożnie z interpretacją p wartości p wartości zależą od dwóch rzeczy
Laboratorium 4. Naiwny klasyfikator Bayesa.
Laboratorium 4 Naiwny klasyfikator Bayesa. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk
L.Kowalski zadania z rachunku prawdopodobieństwa-zestaw 4 ZADANIA - ZESTAW 4
ZADANIA - ZESTAW 4 Zadanie 4. 0-0,4 c 0 0, 0, Wznacz c. Wznacz rozkład brzegowe. Cz, są niezależne? (odp. c = 0,3 Zadanie 4.- 0-0,4 0,3 0 0, 0, Wznaczć macierz kowariancji i korelacji. Cz, są skorelowane?
Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817
Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817 Zadanie 1: wiek 7 8 9 1 11 11,5 12 13 14 14 15 16 17 18 18,5 19 wzrost 12 122 125 131 135 14 142 145 15 1 154 159 162 164 168 17 Wykres
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania
Spis treści 3 SPIS TREŚCI
Spis treści 3 SPIS TREŚCI PRZEDMOWA... 1. WNIOSKOWANIE STATYSTYCZNE JAKO DYSCYPLINA MATEMATYCZNA... Metody statystyczne w analizie i prognozowaniu zjawisk ekonomicznych... Badania statystyczne podstawowe
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
METODY STATYSTYCZNE W BIOLOGII
METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne
Laboratorium 11. Regresja SVM.
Laboratorium 11 Regresja SVM. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk Dalej>. 3. Z
RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk
Wprowadzenie RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk Magdalena Deckert Politechnika Poznańska, Instytut Informatyki Seminarium ISWD, 21.05.2013 M. Deckert Przyrostowy
Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka
Analiza współzależności zjawisk dr Marta Kuc-Czarnecka Wprowadzenie Prawidłowości statystyczne mają swoje przyczyny, w związku z tym dla poznania całokształtu badanego zjawiska potrzebna jest analiza z
DOKUMENTACJA SYSTEMU ZARZĄDZANIA LABORATORIUM. Procedura szacowania niepewności
DOKUMENTACJA SYSTEMU ZARZĄDZANIA LABORATORIUM Procedura szacowania niepewności Szacowanie niepewności oznaczania / pomiaru zawartości... metodą... Data Imię i Nazwisko Podpis Opracował Sprawdził Zatwierdził
Metodologia badań psychologicznych. Wykład 12. Korelacje
Metodologia badań psychologicznych Lucyna Golińska SPOŁECZNA AKADEMIA NAUK Wykład 12. Korelacje Korelacja Korelacja występuje wtedy gdy dwie różne miary dotyczące tych samych osób, zdarzeń lub obiektów
Wnioskowanie statystyczne. Statystyka w 5
Wnioskowanie statystyczne tatystyka w 5 Rozkłady statystyk z próby Próba losowa pobrana z populacji stanowi realizacje zmiennej losowej jak ciąg zmiennych losowych (X, X,... X ) niezależnych i mających
Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38
Statystyka Wykład 8 Magdalena Alama-Bućko 23 kwietnia 2017 Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 1 / 38 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA
STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA Zadanie 0.1 Zmienna losowa X ma rozkład określony funkcją prawdopodobieństwa: x k 0 4 p k 1/3 1/6 1/ obliczyć EX, D X. (odp. 4/3;
Komputerowa analiza danych doświadczalnych. Wykład dr inż. Łukasz Graczykowski
Komputerowa analiza danych doświadczalnych Wykład 3 9.03.2018 dr inż. Łukasz Graczykowski lukasz.graczykowski@pw.edu.pl Semestr letni 2017/2018 Dwuwymiarowe rozkłady zmiennych losowych Jednoczesne pomiary
LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów
LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów Łukasz Piątek, Jerzy W. Grzymała-Busse Katedra Systemów Ekspertowych i Sztucznej Inteligencji, Wydział Informatyki
Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski
Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW Dwuczynnikowa analiza wariancji (2-way
Excel i VBA w analizach i modelowaniu finansowym Pomiar ryzyka. Pomiar ryzyka
Pomiar ryzyka Miary obiektywne stosowane w kwantyfikacji ryzyka rynkowego towarzyszącego zaangażowaniu środków w inwestycjach finansowych obejmują: Miary zmienności, Miary zagrożenia, Miary wrażliwości.
Szacowanie wartości hodowlanej. Zarządzanie populacjami
Szacowanie wartości hodowlanej Zarządzanie populacjami wartość hodowlana = wartość cechy? Tak! Przy h 2 =1 ? wybitny ojciec = wybitne dzieci Tak, gdy cecha wysokoodziedziczalna. Wartość hodowlana genetycznie
ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH
1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Regresja liniowa Korelacja Modelowanie Analiza modelu Wnioskowanie Korelacja 3 Korelacja R: charakteryzuje
Rachunek prawdopodobieństwa Rozdział 5. Rozkłady łączne
Rachunek prawdopodobieństwa Rozdział 5. Rozkłady łączne 5.2. Momenty rozkładów łącznych. Katarzyna Rybarczyk-Krzywdzińska rozkładów wielowymiarowych Przypomnienie Jeśli X jest zmienną losową o rozkładzie
Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski
Modelowanie zależności pomiędzy zmiennymi losowymi Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski P Zmienne losowe niezależne - przypomnienie Dwie rzeczywiste zmienne losowe X i Y
Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka.
Eksploracja danych KLASYFIKACJA I REGRESJA cz. 2 Wojciech Waloszek wowal@eti.pg.gda.pl Teresa Zawadzka tegra@eti.pg.gda.pl Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki
STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE
STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE 1 W trakcie badania obliczono wartości średniej (15,4), mediany (13,6) oraz dominanty (10,0). Określ typ asymetrii rozkładu. 2 Wymień 3 cechy rozkładu Gauss
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji
Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji Analiza składników podstawowych - wprowadzenie (Principal Components Analysis
MODELE LINIOWE. Dr Wioleta Drobik
MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą
PRZEWODNIK PO PRZEDMIOCIE
Nazwa przedmiotu: Kierunek: Informatyka Rodzaj przedmiotu: przedmiot obowiązkowy w ramach treści kierunkowych, moduł kierunkowy ogólny Rodzaj zajęć: wykład, ćwiczenia I KARTA PRZEDMIOTU CEL PRZEDMIOTU
WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Zmienna losowa dwuwymiarowa i korelacja
WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI Zmienna losowa dwuwymiarowa i korelacja Zmienna losowa dwuwymiarowa Definiujemy ją tak samo, jak zmienną losową jednowymiarową, z tym że poszczególnym zdarzeniom elementarnym
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...
ZAŁĄCZNIK NR 3 RAPORT (QA/QC) Z OCENY JAKOŚCI OBLICZEŃ ROZPRZESTRZENIANIA SIĘ ZANIECZYSZCZEŃ ZA ROK 2015
ZAŁĄCZNIK NR 3 RAPORT (QA/QC) Z OCENY JAKOŚCI OBLICZEŃ ROZPRZESTRZENIANIA SIĘ ZANIECZYSZCZEŃ ZA ROK 2015 Ocena jakości wyników modelowania raport QA/QC Zgodnie z rozporządzeniem Ministra Środowiska z dnia
Analiza współzależności zjawisk
Analiza współzależności zjawisk Informacje ogólne Jednostki tworzące zbiorowość statystyczną charakteryzowane są zazwyczaj za pomocą wielu cech zmiennych, które nierzadko pozostają ze sobą w pewnym związku.
Elementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Wykład 12 Testowanie hipotez dla współczynnika korelacji
Wykład 12 Testowanie hipotez dla współczynnika korelacji Wrocław, 23 maja 2018 Współczynnik korelacji Niech będą dane dwie próby danych X = (X 1, X 2,..., X n ) oraz Y = (Y 1, Y 2,..., Y n ). Współczynnikiem
Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość
Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego
Wykład 12 Testowanie hipotez dla współczynnika korelacji
Wykład 12 Testowanie hipotez dla współczynnika korelacji Wrocław, 24 maja 2017 Współczynnik korelacji Niech będą dane dwie próby danych X = (X 1, X 2,..., X n ) oraz Y = (Y 1, Y 2,..., Y n ). Współczynnikiem
Procedura szacowania niepewności
DOKUMENTACJA SYSTEMU ZARZĄDZANIA LABORATORIUM Procedura szacowania niepewności Stron 7 Załączniki Nr 1 Nr Nr 3 Stron Symbol procedury PN//xyz Data Imię i Nazwisko Podpis Opracował Sprawdził Zatwierdził
Zawansowane modele wyborów dyskretnych
Zawansowane modele wyborów dyskretnych Jerzy Mycielski Uniwersytet Warszawski grudzien 2013 Jerzy Mycielski (Uniwersytet Warszawski) Zawansowane modele wyborów dyskretnych grudzien 2013 1 / 16 Model efektów
Pojęcie korelacji. Korelacja (współzależność cech) określa wzajemne powiązania pomiędzy wybranymi zmiennymi.
Pojęcie korelacji Korelacja (współzależność cech) określa wzajemne powiązania pomiędzy wybranymi zmiennymi. Charakteryzując korelację dwóch cech podajemy dwa czynniki: kierunek oraz siłę. Korelacyjne wykresy
Elementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski