Marcin Szupke Wydział Matematyki i Informatyki UMK w Toruniu
|
|
- Kazimiera Sowa
- 8 lat temu
- Przeglądów:
Transkrypt
1 LDA Linear Discriminant Analysis Marcin Szupke Wydział Matematyki i Informatyki UMK w Toruniu
2 1 Wstęp Liniowa Analiza Dyskryminacyjna (ang. Linear Discriminant Analysys, LDA) należy do metod statystycznych, dokonuje podziału na obszary graniczne funkcjami liniowymi, spisuje się dobrze na prostych w analizie danych. Jest jedną z metod klasyfikacji danych. Zadaniem takich metod jest określenie przynależności do klas innych badanych obiektów opisanych tymi samymi cechami. Na przykład mając dane mydeł (np. ich kształt, zapach, preferencje ludzi, etc.), które zostały sklasyfikowane jako dobre możemy określić, czy jakieś inne mydło także jest dobre. Oczywiście klasyfikacja nie zawsze jest bezbłędna może się zdarzyć, że złe mydło zostanie sklasyfikowane jako dobre. Wszystko zależy od tego ile podobnych mydeł jak to jest wśród wcześniej zbadanych. Klas, do których przydzielane są badane obiekty może być nieskończenie wiele. Do poprawnej klasyfikacji należy wykonać podstawowe kroki, takie jak: standaryzacja i podział danych analiza jednowymiarowa analiza wielowymiarowa analiza korelacji pomiędzy zmiennymi i dobór najlepszych zmiennych predykcyjnych klasyfikacja za pomocą wybranych zmiennych analiza wyników i wybór optymalnego modelu 2 Zagadnienie klasyfikacji Przez pojęcie klasyfikacji rozumie się dzielenie dowolnego zbioru elementów na grupy, do których zalicza się elementy różniące się, ale podobne, tj. mające własności wyróżniające daną grupę. Zbiór elementów należących do jednej grupy nazywany jest klasą, a jej elementy obiektami. Elementy klasy mogą się różni ć z wyjątkiem tych własności, na których opiera się klasyfikacja. Ogólna zasada postępowania przy klasyfikacji wygląda tak: standaryzacja danych wykonuje się aby każda ze zmiennych była tak samo istotna przy klasyfikacji. Dokonuje się tego przez obliczenie średniej oraz wariancji dla każdej zmiennej ciągłej. Następnie dla każdej zmiennej należy odjąć od niej średnią i podzielić przez odchylenie standardowe. Należy to zrobić na całym, niepodzielonym zbiorze danych. W dalszej kolejności dzieli się dane na zbiór uczący oraz testowy.
3 wstępna analiza próba sprawdzenia, które zmienne dobrze różnicują obiekty, tj. dla tej zmiennej obiekty w różnych klasach mają różną jej wartość. W przypadku pojedynczych zmiennych najlepiej stosować wykresy pudełkowe lub histogramy. Na przykład mając klasy płazów i ptaków dobrze różnicuje te klasy posiadanie opierzenia wiadomo, że wszystkie ptaki je mają, a płazy nie. porównywanie różnicowania klas przez dwie lub więcej cech w przypadku dwóch lub trzech zmiennych możemy porównywać wykresy rozrzutu. Często takie oddzielanie klas przynosi dużo lepsze efekty niż branie pod uwagę tylko jednej cechy, gdyż klasy mogą być rozdzielone funkcją prawie dowolnego stopnia i dwuwymiarowe wykresy są w stanie podzielić obszar na poszczególne klasy. sprawdzenie czy zmienne nie są skorelowane tworzymy macierz korelacji i z wybranych wcześniej zmiennych usuwamy te, które są ze sobą skorelowane. Postępuje się tak ponieważ występowanie skorelowanych zmiennych nie poprawia prawie w ogóle jakości klasyfikacji, natomiast zwiększa złożoność modelu i utrudnia klasyfikację. Na przykład, jeśli klasyfikujemy zwierzęta i mamy na przykład zmienne: ma płetwy, potrafi pływać, to jest bardzo prawdopodobne, że jeśli dane zwierzę ma płetwy to potrafi też pływać, a więc rozdzielają one obiekty w taki sam sposób. Wyeliminowanie jednej z nich nie pogorszy w związku z tym klasyfikacji. klasyfikacja na wybranych zmiennych w wyniku działania metod otrzymujemy obiekty przyporządkowane na jej podstawie do konkretnych klas. wybranie najlepszej reguły klasyfikacyjnej robi się to porównując błędy klasyfikacji oraz czułość i specyficzność dla danej reguły. Klasyfikację należy przeprowadzić na wybranym zbiorze danych, najlepiej dla kilku różnych reguł wybranych na podstawie wstępnej selekcji. 3 Wstępna analiza danych i wybór zmiennych Aby określić, które ze zmiennych najlepiej nadają się do konstrukcji reguły klasyfikacyjnej należy dokonać wstępnej analizy tych danych za pomocą wykresów pudełkowych, histogramów, wykresów rozrzutu oraz macierzy korelacji. Wykresy pudełkowe Najpierw wykonuje się serię wykresów pudełkowych.
4 Z punktu widzenia testów jednowymiarowych zmienna Flavanoids dobrze różnicuje klasy, gdyż wykresy pudełkowe nie zachodzą na siebie. Jeśli przykładowo dla klasy K1 wykres pudełkowy byłby taki sam jak dla klasy K2, wówczas ta zmienna nie będzie dobrym predyktorem, gdyż nie umożliwia rozróżnienia tych dwóch rejonów. A więc zawsze będą pożądane takie zmienne, w których wykresy pudełkowe będą dla różnych wysokościach dla poszczególnych klas. Histogramy W przypadku zmiennych binarnych wykresy pudełkowe będą zupełnie nieprzydatne, ponieważ możliwe są tutaj jedynie dwie wartości. Dobre efekty daje w tym przypadku zastosowanie wykresów histogramowych. Tak mogą wyglądać histogramy dla zmiennych binarnych, jeśli mamy do czynienia z dużą liczbą klas.
5 Powyższe histogramy pokazują separację klas przez zmienne predator i backbone. Jeśli słupek dla danej klasy jest pojedynczy to znaczy, że wszystkie obiekty danej klasy mają taką samą wartość tej zmiennej. Wniosek dobrze charakteryzuje ona daną klasę i może być wykorzystana w klasyfikacji, jeśli dla większości zmiennych mamy właśnie takie pojedyncze słupki. Natomiast wykres po prawej stronie przedstawia zmienną, która nie będzie dobrym predyktorem, ponieważ dla każdej klasy istnieje niejednoznaczność jej wartości zdarza się, że jedna połowa obiektów klasy ma wartość zmiennej true a druga false. Wykresy rozrzutu Widać na wykresach, że nie zawsze można uzyskać dobrą separację klas za pomocą jednej zmiennej. Bardziej efektywne są wykresy rozrzutu, które jednak nie są przydatne dla zmiennych kategorycznych i binarnych. Na podstawie wykresów można stwierdzić, że wybrane pary zmiennych dobrze różnicują dane obiekty. Widać, że wykres z prawej jest nieco lepszy ponieważ obiekty z poszczególnych klas są mniej wymieszane. Zawsze poszukuje się takie pary zmiennych, które na wykresach tworzą możliwe najbardziej oddalone od siebie skupiska. Istnieją także wykresy rozrzutu w trzech wymiarach, ale trudno o poprawną ich interpretację.
6 4 Klasyfikacja za pomocą metody LDA Aby przeprowadzić analizę należy dokonać losowego podziału zbioru na uczący (2/3 danych) i testowy (1/3 danych). Następnie korzystając z wybranej metody przeprowadza się klasyfikację obiektów ze zbioru testowego porównuje się rzeczywistą przynależność do klasy z tą, którą otrzymaliśmy za pomocą metody LDA. Przy liczeniu czułości i specyficzności dla większej niż dwie liczby klas, jedną z klas uznaje się jako uprzywilejowaną, a pozostałe łączy w jedną klasę. Poniżej pokazana jest macierz kontyngencji oraz błąd, czułość i specyficzność metody LDA dla przykładowych danych przy klasyfikacji win. Zmienne kolor, fenole. Metoda LDA Przewidywana klasyfikacja Rzeczywista klasyfikacja K1 K2 K3 K K K błąd klasyfikacji = 0, czułość = 0, specyficzność = 0, Obszary decyzyjne Obszary decyzyjne pokazują jak rozdzielają klasy metody statystyczne. Poniżej znajdują się dwa obszary decyzyjne. Po lewej stronie widać obszar decyzyjny metody LDA dla klasyfikacji win. Dla porównania po lewej stronie widać obszar decyzyjny metody QDA (kwadratowa analiza dyskryminacyjna) dla tych samych danych.
7 Na wykresach widać przewagę metody QDA nad LDA. Jest to z pewnością metoda bardziej wyrafinowana niż LDA i powinna sobie radzić z trudniejszymi do klasyfikacji danymi. 6 LDA w praktyce MPEG 7 MPEG 7 jest standardem definiującym język opisu zawartości obiektów multimedialnych (ang. Multimedia Content Description Interface). O ile poprzednie standardy grupy MPEG (MPEG 1, MPEG 2 i MPEG 4) zajmowały się normowaniem zwartej reprezentacji samej zawartości obiektów multimedialnych, to standard MPEG 7 normuje opisy tej zawartości. Opisy te, tzw. deskryptory, mogą być tworzone przez operatora (np. czołówka filmu cyfrowego, czy szczegóły procesu twórczego), a część z nich może być automatycznie ekstrahowana z samego medium cyfrowego (np. identyfikacja kolorów dominujących, czy cechy obrazy twarzy). Opisy te z kolei mogą być wykorzystane do tworzenia indeksów materiałów obiektów multimedialnych by ułatwić wyszukiwanie tych obiektów w archiwach lokalnych i co ważniejsze w archiwach rozproszonych w sieci komputerowej. Standard składa się z siedmiu części: Systems, Description Definition Language, Visual, Audio, Multimedia Description Schemes, Reference Software oraz Conformance. W celu osiągnięcia kompatybilności ze standardami internetowymi grupa MPEG 7 wybrała język XML jako język zapisu deskryptorów, a język XML Schema jako język definiowania składni tych deskryptorów. Jedną z grup deskryptorów są deskryptory rozpoznawania twarzy, w skład którego wchodzą:
8 Face Recognition informacja o obrazie twarzy uzyskana na podstawie kwantowanych do 5 bitów pierwszych 48 współczynników KLT (Karhunen Loeve'go). Advanced Face Recognition informacja o obrazie twarzy uzyskana w wyniki hierarchicznej analizy LDA na informacji spektralnej uzyskanej globalnie i w lokalnych podokienkach z opcjonalną wstępną normalizacją twarzy do pozy frontalnej. Badanie zdolności kredytowej Metody statystyczne sprawdzania wiarygodności kredytów, które określa się wspólnym mianem analizy dyskryminacyjnej przedstawia następujący schemat: Analiza dyskryminacyjna Jednowymiarowa Wielowymiarowa Parametryczna Metoda Kendala Metoda Linharta Nieparametryczna Kwadratowa Liniowa
9 Po raz pierwszy liniowa analiza dyskryminacyjna była wykorzystywana w zarządzaniu finansami przez E. I. Altmana (1968). Opracował on swój model (zwany modelem Zeta Score) posługując się próbą 66 korporacji amerykańskich reprezentujących po 33 spółki z każdej grupy (bankruci, niebankruci). Dane do wyznaczenia współczynników dyskryminacji zaczerpnął ze sprawozdań finansowych sporządzonych w roku sprawozdawczym poprzedzającym bankructwo spółki. W swoich rozważaniach Altman uwzględnił początkowo 22 wskaźniki finansowe spośród których wybrał ostatecznie pięć wskaźników jako zmienne dyskryminacyjne w predykcji bankructwa. Ostatecznie przedstawiona przez Altmana funkcja dyskryminacji miała postać: gdzie: D = 1,2 * x1 + 1,4 * x2 + 3,3 * x3 + 0,6 * x4 + 1,0 * x5 x1 = (kapitał pracujący)/(aktywa ogółem) x2 = (skumulowane zyski reinwestowane)/(aktywa ogółem) x3 = (zysk brutto plus odsetki)/(aktywa ogółem) x4 = (wartość rynkowa kapitału własnego)/(wartość księgowa kapitału obcego) W tych badaniach wartością dyskryminacyjną okazała się liczba 1,81. Dla analizowanej próby Altman ustalił prawdopodobieństwa zbankrutowania badanych korporacji np. korporacja, dla której funkcja dyskryminacji wynosi 0,55 zbankrutuje z prawdopodobieństwem 75%, natomiast prawdopodobieństwo zbankrutowania korporacji, dla której funkcja dyskryminacji przyjmie wartość 2,30 wynosi 1%. Powyższe przykłady są jedynie jednymi z wielu. Obecnie LDA oraz inne metody klasyfikacji danych stosuje się w wielu dziedzinach wiedzy (w medycynie np. do szybszego wykrycia zagrożenia zawału serca). LDA i inne metody klasyfikacji nie zastąpią człowieka a jedynie mogą go wspomóc. 6 Podsumowanie LDA jest jedną z metod klasyfikacji danych. Żadna z metod nie jest idealna, każda sprawdza się lepiej w różnych warunkach (np. metoda LDA nie może być stosowana dla zmiennych kategorycznych i binarnych). Innymi podobnymi metodami są: QDA Kwadratowa Analiza Dyskryminacyjna. Również zalicza się do metod statystycznych, lecz jest metodą nieco bardziej wyrafinowaną niż LDA, gdyż dokonuje podziału zbioru za pomocą krzywych rzędu drugiego.
10 k NN Należy do grupy metod algorytmicznych. Jej działanie opiera się na obliczeniu odległości danego obiektu od innych, wybraniu k najbliższych obiektów i na tej podstawie sklasyfikowanie go (będzie należał do tej klasy, co największa liczba spośród k najbliższych sąsiadów). Metoda nie działa dla zmiennych binarnych i kategorycznych. Drzewa klasyfikacyjne Działają na zasadzie rekurencyjnego podziału obiektów na coraz mniejsze podzbiory, ze względu na wartość wybranych do klasyfikacji zmiennych. Podzbiory są rozgałęzione na coraz mniejsze podzbiory, aż do pewnego określonego momentu. Drzewa działają na wszystkich możliwych typach zmiennych (z wyjątkiem tekstowych). Zasadniczą zaletą drzew jest brak jakichkolwiek założeń wstępnych dotyczących rozkładów danych. Szczególnie przydatne są one w sytuacjach, w których występują skorelowane ze sobą dane. Ponadto wygenerowanie reguły logiczne są łatwiejsze w interpretacji niż różnego rodzaju funkcje klasyfikacyjne. Na podstawie drzew łatwo jest też opracować standardy postępowania diagnostycznego czy terapeutycznego. Jak widać LDA nie jest jedyną metodą klasyfikacyjną i aby dobrze klasyfikować dane należy poznać inne metody tak by wybrać najlepszą. Aby tego dokonać należy przeprowadzić eksperymenty z ww metodami i wybrać tę, która osiągnęła najmniejszy błąd klasyfikacji i charakteryzowała i charakteryzowała się najmniejszą złożonością modelu. Wszystko zależy od celu w jakim dokonujemy klasyfikacji.
Wprowadzenie do analizy korelacji i regresji
Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących
Bardziej szczegółowoKLASYFIKACJA. Słownik języka polskiego
KLASYFIKACJA KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu
Bardziej szczegółowo5. Analiza dyskryminacyjna: FLD, LDA, QDA
Algorytmy rozpoznawania obrazów 5. Analiza dyskryminacyjna: FLD, LDA, QDA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Liniowe funkcje dyskryminacyjne Liniowe funkcje dyskryminacyjne mają ogólną
Bardziej szczegółowo4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74
3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15
Bardziej szczegółowoKlasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,
Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której
Bardziej szczegółowoAgnieszka Nowak Brzezińska
Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia
Bardziej szczegółowoAdam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska
Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska Anna Stankiewicz Izabela Słomska Wstęp- statystyka w politologii Rzadkie stosowanie narzędzi statystycznych Pisma Karla Poppera
Bardziej szczegółowoAnaliza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
Bardziej szczegółowoWeryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1
Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie
Bardziej szczegółowoPDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com
Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych
Bardziej szczegółowoAlgorytmy i struktury danych. Wykład 4
Wykład 4 Różne algorytmy - obliczenia 1. Obliczanie wartości wielomianu 2. Szybkie potęgowanie 3. Algorytm Euklidesa, liczby pierwsze, faktoryzacja liczby naturalnej 2017-11-24 Algorytmy i struktury danych
Bardziej szczegółowoKlasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
Bardziej szczegółowoRegresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna
Regresja wieloraka Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować
Bardziej szczegółowoElementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa
Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący
Bardziej szczegółowoSzczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
Bardziej szczegółowoTechnologie cyfrowe. Artur Kalinowski. Zakład Cząstek i Oddziaływań Fundamentalnych Pasteura 5, pokój 4.15
Technologie cyfrowe Artur Kalinowski Zakład Cząstek i Oddziaływań Fundamentalnych Pasteura 5, pokój 4.15 Artur.Kalinowski@fuw.edu.pl Semestr letni 2014/2015 Zadanie algorytmiczne: wyszukiwanie dane wejściowe:
Bardziej szczegółowo1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie
Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty
Bardziej szczegółowoweryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)
PODSTAWY STATYSTYKI. Teoria prawdopodobieństwa i elementy kombinatoryki. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5. Testy parametryczne (na
Bardziej szczegółowoAgnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Bardziej szczegółowoTestowanie hipotez statystycznych. Wnioskowanie statystyczne
Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy
Bardziej szczegółowoSzczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
Bardziej szczegółowoSYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
Bardziej szczegółowoALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
Bardziej szczegółowoWprowadzenie do multimedialnych baz danych. Opracował: dr inż. Piotr Suchomski
Wprowadzenie do multimedialnych baz danych Opracował: dr inż. Piotr Suchomski Wprowadzenie bazy danych Multimedialne bazy danych to takie bazy danych, w których danymi mogą być tekst, zdjęcia, grafika,
Bardziej szczegółowoAgnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Bardziej szczegółowoSTATYSTYKA MATEMATYCZNA
STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5.
Bardziej szczegółowoElementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Bardziej szczegółowoSposoby prezentacji problemów w statystyce
S t r o n a 1 Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki
Bardziej szczegółowoSCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.
SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:
Bardziej szczegółowoTestowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;
LABORATORIUM 4 Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona; dwie zmienne zależne mierzalne małe próby duże próby rozkład normalny
Bardziej szczegółowoEksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
Bardziej szczegółowoAnaliza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817
Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817 Zadanie 1: wiek 7 8 9 1 11 11,5 12 13 14 14 15 16 17 18 18,5 19 wzrost 12 122 125 131 135 14 142 145 15 1 154 159 162 164 168 17 Wykres
Bardziej szczegółowoRAPORT WSKAŹNIK EDUKACYJNEJ WARTOŚCI DODANEJ PO EGZAMINIE GIMNAZJALNYM W ROKU SZKOLNYM 2012/2013
RAPORT WSKAŹNIK EDUKACYJNEJ WARTOŚCI DODANEJ PO EGZAMINIE GIMNAZJALNYM W ROKU SZKOLNYM 2012/2013 ZESPÓŁ SZKÓŁ NR 14 W BYDGOSZCZY GIMNAZJUM NR 37 INTEGRACYJNE Opracowanie A. Tarczyńska- Pajor na podstawie
Bardziej szczegółowoWymagania edukacyjne na poszczególne oceny branżowa szkoła I stopnia klasa 1 po gimnazjum
Wymagania edukacyjne na poszczególne oceny branżowa szkoła I stopnia klasa 1 po gimnazjum I. Liczby rzeczywiste 1. Liczby naturalne 2. Liczby całkowite. 3. Liczby wymierne 4. Rozwinięcie dziesiętne liczby
Bardziej szczegółowoKlasyfikacja LDA + walidacja
Klasyfikacja LDA + walidacja Dr hab. Izabela Rejer Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Plan wykładu 1. Klasyfikator 2. LDA 3. Klasyfikacja wieloklasowa 4. Walidacja
Bardziej szczegółowoRozdział 8. Regresja. Definiowanie modelu
Rozdział 8 Regresja Definiowanie modelu Analizę korelacji można traktować jako wstęp do analizy regresji. Jeżeli wykresy rozrzutu oraz wartości współczynników korelacji wskazują na istniejąca współzmienność
Bardziej szczegółowoR-PEARSONA Zależność liniowa
R-PEARSONA Zależność liniowa Interpretacja wyników: wraz ze wzrostem wartości jednej zmiennej (np. zarobków) liniowo rosną wartości drugiej zmiennej (np. kwoty przeznaczanej na wakacje) czyli np. im wyższe
Bardziej szczegółowoKompresja danych Streszczenie Studia Dzienne Wykład 10,
1 Kwantyzacja wektorowa Kompresja danych Streszczenie Studia Dzienne Wykład 10, 28.04.2006 Kwantyzacja wektorowa: dane dzielone na bloki (wektory), każdy blok kwantyzowany jako jeden element danych. Ogólny
Bardziej szczegółowo18. Obliczyć. 9. Obliczyć iloczyn macierzy i. 10. Transponować macierz. 11. Transponować macierz. A następnie podać wymiar powstałej macierzy.
1 Czy iloczyn macierzy, które nie są kwadratowe może być macierzą kwadratową? Podaj przykład 2 Czy każde dwie macierze jednostkowe są równe? Podaj przykład 3 Czy mnożenie macierzy przez macierz jednostkową
Bardziej szczegółowoAnaliza głównych składowych- redukcja wymiaru, wykł. 12
Analiza głównych składowych- redukcja wymiaru, wykł. 12 Joanna Jędrzejowicz Instytut Informatyki Konieczność redukcji wymiaru w eksploracji danych bazy danych spotykane w zadaniach eksploracji danych mają
Bardziej szczegółowoWprowadzenie do analizy dyskryminacyjnej
Wprowadzenie do analizy dyskryminacyjnej Analiza dyskryminacyjna to zespół metod statystycznych używanych w celu znalezienia funkcji dyskryminacyjnej, która możliwie najlepiej charakteryzuje bądź rozdziela
Bardziej szczegółowoTESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.
TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy. Hipotezy dzielimy na parametryczne i nieparametryczne. Zajmiemy
Bardziej szczegółowoSzkolenie Analiza dyskryminacyjna
Szkolenie Analiza dyskryminacyjna program i cennik Łukasz Deryło Analizy statystyczne, szkolenia www.statystyka.c0.pl Szkolenie Analiza dyskryminacyjna Co to jest analiza dyskryminacyjna? Inną nazwą analizy
Bardziej szczegółowoTESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.
TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy. Hipotezy dzielimy na parametryczne i nieparametryczne. Zajmiemy
Bardziej szczegółowoANALIZA WYNIKÓW NAUCZANIA W GIMNAZJUM NR 3 Z ZASTOSOWANIEM KALKULATORA EWD 100 ROK 2012
ANALIZA WYNIKÓW NAUCZANIA W GIMNAZJUM NR 3 Z ZASTOSOWANIEM KALKULATORA EWD 100 ROK 2012 OPRACOWAŁY: ANNA ANWAJLER MARZENA KACZOR DOROTA LIS 1 WSTĘP W analizie wykorzystywany będzie model szacowania EWD.
Bardziej szczegółowoStatystyka od podstaw Janina Jóźwiak, Jarosław Podgórski
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej
Bardziej szczegółowoSTATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.
STATYSTYKA MATEMATYCZNA WYKŁAD 4 WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X. Wysuwamy hipotezy: zerową (podstawową H ( θ = θ i alternatywną H, która ma jedną z
Bardziej szczegółowoInżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy
Załącznik nr 7 do Zarządzenia Rektora nr../12 z dnia.... 2012r. KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu Nazwa modułu Nazwa modułu w języku angielskim Obowiązuje od roku akademickiego 2017/2018 STATYSTYKA
Bardziej szczegółowoSTATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE
STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE 1 W trakcie badania obliczono wartości średniej (15,4), mediany (13,6) oraz dominanty (10,0). Określ typ asymetrii rozkładu. 2 Wymień 3 cechy rozkładu Gauss
Bardziej szczegółowo( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:
ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość
Bardziej szczegółowoInteligentna analiza danych
Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji
Bardziej szczegółowo7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej
7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej Definicja 1 n-elementowa losowa próba prosta nazywamy ciag n niezależnych zmiennych losowych o jednakowych rozkładach
Bardziej szczegółowoSpis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
Bardziej szczegółowoMetody wykrywania odchyleo w danych. Metody wykrywania braków w danych. Korelacja. PED lab 4
Metody wykrywania odchyleo w danych. Metody wykrywania braków w danych. Korelacja. PED lab 4 Co z danymi oddalonymi? Błędne dane typu dochód z minusem na początku: to błąd we wprowadzaniu danych, czy faktyczny
Bardziej szczegółowoTESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas
TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy. Hipotezy dzielimy na parametryczne i nieparametryczne.
Bardziej szczegółowoRegresja i Korelacja
Regresja i Korelacja Regresja i Korelacja W przyrodzie często obserwujemy związek między kilkoma cechami, np.: drzewa grubsze są z reguły wyższe, drewno iglaste o węższych słojach ma większą gęstość, impregnowane
Bardziej szczegółowoStatystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31
Statystyka Wykład 8 Magdalena Alama-Bućko 10 kwietnia 2017 Magdalena Alama-Bućko Statystyka 10 kwietnia 2017 1 / 31 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
Bardziej szczegółowoWYKŁAD 7. Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria
Wrocław University of Technology WYKŁAD 7 Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria autor: Maciej Zięba Politechnika Wrocławska Testowanie modeli klasyfikacyjnych Dobór odpowiedniego
Bardziej szczegółowoSAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006
SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu
Bardziej szczegółowoAnaliza regresji - weryfikacja założeń
Medycyna Praktyczna - portal dla lekarzy Analiza regresji - weryfikacja założeń mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof.
Bardziej szczegółowoSPIS TEŚCI CZĘŚĆ I RACHUNEK PRAWDOPODOBIEŃSTWA
SPIS TEŚCI PRZEDMOWA...13 CZĘŚĆ I RACHUNEK PRAWDOPODOBIEŃSTWA 1. ZDARZENIA LOSOWE I PRAWDOPODOBIEŃSTWO...17 1.1. UWAGI WSTĘPNE... 17 1.2. ZDARZENIA LOSOWE... 17 1.3. RELACJE MIĘDZY ZDARZENIAMI... 18 1.4.
Bardziej szczegółowoLABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej
LABORATORIUM 3 Przygotowanie pliku (nazwy zmiennych, export plików.xlsx, selekcja przypadków); Graficzna prezentacja danych: Histogramy (skategoryzowane) i 3-wymiarowe; Wykresy ramka wąsy; Wykresy powierzchniowe;
Bardziej szczegółowoStochastyczne Metody Analizy Danych. PROJEKT: Analiza kluczowych parametrów turbin wiatrowych
PROJEKT: Analiza kluczowych parametrów turbin wiatrowych Projekt jest wykonywany z wykorzystaniem pakietu statystycznego STATISTICA. Praca odbywa się w grupach 2-3 osobowych. Aby zaliczyć projekt, należy
Bardziej szczegółowoZałóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb
Współzależność Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę
Bardziej szczegółowoWeryfikacja hipotez statystycznych, parametryczne testy istotności w populacji
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki
Bardziej szczegółowoFUNKCJA LINIOWA - WYKRES. y = ax + b. a i b to współczynniki funkcji, które mają wartości liczbowe
FUNKCJA LINIOWA - WYKRES Wzór funkcji liniowej (postać kierunkowa) Funkcja liniowa to funkcja o wzorze: y = ax + b a i b to współczynniki funkcji, które mają wartości liczbowe Szczególnie ważny w postaci
Bardziej szczegółowoRozkład zmiennej losowej Polega na przyporządkowaniu każdej wartości zmiennej losowej prawdopodobieństwo jej wystąpienia.
Rozkład zmiennej losowej Polega na przyporządkowaniu każdej wartości zmiennej losowej prawdopodobieństwo jej wystąpienia. D A R I U S Z P I W C Z Y Ń S K I 2 2 ROZKŁAD ZMIENNEJ LOSOWEJ Polega na przyporządkowaniu
Bardziej szczegółowoWeryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta
Bardziej szczegółowoINFORMATYKA W SELEKCJI
INFORMATYKA W SELEKCJI INFORMATYKA W SELEKCJI - zagadnienia 1. Dane w pracy hodowlanej praca z dużym zbiorem danych (Excel) 2. Podstawy pracy z relacyjną bazą danych w programie MS Access 3. Systemy statystyczne
Bardziej szczegółowoAnaliza zależności liniowych
Narzędzie do ustalenia, które zmienne są ważne dla Inwestora Analiza zależności liniowych Identyfikuje siłę i kierunek powiązania pomiędzy zmiennymi Umożliwia wybór zmiennych wpływających na giełdę Ustala
Bardziej szczegółowoTestowanie hipotez statystycznych
Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom
Bardziej szczegółowoRozkłady zmiennych losowych
Rozkłady zmiennych losowych Wprowadzenie Badamy pewną zbiorowość czyli populację pod względem występowania jakiejś cechy. Pobieramy próbę i na podstawie tej próby wyznaczamy pewne charakterystyki. Jeśli
Bardziej szczegółowoPOLITECHNIKA OPOLSKA
POLITECHNIKA OPOLSKA WYDZIAŁ MECHANICZNY Katedra Technologii Maszyn i Automatyzacji Produkcji Laboratorium Podstaw Inżynierii Jakości Ćwiczenie nr 4 Temat: Analiza korelacji i regresji dwóch zmiennych
Bardziej szczegółowoEstymacja parametrów w modelu normalnym
Estymacja parametrów w modelu normalnym dr Mariusz Grządziel 6 kwietnia 2009 Model normalny Przez model normalny będziemy rozumieć rodzine rozkładów normalnych N(µ, σ), µ R, σ > 0. Z Centralnego Twierdzenia
Bardziej szczegółowoStatystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści
Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, 2018 Spis treści Przedmowa 13 O Autorach 15 Przedmowa od Tłumacza 17 1. Wprowadzenie i statystyka opisowa 19 1.1.
Bardziej szczegółowoRozpoznawanie obrazów na przykładzie rozpoznawania twarzy
Rozpoznawanie obrazów na przykładzie rozpoznawania twarzy Wykorzystane materiały: Zadanie W dalszej części prezentacji będzie omawiane zagadnienie rozpoznawania twarzy Problem ten można jednak uogólnić
Bardziej szczegółowoInstytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów
Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa Diagnostyka i niezawodność robotów Laboratorium nr 6 Model matematyczny elementu naprawialnego Prowadzący: mgr inż. Marcel Luzar Cele ćwiczenia:
Bardziej szczegółowoESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA
ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA Jan Mielniczuk Wisła, grudzień 2009 PLAN Błędy predykcji i ich podstawowe estymatory Estymacja błędu predykcji w modelu liniowym. Funkcje kryterialne Własności
Bardziej szczegółowoKonkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji
Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące
Bardziej szczegółowoMetody klasyfikacji danych - część 1 p.1/24
Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji
Bardziej szczegółowoWykład 2: Tworzenie danych
Wykład 2: Tworzenie danych Plan: Statystyka opisowa a wnioskowanie statystyczne Badania obserwacyjne a eksperyment Planowanie eksperymentu, randomizacja Próbkowanie z populacji Rozkłady próbkowe Wstępna/opisowa
Bardziej szczegółowoZadanie 1. Za pomocą analizy rzetelności skali i wspólczynnika Alfa- Cronbacha ustalić, czy pytania ankiety stanowią jednorodny zbiór.
L a b o r a t o r i u m S P S S S t r o n a 1 W zbiorze Pytania zamieszczono odpowiedzi 25 opiekunów dzieci w wieku 8. lat na następujące pytania 1 : P1. Dziecko nie reaguje na bieżące uwagi opiekuna gdy
Bardziej szczegółowoklasa III technikum I. FIGURY I PRZEKSZTAŁCENIA Wiadomości i umiejętności
I. FIGURY I PRZEKSZTAŁCENIA - zna i rozumie pojęcia, zna własności figur: ogólne równanie prostej, kierunkowe równanie prostej okrąg, równanie okręgu - oblicza odległość dwóch punktów na płaszczyźnie -
Bardziej szczegółowoWymagania edukacyjne na poszczególne oceny To się liczy! Branżowa Szkoła I stopnia, klasa 1 po szkole podstawowej
Wymagania edukacyjne na poszczególne oceny To się liczy! Branżowa Szkoła I stopnia, klasa 1 po szkole podstawowej Wymagania dostosowano do sześciostopniowej skali ocen. I. Liczby rzeczywiste zna cechy
Bardziej szczegółowoHISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =
HISTOGRAM W pewnych przypadkach interesuje nas nie tylko określenie prawdziwej wartości mierzonej wielkości, ale także zbadanie całego rozkład prawdopodobieństwa wyników pomiarów. W takim przypadku wyniki
Bardziej szczegółowoOBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp
tel.: +48 662 635 712 Liczba stron: 15 Data: 20.07.2010r OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA z wykorzystaniem programu obliczeniowego Q maxp DŁUGIE
Bardziej szczegółowoFUNKCJA LINIOWA - WYKRES
FUNKCJA LINIOWA - WYKRES Wzór funkcji liniowej (Postać kierunkowa) Funkcja liniowa jest podstawowym typem funkcji. Jest to funkcja o wzorze: y = ax + b a i b to współczynniki funkcji, które mają wartości
Bardziej szczegółowoZmienne zależne i niezależne
Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }
Bardziej szczegółowoPrzykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość
Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego
Bardziej szczegółowoElementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
Bardziej szczegółowoRok akademicki: 2012/2013 Kod: JFM s Punkty ECTS: 3. Poziom studiów: Studia I stopnia Forma i tryb studiów: Stacjonarne
Nazwa modułu: Statystyka inżynierska Rok akademicki: 2012/2013 Kod: JFM-1-210-s Punkty ECTS: 3 Wydział: Fizyki i Informatyki Stosowanej Kierunek: Fizyka Medyczna Specjalność: Poziom studiów: Studia I stopnia
Bardziej szczegółowoStan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta
Stan dotychczasowy OCENA KLASYFIKACJI w diagnostyce Wybraliśmy metodę uczenia maszynowego (np. sieć neuronowa lub drzewo decyzyjne), która będzie klasyfikować nieznane przypadki Na podzbiorze dostępnych
Bardziej szczegółowoStatystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący
Bardziej szczegółowoSTATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;
STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych; - badanie skuteczności nowego leku; - badanie stopnia zanieczyszczenia gleb metalami
Bardziej szczegółowoANALIZA WYNIKÓW NAUCZANIA W GIMNAZJUM NR 3 Z ZASTOSOWANIEM KALKULATORA EWD 100 ROK 2013
ANALIZA WYNIKÓW NAUCZANIA W GIMNAZJUM NR 3 Z ZASTOSOWANIEM KALKULATORA EWD 100 ROK 2013 OPRACOWAŁY: ANNA ANWAJLER MARZENA KACZOR DOROTA LIS 1 WSTĘP W analizie wykorzystywany będzie model szacowania EWD.
Bardziej szczegółowoBadanie zależności skala nominalna
Badanie zależności skala nominalna I. Jak kształtuje się zależność miedzy płcią a wykształceniem? II. Jak kształtuje się zależność między płcią a otyłością (opis BMI)? III. Jak kształtuje się zależność
Bardziej szczegółowoTestowanie hipotez statystycznych
9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :
Bardziej szczegółowoZ poprzedniego wykładu
PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5. Testy parametryczne
Bardziej szczegółowo