Skalowanie wielowymiarowe idea
|
|
- Nina Sikora
- 6 lat temu
- Przeglądów:
Transkrypt
1 Skalowanie wielowymiarowe idea Jedną z wad metody PCA jest możliwość używania jedynie zmiennych ilościowych, kolejnym konieczność posiadania pełnych danych z doświadczenia(nie da się użyć PCA jeśli mamy wyłącznie informacje o podobieństwie obiektów). Skalowanie wielowymiarowe pozbawione jest tych wad. Jest to metoda redukcji wymiarowości bazująca na macierzy niepodobieństwa pomiędzy obiektami. Celem jest natomiast znalezienie takiej konfiguracji punktów w przestrzeni R e,gdziee<p,abyodległościpomiędzyobiektamiwtymnowym układzie współrzędnych były maksymalnie podobne do oryginalnych odległości pomiędzy obserwacjami.
2 Skalowanie wielowymiarowe stres Funkcję oceniającą rozbieżność pomiędzy danymi niepodobieństwami δ ij,aobliczonymid ij wprzestrzeni R e nazywamy funkcją stresu. Naszym celem jest oczywiście jej minimalizacja. Uzyskana wartość funkcji stresu może służyć za miarę jakości uzyskanego odwzorowania. Stres Jakość dopasowania 0,20 Słabe 0,10-0,20 Przeciętne 0,05-0,10 Dobre 0,025-0,05 Doskonałe 0,0-0,025 Idealne
3 Skalowanie wielowymiarowe stres Najczęściej stosuje się ważoną funkcję stresu postaci: S = n n a ij (δ ij d ij ) 2. i=1j=1 Funkcja stresu jest nieimiennicza ze względu na przesunięcia, obroty, odbicia oraz jednostajne rozciąganie i zwężanie danych.
4 Skalowanie wielowymiarowe rodzaje Skalowanie metryczne zakładamy, że dane są ilościowe oraz, że zależność pomiędzy odległościami między punktami oraz danymi niepodobieństwami jest funkcyjna. W przypadku klasycznego skalowania(zwanego również analizą współrzędnych głównych) będziemy zakładać, że odległości między punktami są odległościami euklidesowymi. Jeśli niepodobieństwa nie są odległościami euklidesowymi część wartości własnych może być ujemna. Wciąż możemy użyć klasycznego skalowania, ale najmniejsza wzięta do reprezentacji wartość własna powinna być dodatnia oraz większa co do wartości bezwzględnej od największej ujemnej. W przeciwnym razie uzyskana reprezentacja może być niepoprawna. Jeśli dysponujemy oryginalnym zbiorem danych, a nie macierzą niepodobieństw, klasyczna metoda skalowania wielowymiarowego jest tożsama z analizą składowych głównych.
5 Skalowanie wielowymiarowe rodzaje Skalowanie niemetryczne(porządkowe) poszukujemy się optymalnego porządku pomiędzy odległościami, przy czym nie ma znaczenia sama wartość odległości, jedynie ich porządek. Zakładamy, że dane są mieszaniną danych jakościowych i ilościowych. W przypadku danych ilościowych musi istnieć pomiędzy nimi pewien porządek. W przeciwieństwie do klasycznego skalowania nie istnieje analityczne rozwiązanie tego zagadnienia. Co gorsza procedura poszukiwania rozwiązania jest iteracyjna i wymaga początkowej konfiguracji punktów(najczęściej przyjmuje się za nie rozwiązanie uzyskane ze skalowania metrycznego).
6 Skalowanie wielowymiarowe rodzaje Żądanie, aby porządek odległości w nowej konfiguracji był taki sam jak w macierzy niepodobieństw jest tożsame z warunkiem, aby odległości były monotoniczną funkcją niepodobieństw. Współrzędne punktów w przestrzeni reprezentacji są poszukiwane w taki sposób, aby minimalizowały funkcję kosztu, która jest miarą stopniaodchyleniaodmonotonicznościrelacjipomiędzyd ij oraz δ ij.oczywiściemożeniebyćmożliweosiągnięcierozwiązania, którejestdoskonalemonotoniczne,aleostatecznieporządekd ij powinienbyćtakibliskoporządku δ ij jaktotylkomożliwe.
7 Skalowanie wielowymiarowe rodzaje Można wykreślić odtworzone odległości względem obserwowanych danych wejściowych(odległości). Taki wykres rozrzutu jest znany jako diagram Sheparda. Wykres ten przedstawia odtworzone odległości wykreślone na osi pionowej względem pierwotnych niepodobieństw wykreślonych na osi poziomej. Pokazuje także funkcjękrokową.liniataprzedstawiawartości ˆd ij,toznaczywynik transformacjimonotonicznejdanychwejściowych δ ij.jeśli wszystkie odtworzone odległości znajdowałyby się na linii krokowej, to porządek rangowy odległości(lub niepodobieństw) byłby dokładnie odtworzony. Odchylenia od linii krokowej wskazują na brak dopasowania.
8 Skalowanie wielowymiarowe rodzaje Definicja
9 Skalowanie wielowymiarowe rodzaje Możemy teraz zdefiniować funkcję stresu: (d ij ˆd ij ) 2. S = i<j. Minimalizując tę funkcję otrzymujemy monotoniczną linię regresji otrzymaną metodą najmniejszych kwadratów. i<j d 2 ij
10 Skalowanie wielowymiarowe zalety Zaleta skalowania wielowymiarowego polega na tym, że możemy analizować dowolny rodzaj macierzy odległości lub niepodobieństwa. Niepodobieństwa te mogą reprezentować oceny niepodobieństwa obiektów dokonane przez respondentów, procentową niezgodność między sędziami, liczbę przypadków, gdy badany nie umiał rozróżnić bodźców itd. Skalowanie wielowymiarowe stosowane jest do poznania preferencji klientów, np. sposobu postrzegania przez nich marek lub poznania układu cech charakteryzujących pewne grupy klientów, np. segmentacji klientów według marek, z których korzystają i poziomu zamożności. Mówiąc ogólnie, metody MDS pozwalają badaczowi zadawać względnie neutralne pytania( na ile marka A jest podobna do marki B ).
11 Skalowanie wielowymiarowe problemy Głównymi problemami praktycznymi, które pojawiają się w zastosowaniach metody MDS, są: procedura iteracyjna zakończy się po osiągnięciu minimum lokalnego, a nie minimum globalnego, wybór właściwej liczby wymiarów poszukiwanej przestrzeni, poprawna interpretacja uzyskanego rozwiązania.
12 Skalowanie wielowymiarowe R Do przeprowadzania skalowania metrycznego wykorzystywana jest funkcja cmdscale. Jeśli nie dysponujemy odległościami między obiektami, możemy je z łatwością wyliczyć korzystając z funkcji dist, która może wyliczyć wiele typów odległości(domyślnie liczy odległość euklidesową). Jeżeli jednak w danych znajdują się nie tylkozmienneilościowetodistniedasobieznimirady.wtakiej sytuacji należy wykorzystać funkcję daisy z pakietu cluster, która w przypadku danych ilościowych liczy odległość euklidesową, natomiast w przypadku wykrycia danych jakościowych wyznacza współczynnik podobieństwa Gowera. Niemetryczne skalowanie wielowymiarowe zostało zaimplementowane w pakiecie MASS. Znajdują się tam dwie funkcje sammon oraz isomds, które realizują dwa różne algorytmy skalowania niemetrycznego.
13 Skalowanie wielowymiarowe (CA) to technika, która pozwala graficznie przedstawić w niskowymiarowej przestrzeni dane zawarte w tablicy wielodzielczej. używana jest najczęściej do analizy tablic kontyngencji, czyli rozkładów łącznych dwu zmiennych mierzonych zazwyczaj na skalach nominalnych. Stosowana jest szczególnie często w naukach biologicznych oraz socjologicznych, z uwagi na często występujące macierze kontyngencji. Jeśli stwierdzimy zależność badanych cech możemy przejść do właściwej analizy korespondencji. Chcemy dokonać rzutowania oryginalnych danych na przestrzeń o jak najmniejszym wymiarze, przy czym w tej nowej przestrzeni powinna być zachowanamożliwienajlepiejodległość χ 2.Otymileoryginalnej odległości zostało zachowane mówi tzw. inercja. Klasyczna analiza korespondencji jest właściwie metodą metrycznego skalowania wielowymiarowegozodległością χ 2 jakomiarąniepodobieństwa.
14 algorytm Technika ta dotyczy cech o charakterze jakościowym. Będziemy zakładać,żecechapierwszamarkategorii,acechadrugac. Tablica kontyngencji będzie oznaczana przez N, liczebności poszczególnychpóltejtablicywynosząn ij,i=1,2,...,r; j =1,2,...,c.Liczebnościbrzegowe(odpowiedniowierszowei kolumnowe)oznaczaćbędziemyprzezn i = c j=1 n ijoraz n j = r i=1 n ij. Definicja Macierzą korespondencji P nazywamy macierz częstości zaobserwowanych: p ij = n ij,i =1,2,...,r;j =1,2,...,c. n
15 algorytm Częstościbrzegoweoznaczaćbędziemyprzezp i = n i n oraz p j = n j n.elementytetworząwektoryczęstościbrzegowych,roraz c.macierzeczęstościwierszowychwyznaczamyd r =diag(r),a macierzeczęstościkolumnowychd c =diag(c). Definicja Częstości brzegowe wierszy nazywane są masami wierszowymi, natomiast częstości brzegowe kolumn masami kolumnowymi. Definicja Profile wierszowe R obliczamy następująco: natomiast profile kolumnowe C: R =D 1 r P, C =D 1 c P.
16 algorytm Aby móc stosować analizę korespondencji musi wystąpić zależność pomiędzy badanymi cechami. Musimy zatem zweryfikować hipotezę o niezależności cech. Do sprawdzenia tej hipotezy służy statystyka χ 2 = r c i=1j=1 (n ij np i p j ) 2 np i p j, która przy prawdziwości hipotezy zerowej ma asymptotyczny rozkład χ 2 z (r 1)(c 1)stopniamiswobody.
17 algorytm Chcemy dokonać rzutowania oryginalnych danych na przestrzeń o jak najmniejszym wymiarze, przy czym w tej nowej przestrzeni powinnabyćzachowanamożliwienajlepiejodległość χ 2 pomiędzy profilami.wymiartenwynosik =min(r 1,c 1).Abyto uzyskać należy dokonać dekompozycji według wartości osobliwych macierzy (P rc ).
18 w R Metoda analizy korespondencji została zaimplementowana w pakiecie MASS w funkcji corresp oraz w pakiecie ca.
Analiza składowych głównych idea
Analiza składowych głównych idea Analiza składowych głównych jest najczęściej używanym narzędziem eksploracyjnej analizy danych. Na metodę tę można spojrzeć jak na pewną technikę redukcji wymiarowości
Wykład 10 Skalowanie wielowymiarowe
Wykład 10 Skalowanie wielowymiarowe Wrocław, 30.05.2018r Skalowanie wielowymiarowe (Multidimensional Scaling (MDS)) Główne cele MDS: przedstawienie struktury badanych obiektów przez określenie treści wymiarów
Idea. Analiza składowych głównych Analiza czynnikowa Skalowanie wielowymiarowe Analiza korespondencji Wykresy obrazkowe.
Idea (ang. Principal Components Analysis PCA) jest popularnym używanym narzędziem analizy danych. Na metodę tę można spojrzeć jak na pewną technikę redukcji wymiarowości danych. Jest to metoda nieparametryczna,
Analiza korespondencji
Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy
Idea. Analiza składowych głównych Analiza czynnikowa Skalowanie wielowymiarowe Analiza korespondencji Wykresy obrazkowe.
Idea (ang. principal components analysis PCA), zwana również dekompozycją według wartości osobliwych (SVD) lub dekompozycją spektralną, jest popularną techniką redukcji wymiarowości danych(liczby cech).
Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36
Statystyka Wykład 7 Magdalena Alama-Bućko 3 kwietnia 2017 Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 1 / 36 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8 Regresja wielokrotna Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X 1, X 2, X 3,...) na zmienną zależną (Y).
Elementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38
Statystyka Wykład 8 Magdalena Alama-Bućko 23 kwietnia 2017 Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 1 / 38 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący
Wielowymiarowa Analiza Korespondencji. Wielowymiarowa Analiza Danych z wykorzystaniem pakietu SPSS. Joanna Ciecieląg, Marek Pęczkowski WNE UW
Wielowymiarowa Analiza Korespondencji Wielowymiarowa Analiza Danych z wykorzystaniem pakietu SPSS Joanna Ciecieląg, Marek Pęczkowski WNE UW ANALIZA KORESPONDENCJI opisowa i eksploracyjna technika analizy
STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP
STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 12 listopada 2017 1 Analiza współzależności dwóch cech 2 Jednostka zbiorowości - para (X,Y ). Przy badaniu korelacji nie ma znaczenia, która
Analiza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
Analiza współzależności zjawisk
Analiza współzależności zjawisk Informacje ogólne Jednostki tworzące zbiorowość statystyczną charakteryzowane są zazwyczaj za pomocą wielu cech zmiennych, które nierzadko pozostają ze sobą w pewnym związku.
Analiza głównych składowych- redukcja wymiaru, wykł. 12
Analiza głównych składowych- redukcja wymiaru, wykł. 12 Joanna Jędrzejowicz Instytut Informatyki Konieczność redukcji wymiaru w eksploracji danych bazy danych spotykane w zadaniach eksploracji danych mają
Badanie zależności skala nominalna
Badanie zależności skala nominalna I. Jak kształtuje się zależność miedzy płcią a wykształceniem? II. Jak kształtuje się zależność między płcią a otyłością (opis BMI)? III. Jak kształtuje się zależność
Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka
Analiza współzależności zjawisk dr Marta Kuc-Czarnecka Wprowadzenie Prawidłowości statystyczne mają swoje przyczyny, w związku z tym dla poznania całokształtu badanego zjawiska potrzebna jest analiza z
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu
Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35
Statystyka Wykład 7 Magdalena Alama-Bućko 16 kwietnia 2017 Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 1 / 35 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
STATYSTYKA I DOŚWIADCZALNICTWO
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6 Test niezależności chi-kwadrat (χ 2 ) Cel: ocena występowania zależności między dwiema cechami jakościowymi/skategoryzowanymi X- pierwsza cecha; Y druga cecha Przykłady
Zmienne zależne i niezależne
Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }
Regresja logistyczna (LOGISTIC)
Zmienna zależna: Wybór opcji zachodniej w polityce zagranicznej (kodowana jako tak, 0 nie) Zmienne niezależne: wiedza o Unii Europejskiej (WIEDZA), zamieszkiwanie w regionie zachodnim (ZACH) lub wschodnim
Zadania ze statystyki cz.5 I rok socjologii miary związków między zmiennymi jakościowymi
Zadania ze statystyki cz.5 I rok socjologii miary związków między zmiennymi jakościowymi Zadanie 1 Zdaniem wielu komentatorów, kobiety częściej niż mężczyźni głosują na partię rządzącą. Wyniki badań przedstawia
Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
Wprowadzenie do analizy korelacji i regresji
Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących
Rozdział 8. Regresja. Definiowanie modelu
Rozdział 8 Regresja Definiowanie modelu Analizę korelacji można traktować jako wstęp do analizy regresji. Jeżeli wykresy rozrzutu oraz wartości współczynników korelacji wskazują na istniejąca współzmienność
Analiza korespondencji
Analiza korespondencji Opracował: Damian Wolański Wprowadzenie Analiza korespondencji to opisowa i eksploracyjna technika analizy tablic dwudzielczych i wielodzielczych, zawierających pewne miary charakteryzujące
Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31
Statystyka Wykład 8 Magdalena Alama-Bućko 10 kwietnia 2017 Magdalena Alama-Bućko Statystyka 10 kwietnia 2017 1 / 31 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb
Współzależność Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę
Aproksymacja funkcji a regresja symboliczna
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą
Analiza współzależności dwóch cech I
Analiza współzależności dwóch cech I Współzależność dwóch cech W tym rozdziale pokażemy metody stosowane dla potrzeb wykrywania zależności lub współzależności między dwiema cechami. W celu wykrycia tych
Analiza Współzależności
Statystyka Opisowa z Demografią oraz Biostatystyka Analiza Współzależności Aleksander Denisiuk denisjuk@euh-e.edu.pl Elblaska Uczelnia Humanistyczno-Ekonomiczna ul. Lotnicza 2 82-300 Elblag oraz Biostatystyka
Hierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
Statystyka. Tematyka wykładów. Przykładowe pytania. dr Tomasz Giętkowski www.krajobraz.ukw.edu.pl. wersja 20.01.2013/13:40
Statystyka dr Tomasz Giętkowski www.krajobraz.ukw.edu.pl wersja 20.01.2013/13:40 Tematyka wykładów 1. Definicja statystyki 2. Populacja, próba 3. Skale pomiarowe 4. Miary położenia (klasyczne i pozycyjne)
Analiza. logarytmiczno-liniowa Teoria i zastosowania z wykorzystaniem programu R. Justyna Brzeziƒska
Analiza logarytmiczno-liniowa Teoria i zastosowania z wykorzystaniem programu R Justyna Brzeziƒska Analiza logarytmiczno-liniowa Teoria i zastosowania z wykorzystaniem programu R Rodzicom Analiza logarytmiczno-liniowa
KADD Metoda najmniejszych kwadratów funkcje nieliniowe
Metoda najmn. kwadr. - funkcje nieliniowe Metoda najmniejszych kwadratów Funkcje nieliniowe Procedura z redukcją kroku iteracji Przykłady zastosowań Dopasowanie funkcji wykładniczej Dopasowanie funkcji
1 Macierz odwrotna metoda operacji elementarnych
W tej części skupimy się na macierzach kwadratowych. Zakładać będziemy, że A M(n, n) dla pewnego n N. Definicja 1. Niech A M(n, n). Wtedy macierzą odwrotną macierzy A (ozn. A 1 ) nazywamy taką macierz
Ekonometria. Zajęcia
Ekonometria Zajęcia 16.05.2018 Wstęp hipoteza itp. Model gęstości zaludnienia ( model gradientu gęstości ) zakłada, że gęstość zaludnienia zależy od odległości od okręgu centralnego: y t = Ae βx t (1)
ANALIZA KORESPONDENCJI
ANALIZA KORESPONDENCJI opisowa i eksploracyjna technika analizy danych jakościowych pozwala na graficzne przedstawienie zmiennych w niskowymiarowej przestrzeni stosunkowo łatwo interpretowalne wyniki technika
Stosowana Analiza Regresji
Stosowana Analiza Regresji Wykład VIII 30 Listopada 2011 1 / 18 gdzie: X : n p Q : n n R : n p Zał.: n p. X = QR, - macierz eksperymentu, - ortogonalna, - ma zera poniżej głównej diagonali. [ R1 X = Q
Statystyka. Wykład 6. Magdalena Alama-Bućko. 9 kwietnia Magdalena Alama-Bućko Statystyka 9 kwietnia / 36
Statystyka Wykład 6 Magdalena Alama-Bućko 9 kwietnia 2018 Magdalena Alama-Bućko Statystyka 9 kwietnia 2018 1 / 36 Krzywa koncentracji Lorenza w ekonometrii, ekologii, geografii ludności itp. koncentrację
Eksploracja danych - wykład II
- wykład 1/29 wykład - wykład Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Październik 2015 - wykład 2/29 W kontekście odkrywania wiedzy wykład - wykład 3/29 CRISP-DM - standaryzacja
Analiza składowych głównych
Analiza składowych głównych Wprowadzenie (1) W przypadku regresji naszym celem jest predykcja wartości zmiennej wyjściowej za pomocą zmiennych wejściowych, wykrycie związku między wielkościami wejściowymi
STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE
STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE CECHY mogą być: jakościowe nieuporządkowane - skala nominalna płeć, rasa, kolor oczu, narodowość, marka samochodu,
dr hab. Dariusz Piwczyński, prof. nadzw. UTP
dr hab. Dariusz Piwczyński, prof. nadzw. UTP Cechy jakościowe są to cechy, których jednoznaczne i oczywiste scharakteryzowanie za pomocą liczb jest niemożliwe lub bardzo utrudnione. nominalna porządek
Regresja i Korelacja
Regresja i Korelacja Regresja i Korelacja W przyrodzie często obserwujemy związek między kilkoma cechami, np.: drzewa grubsze są z reguły wyższe, drewno iglaste o węższych słojach ma większą gęstość, impregnowane
Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.
Testowanie hipotez Niech X = (X 1... X n ) będzie próbą losową na przestrzeni X zaś P = {P θ θ Θ} rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby X. Definicja 1. Hipotezą zerową Θ
Wykład 7. Opis współzaleŝności zjawisk. 1. Wprowadzenie.
Wykład 7. Opis współzaleŝności zjawisk 1. Wprowadzenie. 2. Prezentacja materiału statystycznego. Rodzaje współzaleŝności zjawisk 1. WspółzaleŜność funkcyjna określonym wartościom jednej zmiennej jest ściśle
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y
P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?
2 Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia czy pomiędzy zmiennymi istnieje związek/zależność. Stosujemy go w sytuacji, kiedy zmienna zależna mierzona jest na skali
Testowanie hipotez statystycznych.
Bioinformatyka Wykład 9 Wrocław, 5 grudnia 2011 Temat. Test zgodności χ 2 Pearsona. Statystyka χ 2 Pearsona Rozpatrzmy ciąg niezależnych zmiennych losowych X 1,..., X n o jednakowym dyskretnym rozkładzie
Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna
Regresja wieloraka Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)
PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5. Testy parametryczne (na
w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą
Podstawowe definicje statystyczne
Podstawowe definicje statystyczne 1. Definicje podstawowych wskaźników statystycznych Do opisu wyników surowych (w punktach, w skali procentowej) stosuje się następujące wskaźniki statystyczne: wynik minimalny
ANALIZA DWUZMIENNOWA. czyli ABC KOREALCJI
ANALIZA DWUZMIENNOWA czyli ABC KOREALCJI DZIASIAJ Pożegnanie ze statystyką: Krótko o tym, co to znaczy, że ze sobą korelują Jak te korelacje badać Kilka ćwiczeń praktycznych ANALIZA DWUZMIENNOWA Centralne
Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona
Badanie zależności między cechami Obserwujemy dwie cechy: X oraz Y Obiekt (X, Y ) H 0 : Cechy X oraz Y są niezależne Próba: (X 1, Y 1 ),..., (X n, Y n ) Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności
Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).
Statystyka i opracowanie danych Ćwiczenia 12 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA WIELORAKA Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych
Statystyka opisowa. Wykład V. Regresja liniowa wieloraka
Statystyka opisowa. Wykład V. e-mail:e.kozlovski@pollub.pl Spis treści 1 Prosta regresji cechy Y względem cech X 1,..., X k. 2 3 Wyznaczamy zależność cechy Y od cech X 1, X 2,..., X k postaci Y = α 0 +
PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com
Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych
Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania
Analiza skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza Skupień Elementy składowe procesu grupowania obiekt Ekstrakcja cech Sprzężenie zwrotne Grupowanie klastry Reprezentacja
Ćwiczenie: Wybrane zagadnienia z korelacji i regresji
Ćwiczenie: Wybrane zagadnienia z korelacji i regresji W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Stanisza r xy = 0 zmienne nie są skorelowane 0 < r xy 0,1
REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji
Statystyka i opracowanie danych Ćwiczenia 5 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ MODEL REGRESJI LINIOWEJ Analiza regresji
Statystyka matematyczna i ekonometria
Statystyka matematyczna i ekonometria prof. dr hab. inż. Jacek Mercik B4 pok. 55 jacek.mercik@pwr.wroc.pl (tylko z konta studenckiego z serwera PWr) Konsultacje, kontakt itp. Strona WWW Elementy wykładu.
Co to jest grupowanie
Grupowanie danych Co to jest grupowanie 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Szukanie grup, obszarów stanowiących lokalne gromady punktów Co to jest grupowanie
Statystyka SYLABUS A. Informacje ogólne
Statystyka SYLABUS A. Informacje ogólne Elementy składowe sylabusu Nazwa jednostki prowadzącej kierunek Nazwa kierunku studiów Poziom kształcenia Profil studiów Forma studiów Kod Język Rodzaj Dziedzina
Programowanie dynamiczne
Programowanie dynamiczne Ciąg Fibonacciego fib(0)=1 fib(1)=1 fib(n)=fib(n-1)+fib(n-2), gdzie n 2 Elementy tego ciągu stanowią liczby naturalne tworzące ciąg o takiej własności, że kolejny wyraz (z wyjątkiem
TABELE WIELODZIELCZE
TABELE WIELODZIELCZE W wielu badaniach gromadzimy dane będące liczebnościami. Przykładowo możemy klasyfikować chore zwierzęta w badanej próbie do różnych kategorii pod względem wieku, płci czy skali natężenia
Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,
Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której
Metoda największej wiarygodności
Rozdział Metoda największej wiarygodności Ogólnie w procesie estymacji na podstawie prób x i (każde x i może być wektorem) wyznaczamy parametr λ (w ogólnym przypadku również wektor) opisujący domniemany
Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),
Zależność przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), funkcyjna stochastyczna Korelacja brak korelacji korelacja krzywoliniowa korelacja dodatnia korelacja ujemna Szereg korelacyjny numer
Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11,
1 Kwantyzacja skalarna Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11, 10.05.005 Kwantyzacja polega na reprezentowaniu dużego zbioru wartości (być może nieskończonego) za pomocą wartości
Korelacja krzywoliniowa i współzależność cech niemierzalnych
Korelacja krzywoliniowa i współzależność cech niemierzalnych Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki Szczecińskiej
Weryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta
KORELACJE I REGRESJA LINIOWA
KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem
STATYSTYKA MATEMATYCZNA
STATYSTYKA MATEMATYCZNA 1. Wykład wstępny 2. Zmienne losowe i teoria prawdopodobieństwa 3. Populacje i próby danych 4. Testowanie hipotez i estymacja parametrów 5. Najczęściej wykorzystywane testy statystyczne
Dlaczego należy uwzględniać zarówno wynik maturalny jak i wskaźnik EWD?
EWD co to jest? Metoda EWD to zestaw technik statystycznych pozwalających oszacować wkład szkoły w końcowe wyniki egzaminacyjne. Wkład ten nazywamy właśnie edukacyjną wartością dodaną. EWD jest egzaminacyjnym
Analiza skupień. Idea
Idea Analiza skupień Analiza skupień jest narzędziem analizy danych służącym do grupowania n obiektów, opisanych za pomocą wektora p-cech, w K niepustych, rozłącznych i możliwie jednorodnych grup skupień.
CZEŚĆ PIERWSZA. Wymagania na poszczególne oceny,,matematyka wokół nas Klasa III I. POTĘGI
Wymagania na poszczególne oceny,,matematyka wokół nas Klasa III CZEŚĆ PIERWSZA I. POTĘGI Zamienia potęgi o wykładniku całkowitym ujemnym na odpowiednie potęgi o wykładniku naturalnym. Oblicza wartości
Agnieszka Nowak Brzezińska
Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia
1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:
Wprowadzenie Statystyka opisowa to dział statystyki zajmujący się metodami opisu danych statystycznych (np. środowiskowych) uzyskanych podczas badania statystycznego (np. badań terenowych, laboratoryjnych).
WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno
WSTĘP DO REGRESJI LOGISTYCZNEJ Dr Wioleta Drobik-Czwarno REGRESJA LOGISTYCZNA Zmienna zależna jest zmienną dychotomiczną (dwustanową) przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być:
Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA
Wykład 4: Wnioskowanie statystyczne Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA Idea wnioskowania statystycznego Celem analizy statystycznej nie jest zwykle tylko
Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com
Regresja wielokrotna Model dla zależności liniowej: Y=a+b 1 X 1 +b 2 X 2 +...+b n X n Cząstkowe współczynniki regresji wielokrotnej: b 1,..., b n Zmienne niezależne (przyczynowe): X 1,..., X n Zmienna
Wprowadzenie do analizy dyskryminacyjnej
Wprowadzenie do analizy dyskryminacyjnej Analiza dyskryminacyjna to zespół metod statystycznych używanych w celu znalezienia funkcji dyskryminacyjnej, która możliwie najlepiej charakteryzuje bądź rozdziela
Analiza statystyczna trudności tekstu
Analiza statystyczna trudności tekstu Łukasz Dębowski ldebowsk@ipipan.waw.pl Problem badawczy Chcielibyśmy mieć wzór matematyczny,...... który dla dowolnego tekstu...... na podstawie pewnych statystyk......
KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4
KARTA KURSU (do zastosowania w roku ak. 2015/16) Nazwa Statystyka 1 Nazwa w j. ang. Statistics 1 Kod Punktacja ECTS* 4 Koordynator Dr hab. Tadeusz Sozański (koordynator, wykłady) Dr Paweł Walawender (ćwiczenia)
Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),
Statystyka zbiór przetworzonych i zsyntetyzowanych danych liczbowych, nauka o ilościowych metodach badania zjawisk masowych, zmienna losowa będąca funkcją próby. Podstawowe pojęcia: populacja (zbiorowość
Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii
SPIS TREŚCI Przedmowa... 11 Wykaz symboli... 15 Litery alfabetu greckiego wykorzystywane w podręczniku... 15 Symbole wykorzystywane w zagadnieniach teorii mnogości (rachunku zbiorów)... 16 Symbole stosowane
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y
Wykład 8 Dane kategoryczne
Wykład 8 Dane kategoryczne Wrocław, 19.04.2017r Zmienne kategoryczne 1 Przykłady zmiennych kategorycznych 2 Zmienne nominalne, zmienne ordynalne (porządkowe) 3 Zmienne dychotomiczne kodowanie zmiennych
X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9
Zadanie W celu sprawdzenia, czy pipeta jest obarczona błędem systematycznym stałym lub zmiennym wykonano szereg pomiarów przy różnych ustawieniach pipety. Wyznacz równanie regresji liniowej, które pozwoli
Optymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
Reprezentacja i analiza obszarów
Cechy kształtu Topologiczne Geometryczne spójność liczba otworów liczba Eulera szkielet obwód pole powierzchni środek ciężkości ułożenie przestrzenne momenty wyższych rzędów promienie max-min centryczność
Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.
Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych. Statystyka zajmuje się prawidłowościami zaistniałych zdarzeń. Teoria prawdopodobieństwa dotyczy przewidywania, jak często mogą zajść
BADANIA OPERACYJNE Zagadnienie transportowe. dr Adam Sojda
BADANIA OPERACYJNE Zagadnienie transportowe dr Adam Sojda adam.sojda@polsl.pl http://dydaktyka.polsl.pl/roz6/asojda/default.aspx Pokój A405 Zagadnienie transportowe Założenia: Pewien jednorodny towar należy
ZASTOSOWANIE PROGRAMOWANIA LINIOWEGO W ZAGADNIENIACH WSPOMAGANIA PROCESU PODEJMOWANIA DECYZJI
Wstęp ZASTOSOWANIE PROGRAMOWANIA LINIOWEGO W ZAGADNIENIACH WSPOMAGANIA PROCESU PODEJMOWANIA DECYZJI Problem podejmowania decyzji jest jednym z zagadnień sterowania nadrzędnego. Proces podejmowania decyzji
POLITECHNIKA OPOLSKA
POLITECHNIKA OPOLSKA WYDZIAŁ MECHANICZNY Katedra Technologii Maszyn i Automatyzacji Produkcji Laboratorium Podstaw Inżynierii Jakości Ćwiczenie nr 4 Temat: Analiza korelacji i regresji dwóch zmiennych