Nowoczesne techniki matematyczne, statystyczne i informatyczne Wykładowca : Krzysztof Bogdan Biuro : C-11, p. 2.12 http://prac.im.pwr.wroc.pl/~bogdan/
Twój wynik z wykładów: zadania domowe (25%) kartkówki (25%) kolokwium 1 (25%) kolokwium 2 (25%) Ocena z kursu=50% wynik z wykładu+50% wynik z laboratoriów; 90%=bdb, 70%=db, 50%=dst. Obecność na zajęciach jest wymagana. Zadania domowe i kartkówki po terminie nie są dopuszczane. Należy informować o spodziewanej absencji na egzaminie.
Podręczniki (biblioteka C-11): J. Koronacki, J. Mielniczuk, Statystyka dla studentów kierunków technicznych i przyrodniczych, WNT, 2009 N. Fieller, Basics of Matrix Algebra for Statistics with R, CRC Press, 2016 D. Moore, G. McCabe, Introduction to the Practice of Statistics, ed. IV, Freeman, 2003
Do zrobienia.. Miej kalkulator na testy. Zainstaluj R na swoim komputerze. Regularnie odwiedzaj stronę internetową dla harmonogramu, notatek z wykładów, zadań, rozwiązań, tablic statystycznych i tp.
Dane: Używamy danych do odpowiedzi na pytania naukowe. Dane wykazują zmienność/szum. Aby wykorzystać informacje zawarte w danych należy odróżnić sygnał od szumu.
Przykład Zbadaj wpływ ćwiczeń na poziom cholesterolu. Jedna grupa ćwiczy, a druga nie. Czy w wyniku ćwiczeń zmniejsza się poziom cholesterolu? Rozważmy: ludzie się różnią poziomem odpowiedzi zewnętrzne czynniki mogą mieć duży wpływ ćwiczenia mogą wpływać na inne czynniki
Co to jest Statystyka? Nauka rozumienia danych i podejmowania decyzji w obliczu zmienności/losowości. Zestaw metod planowania eksperymentu i analizy danych w celu uzyskania informacji i określenia jej wiarygodności.
Rozdział 1.1 Jednostki i zmienne Jednostki - obiekty (ludzie, zwierzęta, rzeczy) opisane przez zbiór danych Zmienne charakterystyki/opisy jednostek
Rodzaje zmiennych Zmienne Jakościowe Ilościowe Porządkowe Nie porządkowe Ciągłe Dyskretne
Rodzaje zmiennych 1. Ilościowe (liczbowe) Ciągłe: np. wysokość, waga, stężenie Dyskretne: np. liczba klientów, kwiatów na łodydze 2. Jakościowe (nieliczbowe) Porządkowe: np. wybory w ankiecie: nigdy, rzadko, niekiedy, często, zawsze Nieporządkowe: np. kształt, płeć
Przykład: Informacje o pracownikach
Opisowa analiza danych: zmienne Rozkład = opis liczebności lub składu procentowego Zmienne jakościowe: rozkład ilustrujemy np. wykresem słupkowym lub kołowym. Zmienne ilościowe: rozkład ilustrujemy np. diagramem pnia i liścia lub histogramem.
Rozkład zmiennych jakościowych: np. Wykształcenie 25-34-latków w USA Wykształcenie Liczba (mln) Procent Poniżej szkoły średniej Ukończona szkoła średnia 4.7 12.3 11.8 30.7 Studium 10.9 28.3 Licencjat 8.5 22.1 Magisterium itd. 2.5 6.6
Wykres słupkowy Wykształcenia
Wykres kołowy Wykształcenia
Rozkład zmiennych ilościowych Indywidualne obserwacje zwykle się różnią - obserwujemy chmurę zamiast kilku wartości Rozkład zmiennych ilościowych jest ilustrowany histogramem
Rzut oka na rozkład: Diagram pnia i liścia Liść = ostatnia (najmniej znacząca) cyfra Łodyga = pozostałe cyfry Przykład: liczba home runs, które Babe Ruth zdobył w ciągu15 lat w New York Yankees: 54 59 35 41 46 25 47 60 54 46 49 46 41 34 22
Sporządź Diagram pnia i liścia: (BR z lewej)
Dwa diagramy pnia i liścia obok siebie Porównaj liczby home runs dla Babe Ruth i Marka McGwire: 9 9 22 29 32 32 33 39 39 42 49 52 58 65 70 Uwaga: Możemy zwiększyć liczbę łodyg poprzez podzielenie ich na dwie części, np. jeden z liśćmi od 0 do 4, a drugi z liśćmi od 5 do 9. Możemy również zaokrąglić liczby przed wykonaniem diagramu pnia i liścia.
Opisywanie rozkładów Opisz wzór: Kształt np. symetryczny lub skośny; liczbę mod Położenie np. punkt środkowy (mediana) Rozrzut np. odstęp pomiędzy maksimum i minimum wartości. Szukaj wartości odstających (outlier) wartości, które odbiegają od reszty.
Rozkład: ilustracja Histogramem
Tabela rozkładu dla Hispanic data Klasa Liczność Procent Klasa Liczność Procent 0.1-5 30 60 20.1-25 1 2 5.1-10 10 20 25.1-30 2 4 10.1-15 4 8 30.1-35 0 0 15.1-20 2 4 35.1-40 1 2
Histogram dla proporcji Hispanic adults
Histogram, uwagi: Klasy histogramu to przedziały. Klasy powinny być dogodne; zwykle mają równą długość; zawsze pokrywają pełny zakres danych. Wybór liczby klas nie jest prosty; wybierz kilka klas dla kilkudziesięciu obserwacji. Histogram liczności = ma liczności. Histogram częstości = ma częstości (procenty, %).
Etykietowanie wykresu jest ważne! Oś pozioma jest dla zmiennej. Oś pionowa jest dla liczności albo częstości/procentów. Pamiętaj, żeby opisać osie, jak w naszych przykładach.
... + 24,800 nanosekund
Wypełnij tabelę częstości dla danych Newcomba 20-24.9 25-29.9
Narysuj histogram liczności dla danych Newcomba. Następnie - histogram częstości.
Histogram dla danych Newcomba (zob. obs. odstające)
Inne wykresy: np. szeregi czasowe Mogą wskazywać na ukryte mechanizmy: Trend długotrwały wzrost lub spadek Zmienność sezonowa schemat powtarzający się okresowo w czasie takie wykresy będą mniej ważne w tym kursie.
Szereg czasowy dla danych Newcomba.
Rozdział 1.2 Opisywanie rozkładu liczbami: Średnia Mediana Kwartyle Wykres pudełkowy (Boxplot) Odchylenie standardowe Zmiana jednostki miary
Miary położenia Średnia Średnia arytmetyczna danych Oznaczana x xx 12. x x 1 n n n xi Średnia jest wrażliwa na obserwacje odstające, tzn. nie jest odporna.
Statystyki (do uzupełniania): Minicomp. City Minicomp. Highway Two-seater City Two-seater Highway Two-seater City w/t outlier Two-seater Highway w/t outlier Średnia Mediana Q1 Q3 Odchyl. stdand.
Mediana Mediana to środek rozkładu: Posortuj dane w porządku rosnącym. Mediana jest równa (n + 1)/2-szej obserwacji, jeśli n jest nieparzyste i jest to średnia z dwóch środkowych wartości, jeśli n jest parzyste. Mediana jest odporną miarą położenia, tzn. obserwacje odstające nie wpływają znacząco na medianę.
Średnia a Mediana W rozkładzie symetrycznym średnia = mediana. W rozkładzie skośnym średnia jest bardziej przesunięta w kierunku długiego ogona. Przykład: Średnia cena domów sprzedanych w 2000 r. wyniosła 176,200 $. Mediana cena sprzedaży wyniosła 139,000 $.
Miary rozrzutu Kwartyle: Q2 (drugi kwartyl) = mediana Q1 (pierwszy kwartyl) = mediana dolnej "połowy" posortowanych danych Q3 (trzeci kwartyl) = mediana górnej połowy danych p-ty kwantyl - liczba x taka, że około p procent obserwacji jest mniejszych niż x. Q1, Q2, Q3 to 0.25, 0.50, 0.75-ty kwantyl.
Definicja obserwacji odstającej Odstęp międzykwartylowy: IQR=Q3-Q1 Obserwacja jest odstająca, jeśli jest ponad 1.5 * IQR powyżej trzeciego kwartyla lub jest 1,5 * IQR poniżej pierwszego kwartyla. Często usuwamy wartości odstające z danych. U nas zrobimy to z Hondą Insight. Dlaczego?
Pięcioliczbowy opis rozkładu Minimum, Q1, Mediana, Q3, Maximum Boxplot wizualizacja pięciu liczb jw.
Histogram...
...i (zmodyfikowany) boxplot (pokazano obserwacje odstające).
Odchylenie standardowe Odchylenie i-tej obserwacji: Wariancja próbkowa: xi x ( xx ) ( xx ). ( xx ) 1 s ( ) n1 n1 standarddeviation: s 2 2 2 2 1 2 n 2 xi x 1 s = s ( xx ) n 1 2 2 i
1792 1666 1362 1614 1460 1867 1439 Średnia=1600 Odchylenie 1 =1792-1600=192 Odchylenie 7 =1439-1600=-161 s=189.24
Własności odchylenia standardowego s = 0, gdy nie ma rozrzutu s nie jest odporne Pięcioliczbowy opis rozkładu zazwyczaj lepiej opisuje rozkład skośny i/lub rozkład z wartościami odstającymi. Średnia i odchylenie standardowe są zwykle używane dla symetrycznych rozkładów bez wartości odstających.
Transformacje Liniowe: x nowe =a+bx stare Examples: x mile =0.62 x km x g =28.35 x oz 5 1605 x( x 32) x celsius fahr 9 99 fahr
Transformacje liniowe nie zmieniają kształtu rozkładu. Zmieniają one położenie i rozrzut, np.: Małe pytony 1 2 3 4 5 oz 1.13 1.02 1.23 1.06 1.16 g 32 29 35 30 33
Wpływ transformacji liniowej: x nowy =a+bx stary średnianowa=a+b*średniastara mediananowa=a+b*medianastara odch.stadnowe= b *odch.stdstare IRQnowe= b *IRQstare
Oblicz średnią, medianę i odchylenie standard. dla wagi pytonów w [g] w [oz] Średnia Mediana SD