Wstęp do probabilistyki i statystyki Wykład dr inż. Barbara Swatowska Katedra Elektroniki, AGH e-mail: swatow@agh.edu.pl http://home.agh.edu.pl/~swatow
Plan zajęć Zajęcia: Wykład 0 h oraz Ćwiczenia 0 h PLAN realizacji tematyki:. Kombinatoryka, symbol Newtona 2. Prawdopodobieństwo całkowite, warunkowe i niezależne, Twierdzenie Bayesa 3. Zmienna losowa i dystrybuanta 4. Obliczanie prawdopodobieństwa z wykorzystaniem gęstości 5. Wprowadzenie do statystyki, średnia, odchylenie standardowe, wariancja 6. Analiza regresji przykładowych danych 7. Obliczanie przedziału ufności dla różnych danych 8. Estymacja i wnioskowanie statystyczne 2
Literatura:. Krysicki W., Bartos J., i inni., Rachunek prawdopodobieństwa i statystyka matematyczna część I, II, Wydawnictwo Naukowe PWN, Warszawa 997. 2. Plucińska A., Pluciński E.: Zadania z rachunku prawdopodobieństwa i statystyki matematycznej dla studentów politechnik, PWN 3. Plucińska A., Pluciński E.: Probabilistyka, Rachunek prawdopodobieństwa, statystyka matematyczna, procesy stochastyczne, Wydawnictwo Naukowo- Techniczne, Warszawa 2000 4. Jakubowski J., Sztencel R.: Wstęp do teorii prawdopodobieństwa, SCRIPT, 2000 5. Ostasiewicz S., Rusnak Z., Siedlecka U., Statystyka. Elementy teorii i zadania. Wydawnictwo Akademii Ekonomicznej im. Oskara Langego we Wrocławiu, 999 6. Greń Jerzy: Statystyka matematyczna. Modele i zadania. 7. Sobczyk Mieczysław: Statystyka, Wydawnictwo Naukowe PWN, Warszawa, 996 8. Koronacki J, Mielniczuk J.: Statystyka dla studentów kierunków technicznych i przyrodniczych, Wydawnictwo Naukowo-Techniczne, Warszawa 200 3
Czym zajmuje się probabilistyka i statystyka? Teoria prawdopodobieństwa (także rachunek prawdopodobieństwa lub probabilistyka) dział matematyki zajmujący się zdarzeniami losowymi. Zdarzenie losowe to wynik doświadczenia losowego. Doświadczenie losowe może być powtarzane dowolnie wiele razy w warunkach identycznych lub bardzo zbliżonych a jego wynik nie daje się przewidzieć jednoznacznie. Częstość zdarzenia: l n gdzie l oznacza ile razy zaszło zdarzenie, gdy doświadczenie powtarzano n razy. Prawidłowość statystyczna przy coraz większej liczbie doświadczeń losowych częstość zdarzenia dąży do pewnej stałej liczby 4
Czym zajmuje się probabilistyka i statystyka? Rachunek prawdopodobieństwa zajmuje się badaniem abstrakcyjnych pojęć matematycznych stworzonych do opisu zjawisk, które nie są deterministyczne:. zmiennych losowych w przypadku pojedynczych zdarzeń oraz 2. procesów stochastycznych w przypadku zdarzeń powtarzających się (w czasie). Jako matematyczny fundament statystyki, teoria prawdopodobieństwa odgrywa istotną rolę w sytuacjach, w których konieczna jest analiza dużych zbiorów danych. Jednym z największych osiągnięć fizyki dwudziestego wieku było odkrycie probabilistycznej natury zjawisk fizycznych w skali mikroskopowej, co zaowocowało powstaniem mechaniki kwantowej. Statystyka zajmuje się metodami zbierania informacji (liczbowych) oraz ich analizą i interpretacją. 5
Czym zajmuje się probabilistyka i statystyka? Statystyka OPISOWA ANALIZA DANYCH (DESCRIPTIVE STATISTICS) DEDUKCYJNA MODELOWANIE STOCHASTYCZNE ( STATISTICAL INFERENCE) Organizacja danych Podsumowanie danych Prezentacja danych Podaje metody formułowania wniosków dotyczące obiektu badań (populacji generalnej) w oparciu o mniej liczny zbiór (próbę) GRAFICZNA NUMERYCZNA 6
Rys historyczny Matematyczna teoria prawdopodobieństwa sięga swoimi korzeniami do analizy gier losowych podjętej w siedemnastym wieku przez Pierre de Fermata oraz Blaise Pascala. Z tego powodu, początkowo teoria prawdopodobieństwa zajmowała się niemal wyłącznie zjawiskami dyskretnymi i używała metod kombinatorycznych. Zmienne ciągłe zostały wprowadzone do teorii prawdopodobieństwa znacznie później. Za początek stworzenia współczesnej teorii prawdopodobieństwa powszechnie uważa się jej aksjomatyzację, której w 933 dokonał Andriej Kołmogorow. 7
Hazard Zdecydowana większość gier losowych opiera się na prawdopodobieństwie zdarzenia......najprostszy, jak rzut monetą,......złożony, jak rozdanie pokera......oraz może być pod tym kątem analizowana. Prawdopodobieństwo trafienia oczka Ilość unikatowych rozdań w pokerze...całkowicie losowy jak ruletka... 8
Rys historyczny Blaise Pascal (60-662) XVII w., Paryż, Francja Unieśmiertelnił kawalera de Méré oraz jego paradoks hazardowy Trójkąt Pascala wykorzystywany przy potędze sumy ( a n n + b) k 0 n a k dwumian Newtona k b n k 9
Trójkąt Pascala 6 6 6 5 6 5 4 6 20 3 6 5 2 6 6 6 0 6 6 5 5 5 4 5 0 3 5 0 2 5 5 5 0 5 5 4 4 4 3 4 6 2 4 4 4 0 4 4 3 3 3 2 3 3 3 0 3 3 2 2 2 2 0 2 2 0 0 0 0 n n n n n n n 0! )! (! k k n n k n Symbol
Trójkąt Pascala + 2 3 3 4 6 4 5 0 0 5 6 5 20 5 6 n 0 n n 2 n 3 n 4 n 5 n 6
Rys historyczny Pierre de Fermat (60-665) Początek XVII w., Touluse, Francja Badał właściwości liczb pierwszych, teorię liczb, równolegle opracował metodę współrzędnych w geometrii. Razem z Pascalem stworzył podstawy pod współczesny rachunek prawdopodobieństwa. 2
Rys historyczny Siméon Denis Poisson (78-840) XVIII-XIX w., Paryż, Francja Przyjaciel Lagrange'a, uczeń Laplace'a na sławnej École Polytechnique. Poza zagadnieniami fizycznymi zajmował się teorią prawdopodobieństwa. Proces stochastyczny (podobnie jak pr. Markowa), rozkład Poissona - dystrybuanta! 3
Rys historyczny Carl Frederich Gauss (777-855) XVIII-XIX w., Getynga, Niemcy Profesor Uniwersytetu w Getyndze Genialny matematyk, który już w dzieciństwie wyprzedzał umiejętnościami rówieśników. W szkole podstawowej jako jedyny rozwiązał zadanie nauczyciela - zsumowanie liczb do 40 zauważając, że jest to (40+)*20 Rozkład normalny, zwany krzywą Gaussa. 4
Paradoks kawalera de Méré Dwaj hazardziści S i S 2 umawiają się, że zagrają pewną serię partii i że zwycięzcą będzie ten, kto pierwszy wygra pięć partii. Co należy zrobić, gdy trzeba będzie grę przedwcześnie przerwać? Załóżmy, że S wygrywa cztery partie, a S 2 tylko trzy. Jak sprawiedliwie podzielić stawki? Propozycja : podzielić stawki w stosunku 4:3 Propozycja 2: podzielić stawki w stosunku (5-3):(5-4)2: wg W.R. Fuchs, Matematyka popularna, Wiedza Powszechna, Warszawa 972 5
Blaise Pascal rozwiązał zadanie rozumując bardzo prosto. Aby rozstrzygnąć grę, należy zagrać jeszcze najwyżej dwie partie. Paradoks kawalera de Méré Jeżeli pierwszą partię wygra S, to gra będzie rozstrzygnięta od razu. Gdy pierwszą partię wygra S 2, to wygranie drugiej partii przez S przesądziłoby grę na jego korzyść. Jednak jeśli pozostałe dwie partie wygra S 2 to on zostanie zwycięzcą. Zatem sprawiedliwy podział stawki to 3:. 6
Statystyka - typy danych ILOŚCIOWE (QUANTITATIVE, NUMERICAL) JAKOŚCIOWE (QUALITATIVE, CATEGORIAL) Przykłady: Zbiór ludzi Wiek Wzrost Wysokość zarobków Obliczenia pewnych parametrów, jak np. średnia arytmetyczna, mediana, ekstrema, mają sens Przykłady: Płeć Stan cywilny Można przypisać różnym cechom arbitralne wartości liczbowe. Obliczenia parametrów nie mają sensu, można jedynie podawać np. udział procentowy 7
Pojęcie zmiennej losowej Zmienna losowa jest to funkcja X, która przypisuje liczbę rzeczywistą x danemu wynikowi eksperymentu losowego. Ω { e, e2, X : Ω R X ( e i ) K x i R Przykłady:. Rzut monetą: zdarzeniu orzeł przypisujemy ; zdarzeniu reszka przypisujemy 0. 2. Analog. losowanie wyrobów: zdarzeniu brak (wadliwy) - 0, dobry 3. Rzut kostką wyrzucenie, 2 2 itd 4. Odcinek [a, b] na osi liczbowej wybór punktu o współrzędnej x przypisujemy np. wartość x ; wartość sin 2 (3x+7) itp. } 8
Zmienna losowa dyskretna Gdy wartości zmiennej losowej X są izolowanymi punktami na osi liczbowej (obejmują skończony przedział wartości). Rzut monetą Błędy przy transmisji Wadliwe układy na linii produkcyjnej Ilość połączeń przychodzących w ciągu 5 minut ciągła Gdy wartości zmiennej losowej stanowią wszystkie punkty odcinka (obejmują przedział liczb rzeczywistych) Natężenie prądu w przewodniku Temperatura Ciśnienie 9
Graficzna prezentacja danych x Ilość wystąpień Częstotliwość 3 3/23 0,304 2 5 5/23 0,274 3 0 0/23 0,4348 4 4 4/23 0,739 Dane statystyczne można prezentować na wiele sposobów, np. częstość występowania danej cechy 5 /23 0,0435 Razem: 23,0000 20
Graficzna prezentacja danych Wykres kołowy 2 3 4 5 0,3043478 2 0,27393 3 0,43 4 0,739 7% 4% 3% 22% 5 0,04347826 44% graf 2
Graficzna prezentacja danych Wykres kolumnowy 0,3043478 2 0,27393 3 0,43 4 0,739 5 0,04347826 0,45 0,4 0,35 0,3 0,25 0,2 0,5 0, 0,05 Serie 0 2 3 4 5 22
Dane ilościowe Wyniki 34 pomiarów (np. wielkość ziaren w [nm], temperatura w kolejnych dniach o godz. :00 w [deg. C], czas rozmów telefonicznych w [min], itp. 3,6 3,2 2 2,8 3,5 5,2 4,8 2,3 9, 6,6 5,3,7 6,2 9,4 6,2 6,2 5,3 8 8,2 6,2 6,3 2, 8,4 4,5 6,6 9,3 5,3 9,2 6,5 0,4,2 7,2 6,2 2,3 Tak podane wartości są mało czytelne! 23
Histogram Sporządzenie wykresu (histogramu):. Uporządkować zbiór wg. rosnących (lub malejących) wartości program Excel ma taką opcję. 2. Wyniki próby (o liczebności n) stanowią zbiór n-liczb (niekoniecznie różniących się od siebie). Celem ich ilustracji dzieli się je na klasy, tworząc tzn. szereg rozdzielczy. 3. Szerokość poszczególnych klas nie musi być taka sama, choć zwykle stosuje się klasy o tej samej szerokości 4. Ilość klas nie może być zbyt mała ani też zbyt liczna. Najbardziej optymalną liczbę klas 'k' określa reguła Sturge'a. 24
Histogram 3 klasy Częstość bezwględna 6 4 2 0 8 6 4 2 0 0 2 8 4 20 x 25
Histogram 2 klas 8 7 6 Częstość bezwzględna 5 4 3 2 0 0 2 3,5 5 6,5 8 9,5 2,5 4 5,5 7 8,5 20 x 26
Histogram 35 klas 8 7 6 Częstość bezwzględna 5 4 3 2 0 0 2 2,5 3 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8 8,5 9 9,5 0 0,5,5 2 2,5 3 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8 8,5 9 9,5 x 27
Reguła Sturge'a k+3,3log 0 n Dla naszego przykładu: n 34 k5.59 6 Liczebność próbki, n Liczba klas, k < 50 5 7 50 200 7 9 200 500 9 0 500 000 0-000 5000 3 5000 50000 3 7 50000 < 7 20 28
Histogram optymalny 6 klas (optymalnie) 0,3 0,25 Częstość względna 0,2 0,5 0, 0,05 0 0 2 5 8 4 7 20 x 29
Rachunek prawdopodobieństwa i statystyka w nauce i technice Statystyka umożliwia analizę i modelowanie rozwoju chorób oraz pomaga zapobiegać epidemiom. Statystyka medyczna, np. średnia liczba zachorowań w regionie. Statystyka społeczna, np. gęstość zaludnienia. Statystyka gospodarcza, np. PKB, wydatki na opiekę zdrowotną. Liczba zachorowań na świńską grypę w roku 2009 w USA (Źródło: http://commons.wikimedia.org) 30
Meteorologia Modele pogodowe umożliwiające przewidywanie pogody oraz wykrywanie potencjalnych kataklizmów, np. huraganów (Źródło:stormdebris.net/Math_Forecasting.html) 3
Jak rozwiązuje się problem inżynierski? Opis problemu Identyfikacja najważniejszych czynników Propozycja modelu Modyfikacja modelu Potwierdzenie rozwiązania Przeprowadzenie eksperymentów Wnioski i rekomendacje 32
Jak rozwiązuje się problem inżynierski? Opis problemu Przykład: Załóżmy, że inżynier projektuje przewód paliwowy, który ma zastosowanie w silnikach samochodowych. Inżynier wybiera grubość ściany 3/32 cale ale nie jest pewny czy to jest wystarczające dla uzyskania odpowiedniej siły ciągu. Identyfikacja najważniejszych czynników Wyprodukowano osiem elementów, dla których zmierzono siły ciągu i otrzymano następujące wartości (w funtach): 2.6, 2.9, 3.4, 2.3, 3.6, 3.5, 2.6, 3.. Siła ciągu może być traktowana jako zmienna losowa. 33
Jak rozwiązuje się problem inżynierski? Propozycja modelu Przyjmijmy model, w którym zmienna losowa X jest przedstawiona jako: Stała wartość Zaburzenie (błąd, szum) Stała µ nie zmienia się przy kolejnych pomiarach. Małe zmiany w otoczeniu, układzie pomiarowym, różnice obserwowane dla obiektu mierzonego wpływają na wartość zaburzenia ε. W świecie rzeczywistym zawsze istnieją czynniki prowadzące do niezerowego zaburzenia. Musimy je opisać w sposób ilościowy i znaleźć sposób na ograniczenie ich wpływu na wynik pomiaru. 34
Jak rozwiązuje się problem inżynierski? Przeprowadzenie eksperymentów Rysunek -2 przedstawia uzyskane wyniki w postaci diagramu punktowego (dot diagram). Diagramy tego typu są użyteczne dla małej ilości danych (do ok. 20 obserwacji). Wykresy tego typu pozwalają ocenić położenie (środek) i rozproszenie (rozrzut) Średnia wartość siły ciągu wynosi 3.0 funtów. 35
Inżynier zmienia grubość ściany do /8 cali zakładając, że pomoże to zwiększyć siłę ciągu. Znowu zbudowano 8 prototypów, przeprowadzono eksperymenty i otrzymano wyniki siły ciągu: 2.9, 3.7, 2.8, 3.9, 4.2, 3.2, 3.5, 3.. Wyniki, w porównaniu z poprzednim eksperymentem, zestawiono na Rys. -3.. Jak rozwiązuje się problem inżynierski? Modyfikacja (udoskonalenie) modelu Średnia wartość siły ciągu wynosi 3.4 funty. 36
Jak rozwiązuje się problem inżynierski? Potwierdzenie rozwiązania? Wykres stwarza wrażenie, że zwiększenie grubości ściany prowadzi do wzrostu siły ciągu. Jednak, pozostaje pytanie czy jest tak istotnie? 37
Jak rozwiązuje się problem inżynierski? Wnioski (rekomendacje?) Statystyka pomoże nam udzielić odpowiedzi na pytania: Skąd pewność, że inna próbka elementów nie da innych wyników? Czy próbka 8-elementowa jest wystarczająca aby dać wyniki, którym można ufać? Jeżeli użyjemy wyników, które do tej pory otrzymaliśmy, aby sformułować wniosek (decyzja), że wzrost grubości ściany jest korzystny, jak oszacować ryzyko z tym związane? Czy jest możliwe, że pozorny wzrost siły ciągu obserwowany dla grubszych elementów ma charakter jedynie losowy? Może nie ma sensu zwiększanie grubości ścian (powiększanie kosztów produkcji)? 38
80 70 60 Zasady rysowania wykresów Czy ten wykres jest narysowany zgodnie z zasadami?. Należy wyraźnie zaznaczyć punkty eksperymentalne!!! 50 40 30 20 0 00 90 80 70 60 0 40 80 20 60 200 240 280 320 39
80 70 60 50 40 30 20 0 00 90 80 70 60 2. Trzeba nanieść błąd pomiaru 0 40 80 20 60 200 240 280 320 40
3. Dobrać zakresy osi współrzędnych odpowiednio do zakresu zmienności danych pomiarowych!!! 80 70 60 50 40 30 20 0 00 90 80 70 60 0 40 80 20 60 200 240 280 320 4
4. Właściwie opisać osie współrzędnych i dobrać skalę, tak aby łatwo można było odczytać wartości zmierzone. co jest na osiach??? 42
80 50 5. Nie łączyć punktów eksperymentalnych linią łamaną!!! Jeśli znany jest przebieg teoretyczny to dokonać dopasowania teorii do doświadczenia (przeprowadzić fitowanie) ρ [µω cm] 20 90 60 60 200 240 280 320 T [K] 43
6. Zadbać o aspekt estetyczny wykresu (opis, zamknięcie ramką, itp.) 44
45
Dziękuję za uwagę 46