chemików Michał Daszykowski, Ivana Stanimirova Instytut Chemii Uniwersytet Śląski w Katowicach Ul. Szkolna 9 40-006 Katowice E-mail: www: mdaszyk@us.edu.pl istanimi@us.edu.pl http://www.sites.google.com/site/chemomlab/ Zakres zajęć Wprowadzenie do statystyki Prawdopodobieństwo i rozkład normalny Wprowadzenie do testowania hipotez badawczych Praktyczne wykorzystanie testowania hipotez Jednoparametrowa regresja Regresja ważona Regresja wieloraka Elementy stabilnej statystyki Podstawy planowania i optymalizacji eksperymentu chemików 1
Literatura K. Doerffel, Statystyka dla chemików analityków, WNT, Warszawa, 1989. J.R. Taylor, Wstęp do analizy błędu pomiarowego, PWN, Warszawa, 2011. D.L. Massart, B.G.M. Vandeginste, L.M.C. Buydens S. de Jong, P.J. Lewi, J. Smeyers-Verbeke, Handbook of chemometrics and qualimetrics: part A, Elsevier, Amsterdam, The Netherlands, 1997. M. Korzyński, Metodyka eksperymentu, WNT, Warszawa, 2006. S.D. Brown, R. Tauler, B. Walczak, Comprehensive chemometrics, Elsevier, Amsterdam, 2009. J.N. Miller, J.C. Miller, Statistics and chemometrics for analytical chemistry, Prentice Hall, London, 2010. Rola chemii Jakiego rodzaju badania prowadzą chemicy? Dlaczego? W jaki sposób prowadzą badania? chemików 2
Problem badawczy Prowadzony eksperyment ma umożliwić odpowiedź na nurtujące nas pytania. W jaki sposób uzyskujemy odpowiedź? Pytanie badawcze Pytanie rozstrzygające Czy próbka wina pochodzi z Włoch? Czy stężenie kadmu w próbce mieści się w dopuszczalnych granicach? Czy metoda analityczna jest precyzyjna? Czy pacjent jest chory? Pytanie dopełnienia Jakie jest stężenie ołowiu w próbce? W jakim zakresie występuje ołów w próbkach? Jaki typ zmian nowotworowych występuje u pacjenta? chemików 3
Jakie powinno być pytanie badawcze? Jasne i zrozumiałe. Musimy umieć na nie odpowiedzieć. Hipoteza naukowa, a prawo naukowe Hipoteza badawcza to zdanie twierdzące, dotyczące przewidywanego wyniku eksperymentu, przeprowadzonego aby odpowiedzieć na pytanie badawcze. Prawo naukowe to potwierdzona i wyrażona w ogólnej postaci hipoteza badawcza. chemików 4
Jaka powinna być hipoteza naukowa? Ani zbyt ogólna, ani zbyt szczegółowa. Zbyt ogólna hipoteza umożliwia prawie każdą generalizację. Kiedy rodzą się prawa? W tych samych warunkach fizycznych tj. w takiej samej temperaturze i pod takim samym ciśnieniem, w równych objętościach różnych gazów znajduje się taka sama liczba cząsteczek. Masa powstałych produktów jest równa masie substratów wziętych do przeprowadzenia reakcji. A = εbc gdzie : ε to molowy współczynnik absorpcji; b to grubość warstwy absorbującej, c to stężenie analitu chemików 5
Przyczyna - skutek Choroba temperatura i ból głowy przyczyna skutek Przyczyna - skutek Indukcja wyjaśnienie przyczyn danego zjawiska poprzez odwołanie się do ogólnej prawidłowości. Dedukcja poszukiwanie określonych skutków, jeśli istnieją ku temu przyczyny. przyczyna indukcja dedukcja skutek chemików 6
Chemia to nauka eksperymentalna Formułowanie wniosków i oblanie tych już istniejących wymaga dowodów. W badaniach wykorzystuje się reprezentatyne próbki. Zmienna Zmienna to własność, którą mierzymy dla wielu próbek Zmienne mogą być: ilościowe lub jakościowe zależne i niezależne (istotnie) chemików 7
Zmienne ilościowe - przykłady Stężenia wybranych związków w próbkach Intensywność sygnału analitycznego (np. wartość absorbancji zmierzonej przy danej długości fali) Szybkość reakcji Wydajność reakcji Gęstość Temperatura topnienia Aktywność biologiczna Zmienne jakościowe - przykłady Chorzy vs. zdrowi Typ nowotworu 1, typ nowotworu 2, typ nowotworu 3, Próbki autentyczne vs. próbki nieautentyczne Kraj 1, kraj 2, kraj 3, Aktywny biologicznie vs. nieaktywny chemików 8
Dane Zmienne tworzą dane zmienne zmienne zmienne X X X próbki O czym powinny mówić dane? Analiza pozyskanych danych w trakcie eksperymentu (z pełnym zachowaniem sztuki realizacji eksperymentu i sztuki pomiarowej) ma umożliwić generalizację. Nieoptymalny plan eksperymentu i błędy pomiarowe wpływają na jakość danych. chemików 9
Moc predykcyjna Moc predykcyjna: własność pozwalająca na przewidzenie przyszłych wydarzeń Moc predykcyjna modelu, reguły (lub teorii) [Fe 3+ ] [Fe 3+ ] = f(a) + + + + + + + + + + nowa próbka A model kalibracyjny Moc predykcyjna Moc predykcyjna: własność pozwalająca na przewidzenie przyszłych wydarzeń Moc predykcyjna modelu, reguły (lub teorii) + [Fe] + model klasyfikacyjny [Yt] [Eu] chemików 10
Moc predykcyjna Moc predykcyjna: własność pozwalająca na przewidzenie przyszłych wydarzeń Moc predykcyjna modelu, reguły logicznej (lub teorii) Reguła logiczna: jeśli [Fe]>3,5 mg/l i [Cd]<2,1mg/l i [Zn]<1,4 mg/l to próbka wina pochodzi z Włoch Jedna, czy wiele zmiennych? pomiar n zmiennych A B C chemików 11
Pomiar zmiennej 1 źródło pomiaru próbka I próbka II próbka III próbka IV pomiar pomiar pomiar pomiar Pomiar zmiennej Mg 2+? I źródło pomiaru II źródło pomiaru III źródło pomiaru próbka I próbka II próbka III próbka I próbka II próbka III próbka I próbka II próbka III pomiar pomiar pomiar pomiar pomiar pomiar pomiar pomiar pomiar chemików 12
Błąd Skąd bierze się błąd pomiaru? wahania temperatury zabrudzenie aparatury zaburzenia w stałości prądu wadliwa praca podzespołów Błąd Błędy wynikające z metody analitycznej: powolna bądź niezakończona reakcja niestabilne komponenty próbki niespecyficzne reagenty reakcji poboczne chemików 13
Błąd Błędy pomiarowe: złe odczytanie wyniku niewłaściwa kalibracja instrumentu złe przygotowanie próbki indywidualne predyspozycje osoby złe opracowanie wyników Błąd losowy Błędy losowe (przypadkowe), obarczające każde oznaczenie (pomiar), powodują, że wyniki równoległych oznaczeń różnią się nieznacznie od siebie. Przyczyna powstawania błędów przypadkowych nie jest dokładnie znana; ich pojawienie tłumaczy się jako skutek oddziaływania tzw. błędów elementarnych, czyli małych i nieprzewidzianych błędów, powstających w toku postępowania analitycznego. chemików 14
Błąd systematyczny Błąd o stałej wartości, który jest zawsze popełniany np. źle wytarowana waga Błąd gruby Wynik znacznie odbiegający od pozostałych. Zazwyczaj błąd gruby jest błędem w sztuce pomiarowej. chemików 15
Błąd stały i proporcjonalny Błąd stały - wyniki pomiaru nie zależą od "wielkości" próbki. Błąd proporcjonalny - błąd, którego wartość zależy od "wielkości" próbki. Precyzja pomiaru, a dokładność Precyzja - charakteryzuje powtarzalność pomiarów. Dokładność - bliskość wyniku do wartości prawdziwej (oczekiwanej). chemików 16
Precyzja pomiaru, a dokładność Dokładność i precyzja Precyzja i brak dokładności Dokładność i brak precyzji Brak zarówno dokładności jak i precyzji Materiały certyfikowane (referencyjne) Substancje ze świadectwem potwierdzającym zawartość określonych komponentów próbki. chemików 17
Prawdopodobieństwo i rozkład normalny Prawdopodobieństwo Prawdopodobieństwo należy rozumieć jako zasadę, która każdemu zdarzeniu losowemu przyporządkowuje wartość liczbową. Funkcja P(X), która przyporządkowuje każdemu elementowi zbioru zdarzeń losowych pewną nieujemną wartość rzeczywistą. chemików 18
Aksjomaty prawdopodobieństwa P(A) jest w przedziale [0, 1] zdarzenie pewne P(A) = 1, zdarzenie niemożliwe P(A) = 0 Dla zdarzeń rozłącznych: P(A1 A2... An) = P(A1) + P(A2) +... + P(An) Prawdopodobieństwo Mając kostkę sześcienną... jakie jest prawdopodobieństwo, że wyrzucimy 1 oczko? Rzucając monetą, jakie jest prawdopodobieństwo, że wypadnie orzeł? Czy prawdopodobieństwo zdarzenia A jest takie samo w sytuacjach gdy: rzucamy kostką 10.000 razy i rzucamy 10.000 kostkami jeden raz? chemików 19
Prawdopodobieństwo Jakie jest prawdopodobieństwo, że zajdzie A pod warunkiem B? P(A B) - prawdopodobieństwo warunkowe Prawdopodobieństwo obiektywne vs. subiektywne: obiektywne subiektywne: prawdopodobieństwo nie musi być wielkością obiektywną, lecz może być określone na podstawie subiektywnej opinii osoby, zależnie od dostępnych jej aktualnie danych. Populacja, a próba Populacja to zbiór wszystkich możliwych wyników uzyskanych poprzez pomiar pewnej zmiennej. Czy zawsze znamy wszystkie możliwe rozwiązania? Próba - część populacji podlegająca badaniu. Próba losowa -żadna ze zmiennych nie ma wpływu na to co znajdzie się w próbie. chemików 20
# www.sites.google.com/site/chemomlab Zmienna losowa Zmienna losowa to wielkość, która w wyniku zrealizowanych doświadczeń przyjmuje z określonym prawdopodobieństwem wartość ze zbioru możliwych wartości. Mierzymy 10 razy ph roztworu A: 7,15 7,13 7,16 7,14 jaki będzie następny wynik? Pomiary, a ich rozkład - wizualizacja Histogram to jeden z graficznych sposobów przedstawiania rozkładu zmiennej losowej. 60 50 40 30 Składa się z pewnej liczby prostokątów umieszczonych na osi współrzędnych. Prostokąty te są z jednej strony wyznaczone przez przedziały klasowe wartości zmiennej, natomiast ich wysokość jest określona przez liczebności (lub częstości) elementów należących do określonego przedziału. 20 10 0 2 3 4 5 6 7 8 9 pomiar chemików 21
Pomiary, a ich rozkład - wizualizacja Boxplot 60 3 50 2 liczba wyników 40 30 20 1 0-1 -2 10-3 0-4 -3-2 -1 0 1 2 3 4 wynik 1 Pomiary, a ich rozkład 60 50 40 # 30 20 10 0 2 3 4 5 6 7 8 9 pomiar 300 razy zmierzono pewien parametr chemików 22
Pomiary, a ich rozkład 60 50 40 # 30 20 10 0 2 3 4 5 6 7 8 9 pomiar wyniki znajdują się w przedziale 2,21-8,09 Pomiary, a ich rozkład 60 50 40 # 30 20 10 0 2 3 4 5 6 7 8 9 pomiar wartość średnia chemików 23
Rozkład normalny Wielokrotne powtarzanie tego samego pomiaru daje wyniki rozrzucone wokół określonej wartości. Jeśli wyeliminujemy wszystkie większe przyczyny błędów, zakłada się, że pozostałe mniejsze błędy muszą być rezultatem dodawania się do siebie dużej liczby niezależnych czynników, co daje w efekcie rozkład normalny. Odchylenia od rozkładu normalnego rozumiane są jako wskazówka, że zostały pominięte błędy systematyczne. To stwierdzenie jest centralnym założeniem teorii błędów. Rozkład normalny Rozkład normalny, zwany też rozkładem Gaussa, lub krzywą dzwonową, jest jednym z najważniejszych rozkładów prawdopodobieństwa. Odgrywa ważną rolę w statystycznym opisie zagadnień przyrodniczych, przemysłowych, medycznych, socjalnych, itp. chemików 24
Miary położenia rozkładu Średnia (arytmetyczna) - środek "ciężkości" zbioru Mediana - wartość środkowa całej grupy wyników Modalna (moda) - wartość, która pojawia się najczęściej Każda z tych miar mówi "trochę" o czymś innym Każda wskazuje pewną tendencję centralną Wartość średnia 60 50 µ = 1 n n i= 1 x i # 40 30 20 10 0 2 3 4 5 6 7 8 9 pomiar chemików 25
Wskaźniki zmienności odchylenie standardowe wariancja σ = n i= 1 ( x µ ) i n -1 2 σ 2 = n i= 1 ( x µ ) i n -1 2 odchylenie standardowe wariancja Własności matematyczne wariancji Im większa zmienność tym większa wariancja Wariancja nie jest w tych samych jednostkach co mierzony parametr Wariancja jest wielkością addytywną Wariancja zmiennej, w której są stałe elementy wynosi 0 chemików 26
Własności matematyczne wariancji σ 2 (const) = 0 σ 2 (x+const) = σ 2 (x) σ 2 (x±y) = σ 2 (x) + σ 2 (y), gdy x i y są niezależne Jak porównać zmienność zmiennych? Zmienne mogą być w różnych jednostkach. Jak zatem porównać rozproszenie zmiennych? W = 100 n 2 ( xi µ ) i= 1 / n -1 µ W współczynnik zmienności Pearsona informuje ile % średniej arytmetycznej stanowi odchylenie standardowe RSD ang. relative standard deviation chemików 27
# # www.sites.google.com/site/chemomlab Małe ale... Wzorów na średnią i odchylenie standardowe najlepiej jest używać dla skończonych zbiorów danych, ale o dużej liczbie pomiarów, o ile zmiany są rzeczywiście przypadkowe. Ile wynosi średnia serii pomiarów? [1 1,1 0,99 1,12 0,98 1,01] A teraz? [1 1,1 3,99 1,12 0,98 1,01] Krzywa rozkładu normalnego Jeśli liczba pomiarów zbliży się do nieskończoności, wówczas wartości stają się ciągłe, a krzywa nazywana jest krzywą rozkładu Gaussa lub krzywą rozkładu normalnego. 180 180 160 160 140 140 120 120 100 100 80 80 60 60 40 40 20 20 0-4 -3-2 -1 0 1 2 3 4 pomiar 0-4 -3-2 -1 0 1 2 3 4 pomiar chemików 28
# Funkcja gęstości prawdopodobieństwa ( x µ ) 1 Φ( x) = exp σ π 2 2 2σ 2 Funkcja gęstości prawdopodobieństwa ( x) 1 = exp σ 2π ( x µ ) Φ 2 2σ 2 180 160 140 120 100 80 60 40 20 0-4 -3-2 -1 0 1 2 3 4 pomiar chemików 29
Funkcja gęstości prawdopodobieństwa 0.4 0.35 σ = 1 σ = 2 σ = 3 0.3 0.25 Φ(x) 0.2 0.15 0.1 0.05 0-10 -8-6 -4-2 0 2 4 6 8 10 x Rozkład normalny Istnieje wiele równoważnych sposobów zdefiniowania rozkładu normalnego. Należą do nich, m.in.: funkcja gęstości, dystrybuanta, momenty, kumulanty, funkcja charakterystyczna, funkcja tworząca momenty, funkcja tworząca kumulanty. chemików 30
Popularność rozkładu normalnego Jeśli jakaś wielkość jest sumą lub średnią bardzo wielu drobnych losowych czynników, to niezależnie od rozkładu każdego z tych czynników, jej rozkład będzie zbliżony do rozkładu normalnego. Wiele metod "po cichu" zakłada, rozkład normalny pomiarów. Rozkład normalny ma interesujące właściwości matematyczne. Dzięki założeniu takiego rozkładu wiele metod statystycznych ma proste rozwiązanie - metoda najmniejszych kwadratów (z ang. least squares). Centralne twierdzenie graniczne Jeśli X i to niezależne zmienne losowe o jednakowym rozkładzie, takiej samej wartości oczekiwanej µ i skończonej wariancji σ 2, to zmienna losowa o postaci 1/n n i= 1 σ/ X nµ i n zbiega według rozkładu do standardowego rozkładu normalnego gdy n rośnie do nieskończoności. chemików 31
Rozkład normalny Rozkład normalny opisuje wartość średnia oraz odchylenie standardowe. Inne parametry opisujące rozkład to: asymetria spłaszczenie a = 1 n n i= 1 3 xi µ σ s = 1 n n i= 1 4 xi µ σ chemików 32