INFORMATYKA W CHEMII Dr Piotr Szczepański Katedra Chemii Fizycznej i Fizykochemii Polimerów
WPROWADZENIE DO STATYSTYCZNEJ OCENY WYNIKÓW DOŚWIADCZEŃ 1. BŁĄD I STATYSTYKA błąd systematyczny, błąd przypadkowy, dokładność a precyzja 2. LICZBY ZNACZĄCE 3. STATYSTYCZNA OCENA WYNIKÓW DOŚWIADCZEŃ liczność, średnia, odchylenie standardowe a niepewność standardowa
WPROWADZENIE UWAGA: Zastosowanie komputerów w chemii wymaga pełnego zdefiniowania, analizy i zrozumienia problemu który ma być rozwiązany. Analiza prowadzi do: - zdefiniowania celu i metody, - określenia danych wejściowych oraz pożądanej formy wyniku działania komputera (algorytm)
WPROWADZENIE - ALGORYTM Algorytm jest procedurą (sposobem postępowania), składającym się z dobrze zdefiniowanego i skończonego zestawu jasnych reguł opisujących jednostkowe czynności wykonywane przez komputer. Cechy algorytmów: 1) skończoność, 2) określoność, 3) wejście, 4) wyjście, 5) efektywność. Ocena polega na porównaniu z innymi które zostały stworzone celem rozwiązania tego samego zadania.
RODZAJE BŁĘDÓW POMIARU 1. BŁĄD SYSTEMATYCZNY charakterystyczny dla doświadczeń przeprowadzanych dokładnie w tych samych warunkach, wynika z niedoskonałości przyrządów, błędów popełnianych w trakcie kalibracji, dryfu przyrządu w czasie, paralaxy przyrządów optycznych, niedoskonałości obserwatora, może być korygowany lub eliminowany przez wykonywanie tzw. ślepej próby, poprawną kalibrację i staranne prowadzenie doświadczenia (DOKŁADNOŚĆ jak bliski jest wynik pomiaru wartości rzeczywistej). 2. BŁĄD PRZYPADKOWY małe, niekontrolowane fluktuacje pomiarów doświadczalnych wynikające z niezliczonej ilości przyczyn wpływających na warunki doświadczenia (zmienna przypadkowa) 3. BŁĄD GRUBY (omyłka) związany z nieuwagą eksperymentatora (zły odczyt, uszkodzenie aparatury)
ODRZUCENIE LUB POZOSTAWIENIE WYNIKU WĄTPLIWEGO Wyników wątpliwych nie można odrzucić bez matematycznego uzasadnienia!! Podstawą (kryterium) dla ich odrzucenia są m.in.: Test Dixona (test Q) Test 3d (3 sigma) Test Grubbsa (Każdy z nich ma swoje wady i zalety)
ODRZUCENIE LUB POZOSTAWIENIE WYNIKU WĄTPLIWEGO TEST DIXONA (TEST Q) Sposób postępowania: Uszeregować dane rosnąco: x 1 <x 2 <... <x N. Obliczyć stosunek Q ze wzoru: Q = x wątpliwy-x najbliższy x max -x min Porównać Q z wartością tablicową (krytyczną) Q kr. Jeśli Q> Q kr., wtedy odrzucić punkt. Tabela współczynników Q kr. N 3 4 5 6 7 8 9 10 Q kr. 0.94 0.76 0.64 0.56 0.51 0.47 0.44 0.41 0.00
PRECYZJA A DOKŁADNOŚĆ PRECYZJA odtwarzalności wyniku w trakcie wielokrotnie powtarzanych doświadczeń- miara rozrzutu. DOKŁADNOŚĆ jak bliski jest wynik pomiaru wartości rzeczywistej. Nieprecyzyjnie i niedokładnie Precyzyjnie ale niedokładnie Nieprecyzyjnie ale dokładnie Precyzyjnie i dokładnie
CYFRY ZNACZĄCE - REGUŁY 1. Zapis liczby zgodny z precyzją wykonania pomiaru PRZYKŁAD: Pewien badacz wykonał kilkaset pomiarów grubości powłoki poliestrowej i uzyskał wynik: 120,342525794323 ± 9,722742949332 µm rozmiar jądra rozmiar atomu rozmiar kwarka
CYFRY ZNACZĄCE - REGUŁY 2. Zapis liczby w postaci tylu znaków jaka wynika z pojęcia tzw. cyfry znaczącej 3. Cyfry znaczące to te, które są znane plus jedna o której wiemy, że jest niedokładna, np.: 6.321 4.345 10-3 0.001307 4. Bardzo ważne pojecie cyfry znaczącej w obliczeniach komputerowych!!! Dodawanie i odejmowanie: wyraz z najmniejszą liczbą miejsc dziesiętnych wskazuje na cyfrę znaczącą wyniku PRZYKŁAD: 7.8 + 0.020 +4.41 = 12.23 zaokrąglone do 12.2 Mnożenie i dzielenie: wynik obliczeń ma tyle cyfr znaczących ile wyraz z najmniejszą liczbą cyfr znaczących (ale nie zawsze) PRZYKŁAD: 24 4.52 / 100.0 = 1.08
CYFRY ZNACZĄCE - REGUŁY Wynik pomiaru Liczba cyfr znaczących Liczba miejsc po przecinku 42.8 3 1 0.345830 6 6 0.543 3 3 0.0038 2 4 0.00028040 5 8
ZAOKRĄGLANIE WYNIKÓW OBLICZEŃ 1. Wartość błędu zaokrąglamy zawsze w górę (najwyżej dwie cyfry znaczące!!!) 2. Jeżeli wartość błędu (po zaokrągleniu) nie wzrośnie więcej niż o 10% można zostawić tylko jedną cyfrę. 3. Wartość pomiaru zaokrąglamy: a) w górę, jeśli ostatnia cyfra jest 6 b) w dół, gdy jest ona 4 c) jeżeli jest równa 5: w górę, jeżeli poprzedzająca cyfra jest nieparzysta; w dół w przeciwnym przypadku s A = 0.0058 g s A = 0.006 g s A = 0.6 10-2 g A= 0.7753 g A= 0.7756 g A= 0.7755 g A= 0.775 g A= 0.776 g A= 0.776 g A= 0.776 ± 0.006 g
UWAGA! POPRAWNIE ZAOKRĄGLONE WARTOŚCI WIELKOŚCI I JEJ NIEPEWNOŚCI MAJĄ TAKĄ SAMĄ ILOŚĆ MIEJSC DZIESIĘTNYCH!
STATYSTYCZNA OCENA BŁĘDU PRZYPADKOWEGO Losowość zjawisk decydujących w dużym stopniu o wynikach pomiaru powoduje, że do analizy błędów i oceny niepewności otrzymywanych wyników wykorzystuje się modele i metody rachunku prawdopodobieństwa i statystyki matematycznej.
POPULACJA (LICZNOŚĆ), ŚREDNIA I ODCHYLENIE STANDARDOWE 1. Wykonujemy serię pomiarów - wyniki (x i ) wykazują rozkład (rozrzut) 2. Pewne wartości x i występują częściej niż inne i mogą być ulokowane w środku przedziału pozostałych wartości x histogram- wykres składający się z szeregu prostokątów umieszczonych na osi współrzędnych, których podstawą są przedziały o długości h ( x) a wysokość określona jest przez liczebność (lub częstość) wyników należących do określonego przedziału klasowego. liczność względna 0.2 0.18 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 0 1 2 3 4 5 6 7 8 9 10 x
POPULACJA (LICZNOŚĆ), ŚREDNIA I ODCHYLENIE STANDARDOWE 3. Jeżeli pomiar powtarzany byłby nieskończoną liczbę razy, to uzyskany rozkład mógłby być przedstawiony w postaci ogólnej krzywej rozkładu funkcja gęstości f(x) 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0-0.05 0 2 4 6 8 10 x rozkład normalny (Gaussa) 4. W rzeczywistym doświadczeniu, wyniki są losowo wybierane z ogólnej populacji (uzyskane wyniki stanowią próbę ich ogólnej populacji) 5. Celem obliczeń statystycznych jest takie wykorzystanie pomiarów i ich wyników aby możliwy był dokładny opis populacji ogólnej 6. Miary: np. wartość przeciętna (średnia), wartość środkowa (mediana), odchylenie standardowe.
CHARAKTERYSTYKI OPISOWE - MIARY MIARY POŁOŻENIA Średnia Mediana Moda (dominanta) MIARY ROZPROSZENIA Rozstęp Wariancja Odchylenie standardowe Współczynnik zmienności MIARY ASYMETRII Skośność MIARY SKUPIENIA Kurtoza
ŚREDNIA, WARIANCJA, ODCHYLENIE STANDARDOWE POPULACJI MIARY POŁOŻENIA I ROZPROSZENIA POPULACJI Średnia ogólna: µ = lim n 1 n i x i Zasięg populacji Wariancja ogólna: σ 2 = 1 lim ( xi µ ) n n i 2 Ogólne odchylenie standardowe: σ = 2 σ
W rzeczywistych doświadczeniach skończona liczba pomiarów (próbek, itp.) uniemożliwia wyznaczenie wartości µ i σ a jedynie oszacowanie z wykorzystaniem wzorów (estymatorów): Średnia: ŚREDNIA, WARIANCJA, ODCHYLENIE STANDARDOWE PRÓBY Wariancja: x = = Odchylenie standardowe: (niepewność standardowa) s 2 1 n i 1 n 1 x i i ( x i x) 2 n-1 liczba stopni swobody (liczba obserwacji (wart. x) pozostających w nadmiarze w stosunku do liczby koniecznej dla wyznaczenia parametrów równania) s = 2 s Średni błąd kwadratowy pojedynczego pomiaru Funkcje w Excelu: =ŚREDNIA(zakres liczb) =WARIANCJA(zakres liczb) =ODCH.STANDARDOWE(zakres liczb)
ŚREDNIA, ODCHYLENIE STANDARDOWE POPULACJI 0.45 gęstość prawdopodobieństwa P(x) 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 σ = 2 σ = 1.5 σ = 1 0 2 4 6 8 10 x gęstość prawdopodobieństwa P(x) 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 σ = 1 3σ 2σ σ µ σ 2σ 3σ x Prawdopodobieństwa, że wynik jest odległy od wartości średniej co najwyżej o σ, 2σ i 3σ wynoszą: µ±σ 68.26% µ±2σ 95.46% µ±3σ 99.73%
ŚREDNIA, WARIANCJA, ODCHYLENIE STANDARDOWE PRÓBY Współczynnik zmienności (względne odchylenie standardowe): ν = 100 x s x Eksperymentatora bardziej interesuje niepewność wyniku czyli wartości średniej: u ( x) = s x = s n = n ( xi x) i= 1 n( n 1) 2 odchylenie standardowe wartości średniej (NIEPEWNOŚĆ STANDARDOWA!!!)
PRZEDZIAŁ UFNOŚCI ŚREDNIEJ ARYTMETYCZNEJ PRÓBY p.u. średniej arytmetycznej próby jest przedziałem symetrycznym w stosunku do średniej z próby, a wartość spodziewana znajduje się w nim z założonym prawdopodobieństwem równym 1 - α. P x t s X µ X n 1, α X x tn 1, α 1 n α - poziom istotności Dla n<30 + s n = α
PRZEDZIAŁ UFNOŚCI A NIEPEWNOŚĆ PRZEDZIAŁ UFNOŚCI: µ = x ± t 1, X n Wartość = średnia arytmetyczna próby ± połowa szerokości przedziału ufności spodziewana Jeżeli powtarzalność pomiarów jest dominującym parametrem wpływającym na szacowanie niepewności, wówczas NIEPEWNOŚĆ ROZSZERZONĄ obliczyć można ze wzoru: α s X n s U = k X = k u(x) n s X odchylenie standardowe, n liczba pomiarów, k współczynnik rozszerzenia k =2 lub 3 odpowiada 95 lub 99% prawdopodobieństwu znalezienia wyniku w danym zakresie
PRZEDZIAŁ UFNOŚCI ŚREDNIEJ ARYTMETYCZNEJ PRÓBY UWAGA: W EXCELU NARZĘDZIA -> ANALIZA DANYCH > STATYSTYKA OPISOWA t s X n n 1, α s X n niepewność standardowa (to błąd standardowy) średni błąd kwadratowy wartości średniej połowa szerokości przedziału ufności to poziom ufności (95.0%)
PRZEDZIAŁ UFNOŚCI ŚREDNIEJ ARYTMETYCZNEJ PRÓBY Tabela współczynników t Studenta (pseudonim matematyka W. Gosseta (1876 1937)). Liczba stopni Poziom ufności swobody 90% 95% 99% 1 2 3 5 7 9 6.31 2.92 2.35 2.02 1.90 1.83 12.7 4.30 3.18 2.57 2.36 2.26 63.7 9.92 5.84 4.03 3.50 3.25 W Excelu funkcja =ROZKŁAD.T.ODW(α, n-1)
NARZĘDZIA -> ANALIZA DANYCH > STATYSTYKA OPISOWA CEL: obliczyć średnią wartość ph (10 pomiarów) oraz przedział ufności. Ostateczny wynik: ph = 6.293±0.018
ŚREDNIA, WARIANCJA, ODCHYLENIE STANDARDOWE (metoda rekurencyjna) 1. Pierwsza próbna wartość średniej jest pierwszą wartością x 1 m 1 = x 1 suma kwadratów odchyleń: q 1 = 0 2. Korzystając ze wzorów rekurencyjnych na wartość średnią (m) i sumę kwadratów odchyleń (q): q k m = k q ( k 1) mk + x k k 1)( xk m + k = 1 k 1 ( k 1 3. Końcowa wartość m k stanowi średnią oznaczoną jako m n. Odchylenie standardowe s obliczyć można ze wzoru: qn s = n 1 k ) 2
PODSUMOWANIE: WYNIKÓW WĄTPLIWYCH NIE MOŻNA ODRZUCIĆ BEZ MATEMATYCZNEGO UZASADNIENIA!! POPRAWNIE ZAOKRĄGLONE WARTOŚCI WIELKOŚCI I JEJ NIEPEWNOŚCI MAJĄ TAKĄ SAMĄ ILOŚĆ MIEJSC DZIESIĘTNYCH PRZEDZIAŁ UFNOŚCI DLA ŚREDNIEJ: x ± t n 1, α s X n NIEPEWNOŚĆ ROZSZERZONA: s U = k X = k u(x) n średnia arytmetyczna próby ± połowa szerokości przedziału ufności