ROZDZIAŁ 7 WYKORZYSTANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ANALITYCZNYCH ŚRODOWISKA

Wielkość: px
Rozpocząć pokaz od strony:

Download "ROZDZIAŁ 7 WYKORZYSTANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ANALITYCZNYCH ŚRODOWISKA"

Transkrypt

1 ROZDZIAŁ 7 WYKORZYSTANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ANALITYCZNYCH ŚRODOWISKA A.Astel 1, J.Mazerski, J.Namieśnik 1 1) Politechnika Gdańska, Wydział Chemiczny, Katedra Chemii Analitycznej, ul. G.Narutowicza 11/1, Gdańsk-Wrzeszcz ) Politechnika Gdańska, Wydział Chemiczny, Katedra Technologii Leków i Biochemii, ul. G.Narutowicza 11/1, Gdańsk-Wrzeszcz STRESZCZENIE W ostatnich dziesięcioleciach zauważa się dynamiczny wzrost zapotrzebowania na informacje dotyczące rzeczywistości otaczającej człowieka. Popyt na wiedzę dotyczy zagadnień związanych zarówno ze stanem środowiska, kontrolą jakości procesów przemysłowych i produktów, badań archeologicznych, jak i szerokiego spektrum innych dziedzin. W przypadku badań analitycznych zastosowanie nowoczesnych technik pomiarowych połączone ze skróceniem czasu analiz prowadzi do uzyskiwania obszernych zbiorów danych w stosunkowo krótkim czasie. Zastosowanie specjalnych technik obróbki zbiorów wyników pomiarowych sprawia, że możliwe jest wydobycie dodatkowych informacji z posiadanych danych. Idealnym narzędziem do tego typu zabiegów może być chemometria. Analiza doniesień literaturowych wskazuje, że z roku na rok wzrasta wykorzystanie technik chemometrycznych w różnych dziedzinach nauki. Do przykładowych zastosowań należą: - optymalizacja procedur analitycznych (kalibracja, optymalizacja parametrów retencji, analiza widmowa), - monitoring środowiska (analiza zmian poziomu stężeń analitów w czasie, identyfikacja źródeł zanieczyszczeń, wyjaśnienie zależności pomiędzy grupami analitów), - analityka przemysłowa (kontrola jakości produktów), - projektowanie nowych farmaceutyków. W rozdziale omówiono teorię planowania pomiarów, rozkładów empirycznych, procedur przygotowania danych a także najczęściej wykorzystywane techniki analizy danych (analizę korelacji i regresji, analizę czynnikową, analizę wiązkową, analizę szeregów czasowych i analizę wariancji). Wspomniano również o nowoczesnych technikach analizy danych zaliczanych do grupy technik opartych na wykorzystaniu sztucznej inteligencji. Opis teoretyczny w każdym przypadku wzbogacono o przykłady zastosowań w konkretnych problemach analitycznych. 1. WSTĘP Wraz z rozwojem technik analitycznych poszukuje się metod analizy danych pochodzących z różnorakich procesów technologicznych bądź też z eksperymentów naukowych. Jako pierwsze w praktyce analitycznej znalazły zastosowanie metody statystyki matematycznej. Podejście statystyczne wymaga jednak posiadania dużej liczby wyników pomiarów charakteryzujących się określonym rozkładem a ponadto umożliwia analizowanie jedynie pojedynczych zmiennych. Stosunkowo szybko stało się oczywiste, że analiza większości problemów praktycznych musi opierać się na podejściu wielowymiarowym, gdyż procesy zachodzące w realnym świecie są zjawiskami złożonymi, które można opisać korzystając jedynie z zależności występujących pomiędzy zmiennymi. Dlatego też w latach trzydziestych XX w. podjęto wysiłki zmierzające do opracowania metod jednoczesnej analizy wielowymiarowych

2 zbiorów danych. Powstały w ten sposób zalążki chemometrii. Wraz z rozwojem technik chemometrycznych okazało się, że chemometria może być potężnym narzędziem do analizy danych wielowymiarowych. W połowie lat siedemdziesiątych chemometria została uznana za jedną z gałęzi chemii [1,]. Nie może ona być traktowana jako pojedyncze narzędzie służące do analizy wyników, lecz jako szereg uporządkowanych i zaplanowanych procedur, które należy wykonać, aby uzyskać możliwie pełne informacje o obiekcie badań. Chemometria jest dziedziną nauki, wykorzystującą matematykę, rachunek prawdopodobieństwa, statystykę, informatykę oraz teorię podejmowania decyzji do optymalizacji doświadczeń oraz uzyskiwania maksimum użytecznej informacji z wielowymiarowych danych pomiarowych. Specyfika chemometrii polega na tym, że powinna ona towarzyszyć wszystkim etapom rozwiązywania problemu: od jego sformułowania aż do wniosków końcowych. Obecność chemometrii od początku rozwiązywania problemu pozwala w odpowiedni sposób sformułować sam problem oraz zaplanować odpowiedni do jego rozwiązania zestaw pomiarów [3]. Szczególnie istotnym etapem w procedurze chemometrycznej jest planowanie doświadczeń. Ma ono na celu ograniczenie liczby niezbędnych pomiarów bez utraty wiarygodnych informacji o badanym obiekcie. W przypadku procesów przemysłowych korzyścią płynącą z ograniczenia liczby pomiarów jest radykalna redukcja ponoszonych kosztów. To samo dotyczy analityki środowiskowej. Wymiernymi korzyściami płynącymi z planowania doświadczeń są: - uzyskanie danych pomiarowych w formie umożliwiającej ich efektywne wykorzystanie; - optymalizacja rachunku ekonomicznego badań analitycznych poprzez minimalizację kosztów (mniejsze zużycie kosztownych odczynników i reagentów); - skrócenie czasu potrzebnego na uzyskanie danych; - ochrona środowiska (ograniczenie ilości odczynników wprowadzanych do środowiska). Na rysunku 1 schematycznie przedstawiono wykaz obszarów wykorzystania technik chemometrycznych. Wraz ze wzrostem poziomu komputeryzacji aparatury badawczej techniki pomiarowe dostarczają coraz większych zbiorów wyników w coraz krótszym czasie. Jednakże forma tych danych powoduje, że nie zawsze są w pełni wykorzystywane jako źródło informacji. Nowoczesne wielowymiarowe techniki chemometryczne pozwalają na jednoczesne opracowanie praktycznie nieograniczonej liczby zmiennych (np. parametrów chromatograficznych i fizyko-chemicznych). Zakres zastosowań chemometrycznych technik opracowywania wyników powiększa się z roku na rok, a doniesienia w literaturze światowej wskazują, że wiele problemów można efektywnie rozwiązać jedynie stosując techniki analizy chemometrycznej od momentu planowania eksperymentu aż do etapu końcowego opracowania danych eksperymentalnych. Do przykładowych zastosowań tych technik należą: - optymalizacja procedur analitycznych (kalibracja, optymalizacja parametrów retencji, analiza widmowa) [4,5], - monitoring środowiska (analiza zmian poziomu stężeń analitów w czasie, identyfikacja źródeł zanieczyszczeń, wyjaśnienie zależności pomiędzy grupami analitów) [6-0], - analityka przemysłowa (kontrola przebiegu procesu i jakości produktów) [1-5], - projektowanie nowych leków [6-7]. 13

3 PROBLEM Y n=? m=? X Projektowanie pomiarów wykonanie pomiarów ANALIZA WIZUALNA X przygotowanie i przechowywanie danych Y KLASYFIKACJA ANALIZA PODOBIEÑSTWA MODEL ZALEŻNOŚCI Y=f(X) PROGNOZOWANIE OPTYMALIZACJA KONTROLA Rys. 1. Obszary wykorzystania technik chemometrycznych W tabeli 1 przedstawiono najważniejsze techniki chemometryczne służące do analizy danych wielowymiarowych.. PLANOWANIE POMIARÓW Chemometria nie może być traktowana jako proste narzędzie służące do analizy wyników, lecz jako szereg uporządkowanych i zaplanowanych procedur, które należy wykonać aby uzyskać cenne informacje o obiekcie badań. Specyfika chemometrii polega na tym, że powinna towarzyszyć wszystkim etapom rozwiązywanie problemu: od jego sformułowania aż do wniosków końcowych. Wykorzystanie chemometrii od początku rozwiązywania problemu pozwala w odpowiedni sposób sformułować sam problem oraz dobrać do niego odpowiedni zestaw pomiarów [3]. Szczególnie istotnym etapem w procedurze chemometrycznej jest planowanie doświadczenia przeprowadzane w celu zminimalizowania liczby niezbędnych pomiarów, których efektem jest uzyskanie wiarygodnych informacji o obiekcie. W przypadku procesów przemysłowych korzyścią płynącą z ograniczenia liczby pomiarów jest radykalna redukcja ponoszonych kosztów. W przypadku analityki środowiskowej odpowiednie zaplanowanie pomiarów posiada kolosalne znaczenie, gdyż na podstawie obecności w próbkach określonych grup analitów można wnioskować o poziomach stężeń innych, które pozostają we wzajemnych korelacjach z mierzonymi. Wymierną korzyścią płynącą z takiego podejścia do problemu jest: - efektywne wykorzystanie zebranych danych pomiarowych w wyniku zwiększenia ilości uzyskiwanych informacji, - minimalizacja kosztów (mniejsze zużycie kosztownych odczynników i reagentów); - optymalizacja rachunku ekonomicznego badań analitycznych, - ochrona środowiska (ograniczenie ilości odczynników wprowadzanych do środowiska). 133

4 Tabela 1. Przykłady technik chemometrycznych służących do analizy danych wielowymiarowych. Nazwa techniki Technika rozpoznawania obrazów bez nauczyciela - analiza podobieństwa (ang.: Unsupervised pattern recognition) - analiza skupień (ang.: Cluster Analysis - CA) - metody wizualizacji danych (ang.: Display methods): (mapy liniowe i nieliniowe, grafy najmniejszych odległości, analiza składników głównych) Technika rozpoznawania obrazów z nauczycielem - klasyfikacja (ang.: Supervised pattern recognition) Techniki czynnikowe - analiza czynnikowa (ang.: Factor Analysis - FA) - analiza składników głównych (ang.: Principal Component Analysis - PCA) - kanoniczna analiza korelacji - cząstkowa metoda najmniejszych kwadratów (ang.: Partial Least Squares - PLS) Korelacja i analiza regresji - ze znanymi zmiennymi - z ukrytymi zmiennymi (analiza składników głównych i regresja PLS) Przykładowe zadanie wykrywanie struktur podobieństwa pomiędzy zmiennymi lub obiektami w zbiorach danych znajdowanie reguł klasyfikacji obiektów (próbek) poszukiwanie czynników, które umożliwiają zmniejszenie wymiarowości układów bez istotnej straty informacji zawartych w danych oraz takich, którym można nadać interpretacje chemiczną bądź fizyczną jakościowy opis zależności pomiędzy zmiennymi Analiza szeregów czasowych statystyczna analiza zależności pomiędzy kolejnymi obserwacjami, predykcja (prognozowanie) przyszłych wartości szeregu czasowego, wykrywanie mechanizmów rządzących zmianami obserwowanego zjawiska w czasie, czyli określenie natury zjawiska reprezentowanego przez sekwencję obserwacji Sztuczne sieci neuronowe Wielowymiarowa analiza wariancji (ANOVA) i analiza wykluczania prognozowanie, aproksymacja w przestrzeni, klasyfikacja obiektów, filtrowanie sygnałów, kompresja dźwięku i obrazu, sterowanie układami dynamicznymi wpływ czynników jakościowych na wartość średnią serii pomiarów 134

5 3. ROZKŁADY EMPIRYCZNE Pochodzące z pomiarów wartości każdej zmiennej traktować można jako wybrane wartości (próbę) pewnej zmiennej losowej. Zasadne jest więc pytanie, jaki jest charakter rozkładu zmiennej losowej w populacji generalnej. Znajomość choćby przybliżonego charakteru rozkładu zmiennej losowej, z którego pochodzą posiadane wyniki pomiarów ma w analizie chemometrycznej kluczowe znaczenie. Niektóre techniki statystyczne i chemometryczne wyprowadzone zostały przy założeniu określonego rozkładu zmiennej losowej. Zastosowanie tych technik do analizy zmiennych losowych o zdecydowanie odmiennych rozkładach jest jedną z podstawowych przyczyn błędnych interpretacji danych Histogramy Chemometria dostarcza metod pozwalających na wizualna ocenę zgodności rozkładu kontrolowanej zmiennej z rozkładem normalnym. Najczęściej stosowaną metodą graficzną jest wykonanie histogramu wartości zmiennej, na który nakładana jest funkcja gęstości rozkładu normalnego o parametrach identycznych z obliczonymi z próby [18]. Zgodność kształtu histogramu z przebiegiem funkcji gęstości wskazuje, że rozkład zmiennej zbliżony jest do rozkładu normalnego. Idea tworzenia histogramu jest prosta. Zakres rozpatrywanej zmiennej dzieli się na rozłączne przedziały i przedziały te zaznacza na osi poziomej, natomiast na osi pionowej liczbę pomiarów w danym przedziale. Przy czym liczba przedziałów k nie powinna być większa niż ¼ liczby pomiarów n, czyli [3]: n/4 k (1) Kształt histogramu stanowi pierwszy, poglądowy sygnał dotyczący charakteru rozkładu zmiennej. Gdy jest on w przybliżeniu symetryczny można spodziewać się, że rozkład zmiennej jest zbliżony do rozkładu normalnego. W praktyce często zdarza się, że wartości histogramu z lewej bądź prawej strony maleją znacznie wolniej niż po stronie przeciwnej. Taki histogram, a zarazem rozkład cech w próbie, dla której został on skonstruowany nazywa się skośnym lub asymetrycznym (prawo lub lewostronnie). Histogram jest sugestywnym środkiem prezentacji informacji zawartej w próbie, ponieważ jest opisem graficznym, a taki opis przemawia najłatwiej do wyobraźni i przez to wykonanie histogramu rozkładu zmiennej stanowi dodatkowo wizualną metodę poszukiwania ewentualnych błędów grubych. 3.. Charakterystyki rozkładu empirycznego Obok prezentacji graficznej istnieją liczbowe miary (wskaźniki) opisujące podstawowe własności rozkładu cechy. Ogólny podział obejmuje wyróżnienie wskaźników położenia (inaczej zwane miarami tendencji centralnej) oraz wskaźników rozproszenia (inaczej zwane miarami szerokości rozkładu). Wskaźniki położenia określają centrum lub środek rozkładu zaś wskaźniki szerokości rozkładu opisują rozproszenie cechy wokół wskaźnika położenia. Wybór najbardziej właściwych wskaźników zależy najczęściej od typu rozkładu zmiennej. Do grupy wskaźników położenia zalicza się [8, 9]: - wartość średnią próby (średnia arytmetyczna wartości cechy w próbie) wyrażoną wzorem: n x i i= 1 gdzie: x 1, x,..., x n - elementy próby o liczebności n. 1 n x = () 135

6 - medianę (wartość środkowa próby uporządkowanej niemalejąco, od wartości najmniejszej w próbie do wartości największej) wyrażoną wzorem: x med = x ((n+1)/), gdy n nieparzyste (3) ½(x (x/) +x (n/+1), gdy n parzyste (4) - wartość modalną lub modę (jest to wartość cechy statystycznej, która w danym rozdziale empirycznym występuje najczęściej). Dla szeregów szczegółowych oraz szeregów rozdzielczych punktowych wartość modalna odpowiada wartości cechy o największej liczebności (częstości). W szeregach rozdzielczych z przedziałami klasowymi bezpośrednio można określić tylko przedział, w którym moda występuje, jej przybliżoną wartość wyznacza się graficznie z histogramu liczebności (częstości) lub ze wzoru interpolacyjnego [30, 31]: o nm nm 1 x = x0m + hm (5) ( nm nm 1) + ( nm nm+ 1) gdzie: m - numer przedziału (klasy), w którym występuje wartość modalna, x 0m - dolna granica przedziału, w którym występuje wartość modalna, n m - liczebność przedziału wartości modalnej, tzn. klasy o numerze m, n m-1 ; n m+1 - liczebność klas poprzedzającej i następnej, o numerach m 1 i m + 1, h m - rozpiętość przedziału klasowego, w którym występuje wartość modalna. Do grupy wskaźników rozproszenia zalicza się: - rozstęp próby (różnica pomiędzy wartością maksymalną a minimalną cechy - jest miarą charakteryzującą empiryczny obszar zmienności badanej cechy, nie daje on jednak informacji o zróżnicowaniu poszczególnych wartości cechy w zbiorowości) R = x max x min (6) gdzie: x max i x min są odpowiednio, największym i najmniejszym elementem w próbie; - wariancja w próbie (jest to średnia arytmetyczna kwadratów odchyleń poszczególnych wartości cechy od średniej arytmetycznej populacji, służy do wyznaczania najpopularniejszej i najpowszechniej stosowanej miary zmienności n-elementowego zbioru danych odchylenia standardowego (S)) S n i= 1 1 = ( xi x ) (7) n 1 gdzie: x oznacza średnią w próbie; - odchylenie standardowe (jest to pierwiastek kwadratowy z wariancji, stanowi miarę zróżnicowania o mianie zgodnym z mianem badanej cechy, określa przeciętne zróżnicowanie poszczególnych wartości cechy od średniej arytmetycznej) S = S (8) gdzie: S wariancja w próbie; - odchylenie przeciętne (jest to średnia arytmetyczna bezwzględnych odchyleń wartości cechy od średniej arytmetycznej; określa o ile jednostki danej zbiorowości różnią się średnio, ze względu na wartość cechy, od średniej arytmetycznej) 1 n 1 i xn n i= 1 d = x (9) Gdy rozkład cech w próbie jest niezgodny z rozkładem normalnym wówczas należy zbadać kierunek zróżnicowania wartości zmiennej gdyż rozkłady zmiennych najczęściej różnią się między sobą kierunkiem i siłą symetrii. 136

7 Najprostsze kryterium obejmuje analizę wartości średniej, mediany i wartości modalnej: - dla szeregów symetrycznych x = x x o med = - jeżeli x > > x o - asymetria prawostronna x med x med - jeżeli x < < x o - asymetria lewostronna. W celu liczbowego sprecyzowania kierunku i siły symetrii wykorzystuje się współczynnik skośności, którego wartość ocenia asymetrię rozkładu w stosunku do standardowego rozkładu normalnego [30, 3]: n 3 ( xi x ) i 1 q = 3 ( n 1) S = (10) gdzie: S odchylenie standardowe, n ilość wartości w populacji wyników Rozkład normalny Jeżeli zgromadzone wyniki pomiarów mają służyć nie tylko do opisu stanu obiektu, ale również do poszukiwania zależności pomiędzy poziomami stężeń analitów lub porównywania poziomu stężeń tego samego analitu w różnych punktach pomiarowych, to kolejnym etapem kontroli zmiennych jest ocena typu rozkładu zbioru wyników. Testy statystyczne używane powszechnie przy porównywaniu zbiorów wyników pomiarowych oraz metody regresyjne stosowane przy tworzeniu modeli zależności pomiędzy zmiennymi zakładają bowiem, że rozkład zmiennej ma charakter rozkładu normalnego lub jest do niego zbliżony. Zastosowanie takich technik statystycznych do zmiennych posiadających rozkłady znacznie różniące się od rozkładu normalnego prowadzi do błędnych wniosków lub nieprawdziwych (pozornych) zależności. Również większość technik chemometrycznych wymaga rozkładów zbliżonych do rozkładu normalnego. Podstawy teoretyczne rozkładu normalnego są dziełem A. De Moivre a, P.S. De Laplace a i C.F. Gaussa [8, 33]. Zmienna losowa X ma rozkład normalny, jeżeli jej funkcja gęstości f(x) jest określona wzorem: f ( x ) ( x x ) 1 S = e s π gdzie: x i S są parametrami rozkładu określającymi wartość średnią i odchylenie standardowe. W metodach statystycznych i chemometrycznych rozkład normalny ma często charakter rozkładu wzorcowego. Wiele technik analizy danych opiera się na założeniu normalności rozkładu zmiennej losowej w populacji generalnej. Istnieje jednak również wiele technik chemometrycznych, w których pożądany jest inny typ rozkładu w populacji generalnej (np. analiza podobieństwa, klasyfikacja obiektów). 4. PRZYGOTOWANIE DANYCH Wszelkie dane przed ich użyciem do właściwej analizy chemometrycznej muszą być poddane wnikliwej kontroli, gdyż każda błędna dana, nie wyeliminowana w porę, może doprowadzić do błędnych wniosków z analizy chemometrycznej. Warto wspomnieć, iż istotnym źródłem błędów są nie tylko przyrządy pomiarowe, lecz w zdecydowanej większości sami operatorzy tego sprzętu. Efektem ludzkich pomyłek są najczęściej przypadki pojawiania się błędów grubych, czyli takich, które polegają na przykład na błędnym odczytaniu cyfr na skali aparatu pomiarowego lub pomyłce przy wprowadzaniu danych do arkuszy kalkulacyjnych. Obserwacje obarczone tym błędem przybierają (11) 137

8 zwykle postać tak zwanych wyników odbiegających, czyli pojedynczych obserwacji drastycznie różniących się od pozostałych. Są one stosunkowo łatwe do wyeliminowania na drodze weryfikacji statystycznej lub nawet doświadczenia, jeśli tylko protokół badania jest wystarczająco szczegółowy [33]. Podstawowymi celami etapu kontroli danych są: - wyeliminowanie pomyłek powstałych w trakcie przygotowania danych, czyli tzw. błędów grubych, - wykrycie w zbiorze danych obiektów różniących się istotnie od innych, czyli tzw. punktów odbiegających, - uzyskanie przesłanek do ewentualnej transformacji niektórych zmiennych, - określenie jednorodności zbioru danych, czyli potwierdzenia pochodzenia wszystkich danych z tej samej populacji [3] Brakujące dane Chemometryczna analiza danych wielowymiarowych jest możliwa tylko wtedy, gdy tabela wyników nie zawiera brakujących danych. Dlatego też na etapie gromadzenia danych należy dołożyć wszelkich starań, aby wszystkie zaplanowane pomiary zostały wykonane. Nie zawsze jest to jednak możliwe. W analizie środowiskowej wystąpić mogą różne przyczyny braku części wyników. W tabeli przedstawiono trzy typowe sytuacje oraz zalecane sposoby postępowania w razie ich wystąpienia [33]. Tabela. Główne przyczyny braku części wyników w analizie środowiskowej oraz sugerowane scenariusze postępowania w takich sytuacjach Przyczyny braku części wyników Zaplanowana próbka nie została poddana analizie Wykonano oznaczenia tylko niektórych analitów Stężenie niektórych analitów było mniejsze niż granica oznaczalności stosowanej metody analitycznej Zalecane sposoby postępowania Przyczyną może być np. zanieczyszczenie lub zniszczenie próbki. O ile to tylko możliwe próbka powinna być pobrana ponownie. Jeżeli nie jest to możliwe należy odpowiednio zmodyfikować plan doświadczeń Zalecane postępowanie zależy w takim przypadku od liczby brakujących oznaczeń. Jeżeli brakujących oznaczeń jest dużo, to próbkę taką należy odrzucić i postępować jak w przypadku braku próbki. Jeżeli braki w oznaczeniach dotyczą pojedynczych analitów i braki te powtarzają się również w innych próbkach, to należy rozważyć możliwość usunięcia z planu doświadczenia analitu, którego te braki dotyczą. Jeżeli sytuacja taka powtarza się często, to należy zastosować inną metodę oznaczeń tego analitu charakteryzującą się niższą granicą oznaczalności. Jeżeli problem tego typu występuje sporadycznie to zalecane jest przyjęcie dla brakujących pomiarów wartości równej połowie granicy oznaczalności. 138

9 4.. Ocena typu rozkładu Wstępna kontrolę danych można przeprowadzić stosując różnorodne techniki. Najczęściej stosuje się ocenę rozkładów zmiennych poprzez analizę parametrów rozkładu oraz wykorzystując prezentacje graficzne. Analizę rozkładów zmiennych rozpoczyna się zwykle od wyznaczenia podstawowych statystyk (parametrów) opisujących rozkład poszczególnych zmiennych. W tym celu oblicza się: - wartość najmniejszą (x min ), - wartość największą (x max ), - stosunek x min /x max, - rozstęp rozkładu r = x max -x min, - środek rozkładu d = (x max +x min )/, - wartość średnią (ew. wartość modalną lub medianę), - odchylenie standardowe S, - indeks skośności rozkładu q. Przewidując zastosowanie technik statystycznych lub chemometrycznych wymagających normalnego rozkładu zmiennych należy dokonać analizy typów rozkładu zmiennych i jeżeli odbiegają one znacznie od rozkładu normalnego- przeprowadzić odpowiednie transformacje zmiennych. W podręcznikach z zakresu statystyki matematycznej znaleźć można wiele różnorakich testów normalności rozkładu. Testy te są jednak stosunkowo pracochłonne i wymagają dużych zbiorów danych (kilkadziesiąt lub więcej pomiarów). Dlatego ich stosowanie na etapie kontroli danych nie zawsze wydaje się celowe. Informację o tym, że rozkład danej zmiennej znacząco odbiega od rozkładu normalnego uzyskać bowiem można już z analizy wartości typowych statystyk opisowych kontrolowanych zmiennych. Można w tym celu wykorzystać: - stosunek x min /x max, - różnicę pomiędzy wartością średnią i medianą, - skośność rozkładu. Wieloletnie doświadczenie analiz chemometrycznych wskazuje, że każdy z tych parametrów statystycznych posiada oszacowaną empirycznie wartość krytyczną, przekroczenie której wskazuje, że rozkład zmiennej znacząco odbiega od rozkładu normalnego. Uzyskanie dla kontrolowanej zmiennej stosunku x min /x max mniejszego niż 0,01 dowodzi, że zmienna ta ma rozkład znacząco różny od normalnego. Taki sam wniosek o rozkładzie zmiennej można wyciągnąć, gdy wartość mediany różni się od wartości średniej o więcej niż odchylenie standardowe. Rozkład normalny jest rozkładem symetrycznym. Miernikiem asymetrii rozkładu jest tzw. skośność. Dla rozkładu normalnego wynosi ona 0. Wraz ze wzrostem asymetrii skośność odchyla się od zera. Wartość dodatnia lub ujemna tego współczynnika świadczy o istnieniu wartości bardzo odległych od wartości średniej w kierunku ujemnych bądź dodatnich wartości. Uzyskanie dla rozkładu zmiennej skośności o wartości bezwzględnej większej niż 1,5 wskazuje na typ rozkładu odbiegający od normalnego i potrzebę przeprowadzenia transformacji zmiennej. Chemometria dostarcza również metod pozwalających na wizualną ocenę zgodności rozkładu kontrolowanej zmiennej z rozkładem normalnym. Najczęściej stosowaną metodą graficzną jest wykonanie histogramu wartości zmiennej, na który nakładamy funkcję gęstości rozkładu normalnego o parametrach identycznych z obliczonymi z próby. Zgodność kształtu histogramu z przebiegiem funkcji gęstości wskazuje, że rozkład zmiennej zbliżony jest do rozkładu normalnego. 139

10 4.3. Wyniki odbiegające Szczegółowa analiza histogramów prowadzi czasami do wykrycia pojedynczych wyników znacznie odbiegających od pozostałych wartości zmiennej. Te tzw. punkty odbiegające mogą pojawić się w trzech diametralnie różnych okolicznościach: - rozkład zmiennej w populacji generalnej jest silnie asymetryczny. W przypadku skończonej i niewielkiej liczby pomiarów (analiza próby) można zaobserwować pojedyncze, odizolowane wyniki, które w prezentacji graficznej w postaci histogramu zostaną umieszczone w ogonie rozkładu; - w trakcie wykonywania pomiarów lub ich gromadzenia wystąpił tzw. błąd gruby (pomyłka przy odczycie wskazań aparatu lub przy zapisie wyniku); - próbka, z której pochodzi odbiegający wynik oznaczenia analitycznego różni się z jakichś powodów istotnie od pozostałych próbek. Tym samym uzyskany wynik nie należy do tej samej populacji generalnej co pozostałe wyniki. Istotne jest przy tym rozstrzygnięcie, z jakim przypadkiem analityk ma do czynienia, gdyż od tego zależy dalszy tok postępowania. W pierwszym przypadku wynik należy do analizowanej populacji i powinien być użyty w dalszym ciągu analizy. Natomiast w dwóch pozostałych przypadkach wynik należy pominąć. Istnieje szereg testów statystycznych [35] pozwalających ocenić z określonym prawdopodobieństwem, czy wynik odbiegający należy do analizowanej populacji generalnej. Jednakże wszystkie testy zakładają, że populacja generalna, z której pochodzą wyniki pomiarów ma rozkład normalny lub bardzo do niego zbliżony. Dlatego też przed ich zastosowaniem należy się upewnić, że pozostałe wyniki mają rozkład zbliżony do rozkładu normalnego. Jeżeli rozkład pozostałych wyników zdecydowanie odbiega od rozkładu normalnego, to przed zastosowaniem testów należy zmienną poddać odpowiedniej transformacji. Jednym z najczęściej wykorzystywanych testów do oceny punktów odbiegających w populacji wyników (n>10) wartości zmiennych jest test t-studenta oparty na zmodyfikowanym rozkładzie normalnym. Modyfikacja polega na uwzględnieniu ograniczonej liczebności zestawu danych i dla dużych zestawów rozkład Studenta pokrywa się z rozkładem normalnym. Przy założeniu, że populacja generalna, z której pochodzi n wyników ma rozkład normalny o wartości średniej x i odchyleniu standardowym s, można zbudować odpowiedni rozkład t-studenta. Na podstawie średnio licznej próby (10<n<40) szacuje się wartości parametrów rozkładu jako wartość średnią z próby m i odchylenie standardowe populacji generalnej s. Są to jednocześnie parametry rozkładu t-studenta. Na określonym poziomie istotności α można na podstawie rozkładu wyznaczyć symetryczny przedział wokół wartości średniej z próby, w którym z prawdopodobieństwem 1-α powinny znaleźć się wszystkie wartości zmiennej. Promień tego przedziału ufności, wyrażony w krotnościach odchylenia standardowego s, oznacza się symbolem t. Wartości t dla różnych liczebności zestawu danych i określonych poziomów istotności α są stabelaryzowane. Wartości parametru t można wykorzystać dwojako. Pierwszy sposób pozwala obliczyć odległość punktu odbiegającego od średniej z próby w postaci parametru statystycznego t: t xo m s = (1) Jeśli tak wyznaczona wartość jest większa od parametru t α odczytanego z tablic, to z prawdopodobieństwem 1-α uznaje się, że punkt odbiegający nie należy do populacji o rozkładzie normalnym z parametrami m i s, czyli że punkt taki należy odrzucić. Według drugiego sposobu oblicza się przedział ufności zmiennej, czyli zakres wartości x, 140

11 w którym z prawdopodobieństwem 1-α znajdują się wszystkie wartości należące do populacji generalnej. Krańce przedziału ufności wyznacza się ze wzorów: x min = m tα s (13) = m + tα s (14) x max Każdą wartość znajdującą się poza przedziałem należy odrzucić, popełniając przy tym błąd nie większy niż α Transformacje zmiennych Przygotowanie danych do analizy chemometrycznej wymaga więc często ich transformacji do postaci możliwie najbardziej zbliżonych do rozkładu normalnego. W tabeli 3 przedstawiono zestaw typowych przypadków występujących przy normalizacji rozkładu i stosowane wówczas funkcje transformujące [3]. Tabela 3. Zestaw typowych przypadków występujących przy normalizacji rozkładu i stosowane wówczas funkcje transformujące [3] l.p. Charakter zmiennej Funkcja transformująca 1 Zmienna ma naturalny początek w 0, x = log(x) lub x =x (1/4) stosunek x min /x max <0,1, zmienna jest silnie prawoskośna Stosunek x min /x max <0,1, zmienna jest silnie prawoskośna x =log(x+a) a dobrane tak, aby x+a>0, symetryczny rozkład po transformacji 3 Zmienna jest silnie lewoskośna x =log(a-z) a>x max 4 Zmienna ma postać % i x<15% x =log(x) 5 jw. i x>85% x =log(100-x) 6 jw. i x w przedziale <5%,.., 95%> x =logit(x)=log(x/(100-x)) transformacja logitowa 7 x=f(z), zależność ma kształt hiperboli, x =1/x, gdy asymptotą nie jest 0 to x>0 x =1/(x-a) lub x =1/(a-x) 8 jw., x ma przebieg sinusoidalny x =log(x-a/b-x), a<x min asymptota dolna b>x max asymptota górna 9 jw., x dąży do nasycenia x =log(a-x), a>x max asymptota górna Zastosowanie niektórych z tych technik w analityce środowiskowej zostanie przedstawione poniżej. 5. ANALIZA KORELACJI I REGRESJI W większości przypadków analiza danych polega na poszukiwaniu zależności pomiędzy mierzalnymi parametrami opisującymi badany obiekt lub zjawisko. Analizę danych rozpoczyna się wtedy od poszukiwania zmiennych, pomiędzy którymi występują najsilniejsze zależności. Jeżeli przypuszczamy, że zależności te będą miały charakter liniowy, to stosujemy analizę korelacji. Umożliwia ona stwierdzenie istnienia takiej zależności bez konieczności wykonywania zbyt skomplikowanych obliczeń. 141

12 Miarą współzależności pomiędzy zmiennymi (x) i (y) jest współczynnik korelacji liniowej definiowany wzorem: r y,x 1 n ( y y) ( x x) i s y s x i = (15) gdzie: r x,y współczynnik korelacji liniowej pomiędzy zmiennymi x i y; x, y - średnie wartości zmiennych x i y; s x, s y odchylenia standardowe zmiennych x i y Współczynnik korelacji przyjmuje wartości z przedziału od 1 do +1. Gdy r = +1, to mamy do czynienia ze ścisłą zależnością liniową, w której wzrostowi wartości jednej zmiennej (np. x) towarzyszy wzrost drugiej zmiennej (np. y). Zależność jest również ściśle liniowa gdy r = -1, jednakże w tym przypadku wzrostowi wartości jednej zmiennej towarzyszy spadek wartości drugiej. W przypadku, gdy R = 0 brak jest liniowej zależności pomiędzy wartościami zmiennych (x) i (y). Nie musi to jednak oznaczać, że zmienne te są niezależne - może pomiędzy nimi występować zależność nieliniowa (nawet bardzo silna). Zależność liniową pomiedzy zmiennymi można uznać za statystycznie istotną, gdy wartość obliczonego z próby współczynnika korelacji jest większa od pewnej wartości krytycznej r(p,f). Wartość krytyczną odczytuje się z odpowiednich tablic (np. takich jak tabela 4 poniżej) dla f = n- stopni swobody i przyjętego z góry poziomu ufności p. Zależność można uznać za statystycznie istotną gdy r >r(p,f). Tabela 4. Wartości krytyczne parametru r(p,f) stosowane do oceny istotności współczynnika korelacji [36] f p=0,95 p=0,99 f p=0,95 p=0,99 f p=0,95 p=0,99 1 1,00 1, ,55 0,68 5 0,38 0,49 0,95 0,99 1 0,53 0, ,35 0,45 3 0,88 0, ,51 0, ,33 0,4 4 0,81 0,9 14 0,50 0,6 40 0,30 0,39 5 0,75 0, ,48 0, ,9 0,37 6 0,71 0, ,47 0, ,7 0,35 7 0,67 0, ,46 0, ,5 0,33 8 0,63 0, ,44 0, ,4 0,3 9 0,60 0, ,43 0, ,3 0, ,59 0,71 0 0,4 0, , 0, ,0 0,5 W przypadku wykrycia występowania istotnych zależności liniowych pomiędzy zmiennymi można podjąć próbę znalezienia równania opisującego wykrytą zależność. Analiza regresji służy do wyznaczenia i oceny wiarygodności współczynników równania regresji wiążącego wartość pewnej zmiennej zależnej y z wartościami zmiennych objaśniających x i. Jest przy tym ważne, aby pomiędzy zmienną zależną a zmiennymi objaśniającymi występowały możliwie silne korelacje. Jednakże występowanie silnych korelacji pomiędzy zmiennymi objaśniającymi wpływa niekorzystnie na jakość i zdolności prognostyczne uzyskanego równania regresji. W przypadku występowania zbyt silnych korelacji pomiędzy tymi zmiennymi zalecane jest zastosowanie 14

13 innych technik chemometrycznych, takich jak analiza składników głównych lub cząstkowa metoda najmniejszych kwadratów. W analizie regresji zakłada się, że wartości liczbowe zmiennych objaśniających x i znane są już przed wykonaniem doświadczenia, a wartości zmiennej zależnej y są wynikiem pomiaru. Błąd ustalania wartości x i powinien być przy tym pomijalnie mały w porównaniu z błędem pomiaru wartości y. Na założeniu tym opiera się metoda wyznaczania wartości współczynników równania regresji i oceny ich wiarygodności zwana metodą najmniejszych kwadratów. Rozkład błędów pomiarowych zmiennej losowej y powinien przy tym być zgodny z rozkładem normalnym. Wszelkie odstępstwa od powyższych założeń obniżają, w sposób czasami trudny do oszacowania, wiarygodność uzyskanego równania. Analizę regresji można zastosować jedynie do wyznaczania wartości współczynniki równania, które jest liniowe ze względu na te współczynniki. Najprostszym z możliwych przypadków jest równanie liniowe w postaci: y = (16) a + b1 x1 + b x bn xn + e gdzie: y zmienna zależna; x 1,x,...,x n zmienne objaśniające; a wyraz wolny; b 1,b,...,b n współczynniki równania regresji; e różnica pomiędzy wartością zmierzoną a obliczoną z równania. Przy pomocy metody najmniejszych kwadratów wartości współczynników dobierane są w taki sposób, aby suma kwadratów różnic e j była jak najmniejsza. Przykładowo, równanie takie może pozwolić na wyznaczenie wartości stężenia związku A (zmienna zależna) na podstawie wartości mierzalnych parametrów próbki (zmienne objaśniające x i ). W najprostszym przypadku jednej zmiennej niezależnej współczynniki (a) i (b) wyznacza się metoda najmniejszych kwadratów zgodnie z zależnościami: a = y bx (17) n i = i= 1 n i= 1 ( x x) ( y y) ( x x) gdzie: x, y - wartości średnie zbiorów zmiennych x i y. i i b (18) Z danych literaturowych wynika jasno, że analiza korelacji i regresji należy do technik chemometrycznych najczęściej stosowanych w zagadnieniach ochrony środowiska. Przykładowo można wymienić prace dotyczące: - współzależności występowania różnych analitów w osadach dennych [37] i wodach powierzchniowych [38], - korelacji występowania zanieczyszczeń w różnych częściach systemu, np. w glebie i wodach gruntowych [39], tkankach miękkich i muszlach małży [17], różnych próbkach śniegu [40], - przewidywania stężeń wybranych pestycydów w wodach rzecznych na podstawie danych dotyczących ogólnego ładunku pestycydów stosowanych na danym obszarze [41]. 143

14 6. ANALIZA CZYNNIKOWA Terminem analiza czynnikowa określa się grupę technik, które powszechnie stosuje się do analizy wielowymiarowych zbiorów wyników. Ich główna zaleta, to możliwość transformacji danych w ten sposób, aby ograniczeniu uległa wymiarowość układu, a powstałe czynniki były wzajemnie ortogonalne. W praktyce zastosowanie analizy czynników przynosi najlepsze efekty, gdy zmienne w danych surowych są wzajemnie silnie skorelowane. W obrębie analizy czynnikowej najczęściej stosuje się technikę zwaną analizą składników głównych (ang. Principal Compounent Analysis PCA). Główne składniki (uzyskane dzięki zastosowaniu techniki PCA) można wykorzystać na wiele różnych sposobów. Ponieważ są one wzajemnie nieskorelowane mogą stanowić bardzo zmienne bardzo użyteczne w analizie regresji. Ponadto, dzięki redukcji liczby wymiarów układu znacznie ułatwiona staje się prezentacja graficzna występujących w nim zależności. Głównym zadaniem analizy z wykorzystaniem techniki PCA jest wykrycie wewnętrznej struktury danych i opisanie jej przy pomocy utajonych, abstrakcyjnych parametrów (głównych składników), które z tej struktury wynikają. Główne składniki konstruuje się jako kombinację liniową zmiennych wyjściowych w taki sposób, aby każda kolejny składnik opisywał maksymalną wariancję danych i była ortogonalny do poprzedniej. Na rysunku schematycznie przedstawiono metodykę wyznaczania głównych składników na podstawie macierzy danych opisujących badane obiekty. Jeżeli między rozważanymi zmiennymi wyjściowymi istnieją istotne korelacje, wówczas liczba głównych składników niezbędna dla poprawnego opisu danych jest znacznie mniejsza niż liczba zmiennych wyjściowych. Model matematyczny tej techniki można przedstawić w następującej formie: [ D] = T [ F][ A] + [ E] (19) gdzie: [D] (r x c) - macierz danych, [F] (c x n) - macierz współrzędnych obiektów w przestrzeni głównych składników, [A] (r x n) - macierz zmiennych w przestrzeni głównych składników, [E] (r x c) - macierz błędów, n - liczba składników. W analizie PCA iloczyn macierzy [F] i [A] T wyznacza się w taki sposób, aby zminimalizować sumę kwadratów wszystkich elementów macierzy [E] [4-44]. Cechą charakterystyczną głównych składników, oprócz ich ortogonalności, jest możliwość ich wyznaczania w kolejności malejącego zasobu zmienności. Miarą zasobu zmienności są przy tym tzw. wartości własne (ang.: eigen-values). Ponadto w pewnych przypadkach istnieje możliwość przypisania głównym składników, jak i grupom obiektów określonej interpretacji naukowej (chemicznej, fizycznej bądź biologicznej). Na podstawie odpowiednich kryteriów można dokonać oceny, jaka część zmienności występujących w danych ma charakter przypadkowy, związany z popełnianymi błędami pomiarowymi, a jaka wynika z natury danych. 144

15 Rys.. Metodyka wyznaczania głównych składników na podstawie macierzy danych opisujących badane obiekty W przypadku techniki PCA zakłada się, że całkowita zmienność zawarta w danych jest sumą zmienności właściwej, wynikającej z charakteru obiektów i zmienności losowej będącej skutkiem błędów pomiarowych lub szumu technik eksperymentalnych. Jednocześnie przyjmuje się a priori, że zmienność właściwa, uwzględniana w kilku pierwszych głównych składników, jest liczbowo znacznie większa od zmienności niepożądanej. Założenie to nie zawsze jest spełnione w zastosowaniach praktycznych I dlatego czasami kłopotliwe jest wyznaczanie liczby istotnych składników, a jest to bardzo istotne dla poprawnej interpretacji wyników. Ponieważ wartości własne składników zawierają informację o zmienności uwzględnionej przez dany składnik, tym samym są źródłem danych przy definiowaniu kryterium istotności składników. Należy podkreślić, że dotychczas nie opracowano kryterium doskonałego, którego stosowanie jednoznacznie określa liczbę istotnych składników. Do najczęściej spotykanych należą: - kryterium poglądowości (gdy celem analizy jest graficzna prezentacja wyników ograniczenie dotyczy maksymalnej liczby wymiarów wykresu); - kryterium zasobu zmienności (ustala się wartość progową, która musi zostać osiągnięta przez sumę ładunków zmienności wnoszonych przez poszczególne składniki); - kryterium spadku wartości własnej (wykonuje się tzw. wykres osypiska i na jego podstawie szacuje liczbę istotnych składników). 145

16 Jednoznaczne przypisanie głównym składnikom określonej interpretacji naukowej jest zwykle trudne. Można to czasami uzyskać dzięki wykonaniu odpowiedniej rotacji układu współrzędnych. Celem rotacji jest uzyskanie sytuacji, w której niektóre zmienne znajdować się będą możliwie blisko osi układu. W praktyce najczęściej rotację wykonuje się za pomocą algorytmu VARIMAX [45]. W literaturze bardzo często spotyka się przykłady praktycznego zastosowania techniki PCA do interpretowania korelacji pomiędzy zmiennymi. Najczęściej zadaniem opracowania danych pochodzących z monitoringu środowiska jest identyfikacja źródeł zanieczyszczeń różnorodnych komponentów środowiska. W 000 r. [46] opublikowano wyniki zastosowania analizy PCA do oszacowania źródeł zanieczyszczeń opadów atmosferycznych w rejonie Hong-Kongu. Wykonano oznaczenia zawartości głównych anionów (Cl -, NO - 3, SO - 4 ) oraz kationów (H +, Na +, K +, Ca +, Mg + ) nieorganicznych. Dane poddano rotacji varimax i jako efekt analizy danych wyodrębniono dwa główne składniki (rotowane główne składniki), które sumarycznie pozwalały wyjaśnić 84,8% zmienności danych. Pierwsza umożliwiła wyjaśnienie 43,7% wariancji i uwzględniała stężenie jonów Na +, Cl - i Mg +, a druga- wyjaśnienie 41,1% wariancji i uwzględniała stężenia jonów K +, NO - - 3, SO 4 i H +. Na podstawie otrzymanych wyników uznano, że pierwszy składnik reprezentuje zanieczyszczenia wchodzące w skład aerozoli morskich (ang.: sea-salt), druga zanieczyszczenia antropogeniczne, głównie powstające w wyniku energetycznego spalania paliw. Powyższa interpretacja wyodrębnionych składników pozostaje w zgodności z propozycjami innych autorów [47]. W 003 [48] opublikowano wyniki zastosowania analizy głównych składników do oszacowania źródeł zanieczyszczeń metalami ciężkimi osadów dennych pochodzących z jeziora Rybnik w południowej Polsce. Wykonano oznaczenia zawartości N, Na, K, Cd, Cu, Zn, Ni, Pb, Cr, Fe, i Mn w osadach dennych. W wyniku opracowania danych z zastosowaniem techniki PCA wyodrębniono 3 główne składniki, które umożliwiły wyjaśnienie łącznie 57,7 % zmienności danych. Pierwszy główny składnik umożliwiła wyjaśnienie,6% ogólnej zmienności i opisuje zawartość pierwiastków chalkofilnych Cd, Ni, Pb, Zn. Założono, że głównym, wspólnym źródłem tych zanieczyszczeń jest przemysł metalurgiczny i spalanie paliw kopalnych, w szczególności węgla. Stwierdzono, że znaczna ilość metali ciężkich trafia do zbiorników wód powierzchniowych wraz ze ściekami przemysłowymi. Postulowano, że wysoki współczynnik korelacji pomiędzy tymi metalami i ich wysoki ładunek czynnikowy w obrębie wyodrębnionym składniku PC1 opisuje ogólne zanieczyszczenie osadów dennych związkami chemicznymi zawartymi w ściekach przemysłowych. Drugi składnik umożliwiła wyjaśnienie 0,1% ogólnej zmienności i opisuje zawartość N i Cu. Statystycznie istotna korelacja pomiędzy zawartością ww. analitów sugeruje, że metale ciężkie są uwalniane z materii organicznej i poprzez ten proces stanowią wtórne źródło zanieczyszczenie osadów dennych. Trzeci główny składnik umożliwił wyjaśnienie 15,0% całkowitej zmienności i charakteryzuje się wysokim udziałem Mn i Cu. Autorzy na podstawie wyników badań analitycznych opadów atmosferycznych przedstawionych w raportach stacji Sanitarno- Epidemiologicznej [49] postulowali, że wody powierzchniowe mogą być zanieczyszczane tymi analitami w wyniku mokrej depozycji. W tabeli 5 przedstawiono inne przykładowe zastosowania analizy głównych składników w monitoringu środowiskowym spotykane w literaturze. 146

17 Tabela 5. Przykłady zastosowania analizy głównych składników w monitoringu środowiskowym l.p. Typ rotacji Opis projektu liczba oraz opis wyodrębnionych głównych składników 1 - monitoring składu osadów dennych strefy przybrzeżnej zachodniego wybrzeża USA wyodrębniono 4 składniki (zanieczyszczenia antropogeniczne, zanieczyszczenia organiczne, zanieczyszczenia ze źródeł naturalnych, zanieczyszczenia specjalne) - oznaczanie związków organicznych w glebie użytków rolnych na terenie centralnych Niemiec; technikę PCA wykorzystano do oceny procesów degradacji związków z grupy DDX i HCH, jak również procesów wzbogacania gleby w związkami z grupy PCB wyodrębniono składniki(pierwsza charakteryzuje wysoki stosunek degradacji p,p -DDT w porównaniu do degradacji p,p -DDE i p,p -DDD, druga wskazuje na występowanie najwyższego stosunku degradacji DDD w obrębie grupy związków z grupy DDX) 3 Varimax charakterystyka składu chemicznego opadów atmosferycznych w rejonie Agra (Indie) wyodrębniono 4 składniki (zanieczyszczenia antropogeniczne, zanieczyszczenia składnikami tworzącymi powierzchniową warstwę skorupy ziemskiej, zanieczyszczenia energetyczne (spalanie substancji), zanieczyszczenia przedostające się do atmosfery w wyniku proszkowania wapna) 4 Varimax ocena transgranicznego transportu zanieczyszczeń w rejonie granicy pomiędzy USA i Meksykiem wyodrębniono 5 składników (zanieczyszczenia pochodzenia geologicznego, zanieczyszczenia powstające w procesach spalania węgla i/lub rafinacji ropy naftowej, zanieczyszczenia powstające w procesach spalania odpadów, zanieczyszczenia powstające w procesach spalania paliw w kotłowniach lub elektrowniach), podkreślono znaczący stosunek poziomów stężeń zawartości arsenu w porównaniu z innymi analitami 5 Bez rotacji i rotacja varimax monitoring środowiska rzecznego wyodrębniono 7 składników (składnik reprezentujący twardość, zmętnienie oraz kwasowość wody, składnik biochemiczny, składnik reprezentujący ładunki ścieków komunalnych, substancji spływających z powierzchni pól, ścieki organiczne) 6 - charakteryzacja jakości wód opadowych analizowanych w stacjach pomiarowych w rejonie Wenecji 7 - wykorzystanie techniki PCA do identyfikacji najważniejszych parametrów zastosowanych do sformułowania indeksu zanieczyszczenia wyodrębniono 3 składniki (składniki tworzono w oparciu o analizę próbek osadów dennych zanieczyszczonych w różny, kontrolowany sposób) 8 - charakterystyka składu chemicznego próbek świeżego śniegu pobranych z południowego zbocza masywu Mt.Everest - wyodrębniono 3 składniki (dwie główne reprezentują cząstki stałe pyłów pochodzących z trasnregionalnego transportu zanieczyszczeń oraz udział substancji wchodzących w skład aerozoli morskich) Odnośnik literaturowy [50] [51] [5] [53] [54] [55] [56] [57] 147

18 7. ANALIZA SKUPIEŃ Analiza podobieństwa bazuje na pojęciu odległości obiektów lub zmiennych w przestrzeni wielowymiarowej. Przyjmuje się przy tym, że obiekty położone blisko siebie wykazują wzajemne podobieństwo, przy czym wartość liczbową tego parametru, S ij, można przedstawić za pomocą następującego równania [58]: d = 1 d ij S ij (0) max gdzie: d ij odległość pomiędzy dwoma obiektami, d max maksymalna odległość pomiędzy obiektami w zbiorze danych. Podejście takie pozwala dokonać podziału obiektów lub zmiennych na grupy charakteryzujące się określonymi cechami. Jedną z częściej stosowanych technik analizy podobieństwa jest technika analizy wiązkowej (ang. Cluster Analysis - CA). Technika ta umożliwia przedstawienie w formie diagramu wiązkowego hierarchicznego grupowanych obiektów lub ich cech. Oś pozioma w przypadku diagramu wiązkowego jest całkowicie umowna i nie ma charakteru osi liczbowej. Na osi pionowej zaznacza się odległość lub podobieństwo, przy którym dwa obiekty tworzą skupienie [59-63]. Przy tworzeniu nowego skupienia należy określić odległość tego skupienia od pozostałych obiektów i/lub skupień. W praktyce stosuje się wiele metod obliczania takich odległości. Do najczęściej stosowanych należą: - odległość najbliższego sąsiada: w metodzie tej odległość między dwoma skupieniami jest określona jako odległość pomiędzy dwoma najbliższymi obiektami k i l (najbliższymi sąsiadami) należącymi do różnych skupień. Zależność opisuje równanie: d kl = min( dil ; d jl ) (1) - odległość najdalszego sąsiada: w tej metodzie odległość między skupieniami jest określona jako największą z odległości pomiędzy dwoma obiektami należącymi do różnych skupień (tzn. najdalszymi sąsiadami ). Zależność opisuje równanie: d kl = max( dil ; d jl ) () - odległość centroidowa: w tej metodzie jako odległość obiektu l od nowego obiektu k przyjmuje się średnią z dwóch odległości d il lub d jl. Zależność opisuje równanie: d ( d + d ) il jl kl = (3) - metoda Warda [64]: metoda ta do oszacowania odległości między skupieniami wykorzystuje analizę wariancji. Miarą odległości pomiędzy obiektami (skupieniami) jest wariancja wewnątrzgrupowa dla grupy powstałej z połączenia tych obiektów (skupień). Na każdym etapie nowe skupienie powstaje z tych obiektów (skupień), które zapewniają minimalizację wariancji wewnątrzgrupowej. Najczęściej efektem graficznym analizy wiązkowej jest wykreślenie stopnia podobieństwa pomiędzy obiektami w postaci dendrogramu, którego przykład przedstawiono na rysunku 3. W literaturze spotyka się ogromną ilość przykładów zastosowania analizy wiązkowej. Najczęściej efektem analizy jest podział zestawu danych na grupy o podobnych właściwościach, w obrębie których w dalszych etapach wykonuje się np. analizę wariancji. Można rzec, że technika ta stanowi etap wstępnego opracowania wyników poprzedzający właściwą analizę chemometryczną. Przykładowo [65] zastosowano technikę analizy wiązkowej do oceny zależności pomiędzy parametrami fizykochemicznymi 148

19 pochodnych kwasu barbituranowego a ich właściwościami retencyjnymi przy rozdzielaniu w grafityzowanej, porowatej kolumnie wypełnionej węglem. W pracy opublikowanej w 001 [66] zastosowano z powodzeniem technikę analizy wiązkowej w celu pogrupowania owoców Cnidium monnieri pochodzących z różnych rejonów Chin pod względem zróżnicowanej zawartości oraz specjacji dystrybucyjnej pochodnych kumaryny. Dane opracowano z uwzględnieniem metody Warda w tworzeniu skupisk. W wyniku tak przeprowadzonej analizy wykazano, że dane uzyskane w trakcie analizy próbek pochodzących z południowej części Chin (teren półtropikalny z przewagą szerokolistnych, wiecznie zielonych drzew) tworzą skupisko A i wskazują na wysoką zawartość w próbkach liniowych furanokumaryn typu kątowego, podczas gdy wyniki uzyskane w trakcie analizy próbek pochodzących ze środkowej części Chin (las liściasto - iglasty) tworzą skupisko B i wskazują na wysoką zawartość w próbkach furanokumaryn typu kątowego. Wyniki uzyskane w trakcie analizy próbek pobranych na terenach umiarkowanie ciepłych lasów liściastych tworzą skupisko C. Metodę Warda w tworzeniu skupisk zastosowano również w pracach innych autorów [67]. W ramach prowadzenia badań na temat obecności wybranych polichlorowanych bifenyli w powietrzu atmosferycznym w rejonie Madrytu wyodrębniono pięć głównych skupisk. Pierwsze tworzyły wyniki uzyskane w trakcie analizy próbek pyłu z filtrów pobranych w warunkach niskiej temperatury charakteryzujących się wysoką zawartością cząstek zawieszonych. Drugie skupisko tworzyły wyniki uzyskane w trakcie analizy próbek próbki o najwyższej zawartości średnio i nisko lotnych związków z grupy PCB, które według autorów powstają podczas pożarów. Kolejne dwa skupiska tworzyły wyniki uzyskane w trakcie analizy próbek zgromadzonych w okresie letnim, lecz z różną zawartością homologicznych analitów z grupy PCB (skupisko 3 wysoka zawartość, skupisko 4 niska zawartość). Piąte skupienie tworzyły wyniki uzyskane w trakcie analizy próbek pobranych w okresie jesiennym podczas wietrznych dni, przy czym wskazano na brak możliwości jednoznacznego wnioskowania o występowaniu najbardziej lotnych homologów PCB głównie ze względu na wpływ dodatkowych źródeł zanieczyszczeń. Rys. 3. Dendrogram najbardziej popularny, graficzny sposób przedstawienia podobieństwa pomiędzy obiektami Analizę skupień można także zastosować do rozwiązywania problemów nie związanych bezpośrednio z typowym monitoringiem środowiska. W pracy opublikowanej w 1998 r. [68] analizowano zawartość jedenastu analitów (Zn, P, Mn, Fe, Mg, Ca, Na, K, Cu, Sr i Ba) w próbkach zielonej kawy należącej do dwóch gatunków: arabica i robusta. Metodę Warda wykorzystano jako algorytm tworzenia skupisk. Jako czynnik różnicują- 149

ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA. dr inż. Aleksander Astel

ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA. dr inż. Aleksander Astel ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA dr inż. Aleksander Astel Gdańsk, 22.12.2004 CHEMOMETRIA dziedzina nauki i techniki zajmująca się wydobywaniem użytecznej informacji z wielowymiarowych

Bardziej szczegółowo

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Statystyka opisowa. Wykład I. Elementy statystyki opisowej Statystyka opisowa. Wykład I. e-mail:e.kozlovski@pollub.pl Spis treści Elementy statystyku opisowej 1 Elementy statystyku opisowej 2 3 Elementy statystyku opisowej Definicja Statystyka jest to nauka o

Bardziej szczegółowo

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska D syst D śr m 1 3 5 2 4 6 śr j D 1

Bardziej szczegółowo

Wykład 5: Statystyki opisowe (część 2)

Wykład 5: Statystyki opisowe (część 2) Wykład 5: Statystyki opisowe (część 2) Wprowadzenie Na poprzednim wykładzie wprowadzone zostały statystyki opisowe nazywane miarami położenia (średnia, mediana, kwartyle, minimum i maksimum, modalna oraz

Bardziej szczegółowo

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH RÓWNOWAŻNOŚĆ METOD BADAWCZYCH Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska Równoważność metod??? 2 Zgodność wyników analitycznych otrzymanych z wykorzystaniem porównywanych

Bardziej szczegółowo

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów: Na dzisiejszym wykładzie omówimy najważniejsze charakterystyki liczbowe występujące w statystyce opisowej. Poszczególne wzory będziemy podawać w miarę potrzeby w trzech postaciach: dla szeregu szczegółowego,

Bardziej szczegółowo

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak Wzory dla szeregu szczegółowego: Wzory dla szeregu rozdzielczego punktowego: ->Średnia arytmetyczna ważona -> Średnia arytmetyczna (5) ->Średnia harmoniczna (1) ->Średnia harmoniczna (6) (2) ->Średnia

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

Zmienne zależne i niezależne

Zmienne zależne i niezależne Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część populacji, którą podaje się badaniu statystycznemu

Bardziej szczegółowo

Teoria błędów. Wszystkie wartości wielkości fizycznych obarczone są pewnym błędem.

Teoria błędów. Wszystkie wartości wielkości fizycznych obarczone są pewnym błędem. Teoria błędów Wskutek niedoskonałości przyrządów, jak również niedoskonałości organów zmysłów wszystkie pomiary są dokonywane z określonym stopniem dokładności. Nie otrzymujemy prawidłowych wartości mierzonej

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu

Bardziej szczegółowo

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych; STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych; - badanie skuteczności nowego leku; - badanie stopnia zanieczyszczenia gleb metalami

Bardziej szczegółowo

1 Podstawy rachunku prawdopodobieństwa

1 Podstawy rachunku prawdopodobieństwa 1 Podstawy rachunku prawdopodobieństwa Dystrybuantą zmiennej losowej X nazywamy prawdopodobieństwo przyjęcia przez zmienną losową X wartości mniejszej od x, tzn. F (x) = P [X < x]. 1. dla zmiennej losowej

Bardziej szczegółowo

Analiza składowych głównych. Wprowadzenie

Analiza składowych głównych. Wprowadzenie Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących

Bardziej szczegółowo

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy Wykład Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy Zbiorowość statystyczna - zbiór elementów lub wyników jakiegoś procesu powiązanych ze sobą logicznie (tzn. posiadających wspólne cechy

Bardziej szczegółowo

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel: Wariancja z populacji: Podstawowe miary rozproszenia: 1 1 s x x x x k 2 2 k 2 2 i i n i1 n i1 Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel: 1 k 2 s xi x n 1 i1 2 Przykład 38,

Bardziej szczegółowo

Estymacja punktowa i przedziałowa

Estymacja punktowa i przedziałowa Temat: Estymacja punktowa i przedziałowa Kody znaków: żółte wyróżnienie nowe pojęcie czerwony uwaga kursywa komentarz 1 Zagadnienia 1. Statystyczny opis próby. Idea estymacji punktowej pojęcie estymatora

Bardziej szczegółowo

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski Literatura STATYSTYKA OPISOWA A. Aczel, Statystyka w Zarządzaniu, PWN, 2000 A. Obecny, Statystyka opisowa w Excelu dla szkół. Ćwiczenia praktyczne, Helion, 2002. A. Obecny, Statystyka matematyczna w Excelu

Bardziej szczegółowo

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41 Statystyka Wykład 4 Magdalena Alama-Bućko 13 marca 2017 Magdalena Alama-Bućko Statystyka 13 marca 2017 1 / 41 Na poprzednim wykładzie omówiliśmy następujace miary rozproszenia: Wariancja - to średnia arytmetyczna

Bardziej szczegółowo

Zadania ze statystyki, cz.6

Zadania ze statystyki, cz.6 Zadania ze statystyki, cz.6 Zad.1 Proszę wskazać, jaką część pola pod krzywą normalną wyznaczają wartości Z rozkładu dystrybuanty rozkładu normalnego: - Z > 1,25 - Z > 2,23 - Z < -1,23 - Z > -1,16 - Z

Bardziej szczegółowo

Analiza współzależności zjawisk

Analiza współzależności zjawisk Analiza współzależności zjawisk Informacje ogólne Jednostki tworzące zbiorowość statystyczną charakteryzowane są zazwyczaj za pomocą wielu cech zmiennych, które nierzadko pozostają ze sobą w pewnym związku.

Bardziej szczegółowo

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej) Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej) 1 Podział ze względu na zakres danych użytych do wyznaczenia miary Miary opisujące

Bardziej szczegółowo

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć: Wprowadzenie Statystyka opisowa to dział statystyki zajmujący się metodami opisu danych statystycznych (np. środowiskowych) uzyskanych podczas badania statystycznego (np. badań terenowych, laboratoryjnych).

Bardziej szczegółowo

Testy nieparametryczne

Testy nieparametryczne Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów

Bardziej szczegółowo

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej cechy. Średnia arytmetyczna suma wartości zmiennej wszystkich

Bardziej szczegółowo

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE 1 W trakcie badania obliczono wartości średniej (15,4), mediany (13,6) oraz dominanty (10,0). Określ typ asymetrii rozkładu. 2 Wymień 3 cechy rozkładu Gauss

Bardziej szczegółowo

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy MIARY POŁOŻENIA Opisują średni lub typowy poziom wartości cechy. Określają tą wartość cechy, wokół której skupiają się wszystkie pozostałe wartości badanej cechy. Wśród nich można wyróżnić miary tendencji

Bardziej szczegółowo

Analiza współzależności dwóch cech I

Analiza współzależności dwóch cech I Analiza współzależności dwóch cech I Współzależność dwóch cech W tym rozdziale pokażemy metody stosowane dla potrzeb wykrywania zależności lub współzależności między dwiema cechami. W celu wykrycia tych

Bardziej szczegółowo

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb Współzależność Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę

Bardziej szczegółowo

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( ) Statystyka Rozkład prawdopodobieństwa Testowanie hipotez Wykład III (04.01.2016) Rozkład t-studenta Rozkład T jest rozkładem pomocniczym we wnioskowaniu statystycznym; stosuje się go wyznaczenia przedziału

Bardziej szczegółowo

POLITECHNIKA OPOLSKA

POLITECHNIKA OPOLSKA POLITECHNIKA OPOLSKA WYDZIAŁ MECHANICZNY Katedra Technologii Maszyn i Automatyzacji Produkcji Laboratorium Podstaw Inżynierii Jakości Ćwiczenie nr 4 Temat: Analiza korelacji i regresji dwóch zmiennych

Bardziej szczegółowo

W1. Wprowadzenie. Statystyka opisowa

W1. Wprowadzenie. Statystyka opisowa W1. Wprowadzenie. Statystyka opisowa dr hab. Jerzy Nakielski Zakład Biofizyki i Morfogenezy Roślin Plan wykładu: 1. O co chodzi w statystyce 2. Etapy badania statystycznego 3. Zmienna losowa, rozkład

Bardziej szczegółowo

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Współczynnik korelacji Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Własności współczynnika korelacji 1. Współczynnik korelacji jest liczbą niemianowaną 2. ϱ 1,

Bardziej szczegółowo

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...

Bardziej szczegółowo

LABORATORIUM Z FIZYKI

LABORATORIUM Z FIZYKI LABORATORIUM Z FIZYKI LABORATORIUM Z FIZYKI I PRACOWNIA FIZYCZNA C w Gliwicach Gliwice, ul. Konarskiego 22, pokoje 52-54 Regulamin pracowni i organizacja zajęć Sprawozdanie (strona tytułowa, karta pomiarowa)

Bardziej szczegółowo

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 2 1 / 20 MIARY ROZPROSZENIA, Wariancja Wariancją z próby losowej X

Bardziej szczegółowo

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na Podstawowe pojęcia Zbiorowość statystyczna zbiór jednostek (obserwacji) nie identycznych, ale stanowiących logiczną całość Zbiorowość (populacja) generalna skończony lub nieskończony zbiór jednostek, które

Bardziej szczegółowo

Podstawowe pojęcia statystyczne

Podstawowe pojęcia statystyczne Podstawowe pojęcia statystyczne Istnieją trzy rodzaje kłamstwa: przepowiadanie pogody, statystyka i komunikat dyplomatyczny Jean Rigaux Co to jest statystyka? Nauka o metodach ilościowych badania zjawisk

Bardziej szczegółowo

Statystyka matematyczna i ekonometria

Statystyka matematyczna i ekonometria Statystyka matematyczna i ekonometria prof. dr hab. inż. Jacek Mercik B4 pok. 55 jacek.mercik@pwr.wroc.pl (tylko z konta studenckiego z serwera PWr) Konsultacje, kontakt itp. Strona WWW Elementy wykładu.

Bardziej szczegółowo

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33 Statystyka Wykład 4 Magdalena Alama-Bućko 19 marca 2018 Magdalena Alama-Bućko Statystyka 19 marca 2018 1 / 33 Analiza struktury zbiorowości miary położenia ( miary średnie) miary zmienności (rozproszenia,

Bardziej szczegółowo

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N = HISTOGRAM W pewnych przypadkach interesuje nas nie tylko określenie prawdziwej wartości mierzonej wielkości, ale także zbadanie całego rozkład prawdopodobieństwa wyników pomiarów. W takim przypadku wyniki

Bardziej szczegółowo

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym

Bardziej szczegółowo

KORELACJE I REGRESJA LINIOWA

KORELACJE I REGRESJA LINIOWA KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem

Bardziej szczegółowo

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych. Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych. Statystyka zajmuje się prawidłowościami zaistniałych zdarzeń. Teoria prawdopodobieństwa dotyczy przewidywania, jak często mogą zajść

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Testowanie hipotez statystycznych. Wnioskowanie statystyczne Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy

Bardziej szczegółowo

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie. SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:

Bardziej szczegółowo

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY) STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY) Praca z danymi zaczyna się od badania rozkładu liczebności (częstości) zmiennych. Rozkład liczebności (częstości) zmiennej to jakie wartości zmienna

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

Analizy wariancji ANOVA (analysis of variance)

Analizy wariancji ANOVA (analysis of variance) ANOVA Analizy wariancji ANOVA (analysis of variance) jest to metoda równoczesnego badania istotności różnic między wieloma średnimi z prób pochodzących z wielu populacji (grup). Model jednoczynnikowy analiza

Bardziej szczegółowo

Analiza i monitoring środowiska

Analiza i monitoring środowiska Analiza i monitoring środowiska CHC 017003L (opracował W. Zierkiewicz) Ćwiczenie 1: Analiza statystyczna wyników pomiarów. 1. WSTĘP Otrzymany w wyniku przeprowadzonej analizy ilościowej wynik pomiaru zawartości

Bardziej szczegółowo

Inteligentna analiza danych

Inteligentna analiza danych Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki

Bardziej szczegółowo

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1. Zadania ze statystyki cz. 8 I rok socjologii Zadanie 1. W potocznej opinii pokutuje przekonanie, że lepsi z matematyki są chłopcy niż dziewczęta. Chcąc zweryfikować tę opinię, przeprowadzono badanie w

Bardziej szczegółowo

Zawartość. Zawartość

Zawartość. Zawartość Opr. dr inż. Grzegorz Biesok. Wer. 2.05 2011 Zawartość Zawartość 1. Rozkład normalny... 3 2. Rozkład normalny standardowy... 5 3. Obliczanie prawdopodobieństw dla zmiennych o rozkładzie norm. z parametrami

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

Statystyka. Opisowa analiza zjawisk masowych

Statystyka. Opisowa analiza zjawisk masowych Statystyka Opisowa analiza zjawisk masowych Typy rozkładów empirycznych jednej zmiennej Rozkładem empirycznym zmiennej nazywamy przyporządkowanie kolejnym wartościom zmiennej (x i ) odpowiadających im

Bardziej szczegółowo

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych: W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych: Zmienne losowe skokowe (dyskretne) przyjmujące co najwyżej przeliczalnie wiele wartości Zmienne losowe ciągłe

Bardziej szczegółowo

Sposoby prezentacji problemów w statystyce

Sposoby prezentacji problemów w statystyce S t r o n a 1 Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki

Bardziej szczegółowo

Rozwiązanie n1=n2=n=8 F=(4,50) 2 /(2,11) 2 =4,55 Fkr (0,05; 7; 7)=3,79

Rozwiązanie n1=n2=n=8 F=(4,50) 2 /(2,11) 2 =4,55 Fkr (0,05; 7; 7)=3,79 Test F =służy do porównania precyzji dwóch niezależnych serii pomiarowych uzyskanych w trakcie analizy próbek o zawartości analitu na takim samym poziomie #obliczyć wartość odchyleń standardowych dla serii

Bardziej szczegółowo

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA Statystyka opisowa PRZEDMIOT: PODSTAWY STATYSTYKI PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA Statystyka opisowa = procedury statystyczne stosowane do opisu właściwości próby (rzadziej populacji) Pojęcia:

Bardziej szczegółowo

Elementy statystyki wielowymiarowej

Elementy statystyki wielowymiarowej Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych

Bardziej szczegółowo

Regresja i Korelacja

Regresja i Korelacja Regresja i Korelacja Regresja i Korelacja W przyrodzie często obserwujemy związek między kilkoma cechami, np.: drzewa grubsze są z reguły wyższe, drewno iglaste o węższych słojach ma większą gęstość, impregnowane

Bardziej szczegółowo

Statystyczne metody analizy danych

Statystyczne metody analizy danych Statystyczne metody analizy danych Statystyka opisowa Wykład I-III Agnieszka Nowak - Brzezińska Definicje Statystyka (ang.statistics) - to nauka zajmująca się zbieraniem, prezentowaniem i analizowaniem

Bardziej szczegółowo

MODELE LINIOWE. Dr Wioleta Drobik

MODELE LINIOWE. Dr Wioleta Drobik MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą

Bardziej szczegółowo

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie: ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość

Bardziej szczegółowo

Analiza regresji - weryfikacja założeń

Analiza regresji - weryfikacja założeń Medycyna Praktyczna - portal dla lekarzy Analiza regresji - weryfikacja założeń mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof.

Bardziej szczegółowo

Statystyka matematyczna dla leśników

Statystyka matematyczna dla leśników Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje

Bardziej szczegółowo

Przedmiot statystyki. Graficzne przedstawienie danych.

Przedmiot statystyki. Graficzne przedstawienie danych. Przedmiot statystyki. Graficzne przedstawienie danych. dr Mariusz Grządziel 2 marca 2009 Populacja i próba Populacja- zbiorowość skończona lub nieskończona, w stosunku do której mają być formułowane wnioski.

Bardziej szczegółowo

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego Współczynnik korelacji opisuje siłę i kierunek związku. Jest miarą symetryczną. Im wyższa korelacja tym lepiej potrafimy

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

Analiza niepewności pomiarów

Analiza niepewności pomiarów Teoria pomiarów Analiza niepewności pomiarów Zagadnienia statystyki matematycznej Dr hab. inż. Paweł Majda www.pmajda.zut.edu.pl Podstawy statystyki matematycznej Histogram oraz wielobok liczebności zmiennej

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin. Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Zadania analityczne (1) Analiza przewiduje badanie podobieństw

Bardziej szczegółowo

Rozdział 8. Regresja. Definiowanie modelu

Rozdział 8. Regresja. Definiowanie modelu Rozdział 8 Regresja Definiowanie modelu Analizę korelacji można traktować jako wstęp do analizy regresji. Jeżeli wykresy rozrzutu oraz wartości współczynników korelacji wskazują na istniejąca współzmienność

Bardziej szczegółowo

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15 VI WYKŁAD STATYSTYKA 9/04/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 6 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI Weryfikacja hipotez ( błędy I i II rodzaju, poziom istotności, zasady

Bardziej szczegółowo

Statystyka i Analiza Danych

Statystyka i Analiza Danych Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014 Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych Janusz Wątroba StatSoft Polska Centrum Zastosowań Matematyki -

Bardziej szczegółowo

Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia

Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia Wykład 2 Statystyka opisowa - Miary rozkładu: Miary położenia Podział miar Miary położenia (measures of location): 1. Miary tendencji centralnej (measures of central tendency, averages): Średnia arytmetyczna

Bardziej szczegółowo

Próba własności i parametry

Próba własności i parametry Próba własności i parametry Podstawowe pojęcia Zbiorowość statystyczna zbiór jednostek (obserwacji) nie identycznych, ale stanowiących logiczną całość Zbiorowość (populacja) generalna skończony lub nieskończony

Bardziej szczegółowo

Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji

Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji Analiza składników podstawowych - wprowadzenie (Principal Components Analysis

Bardziej szczegółowo

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych

Bardziej szczegółowo

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt Statystyka matematyczna dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt Zasady zaliczenia przedmiotu: część wykładowa Maksymalna liczba punktów do zdobycia 40. Egzamin będzie

Bardziej szczegółowo

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40 Statystyka Wykład 5 Magdalena Alama-Bućko 26 marca 2018 Magdalena Alama-Bućko Statystyka 26 marca 2018 1 / 40 Uwaga Gdy współczynnik zmienności jest większy niż 70%, czyli V s = s x 100% > 70% (co świadczy

Bardziej szczegółowo

Często spotykany jest również asymetryczny rozkład gamma (Г), opisany za pomocą parametru skali θ i parametru kształtu k:

Często spotykany jest również asymetryczny rozkład gamma (Г), opisany za pomocą parametru skali θ i parametru kształtu k: Statystyczne opracowanie danych pomiarowych W praktyce pomiarowej często spotykamy się z pomiarami wielokrotnymi, gdy podczas pomiaru błędy pomiarowe (szumy miernika, czynniki zewnętrzne) są na tyle duże,

Bardziej szczegółowo

Programowanie celowe #1

Programowanie celowe #1 Programowanie celowe #1 Problem programowania celowego (PC) jest przykładem problemu programowania matematycznego nieliniowego, który można skutecznie zlinearyzować, tzn. zapisać (i rozwiązać) jako problem

Bardziej szczegółowo

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD EMPIRYCZNY

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD EMPIRYCZNY WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD EMPIRYCZNY Liczebności i częstości Liczebność liczba osób/respondentów/badanych, którzy udzielili tej konkretnej odpowiedzi. Podawana w osobach. Częstość odsetek,

Bardziej szczegółowo

Statystyka opisowa- cd.

Statystyka opisowa- cd. 12.03.2017 Wydział Inżynierii Produkcji I Logistyki Statystyka opisowa- cd. Wykład 4 Dr inż. Adam Deptuła HISTOGRAM UNORMOWANY Pole słupka = wysokość słupka x długość przedziału Pole słupka = n i n h h,

Bardziej szczegółowo

Pozyskiwanie wiedzy z danych

Pozyskiwanie wiedzy z danych Pozyskiwanie wiedzy z danych dr Agnieszka Goroncy Wydział Matematyki i Informatyki UMK PROJEKT WSPÓŁFINANSOWANY ZE ŚRODKÓW UNII EUROPEJSKIEJ W RAMACH EUROPEJSKIEGO FUNDUSZU SPOŁECZNEGO Pozyskiwanie wiedzy

Bardziej szczegółowo

METODOLOGIA BADAŃ HUMANISTYCZNYCH METODYKA NAUCZANIA JĘZYKA OBCEGO CZ.II

METODOLOGIA BADAŃ HUMANISTYCZNYCH METODYKA NAUCZANIA JĘZYKA OBCEGO CZ.II METODOLOGIA BADAŃ HUMANISTYCZNYCH METODYKA NAUCZANIA JĘZYKA OBCEGO CZ.II Podział zmiennych Zmienne zależne zmienne, które są przedmiotem badania, których związki z innymi zmiennymi chcemy określić Zmienne

Bardziej szczegółowo

Niepewności pomiarów

Niepewności pomiarów Niepewności pomiarów Międzynarodowa Organizacja Normalizacyjna (ISO) w roku 1995 opublikowała normy dotyczące terminologii i sposobu określania niepewności pomiarów [1]. W roku 1999 normy zostały opublikowane

Bardziej szczegółowo

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka Analiza współzależności zjawisk dr Marta Kuc-Czarnecka Wprowadzenie Prawidłowości statystyczne mają swoje przyczyny, w związku z tym dla poznania całokształtu badanego zjawiska potrzebna jest analiza z

Bardziej szczegółowo

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej

Bardziej szczegółowo

4.2. Statystyczne opracowanie zebranego materiału

4.2. Statystyczne opracowanie zebranego materiału 4.2. Statystyczne opracowanie zebranego materiału Zebrany i pogrupowany materiał badawczy należy poddać analizie statystycznej w celu dokonania pełnej i szczegółowej charakterystyki interesujących badacza

Bardziej szczegółowo

POLITECHNIKA WARSZAWSKA

POLITECHNIKA WARSZAWSKA POLITECHNIKA WARSZAWSKA WYDZIAŁ BUDOWNICTWA, MECHANIKI I PETROCHEMII INSTYTUT INŻYNIERII MECHANICZNEJ STATYSTYCZNA KONTROLA PROCESU (SPC) Ocena i weryfikacja statystyczna założeń przyjętych przy sporządzaniu

Bardziej szczegółowo

Miary statystyczne w badaniach pedagogicznych

Miary statystyczne w badaniach pedagogicznych Miary statystyczne w badaniach pedagogicznych Szeregi statystyczne Szczegółowy - gdzie materiał uporządkowany jest rosnąco lub malejąco Rozdzielczy - gdzie poszczególnym wariantom zmiennej przyporządkowane

Bardziej szczegółowo

X WYKŁAD STATYSTYKA. 14/05/2014 B8 sala 0.10B Godz. 15:15

X WYKŁAD STATYSTYKA. 14/05/2014 B8 sala 0.10B Godz. 15:15 X WYKŁAD STATYSTYKA 14/05/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 10 ANALIZA KORELACJI Korelacja 1. Współczynnik korelacji 2. Kowariancja 3. Współczynnik korelacji liniowej definicja 4. Estymacja współczynnika

Bardziej szczegółowo

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne. W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne. dr hab. Jerzy Nakielski Katedra Biofizyki i Morfogenezy Roślin Plan wykładu: 1. Etapy wnioskowania statystycznego 2. Hipotezy statystyczne,

Bardziej szczegółowo