W badaniach podjęto się rozwiązania tzw. problemu porównawczego, w którym formułowane są następujące hipotezy:
|
|
- Dominika Muszyńska
- 8 lat temu
- Przeglądów:
Transkrypt
1 Streszczenie Szybki rozwój zaawansowanych metod chemii analitycznej otwiera nowe możliwości analizy próbek mikrośladów (np. fragmentów polimerów, lakierów samochodowych, okruchów szkła) dla celów sądowych. Udoskonalenie technik analitycznych pozwala na rejestrację tysięcy parametrów opisujących badane próbki w stosunkowo krótkim czasie. Wraz z postępem w tej dziedzinie, koniecznością staje się również rozwój i dostosowanie technik interpretacji tak ogromnej ilości danych, szczególnie, gdy wnioskowanie dotyczy nauk sądowych. Analiza i interpretacja dużych zbiorów danych najczęściej wymaga wstępnego zastosowania technik redukcji ich wymiarowości za pomocą metod chemometrycznych. Ich celem jest uwypuklenie ukrytej struktury danych oraz wydobycie jak najcenniejszej informacji niesionej przez dane analityczne, a dotyczącej podobieństwa analizowanych obiektów w postaci jak najmniejszej liczby nowych zmiennych. Zadania te są z powodzeniem realizowane przez znakomitą liczbę metod chemometrycznych, niemniej jednak ich bezpośrednia aplikacja w naukach sądowych nie jest możliwa i wymaga wprowadzenia pewnych modyfikacji, by móc stanowić podstawę wnioskowania w procesie sądowym. Problem ten sprowadza się głównie do trudności w uwzględnieniu częstości występowania określonych cech w całej populacji generalnej analizowanych materiałów, korelacji między zmiennymi, jak i możliwych źródeł zmienności. Brak tych elementów powoduje, że zastosowaniu metod chemometrycznych musi towarzyszyć ocena wartości dowodowej przeprowadzona z zastosowaniem metodologii opartej o testy ilorazu wiarygodności (ang. likelihood ratio, LR). Podejście to pozwala na uwzględnienie wszystkich czynników niezbędnych z punktu widzenia wymiaru sprawiedliwości, w tym częstości występowania określonych cech w całej populacji generalnej, możliwych źródeł zmienności oraz korelacji między zmiennymi. Mimo szeregu zalet, jedną z wad modeli LR jest trudność ich konstrukcji dla danych o dużej
2 wymiarowości, gdy liczba zmiennych zdecydowanie przekracza liczbę próbek, które opisują. Przykładem tego rodzaju danych mogą być widma lub chromatogramy uzyskane w wyniku zastosowania popularnych spektroskopowych lub chromatograficznych technik analitycznych. Problem wielowymiarowości związany jest głównie z trudnościami w rzetelnym oszacowaniu parametrów populacyjnych takich jak średnie, wariancje lub kowariancje. Dlatego też celem badań opisanych w rozprawie było opracowanie metodologii pozwalającej na ocenę wartości dowodowej wielowymiarowych danych fizykochemicznych z wykorzystaniem technik chemometrycznych uwidaczniających strukturę danych i eksponujących najistotniejsze cechy w postaci niewielkiej liczby zmiennych stanowiących bazę do konstrukcji modeli ilorazu wiarygodności, będących standardem w ocenie wartości dowodowej danych w naukach sądowych. W badaniach podjęto się rozwiązania tzw. problemu porównawczego, w którym formułowane są następujące hipotezy: H 1 : porównywane próbki pochodzą z tego samego źródła (np. samochodu), H 2 : porównywane próbki nie pochodzą z tego samego źródła. Modele LR zostały zaprojektowane dla bazy danych próbek polimerów zbudowanych w taki sposób, aby jak najwierniej odzwierciedlały rzeczywiste materiały zabezpieczane na miejscu np. wypadku drogowego. Dlatego też część próbek pochodziła z plastikowych elementów nadwozia samochodów (np. zderzaków), a bazę uzupełniała grupa plastikowych pojemników, stanowiących opakowania produktów codziennego użytku (np. kosmetyków), które mogą także stanowić źródło polimerów na miejscu np. wypadku drogowego. W badaniach skupiono się na jednym z najpopularniejszych typów polimerów, jakim jest polipropylen, nie tylko ze względu na jego szerokie zastosowania w przemyśle motoryzacyjnym, ale również ze względu na prostą strukturę uwidaczniającą się w przejrzystych i nieskomplikowanych widmach i chromatogramach. Wbrew pozorom taki wybór materiału stanowił wyzwanie w przypadku, gdy jest on podstawą problemu porównawczego. Jedna z baz danych zawierała informacje o 27 próbkach polipropylenowych analizowanych z wykorzystaniem fourierowskiej spektrometrii w podczerwieni (ang. Fourier transform infrared spectrometry, FTIR), natomiast druga dotyczyła 25 próbek analizowanych z wykorzystaniem pirolitycznej chromatografii gazowej sprzężonej ze spektrometrem mas (ang. pyrolysis gas chromatography mass spectrometry, Py-GC-MS).
3 Głównym założeniem pracy było zaproponowanie takich metod oceny wartości dowodowej w problemie porównawczym widm i chromatogramów polipropylenu, by sformalizować i zobiektywizować stosowaną do tej pory wizualną, a więc subiektywną, ocenę ich podobieństwa. W tym celu skonstruowano kilka hybrydowych modeli LR łączących w sobie zalety technik chemometrycznych oraz podejścia opartego o teorię ilorazu wiarygodności. W badaniach zweryfikowano użyteczność analizy głównych składowych (ang. principal component analysis, PCA), dyskretnej transformacji falkowej (ang. discrete wavelet transform, DWT), liniowej analizy dyskryminacyjnej (ang. linear discriminant analysis, LDA) oraz reprezentacji odległościowej (ang. distance representation, DR) do uzyskania zredukowanej liczby zmiennych w sposób wyczerpujący opisujących cechy analizowanych próbek. W pierwszym modelu zastosowano dyskretną transformację falkową jako metodę redukcji wymiarowości przestrzeni cech. Jej niekwestionowaną zaletą jest możliwość generowania uproszczonej formy widma o mniejszej liczbie danych, ale jednocześnie zachowującej najistotniejsze cechy z punktu widzenia ich interpretacji chemicznej. Zignorowanie współczynników DWT o niskiej amplitudzie pozwoliło na efektywną redukcję wymiarowości danych, a analiza relacji pomiędzy zmiennością między- i wewnątrz-obiektową wspomogła wybór najistotniejszych zmiennych. Rezultaty wykazały, że ostatecznie wybrane zmienne grupują się w trzy zbiory, każdy odnoszący się do odrębnego fragmentu widma. Wśród zaproponowanych modeli jedno-, dwu- i trójwymiarowych, te ostatnie charakteryzowały się najniższym wskaźnikiem błędów fałszywie pozytywnych oraz fałszywie negatywnych. Ponadto obserwacje te zostały potwierdzone stosując empiryczną entropię krzyżową jako metodę uwzględniającą siłę wsparcia każdej z rozpatrywanych hipotez. W drugim modelu klasyczna reprezentacji zmiennych została przekształcona w reprezentację odległościową, w której widma przedstawiono w postaci ich odległości od zestawu widm referencyjnych uwypuklających strukturę ich wzajemnego podobieństwa. Dane w reprezentacji odległościowej zdefiniowanej przez odległość Manhattan, Euklidesa, kwadrat odległości Euklidesa, Chebysheva oraz bazującą na współczynniku korelacji zostały poddane dodatkowo analizie LDA w celu zoptymalizowania relacji między zmiennością między- i wewnątrz-obiektową. Mimo iż metoda ta służy do celów klasyfikacyjnych, jej zdolność do maksymalnej separacji próbek wykorzystano dzięki potraktowaniu każdej próbki jako osobnej klasy. Dla tak przygotowanych danych zaproponowano tzw. naiwne modele LR, w których liczbę zmiennych wytypowano na podstawie algorytmu opartego na kryterium Bayesowskim
4 (ang. Bayesian Information Criterion, BIC). Uzyskane rezultaty podkreśliły przydatność zaproponowanej metodologii, przy czym zwróciły uwagę również na ograniczenia w stosowaniu empirycznej entropii krzyżowej do oceny efektywności modeli zbudowanych dla baz danych o niewielkiej liczbie próbek. Modele LR zaproponowane dla danych uzyskanych z Py-GC-MS zostały zaczerpnięte z metodologii rozwiązywania problemu klasyfikacyjnego w naukach sądowych za pomocą testu ilorazu wiarygodności. Dane zostały poddane analizie PCA przeprowadzonej na średnich dla próbek, by niepotrzebnie nie zwiększać zmienności wewnątrz-obiektowej. W kolejnym etapie dane zostały poddane analizie LDA oraz przedstawione w reprezentacji odległościowej, gdzie odległość zdefiniowana była między każdymi dwoma chromatogramami poddanymi obróbce chemometrycznej. Modele LR skonstruowano w dwojaki sposób jeden uwzględniał klasyczne podejście LR, natomiast w drugim wartość LR uzyskiwano ze stosunku wartości prawdopodobieństw a posteriori obliczonych na podstawie modelu regresji logistycznej. Uzyskane rezultaty potwierdziły użyteczność zaproponowanej metodologii, zarówno pod kątem satysfakcjonujących poziomów błędnych wskazań, jak i redukcji utraty informacji obserwowanej na wykresach empirycznej entropii krzyżowej. Ponadto opracowano modele hybrydowe pozwalające na ocenę łącznej wartości dowodowej danych FTIR oraz Py-GC-MS tzw. analizę dowodu łączonego. Problem ten nabiera na znaczeniu szczególnie w naukach sądowych, gdzie uznaną procedurą jest analiza próbek z wykorzystaniem dwóch odrębnych metod analitycznych o odmiennych podstawach fizykochemicznych. Model ten bazował na wieloblokowej analizie PCA (ang. mulitblock PCA), której wyniki zostały poddane analizie LDA w celu uzyskania optymalnej separacji próbek. Ostatecznie wartość dowodową oceniono stosując test LR, którego efektywność potwierdziła fakt, iż uwzględnienie wyników pochodzących z więcej niż jednej metody pozwala na uzyskanie bardziej rzetelnych rezultatów stanowiących mocniejszą podstawę wnioskowania sądowego. Pionierskim elementem przeprowadzonych badań było połączenie zalet metod chemometrycznych, szczególnie w odniesieniu do redukcji wymiarowości przestrzeni cech, z modelami ilorazu wiarygodności, które stanowią szeroko akceptowaną metodę oceny wartości dowodowej. Utworzenie hybrydowych modeli LR pozwoliło nie tylko na obiektywizację stosowanej do tej pory metody wizualnego porównywania widm lub chromatogramów w celu określenia ich podobieństwa, ale również ocenę tego podobieństwa
5 w sposób ilościowy wyrażony w postaci wartości LR informujących o sile wsparcia dla rozpatrywanych hipotez. Istotnym elementem badań było odniesienie się w zaproponowanych modelach nie tylko do zmiennych uzyskanych w toku przeprowadzonych zabiegów chemometrycznych, niejednokrotnie pozbawionych interpretacji chemicznej, ale do informacji chemicznej niesionej przez widma, co dodatkowo wpływa korzystnie na wiarygodność proponowanych modeli hybrydowych. Warto zwrócić uwagę, iż w badaniach nietypowo wykorzystano zalety liniowej analizy dyskryminacyjnej do maksymalnej separacji próbek w problemie porównawczym, mimo iż technika ta należy do metod klasyfikacyjnych. Ponadto w modelach skonstruowanych dla danych uzyskanych z techniki Py-GC-MS zaproponowano pionierskie rozwiązanie problemu porównawczego korzystając z klasycznej koncepcji problemu klasyfikacyjnego w naukach sądowych, co pozwoliło na zmniejszenie stopnia skomplikowania i złożoności obliczeniowej modeli. Przedstawione wyniki badań jednoznacznie wskazują, iż hybrydowe modele LR łączące metody chemometryczne z modelami ilorazu wiarygodności pozwalają na rozwiązanie problemu porównawczego baz danych próbek polipropylenu opisanych za pomocą widm FTIR i chromatogramów Py-GC-MS mimo niewielkiej liczby zgromadzonych próbek, co również jest elementem nowości opisanych badań. Problem ten staje się szczególnie istotny ze względu na coraz większą różnorodność materiału dowodowego, co pociąga za sobą konieczność budowy odpowiednich baz danych. Dlatego też zastosowanie metodologii niewymagających dużej liczby próbek do uzyskania rzetelnych rezultatów pozwala na oszczędność czasu i środków w postępowaniu sądowym. Ważnym aspektem badań było dostosowanie metod walidacyjnych zaproponowanych modeli do sytuacji rzeczywistych spraw sądowych, tak by były one kompatybilne z praktyką i możliwe do bezpośredniej aplikacji. Warto też wspomnieć, iż zaproponowane modele hybrydowe zostały przetestowane również do rozwiązania problemu porównawczego widm Ramana dla niebieskich lakierów samochodowych, co dodatkowo potwierdza ich uniwersalność. Natomiast użyteczność modeli LR była także testowana przez Autorkę w ramach interpretacji danych o mniejszej wymiarowości pochodzących z analiz niebieskich past długopisowych metodą mikrospektrofotometrii w zakresie widzialnym (MSP-Vis), próbek win włoskich opisanych przez 27 parametrów fizykochemicznych oraz stosunków izotopów ołowiu w próbkach szkieł wyznaczonych metodą spektrometrii mas stosunków izotopowych.
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu
Elementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Opis zakładanych efektów kształcenia na studiach podyplomowych WIEDZA
Opis zakładanych efektów kształcenia na studiach podyplomowych Nazwa studiów: BIOSTATYSTYKA PRAKTYCZNE ASPEKTY STATYSTYKI W BADANIACH MEDYCZNYCH Typ studiów: doskonalące Symbol Efekty kształcenia dla studiów
ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA. dr inż. Aleksander Astel
ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA dr inż. Aleksander Astel Gdańsk, 22.12.2004 CHEMOMETRIA dziedzina nauki i techniki zajmująca się wydobywaniem użytecznej informacji z wielowymiarowych
KLASYFIKACJA. Słownik języka polskiego
KLASYFIKACJA KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu
WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno
WSTĘP DO REGRESJI LOGISTYCZNEJ Dr Wioleta Drobik-Czwarno REGRESJA LOGISTYCZNA Zmienna zależna jest zmienną dychotomiczną (dwustanową) przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być:
Kurs Chemometrii Poznań 28 listopad 2006
Komisja Nauk Chemicznych Polskiej Akademii Nauk Oddział w Poznaniu Wydział Technologii Chemicznej Politechniki Poznańskiej w Poznaniu GlaxoSmithKline Pharmaceuticals S.A. w Poznaniu Stowarzyszenie ISPE
ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU
ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU obraz dr inż. Jacek Naruniec Analiza Składowych Niezależnych (ICA) Independent Component Analysis Dąży do wyznaczenia zmiennych niezależnych z obserwacji Problem opiera
1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie
Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty
STRESZCZENIE. rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne.
STRESZCZENIE rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne. Zasadniczym czynnikiem stanowiącym motywację dla podjętych w pracy rozważań
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący
Wprowadzenie do analizy korelacji i regresji
Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących
Transformacja wiedzy w budowie i eksploatacji maszyn
Uniwersytet Technologiczno Przyrodniczy im. Jana i Jędrzeja Śniadeckich w Bydgoszczy Wydział Mechaniczny Transformacja wiedzy w budowie i eksploatacji maszyn Bogdan ŻÓŁTOWSKI W pracy przedstawiono proces
Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817
Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817 Zadanie 1: wiek 7 8 9 1 11 11,5 12 13 14 14 15 16 17 18 18,5 19 wzrost 12 122 125 131 135 14 142 145 15 1 154 159 162 164 168 17 Wykres
Hierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE
UNIWERSYTET WARMIŃSKO-MAZURSKI W OLSZTYNIE PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE http://matman.uwm.edu.pl/psi e-mail: psi@matman.uwm.edu.pl ul. Słoneczna 54 10-561
STATYSTYKA EKONOMICZNA
STATYSTYKA EKONOMICZNA Analiza statystyczna w ocenie działalności przedsiębiorstwa Opracowano na podstawie : E. Nowak, Metody statystyczne w analizie działalności przedsiębiorstwa, PWN, Warszawa 2001 Dr
Modelowanie jako sposób opisu rzeczywistości. Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka
Modelowanie jako sposób opisu rzeczywistości Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka 2015 Wprowadzenie: Modelowanie i symulacja PROBLEM: Podstawowy problem z opisem otaczającej
Skalowanie wielowymiarowe idea
Skalowanie wielowymiarowe idea Jedną z wad metody PCA jest możliwość używania jedynie zmiennych ilościowych, kolejnym konieczność posiadania pełnych danych z doświadczenia(nie da się użyć PCA jeśli mamy
METODY STATYSTYCZNE W BIOLOGII
METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
Wnioskowanie bayesowskie
Wnioskowanie bayesowskie W podejściu klasycznym wnioskowanie statystyczne oparte jest wyłącznie na podstawie pobranej próby losowej. Możemy np. estymować punktowo lub przedziałowo nieznane parametry rozkładów,
METODY STATYSTYCZNE W BIOLOGII
METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne
METODY STATYSTYCZNE W BIOLOGII
METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne
CHEMOMETRYCZNE PODEJŚCIE W POSZUKIWANIU MARKERÓW AUTENTYCZNOŚCI POLSKICH ODMIAN MIODÓW
CHEMOMETRYCZNE PODEJŚCIE W POSZUKIWANIU MARKERÓW AUTENTYCZNOŚCI POLSKICH ODMIAN MIODÓW Maria Chudzińska, Pracownia Analizy Spektroskopowej Pierwiastków, Wydział Chemii, Uniwersytet im. Adama Mickiewicza
Metoda największej wiarygodności
Rozdział Metoda największej wiarygodności Ogólnie w procesie estymacji na podstawie prób x i (każde x i może być wektorem) wyznaczamy parametr λ (w ogólnym przypadku również wektor) opisujący domniemany
Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,
Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której
Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
Statystyka matematyczna dla leśników
Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje
ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x
ZJAZD 4 KORELACJA, BADANIE NIEZALEŻNOŚCI, ANALIZA REGRESJI Analiza korelacji i regresji jest działem statystyki zajmującym się badaniem zależności i związków pomiędzy rozkładami dwu lub więcej badanych
RÓWNOWAŻNOŚĆ METOD BADAWCZYCH
RÓWNOWAŻNOŚĆ METOD BADAWCZYCH Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska Równoważność metod??? 2 Zgodność wyników analitycznych otrzymanych z wykorzystaniem porównywanych
Klasyfikacja LDA + walidacja
Klasyfikacja LDA + walidacja Dr hab. Izabela Rejer Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Plan wykładu 1. Klasyfikator 2. LDA 3. Klasyfikacja wieloklasowa 4. Walidacja
Badania biegłości laboratorium poprzez porównania międzylaboratoryjne
Badania biegłości laboratorium poprzez porównania międzylaboratoryjne Dr inż. Maciej Wojtczak, Politechnika Łódzka Badanie biegłości (ang. Proficienty testing) laboratorium jest to określenie, za pomocą
STATYSTYKA I DOŚWIADCZALNICTWO
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 9 Analiza skupień wielowymiarowa klasyfikacja obiektów Metoda, a właściwie to zbiór metod pozwalających na grupowanie obiektów pod względem wielu cech jednocześnie.
Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne
Wprowadzenie Prostym podejściem do klasyfikacji jest estymacja funkcji regresji r(x) =E(Y X =x)zpominięciemestymacjigęstościf k. Zacznijmyodprzypadkudwóchgrup,tj.gdy Y = {1,0}. Wówczasr(x) =P(Y =1 X =x)ipouzyskaniuestymatora
Zmienne zależne i niezależne
Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }
Samochodowy system detekcji i rozpoznawania znaków drogowych. Sensory w budowie maszyn i pojazdów Maciej Śmigielski
Samochodowy system detekcji i rozpoznawania znaków drogowych Sensory w budowie maszyn i pojazdów Maciej Śmigielski Rozpoznawanie obrazów Rozpoznawaniem obrazów możemy nazwać proces przetwarzania i analizowania
Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
5. Analiza dyskryminacyjna: FLD, LDA, QDA
Algorytmy rozpoznawania obrazów 5. Analiza dyskryminacyjna: FLD, LDA, QDA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Liniowe funkcje dyskryminacyjne Liniowe funkcje dyskryminacyjne mają ogólną
POTWIERDZANIE TOŻSAMOSCI PRZY ZASTOSOWANIU RÓŻNYCH TECHNIK ANALITYCZNYCH
POTWIERDZANIE TOŻSAMOSCI PRZY ZASTOSOWANIU RÓŻNYCH TECHNIK ANALITYCZNYCH WSTĘP Spełnianie wymagań jakościowych stawianych przed producentami leków jest kluczowe dla zapewnienia bezpieczeństwa pacjenta.
Szkolenie Analiza dyskryminacyjna
Szkolenie Analiza dyskryminacyjna program i cennik Łukasz Deryło Analizy statystyczne, szkolenia www.statystyka.c0.pl Szkolenie Analiza dyskryminacyjna Co to jest analiza dyskryminacyjna? Inną nazwą analizy
10 czerwca 2016r., Warszawa
10 czerwca 2016r., Warszawa Techniki chemometryczne stosowane w opracowywaniu metod ilościowych i jakościowych Walidacja metod jakościowych Walidacja modeli ilościowych Praca z urządzeniem i obsługującym
Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa.
Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa. Paweł Strawiński Uniwersytet Warszawski Wydział Nauk Ekonomicznych 16 stycznia 2006 Streszczenie W artykule analizowane są właściwości
FFT i dyskretny splot. Aplikacje w DSP
i dyskretny splot. Aplikacje w DSP Marcin Jenczmyk m.jenczmyk@knm.katowice.pl Wydział Matematyki, Fizyki i Chemii 10 maja 2014 M. Jenczmyk Sesja wiosenna KNM 2014 i dyskretny splot 1 / 17 Transformata
Metody selekcji cech
Metody selekcji cech A po co to Często mamy do dyspozycji dane w postaci zbioru cech lecz nie wiemy które z tych cech będą dla nas istotne. W zbiorze cech mogą wystąpić cechy redundantne niosące identyczną
Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii
SPIS TREŚCI Przedmowa... 11 Wykaz symboli... 15 Litery alfabetu greckiego wykorzystywane w podręczniku... 15 Symbole wykorzystywane w zagadnieniach teorii mnogości (rachunku zbiorów)... 16 Symbole stosowane
Idea. Analiza składowych głównych Analiza czynnikowa Skalowanie wielowymiarowe Analiza korespondencji Wykresy obrazkowe.
Idea (ang. Principal Components Analysis PCA) jest popularnym używanym narzędziem analizy danych. Na metodę tę można spojrzeć jak na pewną technikę redukcji wymiarowości danych. Jest to metoda nieparametryczna,
4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74
3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15
Mail: Pokój 214, II piętro
Wykład 2 Mail: agnieszka.nowak@us.edu.pl Pokój 214, II piętro http://zsi.tech.us.edu.pl/~nowak Predykcja zdolność do wykorzystania wiedzy zgromadzonej w systemie do przewidywania wartości dla nowych danych,
Sterowanie jakością badań i analiza statystyczna w laboratorium
Sterowanie jakością badań i analiza statystyczna w laboratorium CS-17 SJ CS-17 SJ to program wspomagający sterowanie jakością badań i walidację metod badawczych. Może działać niezależnie od innych składników
Spis treści 3 SPIS TREŚCI
Spis treści 3 SPIS TREŚCI PRZEDMOWA... 1. WNIOSKOWANIE STATYSTYCZNE JAKO DYSCYPLINA MATEMATYCZNA... Metody statystyczne w analizie i prognozowaniu zjawisk ekonomicznych... Badania statystyczne podstawowe
Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji
Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Jacek Szcześniak Jerzy Błaszczyński Roman Słowiński Poznań, 5.XI.2013r. Konspekt Wstęp Wprowadzenie Metody typu wrapper Nowe metody
Modyfikacja algorytmów retransmisji protokołu TCP.
Modyfikacja algorytmów retransmisji protokołu TCP. Student Adam Markowski Promotor dr hab. Michał Grabowski Cel pracy Celem pracy było przetestowanie i sprawdzenie przydatności modyfikacji klasycznego
Analiza wariancji - ANOVA
Analiza wariancji - ANOVA Analiza wariancji jest metodą pozwalającą na podział zmienności zaobserwowanej wśród wyników eksperymentalnych na oddzielne części. Każdą z tych części możemy przypisać oddzielnemu
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów
Proces badawczy schemat i zasady realizacji
Proces badawczy schemat i zasady realizacji Agata Górny Zaoczne Studia Doktoranckie z Ekonomii Warszawa, 23 października 2016 Metodologia i metoda naukowa 1 Metodologia Metodologia nauka o metodach nauki
Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU
Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów
3. Modele tendencji czasowej w prognozowaniu
II Modele tendencji czasowej w prognozowaniu 1 Składniki szeregu czasowego W teorii szeregów czasowych wyróżnia się zwykle następujące składowe szeregu czasowego: a) składowa systematyczna; b) składowa
KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4
KARTA KURSU (do zastosowania w roku ak. 2015/16) Nazwa Statystyka 1 Nazwa w j. ang. Statistics 1 Kod Punktacja ECTS* 4 Koordynator Dr hab. Tadeusz Sozański (koordynator, wykłady) Dr Paweł Walawender (ćwiczenia)
Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych
Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych autor: Robert Drab opiekun naukowy: dr inż. Paweł Rotter 1. Wstęp Zagadnienie generowania trójwymiarowego
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Analiza autokorelacji
Analiza autokorelacji Oblicza się wartości współczynników korelacji między y t oraz y t-i (dla i=1,2,...,k), czyli współczynniki autokorelacji różnych rzędów. Bada się statystyczną istotność tych współczynników.
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej
Podstawowe modele probabilistyczne
Wrocław University of Technology Podstawowe modele probabilistyczne Maciej Zięba maciej.zieba@pwr.edu.pl Rozpoznawanie Obrazów, Lato 2018/2019 Pojęcie prawdopodobieństwa Prawdopodobieństwo reprezentuje
Analiza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
Wydział Matematyki. Testy zgodności. Wykład 03
Wydział Matematyki Testy zgodności Wykład 03 Testy zgodności W testach zgodności badamy postać rozkładu teoretycznego zmiennej losowej skokowej lub ciągłej. Weryfikują one stawiane przez badaczy hipotezy
Opinia o pracy doktorskiej pt. On active disturbance rejection in robotic motion control autorstwa mgr inż. Rafała Madońskiego
Prof. dr hab. inż. Tadeusz Uhl Katedra Robotyki i Mechatroniki Akademia Górniczo Hutnicza Al. Mickiewicza 30 30-059 Kraków Kraków 09.06.2016 Opinia o pracy doktorskiej pt. On active disturbance rejection
ALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Model 1: Estymacja KMNK z wykorzystaniem 4877 obserwacji Zmienna zależna: y
Zadanie 1 Rozpatrujemy próbę 4877 pracowników fizycznych, którzy stracili prace w USA miedzy rokiem 1982 i 1991. Nie wszyscy bezrobotni, którym przysługuje świadczenie z tytułu ubezpieczenia od utraty
OFERTA TEMATÓW PROJEKTÓW DYPLOMOWYCH (MAGISTERSKICH) do zrealizowania w Katedrze INŻYNIERII CHEMICZNEJ I PROCESOWEJ
OFERTA TEMATÓW PROJEKTÓW DYPLOMOWYCH (MAGISTERSKICH) do zrealizowania w Katedrze INŻYNIERII CHEMICZNEJ I PROCESOWEJ Badania kinetyki utleniania wybranych grup związków organicznych podczas procesów oczyszczania
Najprostszy schemat blokowy
Definicje Modelowanie i symulacja Modelowanie zastosowanie określonej metodologii do stworzenia i weryfikacji modelu dla danego układu rzeczywistego Symulacja zastosowanie symulatora, w którym zaimplementowano
Optymalizacja systemów
Optymalizacja systemów Laboratorium - problem detekcji twarzy autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, P. Klukowski Cel zadania Celem zadania jest zapoznanie się z gradientowymi algorytmami optymalizacji
Summary in Polish. Fatimah Mohammed Furaiji. Application of Multi-Agent Based Simulation in Consumer Behaviour Modeling
Summary in Polish Fatimah Mohammed Furaiji Application of Multi-Agent Based Simulation in Consumer Behaviour Modeling Zastosowanie symulacji wieloagentowej w modelowaniu zachowania konsumentów Streszczenie
Stanisław Cichocki. Natalia Nehrebecka
Stanisław Cichocki Natalia Nehrebecka - adres mailowy: nnehrebecka@wne.uw.edu.pl - strona internetowa: www.wne.uw.edu.pl/nnehrebecka - dyżur: wtorek 18.30-19.30 sala 302 lub 303 - 80% oceny: egzaminy -
Rzędy wiązań chemicznych
Seminarium Magisterskie Rzędy wiązań chemicznych w ujęciu Teorii Komunikacji Opracowanie Dariusz Szczepanik Promotor Dr hab. Janusz Mrozek Rzędy wiązań chemicznych w ujęciu Teorii Komunikacji Plan prezentacji
Psychometria PLAN NAJBLIŻSZYCH WYKŁADÓW. Co wyniki testu mówią nam o samym teście? A. Rzetelność pomiaru testem. TEN SLAJD JUŻ ZNAMY
definicja rzetelności błąd pomiaru: systematyczny i losowy Psychometria Co wyniki testu mówią nam o samym teście? A. Rzetelność pomiaru testem. rozkład X + błąd losowy rozkład X rozkład X + błąd systematyczny
Etapy modelowania ekonometrycznego
Etapy modelowania ekonometrycznego jest podstawowym narzędziem badawczym, jakim posługuje się ekonometria. Stanowi on matematyczno-statystyczną formę zapisu prawidłowości statystycznej w zakresie rozkładu,
Opis przedmiotu. B. Ogólna charakterystyka przedmiotu
Opis przedmiotu Kod przedmiotu TR.NMK402 Nazwa przedmiotu Praca dyplomowa magisterska Wersja przedmiotu 2015/16 A. Usytuowanie przedmiotu w systemie studiów Poziom kształcenia Studia II stopnia Forma i
KORELACJE I REGRESJA LINIOWA
KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem
Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ
Współczynnik korelacji Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Własności współczynnika korelacji 1. Współczynnik korelacji jest liczbą niemianowaną 2. ϱ 1,
Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1
Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie
Metody badawcze. Metodologia Podstawowe rodzaje metod badawczych
Metody badawcze Metodologia Podstawowe rodzaje metod badawczych Metoda badawcza Metoda badawcza to sposób postępowania (poznania naukowego). planowych i celowych sposobach postępowania badawczego. Muszą
Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów
Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,
Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna
Regresja wieloraka Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować
Proces badawczy schemat i zasady realizacji
Proces badawczy schemat i zasady realizacji Agata Górny Zaoczne Studia Doktoranckie z Ekonomii Warszawa, 14 grudnia 2014 Metodologia i metoda badawcza Metodologia Zadania metodologii Metodologia nauka
Metody chemiczne w analizie biogeochemicznej środowiska. (Materiał pomocniczy do zajęć laboratoryjnych)
Metody chemiczne w analizie biogeochemicznej środowiska. (Materiał pomocniczy do zajęć laboratoryjnych) Metody instrumentalne podział ze względu na uzyskane informację. 1. Analiza struktury; XRD (dyfrakcja
MODELE LINIOWE. Dr Wioleta Drobik
MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą
Moduły kształcenia. Efekty kształcenia dla programu kształcenia (kierunku) MK_06 Krystalochemia. MK_01 Chemia fizyczna i jądrowa
Matryca efektów kształcenia określa relacje między efektami kształcenia zdefiniowanymi dla programu kształcenia (efektami kierunkowymi) i efektami kształcenia zdefiniowanymi dla poszczególnych modułów
Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania
Analiza skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza Skupień Elementy składowe procesu grupowania obiekt Ekstrakcja cech Sprzężenie zwrotne Grupowanie klastry Reprezentacja
VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15
VI WYKŁAD STATYSTYKA 9/04/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 6 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI Weryfikacja hipotez ( błędy I i II rodzaju, poziom istotności, zasady
Sylabus. Zaawansowana analiza danych eksperymentalnych Advanced analysis of experimental data
Sylabus Nazwa przedmiotu (w j. polskim i angielskim) Nazwisko i imię prowadzącego (stopień i tytuł naukowy) Zaawansowana analiza danych eksperymentalnych Advanced analysis of experimental data dr Grzegorz
6 C2A_W02_03 Ma wiedzę z zakresu logistyki produktów przerobu ropy naftowej i produktów polimerowych.
Efekty dla studiów drugiego stopnia profil ogólnoakademicki na kierunku Technologia Chemiczna na Wydziale Budownictwa Mechaniki i Petrochemii w Płocku, gdzie: * Odniesienie- oznacza odniesienie do efektów
Definicje. Najprostszy schemat blokowy. Schemat dokładniejszy
Definicje owanie i symulacja owanie zastosowanie określonej metodologii do stworzenia i weryfikacji modelu dla danego rzeczywistego Symulacja zastosowanie symulatora, w którym zaimplementowano model, do
Opis efektów uczenia się dla kwalifikacji na poziomie 7 Polskiej Ramy Kwalifikacji
Załącznik nr 2 do Uchwały nr 103/2018-2019 Senatu UP w Lublinie z dnia 28 czerwca 2019 r. Opis efektów uczenia się dla kierunku studiów Nazwa kierunku studiów: Biologia Poziom: studia drugiego stopnia
NIEPEWNOŚĆ W OKREŚLENIU PRĘDKOŚCI EES ZDERZENIA SAMOCHODÓW WYZNACZANEJ METODĄ EKSPERYMENTALNO-ANALITYCZNĄ
NIEPEWNOŚĆ W OKREŚLENIU PRĘDKOŚCI EES ZDERZENIA SAMOCHODÓW WYZNACZANEJ METODĄ EKSPERYMENTALNO-ANALITYCZNĄ Karol SZTWIERTNIA 1, Marek GUZEK, Janusz JANUŁA 3 Streszczenie Przedmiotem artykułu jest niepewność
Materiał obowiązujący do ćwiczeń z analizy instrumentalnej II rok OAM
Materiał obowiązujący do ćwiczeń z analizy instrumentalnej II rok OAM Ćwiczenie 1 Zastosowanie statystyki do oceny metod ilościowych Błąd gruby, systematyczny, przypadkowy, dokładność, precyzja, przedział
Klasteryzacja i klasyfikacja danych spektrometrycznych
Klasteryzacja i klasyfikacja danych spektrometrycznych Współpraca: Janusz Dutkowski, Anna Gambin, Krzysztof Kowalczyk, Joanna Reda, Jerzy Tiuryn, Michał Dadlez z zespołem (IBB PAN) Instytut Informatyki
Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta
Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta www.michalbereta.pl Sieci radialne zawsze posiadają jedną warstwę ukrytą, która składa się z neuronów radialnych. Warstwa wyjściowa składa
Przykładowa analiza danych
Przykładowa analiza danych W analizie wykorzystano dane pochodzące z publicznego repozytorium ArrayExpress udostępnionego na stronach Europejskiego Instytutu Bioinformatyki (http://www.ebi.ac.uk/). Zbiór