Kreator testów i inne nowości w Zestawie Plus Paweł Januszewski Mateusz Żołneczko StatSoft Polska Zastosowania statystyki i data mining w badaniach naukowych Warszawa, 12 X 2016
Nowości w Zestawie Plus Zestaw Plus: Zestaw zaawansowanych narzędzi do pogłębionej analizy danych w różnych obszarach nauki i biznesu.
Moduły Kreator testów Porównanie i ocena metod: Granice wykrywalności Regresja Passinga-Babloka i Deminga Wykres Youdena Wykres górkowy Układy niestandardowe ANOVA: Split-plot, split-block i bloki randomizowane Test dla układu naprzemiennego prostego Test dla układu naprzemiennego podwójnego Analizy dodatkowe: Przedziały odniesienia Ciągi pomiarów Analiza AMMI Konfiguracyjna analiza częstości Podział na podpróby
Moduły Kreator testów Porównanie i ocena metod: Granice wykrywalności Regresja Passinga-Babloka i Deminga Wykres Youdena Wykres górkowy Układy niestandardowe ANOVA: Split-plot, split-block i bloki randomizowane Test dla układu naprzemiennego prostego Test dla układu naprzemiennego podwójnego Analizy dodatkowe: Przedziały odniesienia Ciągi pomiarów Analiza AMMI Konfiguracyjna analiza częstości Podział na podpróby
Kreator testów
Kreator testów Dostępne rodzaje testów
Kreator testów Rodzaje prób Liczba grup Skala pomiaru GRUPY NIEZALEŻNE (NIEPOWIĄZANE) 2 grupy więcej niż 2 grupy zmienna ilościowa zmienna jakościowa zmienna ilościowa zmienna jakościowa porządkowa nominalna porządkowa nominalna rozkład normalny? TAK równe wariancje? TAK NIE NIE rozkład normalny? TAK równe wariancje? TAK NIE NIE test t-studenta test Welcha test Manna- Whitneya test chi 2 lub Fishera (dokładny) ANOVA testy post-hoc test Kruskala- Wallisa testy post-hoc test chi 2
Kreator testów Zalety Badacz nie musi zajmować się sprawdzaniem założeń testów statystycznych Analizy wykonują się automatycznie, co przyśpiesza pracę również dla bardziej zaawansowanych użytkowników Automatyczne generowanie raportów Możliwość eksportu wyników do dokumentu MS Word
Moduły Kreator testów Porównanie i ocena metod: Granice wykrywalności Regresja Passinga-Babloka i Deminga Wykres Youdena Wykres górkowy Układy niestandardowe ANOVA: Split-plot, split-block i bloki randomizowane Test dla układu naprzemiennego prostego Test dla układu naprzemiennego podwójnego Analizy dodatkowe: Przedziały odniesienia Ciągi pomiarów Analiza AMMI Konfiguracyjna analiza częstości Podział na podpróby
Granice wykrywalności Próbujemy za pomocą testów laboratoryjnych wykrywać obecność pewnej substancji w roztworze. Przy jakim stężeniu test da pozytywny wynik z prawdopodobieństwem 95%? Analiza metodą probitową zgodna z wytycznymi CLSI.
Granice wykrywalności Granice wyznaczane są jako punkty przecięcia krzywych dopasowanych do wyników pomiarów z ustalonym poziomem wykrywalności:
Wykres Youdena Posiadamy wyniki wykonywanych w różnych laboratoriach dwukrotnych pomiarów (pomiar(1), pomiar(2)). Jeśli pomiar(1) pomiar(2) w danym laboratorium, to wyniki pomiarów są obarczone znacznym błędem losowym. Jeśli pomiar(1) pomiar(2), ale wartość ta oddalona jest od wartości pomiarów skądinąd, to wskazuje to na znaczny błąd systematyczny tamtejszej metody.
Wykres Youdena Wykres z okręgami c% (c = 90, 95 lub 99): Okrąg c% przeciętnie zawiera c% punktów jeśli by usunąć z pomiarów błędy systematyczne - wynikające z metody pomiaru w danym laboratorium.
Wykres Youdena Wykres z prostokątami bsd (b = 1, 2 lub 3): Połowa boku prostokąta bsd jest długości b razy odpowiednie odchylenie standardowe.
Wykres górkowy Mamy wyniki pomiarów różnymi metodami poddawanymi ocenie oraz metodą, względem której się odnosimy:
Wykres górkowy Na wykresie widnieją percentyle różnic wartości pomiarów: Szczyt im dalej od zera, tym większe obciążenie metody. Podstawa górki im węższa, tym mniejsza rozbieżność metod.
Regresja Passinga-Babloka i Deminga Istotnie różne od regresji liniowej metody służące do zbadania równoważności dwu metod pomiarowych bez uwzględniania związków przyczynowych między nimi. Jeśli dwie metody są równoważne, to lepiej wybrać tańszą i mniej żmudną.
Regresja Passinga-Babloka i Deminga Regresja Passinga-Babloka służy do sprawdzania równoważności metod pomiaru. Wartości p w wynikach dotyczą testów badających liniowość zależności oraz czy współczynnik nachylenia jest równy 1.
Regresja Passinga-Babloka i Deminga Regresja Deminga dodatkowo pozwala na ocenę zależności liniowej obydwu sposobów pomiaru. Wartości p w wynikach dotyczą testów badających czy współczynnik nachylenia wynosi 1 a wyraz wolny 0.
Moduły Kreator testów Porównanie i ocena metod: Granice wykrywalności Regresja Passinga-Babloka i Deminga Wykres Youdena Wykres górkowy Układy niestandardowe ANOVA: Split-plot, split-block i bloki randomizowane Test dla układu naprzemiennego prostego Test dla układu naprzemiennego podwójnego Analizy dodatkowe: Przedziały odniesienia Ciągi pomiarów Analiza AMMI Konfiguracyjna analiza częstości Podział na podpróby
Split-plot, split-block i bloki randomizowane Rodzaje analizy wariancji wielkości plonu w doświadczeniach rolniczych. W każdym z trzech rodzajów tych analiz, po wskazaniu odpowiednich zmiennych, program uwzględni odpowiednie czynniki, interakcje i składniki wariancji względem których ma być testowana istotność.
Test dla układu naprzemiennego prostego Oceniamy czy lek badany (B) jest biorównoważny lekowi referencyjnemu (A). Oznacza to np., że 80% μ(a) < μ(b) < 120% μ(a), gdzie μ jest pewnym miarodajnym wskaźnikiem działania leku. Grupa I Tura I A Tura II B Grupa II B A
Test dla układu naprzemiennego prostego Test jest nieparametryczny nie zakłada normalności rozkładu. Głównymi wynikami są minimalny poziom istotności, przy którym możemy stwierdzić biorównoważność oraz wielkości wynikające z estymatora Hodgesa-Lehmanna.
Test dla układu naprzemiennego podwójnego Ponownie porównujemy dwa leki: (A) z (B), lecz tym razem układ badania jest bardziej złożony: Grupa I Grupa II Grupa III Grupa IV Tura I A A B B Tura II B B A A
Test dla układu naprzemiennego podwójnego Niniejszy test jest parametryczny i główne wyniki mają postać jak w analizie wariancji. Towarzyszy im odpowiedni wykres ukazujący dane surowe i wartości średnie:
Moduły Kreator testów Porównanie i ocena metod: Granice wykrywalności Regresja Passinga-Babloka i Deminga Wykres Youdena Wykres górkowy Układy niestandardowe ANOVA: Split-plot, split-block i bloki randomizowane Test dla układu naprzemiennego prostego Test dla układu naprzemiennego podwójnego Analizy dodatkowe: Przedziały odniesienia Ciągi pomiarów Analiza AMMI Konfiguracyjna analiza częstości Podział na podpróby
Przedziały odniesienia Przedział odniesienia najczęściej oznacza środkowe 95% wartości pomiarów u zdrowej populacji, np. liczby krwinek ustalonego rodzaju w jednostce objętości krwi. 2,5% 95% 2,5% Przedziały odniesienia są najpowszechniejszym narzędziem decyzyjnym w badaniach medycznych. Stwierdzamy na ich podstawie czy wynik badanej osoby leży w zakresie typowych wartości.
Przedziały odniesienia Zebraliśmy obserwacje liczbowe: 28, 90, -17, 11, 9, 151, : Chcemy wyznaczyć przedział, do którego trafia większość obserwacji, najczęściej znaczna jak 90%, 95% czy 99%: 5% 90% 5%
Przedziały odniesienia Wyniki liczbowe: Metoda parametryczna/percentylowa/wg wytycznych CLSI Wykres: Przedziały odniesienia i p. ufności ich końców + dane surowe
Ciągi pomiarów Posiadamy wyniki pomiarów zbieranych przez pewien czas u pacjentów należących do różnych grup, np. stężenia we krwi substancji leczniczej po podaniu leku.
Ciągi pomiarów Czy przynależność do grupy wpływa na pewien parametr obliczany z takich danych? 13 rodzajów parametrów, w tym: - pole pod krzywą - wartość największa - czas do jej osiągnięcia - wartość średnia - odsetek czasu powyżej pewnej wartości
Ciągi pomiarów Test istotności różnic między grupami, z możliwością samoczynnego wyboru testu: Statystyki opisowe w grupach oraz podsumowanie wartości parametru dla wszystkich pacjentów. Wykresy przebiegu wartości pomiarów.
AMMI Badamy w doświadczeniach rolniczych wpływ odmiany (genotypu) i miejsca (środowiska) na wielkość plonu. żyto #1 żyto #2 żyto #3 BS LU CH SW Plon zazwyczaj zbieramy wielokrotnie dla każdego układu obydwu powyższych czynników.
AMMI Analiza AMMI uwzględnia szczególną postać interakcji obydwu czynników odmiany i miejsca. Z członu interakcji wydzielamy składowe, wkład każdej jest ukazany w arkuszu z wynikami:
AMMI Wynikom liczbowym towarzyszą wykresy podwójne (biploty):
Konfiguracyjna analiza częstości (CFA) CFA (Configural frequency analysis) Narzędzie do analizy tabel wielodzielczych Ranek Południe Popołudnie Wieczór SUMA Kobieta 140 84 74 179 477 Mężczyzna 67 100 23 129 319 SUMA 207 184 97 308 N=796
Konfiguracyjna analiza częstości (CFA) Do czego nam potrzebna? CFA odpowiada na pytanie: Czy w badanym zjawisku istnieją pewne wzorce kategorii zmiennych występujące częściej/rzadziej niż oczekiwano? Częściej: TYP Rzadziej: ANTYTYP
Konfiguracyjna analiza częstości (CFA) Przykład 1: Wizyty w aptece Ranek Południe Popołudnie Wieczór SUMA Kobieta 140 (124) 84 (110) 74 (58) 179 (185) 477 Mężczyzna 67 (82) 100 (74) 23 (39) 129 (123) 319 SUMA 207 184 97 308 N=796
Konfiguracyjna analiza częstości (CFA) Wyniki:
Konfiguracyjna analiza częstości (CFA) Przykład 2: Sprzedaż produktów Problem: Analiza sprzedaży produktów w podziale na kanał sprzedaży, kategorię produktu i region. Dane: Ponad 20000 transakcji 3 regiony 4 kanały sprzedaży 6 kategorii produktów
Konfiguracyjna analiza częstości (CFA) Wyniki:
Podział na podpróby Narzędzie ułatwiające podział danych w celu budowy/testowania modeli predykcyjnych
Podział na podpróby Tworzone podzbiory: Uczący Testowy Walidacyjny (opcjonalnie) Opcje podziału Prosty podział Zbalansuj uczący Analiza skupień Uczeni e G1 Pełna Pełna próba próba G2 Pełna próba Uczący Testowy Walidacjny Test Wa G3 lidacja
D Dziękujemy za uwagę