UNIWERSYTET IM. ADAMA MICKIEWICZA W POZNANIU Wydział Nauk Społecznych Instytut Psychologii Pomiar 2017, Paweł Kleka Metodologia badania naukowego Wnioskowanie statystyczne Mierzenie jest korelowaniem liczb z jednostkami, które nie są liczbami - E. Nagel Pomiar Pozyskiwanie informacji jest pomiarem, a zbierane informacje są danymi Pomiar to proces przyporządkowania symboli liczbowych obiektom lub faktom wg określonych reguł - S. Stevens
Od pomiaru do zmiennych Skala nominalna pomiar składa się z 2 lub więcej kategorii oznaczonych nazwami dane surowe dane przeliczone dane przetworzone zmienne wg tej skali możemy tylko konstruować typologie i klasyfikacje zasadniczą operacja jest stwierdzenie różności lub podobieństwa skale nominalne mają własności symetryczności (jeżeli jest relacja A-B to jest też B-A) i przechodniości (A=B i B=C to A=C) 4 poziomy zmiennych wg Stevensa skala nominalna - zastosowanie Skala nominalna (np.: płeć) Skala porządkowa (np.: wykształcenie) Skala interwałowa (np.: temperatura w C - umowne 0) Skala ilorazowa (np.: wzrost - bezwzględne 0) badania eksploracyjne (odkrywające) stwierdzić fakt zależności między 2 cechami, nie interesuje zaś ścisła matematyczna formuła tej zależności operacje matematyczne i statystyczne na tym poziomie: liczba przypadków - zliczanie częstotliwość występowania [%] współczynnik zależności typu chi 2 lub phi 2 '
skala porządkowa skala interwałowa określa względną pozycję objektów, ale nie określa dystansu pomiędzy nimi można uporządkować kategorie wg stopnia posiadania cechy ale bez określenia natężenia tej cechy najważniejszy wymóg tej skali to szeregowanie. Jest to taka operacja, która zakłada ustalenie większości, mniejszości lub równości pomiędzy klasami obiektów: asymetryczność (jeśli A>B to nie B>A) przechodniość (A>B i B>C to A>C) skala pomiarowa z jednostką pomiaru Nie da się opisać stosunku dwóch obiektów ze względu na mierzoną cechę, np. ciało o temperaturze 40 stopni nie jest dwa razy cieplejsze od ciała o temperaturze 20 stopni. Można natomiast wyliczyć i podać średni wynik punktowy testu w poszczególnych klasach (podobnie jak np. średnią temperaturę lipca i grudnia). Można poinformować, o ile punktów jednak klasa okazała się lepsza od drugiej. Jednak już stwierdzenie, że jakaś klasa wypadła półtora raza lepiej niż inna, będzie nadużyciem! nie tylko równe, mniejsze, większe ale też o ile skala porządkową - zastosowanie skala interwałowa - zastosowanie pozycje na skali są uporządkowane, ale nie wiadomo jaka jest odległość pomiędzy punktami skali (tylko np. większy ale już nie o ile większy) oznaczenia 1 2 3 to to samo, co -4 1 9 operacje matematyczne i statystyczne: nie można dodawać, odejmować, mnożyć i dzielić określenia: większy niż..., mniejszy niż. obliczać wartość przeciętną (medianę, średnią rangę) współczynnik korelacji rang występowanie jednostki miary powtarzalna dając takie same rezultaty jest standardem do mierzenia np. masa, szybkość, temperatura jeżeli cecha zmieni pozycję na skali to możemy dokładnie określić tę miarę operacje matematyczne i statystyczne: różność przechodniość określenie interwału - jednostki miary nie wolno mnożyć i dzielić (bo jest względny punkt 0) można dodawać, odejmować, obliczać wszystkie średnie oraz przeciętne
skala ilorazowa Propagacja właściwości Ten poziom jest też nazywany podstawowym (odcinki czasu, długości, miary czasu), powszechny w fizyce - rzadki w humanistyce właściwości: równe, mniejsze, większe i o ile oraz posiadanie absolutnego punktu zerowego punkt odniesienia taka skala tylko tam, gdzie empirycznie ustalimy stosunki: nierówność, wyższość, bezwzględną odległość, także równość stosunku! można porównywać pomiary obliczając ich stosunek np. A jest 2 razy cięższe od B operacje matematyczne i statystyczne - wszystkie Nominalna Porządkowa Interwałowa Ilorazowa skala ilorazowa Różne miary opisu zbioru wyników liczbę kandydatów na jedno miejsce na uczelni jest ilorazowa może być bowiem tak, że na dany kierunek nie ubiega się ani jeden kandydat (absolutne zero daje się wyznaczyć). zatem na np. pedagogikę było trzy razy więcej kandydatów niż na fizykę; przy interpretacji wyników można określić, ile razy coś jest większe lub mniejsze od innego obiektu.
Statystki opisowe kryteria dobrego pomiaru miary tendencji centralnej średnia - mediana - wartość modalna (dominanta) miary rozproszenia wariancja - odchylenie standardowe - rozstęp miary symetrii rozkładu skośność - kurtoza Trafność mierzenie dokładnie tej rzeczy, o którą nam chodzi, w sposób wyczerpujący Rzetelność powtarzalność pomiaru w tych samych warunkach populacja centrum rozproszenie kształt nominalna porządkowa ilościowa modalna mediana modalna ilość kategorii ilość kategorii równość średnia mediana modalna wariancja odch.stand. rozstęp równość równość symetryczność symetryczność skośność kurtoza próba dobór próby badanie naukowe trafność wewnętrzna trafność zewnętrzna generalizowanie rezultat badawczy
Dobór do próby sposoby doboru do próby: losowy celowy Badanie eksperymentalne, to takie badanie, które umożliwia: manipulację zmienną niezależną-główną, kontrolowanie pozostałych zmiennych niezależnych: ubocznych i zakłócających, istotnych dla Y kwotowy im większa próba tym słabsze zależności są dostrzegalne (nawet bezsensowne) effect size pomiar zmienności zmiennej zależnej Y, spowodowanej, zamierzonym przez badacza, oddziaływaniem na nią zmiennej niezależnejgłównej. problem ochotników 1. wyższy poziom wykształcenia, 2. przynależność do wyższej klasy społecznoekonomicznej 3. wyższy poziom inteligencji, 4. wyższy poziom zmiennej aprobaty społecznej 5. większa socjalizacja. trafność wewnętrzna (precyzja badania) eksperyment laboratoryjny eksperyment terenowy quasi-eksperyment ex post facto obserwacja trafność zewnętrzna (zakres wniosków)
Trafność wewnętrzna Czynniki zakłócające trafność wewnętrzną Plan eksperymentalny trafny wewnętrznie, to taki plan, który pozwala wyeliminować niechciane, alternatywne wyjaśnienia wariancji zmiennej Y np. pochodzące od sposobu organizacji, Dojrzewanie Selekcja Przenikanie informacji związanych z postępowaniem eksperymentalnym z grupy do grupy przebiegu samego badania eksperymentalnego, niespecyficznymi zachowaniami się osób badanych w sytuacji badania eksperymentalnego, wpływem czynników z otoczenia fizycznego i społecznego sytuacji badawczej Testowanie Regresja statystyczna Utrata osób badanych Zróżnicowanie grup porównawczych Obrażanie się osób badanych, które znalazły się w mniej pożądanych warunkach Trafność wewnętrzna Trafność zewnętrzna Warunki od których zależy trafność wewnętrzna planu E: Plan powinien być adekwatny do hipotezy (np. plan 0-1 nie jest adekwatny do testowania hipotez zakładających zależność krzywoliniową Y~X) Badacz powinien kontrolować wszystkie czynniki mogące mieć wpływ na zachowanie się osób badanych Badacz powinien stworzyć takie warunki badania, które zapewnią maksymalizację wariancji zmiennej Y wyjaśnionej oddziaływaniem na tę zmienną postępowania eksperymentalnego X Trafność zewnętrzna planu eksperymentalnego dotyczy zakresu generalizacji (uogólniania) wniosków. Warunki od których zależy trafność zewnętrzna: stopień uogólnienia wyników ze względu na próbę typowość warunków badania wpływ badania na wyniki (pretest, b. przesiewowe) czas
Czynniki zakłócające trafność zewnętrzną Badania jakościowe vs ilościowe odpowiadają na pytanie jak?, dlaczego?, z jakiego powodu? odpowiadają na pytanie ile? w jakim stopniu?, kto? Interakcja selekcji z postępowaniem eksperymentalnym Interakcja warunków badania z postępowaniem eksperymentalnym Interakcja pretestu Y z postępowaniem eksperymentalnym dane tekstowe, graficzne, zapisy audio mała próba 20-50 osób analiza polega na interpretacji, porównywaniu różnych odpowiedzi, swobodny sposób przeprowadzania, elastyczna tematyka, pytania otwarte możliwość losowania badanych, możliwość zbadania dużej liczby osób możliwa statystyczna analiza wyników pytania o ustalonej z góry formie, głównie zamknięte duży wpływ prowadzącego badania na zebrane informacje relatywnie mały wpływ ankietera na uzyskiwane dane dane tekstowe, Badania Badania jakościowe vs ilościowe ilościowe pozwalają na uzyskanie bardziej rzetelnych wyników, dzięki jednoznacznym, konkretnym pytaniom, zamkniętym propozycjom odpowiedzi, większej możliwej liczbie osób uczestniczących w badaniach. jakościowe pozwalają na uzyskanie bardziej trafnych wyników, ponieważ pozwalają na poznanie rozumienia zjawiska przez badanego. Wywiad pogłębiony Zogniskowany wywiad grupowy Obserwacja terenowa Jakościowa analiza treści Badania kwestionariuszowe Eksperyment Analiza danych zastanych Ilościowa analiza treści
Kolejność czynności Ile pomiarów zmiennych? Schematy badawcze Jakie odstępy czasowe Schematy poprzeczne - związek między zmiennymi ustalany jest na podstawie równoczesnych pomiarów Schematy podłużne (longitudinalne) kilkakrotny pomiar zmiennej w długich odstępach czasowych Co to jest schemat badania Procedura badawcza Ogólny plan badania Dobór próby Sposób podziału na grupy Kolejność czynności badawczych Sposób pomiaru zmiennych Najważniejsze elementy procedury Materiały i narzędzia (obrazy, filmy, testy, skale ocen, oprogramowanie) Instrukcje Dla badacza (opis przebiegu badania) Procedura badawcza Analiza wyników Dla osób badanych Dla sędziów kompetentnych Odkłamanie / odreagowanie procedury
Schemat badawczy zmienne Eksperyment: realizacja kanonów Milla w badaniach statystycznych Hipotezy Ile zmiennych? (jedna, dwie, wiele) Jaki związek między zmiennymi Współwystąpienie Związek przyczynowy Różnice między grupami Zbieżność czasowa: zmienna niezależna wprowadzana jest przed pomiarem zmiennej zależnej (manipulacja eksperymentalna) Kanon jednego podobieństwa: odpowiednio duża losowo dobrana próba uwzględnia (statystycznie) różne kombinacje potencjalnych zmiennych ubocznych. Możliwość dodatkowej kontroli niektórych zmiennych ubocznych. Kanon jednej różnicy: stałe warunki badania zapewniają, że jedyną różnicą między grupami eksperymentalnymi jest wartość zmiennej niezależnej. Związek przyczynowy: kanony Milla Zbieżność czasowa: A (minimalnie) poprzedza X Kanon jednego podobieństwa: AB X, AC X, AD X Kanon jednej różnicy ABC X, BC!A!X wtedy A przyczyną X Kwestionariusz wprowadzenie - informacja o badaniu instrukcję pytania podziękowania
Rodzaje pytań Pytania otwarte Każde pytanie ma być wyznaczone przez problematykę badania nie należy umieszczać pytań zbędnych. Jakie są Pani/Pana poglądy polityczne?. półotwarte Proszę wybrać partię z którą się Pani/Pan sympatyzuje A B C inna:. zamknięte Proszę wybrać partię na którą Pani/Pan głosował A B C Język pytań zrozumiały dla badanych (inaczej układamy pytania dla gimnazjalistów, nauczycieli, studentów, czy ekspertów w danej dziedzinie). Uwzględnić należy wiedzę respondentów. Nie pytać o rzeczy, o których wiemy, że nie wiedzą. Ważna jest kolejność pytań, ponieważ odpowiedzi sąsiadujące pytania wpływają na siebie. Kafeteria odpowiedzi musi wyczerpywać zagadnienie. Jeżeli nie jesteśmy tego pewni zadajemy pytanie półotwarte. Pytania i odpowiedzi - jednoznacznie i konkretne. Pytania nie mogą być drażliwe, możliwe odpowiedzi muszą być aprobowane społecznie. Nie pytać o dwie rzeczy na raz. Pytając w ten sposób nie możemy być pewni, której części pytania dotyczy odpowiedź Pytania nie mogą sugerować odpowiedzi. Nie wolno podawać przykładów w pytaniach otwartych. Rodzaje pytań Przygotowanie danych Pytania w postaci skali: Jak bardzo lubi Pani/Pan czytać prasę codzienną 1 2 3 4 5 nie lubię lubię Czytanie prasy codziennej jest niezbędne aby orientować się w życiu politycznym 1 - nie zgadzam się 2 - ani tak, ani nie 3 - zgadzam się Grupowanie (kategoryzacja) odpowiedzi w pytaniach otwartych i półotwartych (inne:.) Usunięcie ankiet z przewagą braków danych Usunięcie odpowiedzi nie na temat, niezgodnych z instrukcją Przygotowanie bazy danych
Wszystkie modele są złe, ale niektóre są użyteczne Powtarzalność wyników George E. P. Box = replikacje :-) Po co replikować? Wpisz tu cytat. Janek Jabłonka Jednym z najbardziej krytykowanych aspektów NHST jest używanie p-value jako progu publikacyjnego
Tym bardziej, że Dokładna replikacja nie istnieje Schmidt, 2009 Cele replikacji Rozkład p-value w publikacjach 1. Identyfikacja błędów I rodzaju 2. Kontrola artefaktów (braków w trafności wewnętrznej) 3. Generalizacja na nowe populacje 4. Weryfikacja hipotez
Większość opublikowanych wyników potwierdza hipotezy Analiza krzywych p dla hipotezy Fanelli, 2010 91% 0% 50% 100% Psychiatria/Psychologia (N = 141) Czy efekt jest prawdziwy? Analiza krzywych p dla hipotezy Analiza krzywych p pozwala ocenić prawdopodobieństwo czy zbiór wyników opisuje prawdziwy czy zerowy efekt
Dlaczego tak jest Braki w edukacji statystycznej Odkładanie statystyki na koniec procesu badawczego Naciski na publikacje nowatorskich wyników (po stronie autorów i wydawców) Pomijanie wielkości próby a zwracanie uwagi na istatność statystyczną Pomijanie w analizach alternatywnych wyjaśnień