Analiza statystyczna trudności tekstu



Podobne dokumenty
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

MODELE LINIOWE. Dr Wioleta Drobik

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Regresja i Korelacja

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Analiza składowych głównych. Wprowadzenie

Wprowadzenie do analizy korelacji i regresji

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

Metoda najmniejszych kwadratów

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Wojciech Skwirz

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

Rozpoznawanie obrazów

Rozdział 8. Regresja. Definiowanie modelu

Zmienne zależne i niezależne

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu liniowym, scenariusz p bliskie lub większe od n

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

5. Model sezonowości i autoregresji zmiennej prognozowanej

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

STATYSTYKA MATEMATYCZNA

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Optymalizacja ciągła

Psychometria PLAN NAJBLIŻSZYCH WYKŁADÓW. Co wyniki testu mówią nam o samym teście? A. Rzetelność pomiaru testem. TEN SLAJD JUŻ ZNAMY

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Metody systemowe i decyzyjne w informatyce

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Analiza współzależności zjawisk

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

3. Modele tendencji czasowej w prognozowaniu

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

czerwiec 2013 Uwaga: Przy rozwiązywaniu zadań, jeśli to konieczne, należy przyjąć poziom istotności 0,1 i współczynnik ufności 0,90

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

KORELACJE I REGRESJA LINIOWA

SZTUCZNA INTELIGENCJA

Weryfikacja hipotez statystycznych

Jak powstawał. Włodzimierz Gruszczyński SWPS Uniwersytet Humanistycznospołeczny

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

STATYSTYKA MATEMATYCZNA

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

ANALIZA REGRESJI SPSS

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Modelowanie glikemii w procesie insulinoterapii

Analiza wariancji. dr Janusz Górczyński

Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych

STATYSTYKA INDUKCYJNA. O sondażach i nie tylko

Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne)

Pobieranie prób i rozkład z próby

Teoria błędów. Wszystkie wartości wielkości fizycznych obarczone są pewnym błędem.

Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego

5. WNIOSKOWANIE PSYCHOMETRYCZNE

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Statystyczna analiza danych

Stosowana Analiza Regresji

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Niepewności pomiarów

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

PDF created with FinePrint pdffactory Pro trial version

Natalia Neherbecka. 11 czerwca 2010

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Wykład 4 Związki i zależności

Metody Ilościowe w Socjologii

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 9 marca 2007

Z poprzedniego wykładu

Analiza regresji - weryfikacja założeń

LABORATORIUM Z FIZYKI

Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Rozkłady statystyk z próby

4. Średnia i autoregresja zmiennej prognozowanej

METODY STATYSTYCZNE. Studia stacjonarne, semestr zimowy 2017/2018. Motto III: In God we trust. All others must bring data (z internetu)

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

Rozkłady statystyk z próby. Statystyka

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

Analiza Współzależności

Co to jest analiza regresji?

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Systemy Wspomagania Decyzji

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Stanisław Cichocki. Natalia Nehrebecka

KARTA INFORMACYJNA PRZEDMIOTU

Regresja liniowa wprowadzenie

POLITECHNIKA OPOLSKA

STATYSTYKA INDUKCYJNA. O sondaŝach ach i nie tylko

Transkrypt:

Analiza statystyczna trudności tekstu Łukasz Dębowski ldebowsk@ipipan.waw.pl

Problem badawczy Chcielibyśmy mieć wzór matematyczny,...... który dla dowolnego tekstu...... na podstawie pewnych statystyk...... obliczanych za pomocą programu komputerowego...... przewidywałby dostatecznie dobrze,...... jak trudny jest on do zrozumienia...... dla przeciętnego czytelnika. Zastosowanie: aplikacja JASNOPIS. Intencja: Chcemy zaproponować coś lepszego niż wzór Pisarka: T = T 2 s + T 2 w. (1) 2

Dane Przygotowaliśmy 35 tekstów o zróżnicowanej trudności (7 klas trudności a priori po 5 tekstów). Przeprowadziliśmy badania psychologiczne, jak dobrze teksty te są rozumiane przez potencjalnych czytelników (próba ok. 1000 osób, test cloze + test pytań otwartych) Wyodrębniliśmy kilkadziesiąt zmiennych lingwistycznych przypuszczalnie skorelowanych z trudnością tekstu (długość zdania, długość słowa, procent rzeczowników itp.) Za pomocą programu komputerowego wyznaczyliśmy wartości liczbowe tych zmiennych dla danych 35 tekstów. Mając te dane chcielibyśmy wyznaczyć wzór matematyczny przewidujący trudność tekstu.

Tabela z danymi (35 wierszy, 69 kolumn) plik punkty punkty liczba liczba liczba... cloze otwarte akapitów zdań słów 1/1-1.txt 25,48 4,40 13 31 285... 1/1-2.txt 30,80 4,42 11 29 283... 1/1-3.txt 28,25 4,33 16 39 300... 1/1-4.txt 29,90 4,00 5 27 284... 1/1-5.txt 25,31 4,40 9 33 319... 2/2-1.txt 24,70 4,44 4 24 294... 2/2-2.txt 27,96 4,35 8 24 318... 2/2-3.txt 26,94 4,45 7 28 283... 2/2-4.txt 23,67 4,54 9 23 289... 2/2-5.txt 24,73 4,67 17 29 283........................

Metoda najmniejszych kwadratów Oznaczenia: Y i punkty cloze/otwarte dla i-tego tekstu X ij j-ta zmienna objaśniająca dla i-tego tekstu N liczba tekstów M liczba zmiennych objaśniających Szukamy wzoru postaci: Y i = M X ij A j + szum losowy (2) j=1 minimalizując sumę kwadratów błędów: N M Y i X ij A j i=1 j=1 2 = min. (3)

Ograniczenia metody najmniejszych kwadratów Metodę najmniejszych kwadratów można zastosować wyłącznie, gdy liczba tekstów M jest znacznie większa niż liczba zmiennych objaśniających N...... w przeciwnym wypadku zachodzi przeuczenie, czyli dopasowujemy się do szumu losowego w danych i wzór (2) nie przewiduje trudności tekstów spoza próby uczącej. W naszym przypadku liczba tekstów M jest mniejsza niż liczba zmiennych objaśniających N. Rozwiązania: Zmniejszyć liczbę zmiennych objaśniających (jak we wzorze Pisarka). Zastosować regresję liniową z regularyzacją.

Dwa rodzaje regularyzacji Regresja lasso: Minimalizujemy sumę kwadratów błędów z karą liniową: N Y i M X ij A j i=1 j=1 j=1 2 M + α A j = min. (4) Regresja ridge (grzbietowa): Minimalizujemy sumę kwadratów błędów z karą kwadratową: N Y i M X ij A j i=1 j=1 j=1 2 M + α A 2 j = min. (5)

Trzy inne modele Regresja liniowa metodą najmniejszych kwadratów ze dwiema zmiennymi jak we wzorze Pisarka (M = 2) (średnia długość zdania, procent słów dłuższych niż 3 sylaby). Średnia ważona (komitet) z regresji liniowych metodą najmniejszych kwadratów dla trzech zmiennych (M = 3) (średnia długość zdania, procent słów dłuższych niż 3 sylaby oraz dowolna inna zmienna). Baseline (model odniesienia): Trudność dowolnego tekstu jest stała (szacowana jako średnia z próby uczącej).

Który z tych modeli jest najlepszy? Pewnym sposobem sprawdzenia tego, jest kroswalidacja: Wyjmujemy z próby uczącej jeden tekst, dopasowujemy model do pozostałych tekstów i sprawdzamy, jak dobrze ów model przewiduje zmienną objaśnianą dla wyjętego tekstu. Błąd (odchylenie modelu od wartości przewidywanej) mierzymy dla każdego tekstu w próbie uczącej i sporządzamy wykres pudełkowy obrazujący przeciętną wartość i rozrzut tego błędu. Szukamy metody, dla której błąd jest najmniejszy.

Wykres pudełkowy błędu Zmienna przewidywana: punkty cloze 0 2 4 6 8 10 12 lasso ridge srednia Pisarek komitet

Wykres pudełkowy błędu Zmienna przewidywana: punkty otwarte 0.0 0.5 1.0 1.5 2.0 lasso ridge srednia Pisarek komitet

Wykres pudełkowy błędu Przewidywane: średnia ważona punktów cloze i punktów otwartych 0.0 0.2 0.4 0.6 0.8 1.0 lasso ridge srednia Pisarek komitet

Jak zmienna przewidywana koreluje z klasą tekstu? klasa 1 2 3 4 5 6 7 1.0 1.5 2.0 2.5 Y

Wzór na trudność tekstu Klasa = 12.25 4.12 Ridge Ridge = 2.7 0.0034 (średnia długość zdania) 0.0027 (procent słów trudnych) + 0.0026 (procent rzeczowników) 0.0044 (procent rzeczowników trudnych) + 0.0037 (procent czasowników) + 0.0053 (procent czasowników trudnych) 0.00043 (średnia długość akapitu) 0.013 (średnia długość łańcucha dopełniaczowego) 0.0033 (procent dopełniaczy) 0.0019 (procent rzeczowników na -ość ) +...

Podsumowanie Skonstruowaliśmy wzór na trudność tekstu, którego maksymalny błąd predykcji jest trzy razy mniejszy niż modelu odniesienia (w którym trudność tekstu nie zależy od tekstu), a dwa razy mniejszy niż wzoru Pisarka. Wzór jest zbyt skomplikowany by liczyć go ręcznie, ale jest prosty do zaimplementowania w programie komputerowym.