Co wylicza Jasnopis? Bartosz Broda

Podobne dokumenty
Mierzenie stopnia zrozumiałości polskich tekstów użytkowych

Wstęp do przetwarzania języka naturalnego

Narzędzia do automatycznego wydobywania kolokacji

Analiza statystyczna trudności tekstu

Jak powstawał. Włodzimierz Gruszczyński SWPS Uniwersytet Humanistycznospołeczny

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

OGÓLNE KRYTERIA OCENIANIA POSZCZEGÓLNYCH SPRAWNOŚCI JĘZYKOWYCH

Od ZX Spectrum do Jasnopisu

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Wprowadzenie. Włodzimierz Gruszczyński, Bartosz Broda

Narzędzia do automatycznego wydobywania kolokacji

W obrębie polskiego języka narodowego należy wydzielić dwa systemy:

- narzędzie do mierzenia zrozumiałości polskich tekstów. Włodzimierz Gruszczyński SWPS Uniwersytet Humanistycznospołeczny

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych

WebSty otwarty webowy system do analiz stylometrycznych

Analiza wyników egzaminu gimnazjalnego z języka obcego nowożytnego w roku szkolnym 2014/2015

Strony internetowe ośrodków pomocy społecznej jako narzędzie komunikacji między instytucją a klientem

KRYTERIA OCENIANIA Z JĘZYKA FRANCUSKIEGO / ROSYJSKIEGO NA POSZCZEGÓLNE OCENY 1-6. (drugi język obcy kurs początkujący)

WYNIKI EGZAMINU GIMNAZJALNEGO Z JĘZYKA ANGIELSKIEGO ROK SZKOLNY 2017/2018

Rozkład materiału nauczania

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Lokalizacja Oprogramowania

Monika Czerepowicka Możliwości zastosowania narzędzia do pomiaru zrozumiałości tekstu Jasnopis w praktyce szkolnej. Prace Językoznawcze 18/4, 5-17

Analiza testu diagnostycznego z przedmiotu język angielski (LO i Technikum) /wpisać nazwę przedmiotu/ Działdowo, wrzesień 2018

Przedmiotowy system oceniania z języka angielskiego obowiązujący od roku szkolnego 2009/2010 (nowa podstawa programowa)

EDUKACYJNE I PRZEDMIOTOWY SYSTEM OCENIANIA JĘZYK NIEMIECKI

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ANGIELSKIEGO NA ROK SZKOLNY 2011/2012

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ANGIELSKIEGO W II LICEUM OGÓLNOKSZTAŁCĄCYM IM. MIKOŁAJA KOPERNIKA W LESZNIE

Użyteczność polskich portali turystycznych Wakacje w Internecie - aneks

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

KRYTERIA OCENIANIA Z JĘZYKA NIEMIECKIEGO DLA KLAS TRZECICH ODDZIAŁÓW GIMNAZJALNYCH

Mikroekonometria 9. Mikołaj Czajkowski Wiktor Budziński

2. Wymagania wstępne w zakresie wiedzy, umiejętności oraz kompetencji społecznych (jeśli obowiązują): BRAK

Przedmiotowe Ocenianie Z Matematyki Liceum Ogólnokształcące obowiązuje w roku szkolnym 2016 / 2017

Kryteria oceniania z języka rosyjskiego Opracowała Barbara Piątkowska

ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY SZKOLNE MEINE DEUTSCHTOUR KL.II gimnazjum

SPIS TREŚCI. Do Czytelnika... 7

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

mierzenia zrozumiałości

Analiza wyników egzaminu gimnazjalnego z języka obcego

ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY SZKOLNE

Analiza wyników egzaminu gimnazjalnego 2013 r. Test humanistyczny język polski Test GH-P1-132

W POSZUKIWANIU METODY AUTOMATYCZNEGO MIERZENIA ZROZUMIAŁOŚCI TEKSTÓW INFORMACYJNYCH 1

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

KARTA MODUŁU KSZTAŁCENIA

PRZEDMIOTOWE ZASASY OCENIANIA Z JĘZYKA ANGIELSKIEGO W II LICEUM OGÓLNOKSZTAŁCĄCYM IM. MIKOŁAJA KOPERNIKA W LESZNIE. Wstęp.

Przygotowanie danych

Wymagania edukacyjne z języka niemieckiego dla klasy III gimnazjum

JĘZYK NIEMIECKI liceum

ROZKŁAD MATERIAŁU DO II KLASY LICEUM (ZAKRES ROZSZERZONY) A WYMAGANIA PODSTAWY PROGRAMOWEJ.

Rozkład materiału: matematyka na poziomie rozszerzonym

Podsumowanie prac dotyczących przygotowań do wdrożenia rachunku kosztów działań w urzędach samorządowych

SPRAWNOŚĆ MÓWIENIA SPRAWNOŚĆ PISANIA GRAMATYKA I SŁOWNICTWO

WYMAGANIA EDUKACYJNE Z JĘZYKA NIEMIECKIEGO W KLASIE VII PODRĘCZNIK MEINE DEUTSCHTOUR ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY SZKOLNE

Przedmiotowy system oceniania z języka angielskiego

EGZAMIN GIMNAZJALNY 2012 W SZKOŁACH DLA DOROSŁYCH W WOJEWÓDZTWIE ŚLĄSKIM. sesja wiosenna

ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY SZKOLNE Z JĘZYKA NIEMIECKIEGO DLA GRUP DSD II W KLASACH I III

Wymagana wiedza i umiejętności z języka niemieckiego dla uczniów szkoły gimnazjum na poszczególne stopnie szkolne obejmująca wszystkie sprawności

Kontekstowe wskaźniki efektywności nauczania - warsztaty

WYMAGANIA EDUKACYJNE I KRYTERIA OCENIANIA UCZNIÓW Z JĘZYKA ROSYJSKIEGO

KARTA MODUŁU KSZTAŁCENIA

Wymagania edukacyjne Klasa I liceum język włoski

WYKRESY SPORZĄDZANE W UKŁADZIE WSPÓŁRZĘDNYCH:

ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY SZKOLNE

ROZKŁAD MATERIAŁU NAUCZANIA KLASA 2, ZAKRES PODSTAWOWY

Rozkład materiału KLASA I

Portal Obywatel Jak przekazać informacje obywatelowi

JĘZYK NIEMIECKI - ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY SZKOLNE

Wymagania edukacyjne z języka angielskiego w klasie Ia i Ib w roku szkolnym 2018/2019. Szkoła Podstawowa nr 15 w Krakowie

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

DOFINANSOWANIE W RAMACH PRORAMU,,AKTYWNY SAMORZĄD ADRESACI PROGRAMU

ZASADY WEWNĄTRZSZKOLNEGO OCENIANIA Z JĘZYKA WŁOSKIEGO W VII KLASIE SZKOŁY PODSTAWOWEJ

Rok akademicki: 2012/2013 Kod: JFM s Punkty ECTS: 3. Poziom studiów: Studia I stopnia Forma i tryb studiów: Stacjonarne

ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY Z JĘZYKA NIEMIECKIEGO Nauczyciel prowadzący: mgr Agnieszka Krzeszowiak, mgr Teresa Jaśkowska

Zasady rekrutacji do klasy pierwszej Gimnazjum Nr 1 w Konstantynowie Łódzkim w roku szkolnym 2016/2017

Przedmiotowy System Oceniania. Języki obce

Wymagania edukacyjne z języka niemieckiego w roku szkolnym 2017/2018. Kryteria Oceniania

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA Bieżący sylabus w semestrze zimowym roku 2016/17

Publikacje nauczycieli Ewa Goszczycka Gimnazjum w Polesiu

Spis treści. Zadania z rozwiązaniem krok po kroku Arkusz maturalny przykładowy zestaw zadań Odpowiedzi do zadań Indeks...

Granice ciągów liczbowych

Wprowadzenie do uczenia maszynowego

Nierówności edukacyjne nasilenie na I etapie edukacyjnym i środki zaradcze. Roman Dolata na potrzeby:

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Zmiany w systemie egzaminów zewnętrznych ( ) a Europejski System Opisu Kształcenia Językowego

Laboratorium 5: Tablice. Wyszukiwanie binarne

Oferty odrzucone zostaną komisyjnie zniszczone. Dodatkowe informacje można uzyskać: lub pod numerem telefonu:

Wymagania edukacyjne / kryteria oceniania - klasa 2. Podręcznik NUEVO ESPAÑOL EN MARCHA. NIVEL BÁSICO A1+A2 (Unidades 10-17) wyd.

EGZAMIN GIMNAZJALNY 2013 W SZKOŁACH DLA DOROSŁYCH W WOJEWÓDZTWIE ŚLĄSKIM. sesja wiosenna

2) R stosuje w obliczeniach wzór na logarytm potęgi oraz wzór na zamianę podstawy logarytmu.

Jak powstawał JASNOPIS, czyli narzędzie do mierzenia zrozumiałości polskich tekstów? Wprowadzenie: Włodzimierz Gruszczyński Edyta Charzyńska

Wykształcenie kobiet i mężczyzn a dzietność

Język niemiecki PRZEDMIOTOWY SYSTEM OCENIANIA realizowanego w oparciu o podręcznik Das ist Deutsch

Wymagania edukacyjne z informatyki w klasie VIII

Transkrypt:

Co wylicza Jasnopis? Bartosz Broda

Analiza języka polskiego Ekstrakcja tekstu Dokument <p> narzędzie do mierzenia zrozumiałości </p> Analiza morfologiczna Analiza morfosyntaktyczna Indeksy Klasa trudności: 4,0 FOG: Formy hasłowe: 11,6 FOG: Formy tekstowe: 11,6 L-Pisarek: Formy hasłowe: 10,67 L-Pisarek: Formy tekstowe: 10,67 2

Indeksy w Jasnopisie Klasa trudności Indeks mglistości FOG Indeks Pisarka Automatyczne testy Taylora Grafy podobieństwa Dodatkowe statystyki 3

Klasa trudności Klasa = 12.25 4.12 Ridge Klasa Propozycje etykiet Wykształcenie odbiorcy 1 Tekst dziecinnie łatwy Klasy 1-3 szkoły podstawowej 2 Tekst bardzo łatwy Klasy 3-6 szkoły podstawowej 3 4 5 6 Tekst łatwy, zrozumiały dla przeciętnego Polaka Tekst nieco trudniejszy, zrozumiały dla osób z wykształceniem średnim Tekst trudniejszy, zrozumiały dla ludzi wykształconych Tekst trudny w odbiorze dla przeciętnego Polaka Gimnazjum Liceum 7 Tekst skomplikowany, fachowy Doktorat Studia licencjackie/inżynierskie Studia magisterskie 4

Indeks FOG FOG = 0.4 liczba wyrazów liczba wyrazów trudnych + 100 liczba zdań liczba wyrazów Wyraz trudny: 4, lub więcej sylab. Granice zdań wyznaczone przez WCRFT. Warianty operujące na formach podstawowych wyrazów, formach tekstowych. Wygładzony indeks FOG wykorzystujący listy wyrazów łatwych Imiołczyka, 5 tysięcy najczęstszych wyrazów. 5

Interpretacja indeksu FOG Wartość FOG 1-6 Interpretacja język bardzo prosty, zrozumiały już dla uczniów szkoły podstawowej 7-9 język prosty, zrozumiały już dla uczniów gimnazjum 10-12 język dość prosty, zrozumiały już dla uczniów liceum 13-15 16-17 18 i więcej język dość trudny, zrozumiały dla studentów studiów licencjackich język trudny, zrozumiały dla studentów studiów magisterskich język bardzo trudny, zrozumiały dla magistrów i osób z wyższym wykształceniem 6

Indeks Pisarka Podobnie jak indeks FOG wykorzystuje średnią długość zdania (ŚDZ), procent wyrazów trudnych (PWT). Wersje: liniowa i nieliniowa. Warianty operujące na formach podstawowych wyrazów, formach tekstowych. Wygładzony indeks wykorzystujący listy wyrazów łatwych Imiołczyka, 5 tysięcy najczęstszych wyrazów. P NL = 1 2 ŚDZ2 + PWT 2 P L = 1 3 ŚDZ 1 3 PWT 7

Indeks FOG, Pisarka - właściwości Prosta interpretacja. Proste do policzenia. Proste cechy: długość zdania, wyrazy trudne. Nie zawsze wyraz długi, to wyraz trudny, np. nauczycielka. Brak informacji składniowej i leksykalnej. 8

Automatyczny test Taylora Metoda Taylora klasyczna metoda mierzenia czytelności poprzez uzupełnianie luk w tekście przez użytkowników języka. Wytrenowanie modeli językowych na tekstach referencyjnych. Uzupełnianie luk w tekście z wykorzystaniem modeli językowych. Warianty: uzupełnianie co n-tego słowa poprzez model; mierzenie odwrotności entropii (perplexity). p w i w i 1 = c(w i 1w i ) w i c(w i 1 w i ) 9

Automatyczny test Taylora - właściwości Prosta interpretacja. Skomplikowany obliczeniowo. Wymagane duże korpusy referencyjne. Łatwe do dostosowania do konkretnego zastosowania. Uwzględniają zarówno składnię jak i leksykę języka. 10

Grafy podobieństwa Podobieństwo pomiędzy korpusami referencyjnymi a tekstem użytkownika. Worek słów. Kosinus kąta pomiędzy wektorami jako miara podobieństwa. Dwa modele porównywania tekstów: tf.idf, model binarny. Porównanie na poziomie leksyki. tf. idf = tf log N df 11

12

Grafy podobieństwa - właściwości Prosta interpretacja. Proste do wyliczenia. Wymagane duże korpusy referencyjne. Łatwe do dostosowania do konkretnego zastosowania. Uwzględniają tylko leksykę języka. 13

Weryfikacja Korpusy: literatura dziecięca (bajki), Wikipedia, artykuły prasowe (Rzeczpospolita), ustawy, teksty popularno-naukowe (Wiedza i życie). Ok. 40 tys. słów/korpus dla podobieństwa. Ok. 186 tys. słów/korpus dla automatycznego testu Taylora. Walidacja krzyżowa. 14

Weryfikacja automatyczny test Taylora Perplexity Co 5 wyraz Literatura dla dzieci 97,18% 93,79% Wikipedia 67,11% 80,56% Ustawy 100% 86,29% Artykuły prasowe 66,11% 71,66% Popularno-naukowe 68,31% 73,77% 15

Weryfikacja grafy podobieństwa Binarny tf.idf Literatura dla dzieci 100% 100% Wikipedia 85,37% 85,37% Ustawy 100% 100% Artykuły prasowe 71,74% 73,91% Popularno-naukowe 100% 100% 16

Dodatkowe statystyki Liczba akapitów, zdań, słów. Średnia długość słowa, zdania, akapitu. Procent słów trudnych, rzeczowników i rzeczowników trudnych, czasowników i czasowników trudnych, przymiotników i przymiotników trudnych. Stosunek rzeczowników do czasowników. 17

Dodatkowe statystyki 18

Podsumowanie Indeks FOG, Pisarka: proste cechy, łatwa interpretacja. Automatyczny tekst Taylora: skomplikowany obliczeniowo; wymaga dużych zbiorów tekstów do wytrenowania; uwzględnia informacje składniową i leksykalną. Grafy podobieństwa: skupienie na leksyce; wymaga dużych zbiorów tekstów do wytrenowania; Klasa trudności: trudna do policzenia ręcznie, łatwa dla komputera; uwzględnia informacje składniową i leksykalną; łatwa w interpretacji. 19

Dziękuję za uwagę! 20