Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl



Podobne dokumenty
Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta

Zadania. Przygotowanie zbiorów danych. 1. Sposób 1: 2. Sposób 2:

Data Mining z wykorzystaniem programu Rapid Miner

Reguły asocjacyjne w programie RapidMiner Michał Bereta

Instalowanie VHOPE i plików biblioteki VHOPE

W dalszej części dokumentu przedstawiamy skrócony opis kluczowych funkcji systemu. Niniejszy dokument nie zawiera opisu technicznego systemu.

Algorytmy zachłanne. dr inż. Urszula Gałązka

Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.

Sieci komputerowe i bazy danych

INSTRUKCJA OTWIERANIA PLIKU DPT (data point table)

etrader Pekao Podręcznik użytkownika Strumieniowanie Excel

Edytor materiału nauczania

Primo wyszukiwarka naukowa

Tematy lekcji informatyki klasa 4a styczeń 2013

Lab3 - Zastosowania protokołów przesyłania plików

Wyszukiwanie plików w systemie Windows

Poziomy wymagań Konieczny K Podstawowy- P Rozszerzający- R Dopełniający- D Uczeń: z zakresu systemów

Jak zaimportować bazę do system SARE

1. Instalacja Programu

POMOC. 1. Wybór Katalogu

Dodawanie i modyfikacja atrybutów zbioru

KARTA INFORMACYJNA Z INFORMATYKI DO KLASY 4. Imię i nazwisko ucznia:

4.3 Grupowanie według podobieństwa

Extensible Markup Language (XML) Wrocław, Java - technologie zaawansowane

Aktualizowanie systemów operacyjnych

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Wyszukiwanie zaawansowane

Identyfikacja znamion ukrytego plagiatu. Z wykorzystaniem IDEA Caseware

Dlaczego GML? Gdańsk r. Karol Stachura

Wiadomości i umiejętności

Reguły asocjacyjne. 1. Uruchom system weka i wybierz aplikację Knowledge Flow.

Elementy modelowania matematycznego

Sklejanie warstw wektorowych wersja 1.02 Instrukcja

INFORMATYKA KLASA IV

Algorytm grupowania danych typu kwantyzacji wektorów

Teraz bajty. Informatyka dla szkoły podstawowej. Klasa 4 Wymagania edukacyjne na poszczególne oceny szkolne dla klasy 4

Teraz bajty. Informatyka dla szkoły podstawowej. Klasa IV

Spis treści. I. Czym jest Indeks Haseł 3 II. Wyszukiwanie hasła 4. 1) Alfabetyczna lista haseł 4 2) Wyszukiwarka haseł 4 3) Grupy haseł 6

Windows Serwer 2008 R2. Moduł 8. Mechanizmy kopii zapasowych

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

Instrukcja dla użytkowników Windows Vista Certyfikat Certum Basic ID

Certyfikat Certum Basic ID. Instrukcja dla użytkowników Windows Vista. wersja 1.3 UNIZETO TECHNOLOGIES SA

Metody Kompilacji Wykład 3

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Kryteria oceniania. Zajęcia komputerowe. Klasa IV

Wymagania edukacyjne z zajęć komputerowych w klasie IV szkoły podstawowej. 1. Podstawowe zasady posługiwania się komputerem i programem komputerowym

Wymagania edukacyjne z zajęć komputerowych w klasie 5

Tematy lekcji informatyki klasa 4a marzec 2012

Instrukcja programu mam wersja 1.02.

3.1. Na dobry początek

Metody eksploracji danych. Reguły asocjacyjne

Import dokumentów z plików XML część II

Laboratorium Systemów Operacyjnych

opracowane na podstawie podręcznika:

SZCZEGÓŁOWE WYMAGANIA EDUKACYJNE Z INFORMATYKI DLA KLASY IV SP ROK SZKOLNY 2017/2018

Metody systemowe i decyzyjne w informatyce

Instrukcja do programu DoUPS 1.0

plansoft.org Zmiany w Plansoft.org Panel wyszukiwania PLANOWANIE ZAJĘĆ, REZERWOWANIE SAL I ZASOBÓW

Instalacja TeXStudio. krok po kroku. Autor: Łukasz Gabrysiak

INSTRUKCJA INSTALACJI I KONFIGURACJI APLIKACJI WEBSOFT SITE ANALYZER 2.7.1

Semantyczne podobieństwo stron internetowych

Wymagania edukacyjne z informatyki dla klasy szóstej szkoły podstawowej.

Bioinformatyka. Program UGENE

Metody eksploracji danych Laboratorium 4. Klasyfikacja dokumentów tekstowych Naiwny model Bayesa Drzewa decyzyjne

Zmienne i stałe w PHP

Zasady Nazewnictwa. Dokumentów XML Strona 1 z 9

Tematy lekcji informatyki klasa 4a luty/marzec 2013

WYMAGANIA NA POSZCZEGÓLNE OCENY Z ZAJĘĆ INFORMATYCZNYCH DLA UCZNIÓW KL. V. DOSTOSOWANE DO PROGRAMU NAUCZANIA INFORMATYKA EUROPEJCZYKA

Analiza metod wykrywania przekazów steganograficznych. Magdalena Pejas Wydział EiTI PW

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Rozdział ten zawiera informacje o sposobie konfiguracji i działania Modułu OPC.

Technologie Informacyjne - Linux 2

Instalacja TeXStudio. krok po kroku. Autor: Łukasz Gabrysiak

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

WYMAGANIA NA POSZCZEGÓLNE OCENY Z ZAJĘĆ INFORMATYCZNYCH DLA UCZNIÓW KL. IV. DOSTOSOWANE DO PROGRAMU NAUCZANIA INFORMATYKA EUROPEJCZYKA

Tematy lekcji informatyki klasa 4a październik 2012

WYMAGANIA EDUKACYJNE NIEZBĘDNE DO UZYSKANIA POSZCZEGÓLNYCH ŚRÓDROCZNYCH OCEN KLASYFIKACYJNYCH Z INFORMATYKI. KLASA IVa SZKOŁA PODSTAWOWA

Wymagania edukacyjne z przedmiotu zajęcia komputerowe dla klasy IV

NIEZAWODNE ROZWIĄZANIA SYSTEMÓW AUTOMATYKI. asix. Aktualizacja pakietu asix 4 do wersji 5 lub 6. Pomoc techniczna

Porównanie systemów automatycznej generacji reguł działających w oparciu o algorytm sekwencyjnego pokrywania oraz drzewa decyzji

ŁAMIEMY SZYFR CEZARA. 1. Wstęp. 2. Szyfr Cezara w szkole. Informatyka w Edukacji, XV UMK Toruń, 2018

Szanowni Państwo. Należy przy tym pamiętać, że zmiana stawek VAT obejmie dwie czynności:

Menu Plik w Edytorze symboli i Edytorze widoku aparatów

Instrukcja użytkowania

Systemy Wspomagania Decyzji

Aplikacja do podpisu cyfrowego npodpis

PLAN REALIZACJI MATERIAŁU NAUCZANIA Z INFORMATYKI II. Uczeń umie: Świadomie stosować się do zasad regulaminów (P).

NEURAL NETWORK ) FANN jest biblioteką implementującą SSN, którą moŝna wykorzystać. w C, C++, PHP, Pythonie, Delphi a nawet w środowisku. Mathematica.

Jak przeglądać publikacje w formacie DjVu?

Kodowanie informacji. Przygotował: Ryszard Kijanka

Systemy operacyjne. Laboratorium 8. Perl find

Instrukcja do programu DoGLS 1.0

Archiwum DG 2016 PL-SOFT

SPOTKANIE 2: Wprowadzenie cz. I

Transkrypt:

Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Aby skorzystać z możliwości RapidMinera w zakresie analizy tekstu, należy zainstalować Text Mining Extension. Wybierz: 1

Po zainstalowaniu, dodatkowe operatory związane z omawianym zagadnieniem będą dostępne w osobnym dziale Text processing. 2

2. Analiza zbioru dokumentów bez wyszczególnionych klas. Załóżmy, że posiadamy kolekcję dokumentów tekstowych, każdy w osobnym pliku. W tym przykładzie, pliki 01 05 związane są z wojną na Ukrainie, pliki 06 09 omawiają tematy związane z kartami graficznymi, natomiast pliki 10 14 dotyczą wychowania psów. Zostały one pobrane z artykułów dostępnych w Internecie. Dokument tekstowy jako obiekt mający podlegać np. klasyfikacji może być opisany za pomocą określenia, jakie słowa w nim występują. Interesujące są oczywiście słowa unikalne dla danego tematu. Można sprawdzić sam fakt czy dane słowo występuje w pewnym dokumencie. Dostaniemy wtedy atrybut binarny. Można również sprawdzić częstotliwość występowania danego słowa. Niektóre metody biorą pod uwagę, czy słowa występują tylko w jednym dokumencie czy też w większej ich liczbie. Nie jest to zagadnienie proste. Słowa powszechne, występujące praktycznie w każdym dokumencie nie pozwalają ich rozróżnić (np. ale, i, zatem ). Z drugiej strony słowa unikalne do jednego jedynie dokumentu nie pozwolą uchwycić podobieństw między dokumentami, które dotyczą tego samego tematu. Wybierzmy operator Process documents from files : 3

W jego opcjach wskazać możemy miejsce, gdzie znajdują się nasze pliki do analizy. 4

Jeśli wszystkie pliki traktujemy jako jedną kolekcję, mamy tylko jedną klasę, np. wszystkie_pliki. Zmień kodowanie na UTF-8. Opcja vector creation odpowiada za tworzenia wektora atrybutów opisującego dany dokument. Najbardziej zaawansowana z tych metod to TF-IDF (ang. term frequency inverse document frequency). Więcej informacji o metodzie: https://en.wikipedia.org/wiki/tf%e2%80%93idf 5

Na wyjściu wor otrzymamy listę słów wyodrębnionych z dokumentów. Z kolei na wyjściu exa otrzymamy każdy dokument opisany jako wektor atrybutów. Wewnątrz operatora Process documents from files musimy określić, na czym analiza dokumentu ma polegać. W naszym przypadku wyodrębniamy poszczególne słowa (ang. tokenize) i zapisujemy je małymi literami. 6

Separatorem może być dowolny znak nie będący literą. Po uruchomieniu otrzymujemy listę wyodrębnionych słów: oraz zbiór wektorów atrybutów opisujących każdy dokument: Zwróć uwagę, że atrybutów tych jest bardzo wiele. Dodatkowo, niektóre słowa różnią się jedynie odmianą (np. agresją i agresję ). Powinny zatem być traktowane jako to samo wyrażenie. Próbą 7

rozwiązania tego typu problemów jest stemming (https://en.wikipedia.org/wiki/stemming). Niestety, w RapidMinerze nie ma stemmera dla języka polskiego. Spróbujmy zastosować automatyczne grupowanie hierarchiczne na otrzymanym zbiorze wektorów. Celem jest wyodrębnienie zbiorów dokumentów o podobnej treści (liczymy na to, że podobna tematyka przekłada się na podobne wektory cech opisujące częstość występowania słów). 8

Wynik: Zaznaczamy węzeł o numerze 25 (uwaga: liczby te nie są nazwami plików a jedynie numerami węzłów drzewa). Widać, że w skład tej grupy wchodzą wszystkie pliki dotyczące wojny. Podobnie, dla węzła 22 otrzymujemy zgrupowane razem dokumenty dotyczące wychowania psów. Natomiast w węźle 23 zgrupowane są dokumenty dotyczące kart graficznych. 9

Zadanie: Wypróbuj inne opcje operatora grupowania hierarchicznego, CompleteLink oraz AverageLink. Zadanie: Wypróbuj inne poznane wcześniej metody grupowania, np. k-średnich. Czy są one w stanie automatycznie wskazać, że w grupie dokumentów są trzy wyraźne tematyczne grupy? 10

3. Analiza zbioru dokumentów przypisanych do zdefiniowanych kategorii. Podczas importu dokumentów możemy wskazać do jakiej kategorii powinny one należeć. Przykładowo, jeśli nasze pliki mamy pogrupowane w katalogach: wtedy podczas importu wskazać możemy dla wszystkich plików z danego katalogu, do jakiej klasy one należą: Tworzymy zatem dane, które mogą posłużyć do trenowania klasyfikatora, które będzie w stanie przyporządkowywać nowe dokumenty (opisane dokładnie tym samym sposobem) do jednej z klas. 11

Przykładowo, jako klasyfikator możemy wybrać drzewo decyzyjne. Oczywiście, interesuje nas klasyfikacja nowych dokumentów: Zadanie: Wyszukaj w Internecie przykładowe artykuły dotyczące wojny, psów lub kart graficznych. Sprawdź, czy powstały klasyfikator poprawnie rozpoznaje ich tematykę. Uwaga: nowe dokumenty muszą być opisane przez wektor atrybutów powstały za pomocą dokładnie tej samej procedury, która została zastosowana do przygotowania zbioru trenującego. 12

4. Reguły asocjacyjne W operatorze Process documents wykorzystaj opcję Binary Term Occurrences. Powstałe wektory atrybutów binarnych wykorzystaj do znalezienia zbioru reguł asocjacyjnych dla słów. Przykładowo: czy odnaleziona zostanie reguła {karta, grafika} - > {komputer}? 13