Agenda. WEKA i Text Mining. Data mining a Text mining. Text mining. Text mining process. Text mining. dr inŝ. Jacek Grekow

HTML
DOWNLOAD

Wielkość: px

Rozpocząć pokaz od strony:

Download "Agenda. WEKA i Text Mining. Data mining a Text mining. Text mining. Text mining process. Text mining. dr inŝ. Jacek Grekow"

Zuzanna Karczewska
7 lat temu
Przeglądów:

tekstu Grupowanie tekstów UŜycie filtru Import danych konwersja tekst > dane ARFF Przykład aplikacji w Javie Data mining a Text mining Data mining zajmuje się szukaniem wzorców w zbiorach danych.

Text mining Text mining ogólna nazwa metod eksploracji danych słuŝących do wydobywania danych statystycznych z tekstu i ich późniejszej obróbki. Metody text mining stosowane są np.

1 Agenda WEKA i Text Mining dr inŝ. Jacek Grekow IAI - Inteligentne aplikacje internetowe Wydział Informatyki, Politechnika Białostocka Text mining definicje Proces wydobywania informacji z tekstu Charakterystyka tekstu Reprezentacja tekstu Grupowanie tekstów UŜycie filtru Import danych konwersja tekst > dane ARFF Przykład aplikacji w Javie Data mining a Text mining Data mining zajmuje się szukaniem wzorców w zbiorach danych. Text mining zajmuje się szukaniem wzorców w tekstach. Jest to proces analizy tekstu do wydobywania informacji która jest uŝyteczna dla danego zadania. Text mining Text mining ogólna nazwa metod eksploracji danych słuŝących do wydobywania danych statystycznych z tekstu i ich późniejszej obróbki. Metody text mining stosowane są np. do statystycznego przetwarzania: artykułów prasowych wiadomości poczty elektronicznej odpowiedzi na pytania ankietowe opisów dolegliwości, podawanych przez pacjentów komentarzy do sesji giełdowych i zdarzeń dotyczących spółek Ŝyciorysów zawodowych i listów motywacyjnych Text mining Text mining process Text mining polega na znalezieniu kluczowych fraz, zdań, które zostają następnie zakodowane pod postacią zmiennych numerycznych. Później stosuje się metody statystyki i eksploracji danych w celu odkrycia zaleŝności pomiędzy zmiennymi. 1

Tekst a informacja We współczesnej kulturze tekst jest najczęstszym narzędziem do wymiany informacji.

Tekst a informacja W text mining, wydobywana jest informacja która jest umieszczona w tekście.

informacji ukrytej w tekście trudno dotrzeć przez automatyczny proces.

Komputery starają się przetworzoną teksty dla ludzi którzy nie mają czasu czytać całych dokumentów.

ZaleŜności Słowa i frazy razem tworzą wzajemnie wspólny kontekst Np. rybki i akwarium i rybki i talerz Charakterystyka tekstu cd.

2 Tekst a informacja We współczesnej kulturze tekst jest najczęstszym narzędziem do wymiany informacji. Próba wydobycia z tekstu informacji jest fascynująca nawet jeśli przynosi tylko częściowy sukces. Tekst a informacja W text mining, wydobywana jest informacja która jest umieszczona w tekście. Z punktu widzenia człowieka dotarcie do sensu treści dokumentu jest ograniczone przez potrzebny do przeczytania tekstu czas Problemem jest w tym, Ŝe do informacji ukrytej w tekście trudno dotrzeć przez automatyczny proces. Konsumpcja tekstu Text mining stara się przetworzyć dokumenty tekstowe w formę zrozumiałą dla komputerów. Komputery starają się przetworzoną teksty dla ludzi którzy nie mają czasu czytać całych dokumentów. Charakterystyka tekstu RóŜne formy tekstu Tekst jest przeznaczony dla róŝnych odbiorców-klientów, np. róŝne języki (ludzie) i róŝne formaty (maszyny). ZaleŜności Słowa i frazy razem tworzą wzajemnie wspólny kontekst Np. rybki i akwarium i rybki i talerz Charakterystyka tekstu cd. Wieloznaczność Wieloznaczność słów. Np. zamek Wieloznaczność wyraŝeń. Np. czarna owca Hałaśliwe dane Błędne dane. Wprowadzające w błąd (celowo) dane. Brak strukturalności tekstu Chat room, normalna mowa, Charakterystyka tekstu cd. DuŜa wielowymiarowość, rzadkie dane (sparse input) Dziesiątki tysięcy słów (atrybuty- cechy). Tylko mały procent słów jest uŝyty w typowym dokumencie Przykład: 2 najczęściej występujące słowa»10-15% wszystkich wystąpień słów 6 najczęściej występujących słów»20% wszystkich wystąpień słów 50 najczęściej występujących słów»50% wszystkich wystąpień słów 2

Klasyfikacja dokumentów - waŝny text mining problem KaŜdy przykład reprezentuje jeden dokument tekstowy, a klasa jest tematem. Dokumenty są scharakteryzowane za pomocą słów które w nich występują.

3 Klasyfikacja dokumentów - waŝny text mining problem KaŜdy przykład reprezentuje jeden dokument tekstowy, a klasa jest tematem. Dokumenty są scharakteryzowane za pomocą słów które w nich występują. Obecność lub absencja danego słowa w dokumencie moŝe być traktowana jako Boolean atrybut, (kot -> 1, dom ->1, pies -> 0). Albo dokument moŝe byś traktowany jako worek słów (bags of words), a nie jak zbiór, ilość wystąpienia danego słowa moŝe być (np. kot -> 3, dom ->1, pies ->0). Przykład charakteryzowania dokumentu Zdania przykładowe do analizy: Stary niedźwiedź mocno śpi, a myśliwy nie śpi W Polsce Ŝyje około 90 niedźwiedzi i około 1000 wilków Skórę niedźwiedzia sprzedają, a niedźwiedź w lesie. Bags of words WaŜenie słów term frequency times inverse document frequency W reprezentacji Bag of words kaŝde słowo jest reprezentowane oddzielną zmienną o numerycznej wartości. Najbardziej popularną metodą waŝenia słów jest: term frequency times inverse document frequency (tfidf): tfidf(w) = tf(w) x log( N / df(w)) tf(w) częstotliwość występowania słowa (termu) w dokumencie (liczba wystąpień w dokumencie) df(w) document frequency (liczba dokumentów zawierających dane słowo) N liczba wszystkich dokumentów tfidf(w) relatywna waŝność (relative importance) słowa w dokumencie Bags of words Ogromna ilość róŝnych słów DuŜa ich część nie jest uŝyteczna do klasyfikacji dokumentów Prowadzi to do klasycznego problemu selekcji atrybutów. 3

Vector Space Document Representation TRUMP MAKES BID FOR CONTROL OF RESORTS Casino owner and real estate Donald Trump has offered to acquire all Class B common shares of Resorts International Inc, a

Each Class B share has 100 times the voting power of a Class A share, giving the Class B stock about 93 pct of Resorts voting power. [RESORTS:0.624] [CLASS:0.487] [TRUMP:0.367] [VOTING:0.

075] [SHARE:0.072] [JAMES:0.070] [REAL:0.068] [CONTROL:0.065] [ACQUIRE:0.064] [OFFERED:0.063] [BID:0.063] [LATE:0.062] [OUTSTANDING:0.056] [SPOKESMAN:0.049] [CHAIRMAN:0.049] [INTERNATIONAL:0.

MoŜe być traktowana jako sposób na poprawienie reprezentacji tekstu. Po co to robić? Wiele atrybutów ma małą ilość informacji np. stop words.

4 Vector Space Document Representation TRUMP MAKES BID FOR CONTROL OF RESORTS Casino owner and real estate Donald Trump has offered to acquire all Class B common shares of Resorts International Inc, a spokesman for Trump said. The estate of late Resorts chairman James M. Crosby owns 340,783 of the 752,297 Class B shares. Resorts also has about 6,432,000 Class A common shares outstanding. Each Class B share has 100 times the voting power of a Class A share, giving the Class B stock about 93 pct of Resorts voting power. [RESORTS:0.624] [CLASS:0.487] [TRUMP:0.367] [VOTING:0.171] [ESTATE:0.166] [POWER:0.134] [CROSBY:0.134] [CASINO:0.119] [DEVELOPER:0.118] [SHARES:0.117] [OWNER:0.102] [DONALD:0.097] [COMMON:0.093] [GIVING:0.081] [OWNS:0.080] [MAKES:0.078] [TIMES:0.075] [SHARE:0.072] [JAMES:0.070] [REAL:0.068] [CONTROL:0.065] [ACQUIRE:0.064] [OFFERED:0.063] [BID:0.063] [LATE:0.062] [OUTSTANDING:0.056] [SPOKESMAN:0.049] [CHAIRMAN:0.049] [INTERNATIONAL:0.041] [STOCK:0.035] [YORK:0.035] [PCT:0.022] [MARCH:0.011] Selekcja atrybutów Co to jest selekcja atrybutów? Selekcjonuje podzbiór atrybutów który ma reprezentować dokument. MoŜe być traktowana jako sposób na poprawienie reprezentacji tekstu. Po co to robić? Wiele atrybutów ma małą ilość informacji np. stop words. Niektóre atrybuty wprowadzają w błąd Niektóre atrybuty są nadmierne (niepotrzebne) Niektóre algorytmy pracują lepiej z mniejszą liczbą atrybutów np. Skomplikowane klasyfikatory potrzeba więcej miejsca do utworzenia struktury w pamięci Selekcja atrybutów cd. Usuwanie stop words Najczęściej występujące słowa nie pomagają w analizie tekstu np. do, i, no, the, a, an, you Stemming Identyfikacja słów za pomocą ich korzeni Redukcja wymiarowości (liczby atrybutów). np. niedźwiedzia, niedźwiedź ->niedźwied flying, flew fly UŜywane algorytmy : Porter s Algorithm. KSTEM Algorithm. Selekcja atrybutów Stemming przykłady Original Text Document will describe marketing strategies carried out by U.S. companies for their agricultural chemicals, report predictions for market share of such chemicals, or report market statistics for agrochemicals. Porter Stemmer (stop words removed) market strateg carr compan agriculturchemic report predict market share chemic report market statist agrochem KSTEM (stop words removed) marketing strategy carry company agriculture chemical report prediction market share chemical report market statistic Klasyfikacja <-> Grupowanie Klasyfikacja dokumentów -> uczenie nadzorowane (supervised) Kategorie (klasa decyzyjna jest podana ze dla kaŝdego dokumentu zbiorem treningowym) Grupowanie dokumentów <- uczenie nienadzorowane (unsupervised) Nie ma podanej klasy, grupy dla dokumentów, Grupa jest szukana. WEKA Filtr: 4

Grupowanie dokumentów clustering Przykład w WEKA: K-Means Clustering tworzy atrybuty (cechy) które reprezentują częstotliwość występowania kaŝdego słowa w tekście.

Nowe atrybuty mogą być nazywane przy uŝyciu zdefiniowanego przez uŝytkownika prefiksu. Jest wiele opcji wpływających na ilość i rodzaj tworzonych słówatrybutów.

5 Grupowanie dokumentów clustering Przykład w WEKA: K-Means Clustering tworzy atrybuty (cechy) które reprezentują częstotliwość występowania kaŝdego słowa w tekście. Zbiór słów jest określony przez zbiór danych wejściowych. Domyślnie kaŝde słowo otrzymuje atrybut, którego wartość jest 1 lub 0, co wskazuje czy dane słowo jest czy teŝ go nie ma w tekście. Nowe atrybuty mogą być nazywane przy uŝyciu zdefiniowanego przez uŝytkownika prefiksu. Jest wiele opcji wpływających na ilość i rodzaj tworzonych słówatrybutów. Words can be formed from contiguous alphabetic sequences or separated by a given set of delimiter characters. Przed utworzeniem słownika terów mogą być przekształcone na małe litery stopwords mogą byś ignorowane. Słowa które nie występują poniŝej pewnej liczby k (częstotliwości) mogą byś ignorowane. Jeśli atrybut klasy jest ustawiony to k słów dla kaŝdej klasy będzie zachowana Częstotliwość występowania słów moŝe być normalizowana tak aby zapewnić taką samą długość wektora atrybutów (Euclidean length) Dodatkowo, częstotliwość f ij dla słowa i w dokumencie j moŝe być transformowana przy uŝyciu miary: log (1 + f ij ) lub TF x IDF Przykłady 5

Import danych do WEKA Do wykonania jakichkolwiek zadań klasyfikacji czy grupowania pakiet WEKA potrzebuje danych w formacie ARFF lub XRFF pliki tekstowe -> plik ARFF Import plików z katalogu pliki

6 Import danych do WEKA Do wykonania jakichkolwiek zadań klasyfikacji czy grupowania pakiet WEKA potrzebuje danych w formacie ARFF lub XRFF pliki tekstowe -> plik ARFF Import plików z katalogu pliki tekstowe -> plik ARFF MoŜna przekształcić pliki tekstowe w plik ARFF za pomocą narzędzia: TextDirectoryLoader converter znajduje się on w pakiecie weka.core.converters Przykład struktury katalogów dla TextDirectoryLoader text_example +- class1 + file1.txt + file2.txt class2 + another_file1.txt + another_file2.txt... Konwersja Przedstawiona struktura katalogów moŝe być przekształcona do ARFF pliku za pomocą komendy np: java weka.core.converters.textdirectoryloader -dir text_example > text_example.arff Przykład programu w java Przykład konwertuje znajdujące się w strukturze katalogów pliki HTML w plik ARFF przy uŝyciu konwertera TextDirectoryLoader. Stosuje filtr dla popranych danych i trenuje tymi danymi klasyfikator J48. public class TextCategorizationTest {* public static void main(string[] args) throws Exception { // convert the directory into a dataset TextDirectoryLoader loader = new TextDirectoryLoader(); loader.setdirectory(new File(args[0])); Instances dataraw = loader.getdataset(); //System.out.println("\n\nImported data:\n\n" + dataraw); // apply the filter = new (); filter.setinputformat(dataraw); Instances datafiltered = Filter.useFilter(dataRaw, filter); //System.out.println("\n\nFiltered data:\n\n" + datafiltered); // train J48 and output model J48 classifier = new J48(); classifier.buildclassifier(datafiltered); System.out.println("\n\nClassifier model:\n\n" + classifier); } } 6

7 Przykład praktyczny: Aplikacja anty-spamowa Omówienie problemu Budowa bazy przykładów Szukanie najlepszego ustawienia filtru Szukanie algorytmu klasyfikacji Ewaluacja Klasyfikacja nowych przykładów Pytania? Dziękuję za uwagę 7

Podobne dokumenty

Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl

Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Aby skorzystać z możliwości RapidMinera w zakresie analizy tekstu, należy zainstalować Text Mining Extension. Wybierz: 1 Po