Zawartośd dokumentów tekstowych Automatyczna analiza opinii konsumenckich Fakty Opinie Web Mining Wykład 3 Rok akademicki: 2010/2011 2 Opinie Rodzaje opinii konsumenckich konsumentów o produktach i usługach, poglądy polityczne, ocena nastrojów, blogi,... opinie ustrukturyzowane opinie nieustrukturyzowane 3 4 Zakres analizy opinii konsumenckich Przedmiot analizy Rozpoznanie charakteru opinii (jako całości): pozytywne/negatywne, pozytywne/negatywne/neutralne, na skali punktowej (np. liczba gwiazdek). Analiza ukierunkowana na cechy produktu: identyfikacja cech produktu i ich ocena (dobry/zły lub analiza porównawcza). Rozpoznanie charakteru opinii dokument zawierający opinię, Analiza ukierunkowana na cechy produktu poszczególne zdania wchodzące w skład dokumentu. 5 6 1
Analiza dokumentu jako całości System rozpoznający charakter opinii podział dokumentu na wyrazy, sprowadzenie do formy podstawowej, identyfikacja fraz (nie jest dobry, ładny i tani), pominięcie słów nieistotnych / uwzględnienie słów istotnych, stworzenie macierzy częstości dla analizowanego dokumentu i jej ewentualne przekształcenie, zdefiniowanie klasyfikatora: reguły definiowane przez człowieka (system ekspercki), model powstały poprzez uczenie, podejście przydatne przy określaniu charakteru opinii jako całości. = Dokumenty Wyrazy Klasyfikator drzewo decyzyjne, sieć neuronowa, zestaw reguł,... 7 8 Amelia przykładowe opinie Przykładowe badania Film jest uroczy, ma właśnie b. głębokie przesłanie, panie krytyczny, wcale nie kicha, tylko po prostu dla ludzi wrażliwych i z inteligencją powyżej przeciętnej...rozumiem, że pan się do tych szczęśliwców nie zalicza. W dodatku mieli świetny pomysł z kręceniem filmu przez filtr - dzięki temu ma on jeszcze więcej smaczku. Rozumiem, że nie wszystkim musi się podobać, ale... nie, jednak nie rozumiem. Już dawno nie oglądałem czegoś tak bez sensu, celu i jakiegokolwiek przesłania. Całe szczęście że pożyczyłem ten film na płytkach za darmo, a nie poszedłem do kina. próbowałem 3 razy, za każdym razem wytrzymywałem max pół godziny, w końcu zobaczyłem summa summarum połowę filmu i basta, to nie ma żadnego sensu, kompletnie. analiza opinii dotyczących filmów wyświetlanych w kinach Krakowa (źródło opinii: http://www.kino.krakow.pl), 500 opinii, charakter opinii: pozytywne, negatywne, obojętne, cel obliczeo: stworzenie narzędzia pozwalającego na pozyskanie informacji dotyczących charakteru opinii (pozytywna, negatywna, obojętne), skonstruowany model miał postad drzewa decyzyjnego. 9 10 Wyniki analizy zbioru pięciuset opinii dotyczących filmów Uwagi dotyczące oprogramowania narzędzie pozwalające na przeprowadzenie eksploracyjnej analizy tekstu: STATISTICA Text Miner, pakiet tm w systemie R, redukcja do rdzenia: słownik morfoloficzny SAM, pakiet Morfologik, zmiana sposobu kodowania znaków: pakiet Gżegżółka. 11 12 2
Analiza zdao dokumentu Ekspercki system analizy zdao bazuje na zdefiniowanych wzorcach zdao, wykorzystuje wiedzę dziedzinową: lingwistyczną (np. struktura zdania), dotyczącą dziedziny, której dotyczy opinia (np. słowniki zawierające listę cech produktu oraz określeo pozwalających na ich ocenę), może mied charakter: eksperckiego systemu regułowego, modelu utworzonego poprzez uczenie maszynowe, podejście przydatne przy analizie opinii ukierunkowanych na cechy produktu. 13 Rodzaje zdao wchodzących w skład opinii: zdania oceniające produkt (jako całośd lub jego cechy), rekomendacje (pozytywne lub negatywne), Słowniki (gazetery): atrybuty produkty, frazy oceniające, wyrażenia rekomendujące, Wzorce wypowiedzi modyfikatory (ładny, bardzo ładny, dośd ładny, super ładny,...) przeczenia (nie jest ładny,...), porównania (lepszy niż, gorszy niż,...), modele zdao. 14 System GATE Język JAPE JAPE - Java Annotation Patterns Engine, język pozwalający na definiowanie złożonych wzorców opisujących wyszukiwane fragmenty tekstu, bazujący na mechanizmie wyrażeo regularnych (przy czym podstawowym elementem wyrażenia są wyrazy, a nie znaki), dostępny m.in. w pakiecie GATE. 15 16 Analiza opinii dotyczących telefonów komórkowych Przykładowa opinia 17 18 3
Wyróżnione cechy telefonów komórkowych Lista wyrazów związana z przykładowymi atrybutami appearance battery calendar design general gps headphones internet keyboard mail mp3player parameters photo price processor quality radio resolution screen signal sms sound touchpad warranty wifi 19 20 Ocena atrybutów Słownik zwrotów rekomendujących, czasowniki mied i byd 21 22 Modyfikatory przykładowe reguły w języku JAPE Przeczenia reguły w języku JAPE 23 24 4
Posiadanie atrybutu Rezultat działania systemu 25 26 Ekspercki system analizy opinii - podsumowanie Systemy automatycznego tłumaczenia proces tworzenia systemu bardzo czasochłonny, koniecznośd łączenia różnych narzędzi (słowniki, reguły JAPE, słowniki morfologiczne), trudna rozbudowa systemu. Tłumaczenie automatyczne (tłumaczenia maszynowe) zautomatyzowany proces tłumaczenia pomiędzy różnymi językami naturalnymi, Rodzaje systemów automatycznego tłumaczenia: systemy oparte na tłumaczeniu słów, systemy składniowe, systemy wykorzystujące uniwersalny język pośredni, tłumaczenie statystyczne. Tłumaczenie statystyczne tłumaczenie wykorzystujące model statystyczny opisujący zależnośd pomiędzy równoważnymi zdaniami zapisanymi w dwóch różnych językach naturalnych. 27 28 Struktura korpusu równoległego Przykłady korpusów równoległych Język f Język e zdanie(f,1) zdanie(e,1) zdanie(f,2) zdanie(e,2) zdanie(f,3) zdanie(e,3) zdanie(f,4) zdanie(e,4) zdanie(f,n) zdanie(e,n) kamieo z Rosetty, Biblia, dokumenty UE,... 29 30 5
Idea statystycznego tłumaczenia maszynowego Dopasowanie wyrazów model języka p e f p ep f p f model tłumaczenia e Język f zdanie(f,1) zdanie(f,2) zdanie(f,3) zdanie(f,4) Język e zdanie(e,1) zdanie(e,2) zdanie(e,3) zdanie(e,4) zdanie(f,n) zdanie(e,n) To jest dom. This is a house. This is a house To jest dom 31 32 Etapy procesu statystycznego tłumaczenia maszynowego System Moses stworzenie korpusu równoległego dopasowanie wyrazów (dopasowaniu podlegad mogą formy występujące w zdaniach lub formy podstawowe) wyznaczenie prawdopodobieostw p(w(f,j) w(e,i)) realizacja tłumaczenia. 33 34 System GIZA++ Zbiór pojęd wykorzystywanych do opisu telefonów Lista uwzględnionych atrybutów: battery, bluetooth, calendar, design, functionality, internet, irda, keyboard, mail, mp3player, photo, processor, quality, resolution, screen, signal, sms, sound, speed, torch, usability, vibration attr_very_poor, attr_poor, attr_average, attr_good, attr_very_good Przykłady: battery_very_poor, battery_poor battery_average... 35 36 6
Zbiór pojęd wykorzystywanych do opisu telefonów Fragment korpusu równoległego (553 zdania) bateria trzyma parę dni battery_good cheap expensive lack_of_attr equipped_with_attr negative_recommendation positive_recommendation wytrzymałość baterii jak i niska cena telefonu. battery_good, cheap w telefonie długo trzyma bateria, jest on mały i lekki. battery_good, design_good plusem była długo trzymająca bateria, a minusem niestety battery_good, lack_of_vibration brak wibracji ma jedne z lepszych baterii na rynku, posiada również battery_good, photo_good bardzo dobry aparat fotograficzny bateria długo trzyma bardzo dobrze robi zdjęcia,bateria battery_good, photo_good, battery_good długo trzyma bateria trzyma ładnie parę dni, aparat robi bardzo dobrej battery_good, photo_very_good jakość zdjęcia. bateria bardzo długo trzyma i jest naprawdę godny battery_good, positive_recommendation polecenia innym. bateria trzyma nawet nieżle, jest nieawaryjny. bateria trzyma długo, jest wytrzymały, polecam bateria długo trzyma, duży wyświetlacz. battery_good, quality_good battery_good, quality_good, positive_recommendation battery_good, screen_good występują problemy z baterią,którą trzeba często ładować. battery_poor 37 38 Analiza przykładowego dokumentu Analiza przykładowego dokumentu Jest to dobry telefon. Bateria trzyma długo. Ma dobry aparat. Telefon jest wytrzymały i solidny. Ma latarkę. Nie jest drogi. Szczerze polecam. Translating: jest to dobry telefon. BEST TRANSLATION: quality-good phone-good Translating: bateria trzyma długo. BEST TRANSLATION: battery-good Translating: ma dobry aparat. BEST TRANSLATION: photo-good Translating: telefon jest wytrzymały i solidny. BEST TRANSLATION: quality-poor quality-good Translating: ma latarkę. BEST TRANSLATION: equipped-with-torch Translating: nie jest drogi. BEST TRANSLATION: expensive Translating: szczerze polecam. BEST TRANSLATION: positive-recommendation Finished translating 39 40 Wnioski koocowe eksperckie systemy regułowe oraz systemy oparte na modelu statystycznym znajdują zastosowanie w automatycznej analizie opinii konsumenckich trudno jest jednoznacznie wykazad wyższośd jednego z tych podejśd, obiecującym rozwiązaniem może byd połączenie obu podejśd. 41 7