2011-05-23. Automatyczna analiza opinii konsumenckich. Zawartośd dokumentów tekstowych. Fakty Opinie. Web Mining Wykład 3. Rok akademicki: 2010/2011



Podobne dokumenty
Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Lokalizacja Oprogramowania

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Wpływ automatycznego tłumaczenia na wyniki automatycznej identyfikacji cha- rakteru opinii konsumenckich. 1 Wstęp

Text mining w programie RapidMiner Michał Bereta

Analiza danych tekstowych i języka naturalnego

Oprogramowanie typu CAT

Specjalnościowy Obowiązkowy Polski Semestr VI

UCZENIE MASZYNOWE I SZTUCZNA INTELIGENCJA Jako narzędzia wspomagania decyzji w zarządzaniu kapitałem ludzkim organizacji

Sprzętowo wspomagane metody klasyfikacji danych

BUDOWANIE TOŻSAMOŚCI MARKI TOŻSAMOŚĆ MARKI

Semantyczna analiza języka naturalnego

Systemy uczące się Lab 4

Systemy uczące się wykład 1

Systemy ekspertowe : program PCShell

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy


Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2)

Analiza danych i data mining.

Open Access w technologii językowej dla języka polskiego

Opis efektów kształcenia dla modułu zajęć

Narzędzie do pozyskiwania, analizy i prezentowania informacji.

Semantyczny Monitoring Cyberprzestrzeni

POZYCJONOWANIE STRONY SKLEPU

Process Analytical Technology (PAT),

PLUSÓW możliwe jest stworzenie systemu spełniającego wymagania firm średniej wielkości.

Metody eksploracji danych Laboratorium 4. Klasyfikacja dokumentów tekstowych Naiwny model Bayesa Drzewa decyzyjne

Analiza danych ilościowych: Analiza danych jakościowych:

Tłumaczenie maszynowe. Zasady działania. Autorzy: Josef van Genabith (DFKI), Krzysztof Łoboda (Uniwersytet Jagielloński)

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

PL B1. AKADEMIA GÓRNICZO-HUTNICZA IM. STANISŁAWA STASZICA, Kraków, PL BUP 01/11. WIESŁAW WAJS, Kraków, PL

Systemy ekspertowe i sztuczna inteligencja. dr Agnieszka Nowak Brzezioska

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

Widzenie komputerowe (computer vision)

Polszczyzna i inżynieria lingwistyczna. Autor: Marcin Miłkowski (IFiS PAN)

Internet, jako ocean informacji. Technologia Informacyjna Lekcja 2

Feature Driven Development

Scenariusz zajęć. Temat: Obcojęzyczne zasoby Internetu. II etap edukacyjny, zajęcia komputerowe. Treści kształcenia: Cele zoperacjonalizowane:

Program warsztatów CLARIN-PL

Nowe narzędzia zarządzania jakością

Metody systemowe i decyzyjne w informatyce

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Wykorzystanie standardów serii ISO oraz OGC dla potrzeb budowy infrastruktury danych przestrzennych

AUTOMATYKA INFORMATYKA

SZTUCZNA INTELIGENCJA

SPOŁECZNOŚCI INTERNETOWE

extensible Markup Language, cz. 1 Marcin Gryszkalis, mg@fork.pl

Best MOVE. Twój najlepszy ruch.

Systemy ekspertowe Część siódma Realizacja dziedzinowego systemu ekspertowego Roman Simiński

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

Praktyczna nauka drugiego języka obcego II

Wykrywanie twarzy na zdjęciach przy pomocy kaskad

Praca Magisterska. Automatyczna kontekstowa korekta tekstów na podstawie Grafu Przyzwyczajeń. internetowego dla języka polskiego

Narzędzia do automatycznego wydobywania kolokacji

Wyszukiwanie informacji

Podstawowe definicje Z czego składa się system ekspertowy? Wnioskowanie: wprzód, wstecz, mieszane

Wykład 3: Prezentacja danych statystycznych

Kwalifikacje i kompetencje istotne w zawodzie ASYSTENT MONTAŻYSTY OBRAZU

Tajemnice skutecznego wyszukiwania na przykładzie

Języki programowania zasady ich tworzenia

STUDIA I MONOGRAFIE NR

SHOPPER FEEDBACK. Nowoczesna metoda analizy potrzeb i satysfakcji klientów. Inquiry sp. z o.o.

eszkoła przyszłości Gimnazjum nr 1 w Barcinie

9 elementów zarządzania projektami Narzędzia Nowoczesnego Project Managera

Systemy eksperowe. Agnieszka Nowak Brzezińska Wykład I

Zadanie 1. Stosowanie stylów

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Założenia monitoringu innowacyjności województwa mazowieckiego

PRZEWODNIK PO PRZEDMIOCIE

Adrian Horzyk

INSTYTUT ANALIZ REGIONALNYCH

Kwalifikacje i kompetencje istotne w zawodzie AUTOR DIALOGÓW

Wykład Ćwiczenia Laboratorium Projekt Seminarium

Dobór optymalnego zestawu słów istotnych w opiniach konsumentów na potrzeby ich automatycznej analizy

A - Struktura metadanych opisujących przesyłkę wpływającą (zestaw minimalny)

Idea Bezpiecznej Maszyny w prostym podejściu. użyj Safety Evaluation Tool. Safety Integrated.

SPRAWNOŚĆ MÓWIENIA SPRAWNOŚĆ PISANIA GRAMATYKA I SŁOWNICTWO

Ćwiczenie numer 4 JESS PRZYKŁADOWY SYSTEM EKSPERTOWY.

Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych

Badania marketingowe. Źródło:

Aleksandra Jasińska-Maciążek, Ewa Stożek Wykorzystanie kalkulatora EWD 100 w analizie wyników egzaminacyjnych

PROGRAM DEDYKOWANYCH SZKOLEŃ DLA NAUCZYCIELI ORAZ KADR PEDAGOGICZNYCH REALIZACJA RZĄDOWEGO PROGRAMU AKTYWNA TABLICA

PRZEWODNIK PO PRZEDMIOCIE

Innowacje rynkowe Wykład 5. Podejmowanie decyzji zakupowych i społeczności internetowe

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Raport ewaluacji jakości kształcenia na kierunku Kosmetologia. Rok akademicki 2011/2012

OPIS I PARAMETRY TECHNICZNE

ANALIZA DANYCH ZE ŹRÓDEŁ OTWARTYCH CENNE ŹRÓDŁO INFORMACJI DR INŻ. MARIUSZ DZIECIĄTKO

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Proces badawczy schemat i zasady realizacji

EFEKTY KSZTAŁCENIA KIERUNEK EKONOMIA

T200. The Guiding System, Doświadczenie. nowa droga do realizacji

Czy klientów stać na dobry produkt?

Praca magisterska Jakub Reczycki. Opiekun : dr inż. Jacek Rumiński. Katedra Inżynierii Biomedycznej Wydział ETI Politechnika Gdańska

Programowanie współbieżne Wykład 8 Podstawy programowania obiektowego. Iwona Kochaoska

Absolwent szkoły kształcącej w zawodzie technik organizacji reklamy powinien być przygotowany do wykonywania następujących zadań zawodowych:

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

3 grudnia Sieć Semantyczna

Transkrypt:

Zawartośd dokumentów tekstowych Automatyczna analiza opinii konsumenckich Fakty Opinie Web Mining Wykład 3 Rok akademicki: 2010/2011 2 Opinie Rodzaje opinii konsumenckich konsumentów o produktach i usługach, poglądy polityczne, ocena nastrojów, blogi,... opinie ustrukturyzowane opinie nieustrukturyzowane 3 4 Zakres analizy opinii konsumenckich Przedmiot analizy Rozpoznanie charakteru opinii (jako całości): pozytywne/negatywne, pozytywne/negatywne/neutralne, na skali punktowej (np. liczba gwiazdek). Analiza ukierunkowana na cechy produktu: identyfikacja cech produktu i ich ocena (dobry/zły lub analiza porównawcza). Rozpoznanie charakteru opinii dokument zawierający opinię, Analiza ukierunkowana na cechy produktu poszczególne zdania wchodzące w skład dokumentu. 5 6 1

Analiza dokumentu jako całości System rozpoznający charakter opinii podział dokumentu na wyrazy, sprowadzenie do formy podstawowej, identyfikacja fraz (nie jest dobry, ładny i tani), pominięcie słów nieistotnych / uwzględnienie słów istotnych, stworzenie macierzy częstości dla analizowanego dokumentu i jej ewentualne przekształcenie, zdefiniowanie klasyfikatora: reguły definiowane przez człowieka (system ekspercki), model powstały poprzez uczenie, podejście przydatne przy określaniu charakteru opinii jako całości. = Dokumenty Wyrazy Klasyfikator drzewo decyzyjne, sieć neuronowa, zestaw reguł,... 7 8 Amelia przykładowe opinie Przykładowe badania Film jest uroczy, ma właśnie b. głębokie przesłanie, panie krytyczny, wcale nie kicha, tylko po prostu dla ludzi wrażliwych i z inteligencją powyżej przeciętnej...rozumiem, że pan się do tych szczęśliwców nie zalicza. W dodatku mieli świetny pomysł z kręceniem filmu przez filtr - dzięki temu ma on jeszcze więcej smaczku. Rozumiem, że nie wszystkim musi się podobać, ale... nie, jednak nie rozumiem. Już dawno nie oglądałem czegoś tak bez sensu, celu i jakiegokolwiek przesłania. Całe szczęście że pożyczyłem ten film na płytkach za darmo, a nie poszedłem do kina. próbowałem 3 razy, za każdym razem wytrzymywałem max pół godziny, w końcu zobaczyłem summa summarum połowę filmu i basta, to nie ma żadnego sensu, kompletnie. analiza opinii dotyczących filmów wyświetlanych w kinach Krakowa (źródło opinii: http://www.kino.krakow.pl), 500 opinii, charakter opinii: pozytywne, negatywne, obojętne, cel obliczeo: stworzenie narzędzia pozwalającego na pozyskanie informacji dotyczących charakteru opinii (pozytywna, negatywna, obojętne), skonstruowany model miał postad drzewa decyzyjnego. 9 10 Wyniki analizy zbioru pięciuset opinii dotyczących filmów Uwagi dotyczące oprogramowania narzędzie pozwalające na przeprowadzenie eksploracyjnej analizy tekstu: STATISTICA Text Miner, pakiet tm w systemie R, redukcja do rdzenia: słownik morfoloficzny SAM, pakiet Morfologik, zmiana sposobu kodowania znaków: pakiet Gżegżółka. 11 12 2

Analiza zdao dokumentu Ekspercki system analizy zdao bazuje na zdefiniowanych wzorcach zdao, wykorzystuje wiedzę dziedzinową: lingwistyczną (np. struktura zdania), dotyczącą dziedziny, której dotyczy opinia (np. słowniki zawierające listę cech produktu oraz określeo pozwalających na ich ocenę), może mied charakter: eksperckiego systemu regułowego, modelu utworzonego poprzez uczenie maszynowe, podejście przydatne przy analizie opinii ukierunkowanych na cechy produktu. 13 Rodzaje zdao wchodzących w skład opinii: zdania oceniające produkt (jako całośd lub jego cechy), rekomendacje (pozytywne lub negatywne), Słowniki (gazetery): atrybuty produkty, frazy oceniające, wyrażenia rekomendujące, Wzorce wypowiedzi modyfikatory (ładny, bardzo ładny, dośd ładny, super ładny,...) przeczenia (nie jest ładny,...), porównania (lepszy niż, gorszy niż,...), modele zdao. 14 System GATE Język JAPE JAPE - Java Annotation Patterns Engine, język pozwalający na definiowanie złożonych wzorców opisujących wyszukiwane fragmenty tekstu, bazujący na mechanizmie wyrażeo regularnych (przy czym podstawowym elementem wyrażenia są wyrazy, a nie znaki), dostępny m.in. w pakiecie GATE. 15 16 Analiza opinii dotyczących telefonów komórkowych Przykładowa opinia 17 18 3

Wyróżnione cechy telefonów komórkowych Lista wyrazów związana z przykładowymi atrybutami appearance battery calendar design general gps headphones internet keyboard mail mp3player parameters photo price processor quality radio resolution screen signal sms sound touchpad warranty wifi 19 20 Ocena atrybutów Słownik zwrotów rekomendujących, czasowniki mied i byd 21 22 Modyfikatory przykładowe reguły w języku JAPE Przeczenia reguły w języku JAPE 23 24 4

Posiadanie atrybutu Rezultat działania systemu 25 26 Ekspercki system analizy opinii - podsumowanie Systemy automatycznego tłumaczenia proces tworzenia systemu bardzo czasochłonny, koniecznośd łączenia różnych narzędzi (słowniki, reguły JAPE, słowniki morfologiczne), trudna rozbudowa systemu. Tłumaczenie automatyczne (tłumaczenia maszynowe) zautomatyzowany proces tłumaczenia pomiędzy różnymi językami naturalnymi, Rodzaje systemów automatycznego tłumaczenia: systemy oparte na tłumaczeniu słów, systemy składniowe, systemy wykorzystujące uniwersalny język pośredni, tłumaczenie statystyczne. Tłumaczenie statystyczne tłumaczenie wykorzystujące model statystyczny opisujący zależnośd pomiędzy równoważnymi zdaniami zapisanymi w dwóch różnych językach naturalnych. 27 28 Struktura korpusu równoległego Przykłady korpusów równoległych Język f Język e zdanie(f,1) zdanie(e,1) zdanie(f,2) zdanie(e,2) zdanie(f,3) zdanie(e,3) zdanie(f,4) zdanie(e,4) zdanie(f,n) zdanie(e,n) kamieo z Rosetty, Biblia, dokumenty UE,... 29 30 5

Idea statystycznego tłumaczenia maszynowego Dopasowanie wyrazów model języka p e f p ep f p f model tłumaczenia e Język f zdanie(f,1) zdanie(f,2) zdanie(f,3) zdanie(f,4) Język e zdanie(e,1) zdanie(e,2) zdanie(e,3) zdanie(e,4) zdanie(f,n) zdanie(e,n) To jest dom. This is a house. This is a house To jest dom 31 32 Etapy procesu statystycznego tłumaczenia maszynowego System Moses stworzenie korpusu równoległego dopasowanie wyrazów (dopasowaniu podlegad mogą formy występujące w zdaniach lub formy podstawowe) wyznaczenie prawdopodobieostw p(w(f,j) w(e,i)) realizacja tłumaczenia. 33 34 System GIZA++ Zbiór pojęd wykorzystywanych do opisu telefonów Lista uwzględnionych atrybutów: battery, bluetooth, calendar, design, functionality, internet, irda, keyboard, mail, mp3player, photo, processor, quality, resolution, screen, signal, sms, sound, speed, torch, usability, vibration attr_very_poor, attr_poor, attr_average, attr_good, attr_very_good Przykłady: battery_very_poor, battery_poor battery_average... 35 36 6

Zbiór pojęd wykorzystywanych do opisu telefonów Fragment korpusu równoległego (553 zdania) bateria trzyma parę dni battery_good cheap expensive lack_of_attr equipped_with_attr negative_recommendation positive_recommendation wytrzymałość baterii jak i niska cena telefonu. battery_good, cheap w telefonie długo trzyma bateria, jest on mały i lekki. battery_good, design_good plusem była długo trzymająca bateria, a minusem niestety battery_good, lack_of_vibration brak wibracji ma jedne z lepszych baterii na rynku, posiada również battery_good, photo_good bardzo dobry aparat fotograficzny bateria długo trzyma bardzo dobrze robi zdjęcia,bateria battery_good, photo_good, battery_good długo trzyma bateria trzyma ładnie parę dni, aparat robi bardzo dobrej battery_good, photo_very_good jakość zdjęcia. bateria bardzo długo trzyma i jest naprawdę godny battery_good, positive_recommendation polecenia innym. bateria trzyma nawet nieżle, jest nieawaryjny. bateria trzyma długo, jest wytrzymały, polecam bateria długo trzyma, duży wyświetlacz. battery_good, quality_good battery_good, quality_good, positive_recommendation battery_good, screen_good występują problemy z baterią,którą trzeba często ładować. battery_poor 37 38 Analiza przykładowego dokumentu Analiza przykładowego dokumentu Jest to dobry telefon. Bateria trzyma długo. Ma dobry aparat. Telefon jest wytrzymały i solidny. Ma latarkę. Nie jest drogi. Szczerze polecam. Translating: jest to dobry telefon. BEST TRANSLATION: quality-good phone-good Translating: bateria trzyma długo. BEST TRANSLATION: battery-good Translating: ma dobry aparat. BEST TRANSLATION: photo-good Translating: telefon jest wytrzymały i solidny. BEST TRANSLATION: quality-poor quality-good Translating: ma latarkę. BEST TRANSLATION: equipped-with-torch Translating: nie jest drogi. BEST TRANSLATION: expensive Translating: szczerze polecam. BEST TRANSLATION: positive-recommendation Finished translating 39 40 Wnioski koocowe eksperckie systemy regułowe oraz systemy oparte na modelu statystycznym znajdują zastosowanie w automatycznej analizie opinii konsumenckich trudno jest jednoznacznie wykazad wyższośd jednego z tych podejśd, obiecującym rozwiązaniem może byd połączenie obu podejśd. 41 7