Automatyczne przetwarzanie recenzji konsumenckich dla oceny użyteczności produktów i usług

Uniwersytet Ekonomiczny w Poznaniu Wydział Informatyki i Gospodarki Elektronicznej Katedra Informatyki Ekonomicznej Streszczenie rozprawy doktorskiej Automatyczne przetwarzanie recenzji konsumenckich dla oceny użyteczności produktów i usług Jacek Małyszko Promotor: prof. dr hab. Witold Abramowicz, prof. zw. UEP Promotor pomocniczy: dr Agata Filipowska Poznań 2015

Obszarem zainteresowania rozprawy jest zagadnienie recenzji konsumenckich, wpływ analizy takich recenzji na decyzje podejmowane przez podmioty uczestniczące w wymianie rynkowej oraz automatyczne przetwarzanie takich recenzji w celu wspomagania wspomnianych podmiotów w podejmowaniu decyzji. Recenzje konsumenckie są to oceny dóbr (produktów i usług), opublikowane zazwyczaj w pewnym źródle internetowym, wyrażone przez podmioty nie będące ekspertami w danej dziedzinie. Recenzje konsumenckie wykorzystywane są przez sprzedawców i nabywców w celu doskonalenia prowadzonych działań. Sposób wykorzystania recenzji przez takie podmioty jest różny w zależności od ról, jakie pełnią one w stosunku do określonego dobra na rynku. Problemem badawczym, który postawiono w pracy w kontekście recenzji konsumenckich, jest przesyt informacyjny, związany z nadmiarem takich recenzji publikowanych w Internecie. Przesyt informacyjny występuje wówczas, gdy ilość informacji na dany temat przekracza możliwości jednostki do jej przetworzenia. Decyzje podejmowane pod wpływem przesytu informacji mogą nawet okazać się gorsze, niż w przypadku jej niedoboru. Liczba recenzji konsumenckich publikowanych w różnorodnych źródłach internetowych może spowodować, że podmioty chcące podejmować decyzje z wykorzystaniem informacji w nich zawartych, mogą napotkać właśnie problem przesytu informacyjnego. Problem ten staje się szczególnie istotny wówczas, gdy recenzje konsumenckie mają postać wypowiedzi tekstowych, wyrażonych w języku naturalnym, który ze swej natury jest bardzo trudny do automatycznego przetwarzania. Obszar badań, zajmujący się automatycznym przetwarzaniem recenzji konsumenckich, nosi nazwę analizy wydźwięku lub drążenia opinii. Automatyczne przetwarzanie takich recenzji może pozwolić na przezwyciężenie opisanego problemu przesytu informacyjnego. Zależnie od obranego podejścia, analiza wydźwięku wymaga wykorzystania różnych zasobów i technik w celu rozpoznawania opinii wyrażanych w tekście. Podstawowym zasobem jest leksykon sformułowań służących do wyrażania opinii. Sformułowania takie to pojedyncze słowa lub dłuższe frazy, które, użyte w zdaniu, nadają pewien wydźwięk (pozytywny, negatywny lub neutralny) wyrażanej opinii. Przykładami takich sformułowań mogą być słowa dobry, zły, szybki, niski itd. Często, wydźwięk, jaki niesie dane sformułowanie, zmienia się w zależności od tego, w stosunku do jakiego produktu, usługi lub konkretnego aspektu dane sformułowanie się odnosi, gdzie przez aspekt produktu lub usługi rozumiemy wszystko, co może wpływać na opinię innych podmiotów o tym produkcie (lub usłudze) i co jest z nim bezpośrednio powiązane. Przykładowo, dla restauracji aspektem może być jakość jedzenia lub szybkość obsługi klienta. Wydźwięk, jaki dane sformułowanie niesie w kontekście określonego dobra i aspektu, nazywamy polarnością tego sformułowania. Aby leksy- 1

kon sformułowań służących do wyrażania opinii mógł zostać wykorzystany do przeprowadzenia analizy wydźwięku, w leksykonie, przy każdym sformułowaniu, muszą znajdować się informacje o tym, jaką polarność ma ono w stosunku do różnych aspektów ocenianych dóbr. Ze względu na fakt, że przygotowanie leksykonu sformułowań służących do wyrażania opinii może być bardzo czasochłonne, istnieje wiele metod mających na celu automatyczne konstruowanie takiego leksykonu oraz identyfikację polarności należących do niego sformułowań, czyli określanie tego, jaką polarność sformułowania mają w stosunku do różnych dóbr i ich aspektów. Głównym celem pracy jest opracowanie metody, wykorzystującej informacje zawarte w wielu częściowo strukturyzowanych recenzjach konsumenckich, w celu poprawy skuteczności istniejących metod identyfikacji polarności sformułowań służących do wyrażania opinii, dla potrzeb oceny użyteczności produktów i usług. Opracowana metoda, podobnie jak wiele innych podejść mających na celu identyfikację polarności, wykorzystuje analizę korpusu wielu recenzji i identyfikuje polarność na podstawie zaobserwowanych w tym korpusie zależności. Wiele z istniejących podejść wykorzystuje do tego celu korpusy, w których, oprócz wypowiedzi tekstowych, recenzenci wyrażali swoje opinie jeszcze w dodatkowej, strukturyzowanej postaci, przykładowo za pomocą oceny punktowej (takie różne sposoby wyrażania opinii nazywamy w pracy formatami wyrażania opinii). Punktem wyjścia dla istniejących metod jest intuicja, zgodnie z którą polarność sformułowań może być zidentyfikowana w zależności tego, jaką opinię za pomocą strukturyzowanego formatu wyrażali o danym produkcie lub usłudze autorzy recenzji, w których pojawiały się te sformułowania w wypowiedzi tekstowej. Jeśli więc pewne sformułowanie pojawia się prawie wyłącznie w recenzjach, w których recenzenci wyrazili dodatkowo swoją opinię w postaci najwyższej możliwej oceny punktowej, to należy oczekiwać, że sformułowanie to ma pozytywną polarność. Analogiczne wnioskowania można przeprowadzić dla polarności sformułowań w zależności od poszczególnych aspektów, do których odnoszą się one w tekście. W związku z tym, w dotychczasowych podejściach konieczne jest, aby posiadany korpus składał się z recenzji, w których jednocześnie opinie były wyrażane przez każdego z recenzentów na dwa sposoby: w postaci wypowiedzi tekstowej oraz w drugim, strukturyzowanym, a tym samym możliwym do łatwego przetworzenia formacie. W prezentowanej pracy rozwinięto omówione podejście poprzez wykorzystanie podsumowań wielu (przynajmniej dwóch, ale mogą być to też setki czy tysiące) opinii wyrażonych o produktach i usługach do ustalenia polarności sformułowań, używanych w recenzjach tych produktów i usług. Podejście to, podobnie jak istniejące metody, również wykorzystuje opinie wyrażone w strukturyzowanej postaci do identyfikacji polarności sformułowań używanych w wypowiedziach 2

tekstowych, jednak nie jest tu konieczne, aby opinie wyrażone za pomocą różnych formatów były wyrażane przez tych samych recenzentów. Wymagane jest jedynie, aby recenzje w postaci wypowiedzi tekstowych oraz w strukturyzowanym formacie dotyczyły tych samych dóbr. Intuicja, którą kierowano się podczas określania kierunku prac była taka, że jeśli pewne sformułowanie na portalu A używane jest zazwyczaj w recenzjach dóbr, które na portalu B, za pomocą pewnego strukturyzowanego sposobu wyrażania opinii są oceniane prawie zawsze pozytywnie, to sformułowanie to ma prawdopodobnie w kontekście tego dobra polarność pozytywną (i odwrotnie w przypadku opinii negatywnych). Podobnie, w przypadku, gdy pewne sformułowanie jest używane do oceny pewnego aspektu dóbr, dla których aspekt ten oceniany jest prawie zawsze pozytywnie, to sformułowanie to w kontekście danego aspektu ma pozytywną polarność. Przyjmując taką intuicję jako punkt wyjścia dla obranego kierunku badań, zdefiniowano następującą tezę pracy: Wykorzystanie podsumowania opinii recenzentów o pewnym produkcie lub usłudze, skonstruowanego na podstawie wielu częściowo strukturyzowanych recenzji tego produktu (lub usługi), poprawi skuteczność budowania leksykonu sformułowań wyrażających opinie o różnych jego aspektach, a tym samym pozwoli na opracowanie metody oceny użyteczności produktów i usług przez konsumentów. W odniesieniu do celu głównego, zdefiniowano trzy cele szczegółowe dla rozprawy: 1. Analiza możliwości wykorzystania podsumowań wielu opinii o produktach i usługach dla potrzeb ustalania polarności sformułowań wykorzystywanych przez recenzentów do wyrażania opinii. 2. Opracowanie metody identyfikacji polarności sformułowań służących do wyrażania opinii o aspektach produktów i usług na podstawie informacji pozyskanych z podsumowań wielu recenzji konsumenckich, oceniających te produkty i usługi. 3. Opracowanie metody analizy wydźwięku wykorzystującej informacje zawarte w podsumowaniach wielu opinii o produktach i usługach. Poniżej opisano, w jaki sposób osiągnięto poszczególne cele szczegółowe. Podczas prac nad pierwszym celem szczegółowym, dla przyjętego korpusu recenzji konsumenckich analizowano, czy opinie o poszczególnych produktach, których dotyczyły recenzje 3

w korpusie, są ze sobą spójne; innymi słowy, czy da się w recenzjach dotyczących pojedynczego dobra oraz jego aspektów odkryć pewną tendencję w sposobie oceniania go przez różnych recenzentów. Jeśli taka tendencja występuje, to znając podsumowanie opinii recenzentów o pewnym produkcie lub usłudze, możemy przewidzieć, jaką opinię o nim może wyrazić kolejny recenzent, a tym samym jaka jest polarność sformułowania, którego użyje on do oceny tego produktu lub usługi. W przeciwnym wypadku, wnioskowania zaproponowane w tezie nie mogłyby przynieść pożądanych rezultatów. Aby zrealizować postawiony cel zaproponowano miarę, pozwalająca na określanie odległości pomiędzy podsumowaniami opinii. Za pomocą tej miary sprawdzano, czy odległości pomiędzy różnymi podsumowaniami opinii o tym samym dobrze są mniejsze niż pomiędzy podsumowaniami opinii o dobrach różnych. W przeprowadzonych eksperymentach w sposób formalny udowodniono występowanie takiej zależności w analizowanym korpusie, co wykazało, że faktycznie możliwe jest zaobserwowanie tendencji w sposobie oceniania poszczególnych produktów i usług przez różnych recenzentów. Cel szczegółowy 2 został zrealizowany poprzez wypracowanie modeli, metod oraz implementację prototypów, za pomocą których przeprowadzono identyfikację polarności na podstawie podsumowań opinii wielu recenzentów o produktach i usługach. Wypracowana metoda na wejściu otrzymuje pewne sformułowanie służące do wyrażania opinii oraz aspekt, do którego to sformułowanie się odnosi, a także korpus recenzji, z których część ma postać wypowiedzi tekstowych, a część wyrażona jest w strukturyzowany sposób, na podstawie czego możliwe jest wygenerowanie podsumowań opinii wielu recenzentów o poszczególnych produktach i usługach. Dla poszczególnych sformułowań oraz odpowiadających im aspektów metoda identyfikuje dobra, w recenzjach których dane sformułowanie było używane do oceny konkretnego aspektu w wypowiedziach tekstowych, a następnie analizuje, jakie opinie o tych dobrach i ich aspektach były wyrażane przez wielu recenzentów w recenzjach wyrażonych w strukturyzowanym formacie, poprzez wygenerowanie i analizę podsumowań wielu takich opinii. Na tej podstawie przypisywano polarność do analizowanego sformułowania w kontekście danego aspektu. Samo przypisywanie polarności do sformułowań odbywało się, w zależności od wypracowanego wariantu metody, z wykorzystaniem uczenia maszynowego (naiwnego klasyfikatora bayesowskiego) lub ręcznie skonstruowanych reguł. Wypracowana metoda jest w stanie identyfikować polarność sformułowań również wówczas, gdy żadnej z recenzji, w których dane sformułowanie wystąpiło, nie towarzyszyła opinia wyrażona przez 4

tego samego recenzenta w strukturyzowanej postaci. Tym samym, możliwe jest jej przeprowadzenie identyfikacji polarności w sytuacjach, gdy istniejące metody nie mogą być stosowane. Wyniki działania wypracowanej metody porównano z rezultatami działania dwóch metod bazowych, reprezentujących dotychczasowe podejścia do rozwiązania problemu identyfikacji polarności. Wykazano, że zaproponowana metoda pozwala na uzyskanie lepszych wyników identyfikacji polarności według przyjętych miar (precyzji, pełności i F 1 ). Cel szczegółowy 3 osiągnięto poprzez przeprowadzenie analizy wydźwięku z wykorzystaniem leksykonów uzyskanych za pomocą trzech metod porównywanych w eksperymentach przeprowadzonych w trakcie prac nad drugim celem szczegółowym (czyli za pomocą proponowanej metody i dwóch metod bazowych). Przeprowadzony eksperyment wykazał, że wykorzystując leksykon z polarnościami przypisanymi przez proponowaną metodę możliwe było uzyskanie lepszych wyników analizy wydźwięku dla analizowanego korpusu niż w przypadku wykorzystania leksykonów będących rezultatem działania metod bazowych. Oprócz udowodnienia postawionej tezy, w trakcie prac osiągnięto również poboczne rezultaty, wnoszące wkład do dziedziny analizy wydźwięku oraz przetwarzania recenzji konsumenckich. Są to trójfazowa metoda ekstrakcji z tekstu sformułowań służących do wyrażania opinii wraz z aspektami, których te sformułowania dotyczą, oraz miara pozwalająca na badanie podobieństwa sposobu postrzegania produktów i usług przez recenzentów. Podsumowując, głównym rezultatem prezentowanej pracy jest metoda identyfikacji polarności sformułowań służących do wyrażania opinii, która, dzięki wykorzystaniu podsumowań wielu opinii o produktach i usługach, może pozwolić na przeprowadzenie tego procesu w sytuacjach, gdy istniejące dotychczas rozwiązania nie mogły być stosowane. Tym samym, wypracowana metoda pozwala na osiągniecie wyższej poprawności identyfikacji polarności, co w rezultacie przekłada się również na możliwość uzyskania lepszych rezultatów w procesie analizy wydźwięku. Osiągnięte rezultaty mogą pozwolić podmiotom biorącym udział w wymianie rynkowej na trafniejsze rozpoznanie sposobu postrzegania produktów i usług przez konsumentów, a tym samym mogą zostać wykorzystane do wspomagania podejmowania decyzji przez takie podmioty. 5