WYKORZYSTANIE METOD AUTOMATYZACJI TEKSTU W ANALIZIE OPINII KONSUMENCKICH
|
|
- Joanna Filipiak
- 6 lat temu
- Przeglądów:
Transkrypt
1 MODERN MNGEMENT REVIEW 2016 MMR, vol. XXI, 23 (2/2016), pp pril-june nna GŁDYSZ 1 WYKORZYSTNIE METOD UTOMTYZJI TEKSTU W NLIZIE OPINII KONSUMENKIH naliza opinii konsumenckich jest obszarem badań, który może mieć znaczący wpływ na rozwój działalności biznesowej przedsiębiorstwa. Jest też narzędziem, które może dostarczyć istotnych informacji mających wpływ na wizerunek firmy, co ma duże znaczenie dla firm działających na bardzo konkurencyjnym rynku. Wielu konsumentów przed dokonaniem wyboru towaru lub usługi przeszukuje Internet w poszukiwaniu opinii innych użytkowników sieci. Znalezione rekomendacje często odgrywają decydującą rolę podczas podejmowania decyzji. by nadążać za zmieniającymi się oczekiwaniami klientów, warto postawić na badania ich opinii. Narastająca liczba opinii dostępnych w sieci wytworzyła potrzebę ich automatycznej analizy i przetwarzania. Zagadnienie to zyskuje na popularności zarówno wśród badaczy, jak i wśród przedsiębiorców, dla których opinie konsumentów stanowią źródło informacji biznesowej. Dzięki stale rosnącej potrzebie dostępu do opinii klientów, a co za tym idzie wiedzy i informacji, które można z nich czerpać, narzędzia umożliwiające automatyzację procesu pozyskiwania z nich kluczowych i strategicznych informacji zyskują na znaczeniu. Problem ten wymaga nieco innego spojrzenia na dane i doboru określonego sposobu ich analizowania za pomocą technik eksploracji danych, zwłaszcza tekstowych. Głównym celem pracy jest przeprowadzenie analizy automatycznej klasyfikacji opinii z wykorzystaniem eksploracyjnych metod analizy tekstu oraz metody opartej na wzorcach. Wykorzystane podejścia zostaną porównane z tymi dotychczas stosowanymi w badaniach. Wykorzystanie informacji pozyskanych z opinii klientów przyczynia się do zwiększenia wiedzy pracowników na wszystkich szczeblach organizacji, zapewnia dostęp do odpowiednich informacji we właściwym czasie, dzięki czemu wpływa na trafność podejmowanych decyzji biznesowych. Słowa kluczowe: opinie konsumenckie, automatyczna analiza opinii, eksploracyjna analiza tekstu, klasyfikacja dokumentów 1. WPROWDZENIE Żadna firma nie może zatrzymać się na danej fazie rozwoju, uznając, że to wystarczy i osiągnęła wszystko, co mogła. Współcześnie wciąż zmieniają się otoczenie biznesowe i oczekiwania konsumentów, stąd przedsiębiorcy muszą nieustannie rozwijać swoje produkty i usługi, pamiętając o tym, że powinny się one dostosować przede wszystkim do potrzeb ich użytkowników. by nadążać za zmieniającymi się oczekiwaniami klientów, warto postawić na badania ich opinii. nalizaopiniikonsumenckichjestobszarembadań,którymożemiećznaczący wpływ na współczesne zarządzanie, a co za tym idzie na rozwój działalności biznesowej 2. Znaczna liczba konsumentów przed dokonaniem wyboru o zakupie towaru lub skorzystaniu 1 Dr inż. nna Gładysz, Wydział Zarządzania, Politechnika Rzeszowska, al. Powstańców Warszawy 10, Rzeszów, anna.gladysz@prz.edu.pl 2 Zhu F., Zhang, X., Impact of online consumer reviews on sales: The moderating role of product and consumer characteristics, Journal of Marketing 74/2 (2010), s
2 32. Gładysz z usługi przeszukuje Internet w poszukiwaniu opinii innych użytkowników sieci. Znalezione rekomendacje często odgrywają decydującą rolę podczas podejmowania decyzji. Z tego powodu dla przedsiębiorstwa istotna wydaje się wiedza o tym, w jaki sposób jest ono (a także jego produkty) postrzegane przez konsumentów czy nawet konkurencję. Pozwala to na podejmowanie właściwych działań marketingowych zmierzających do wykreowania jak najlepszej opinii wśród wybranej grupy docelowej. Narastająca liczba opinii dostępnych w Internecie wytworzyła potrzebę ich automatycznej analizy i przetwarzania. Problem ten wymaga nieco innego spojrzenia na dane i doboru określonego sposobu ich analizowania za pomocą technik eksploracji danych 3. Znalezienie takich zestawów słów wewnątrz opinii konsumenckich, przy uwzględnieniu ich nacechowania semantycznego, pozwala na stworzenie bazy wiedzy, w oparciu na której możliwe jest także dokonywanie klasyfikacji nowych opinii. Zagadnienie to zyskuje na popularności zarówno wśród badaczy, jak i wśród przedsiębiorców, dla których opinie konsumentów stanowią źródło informacji biznesowej. Warto zwrócić uwagę także na zjawisko wynikające z globalizacji i powszechnego dostępu do Internetu napotykamy dostępność opinii w różnych językach. Ich analiza jest dodatkowo utrudniona ze względu na specyfikę każdego języka naturalnego. Zrealizowane do tej pory prace teoretyczne i wypracowane na ich podstawie narzędzia ukierunkowane są głównie na automatyczną analizę opinii przygotowanych w języku angielskim. Dostępność rozwiązań dla innych języków w tym również dla języka polskiego jest znacznie bardziej ograniczona 4. Głównym celem pracy jest przeprowadzenie analizy własności automatycznej klasyfikacji opinii napisanych w języku polskim z wykorzystaniem metod algebraicznych eksploracyjnej analizy tekstu. 2. UTOMTYZN NLIZ OPINII KONSUMENKIH Źródła literaturowe definiują automatyczną analizę opinii konsumenckich jako ogół działań mających na celu zautomatyzowanie procesu wyszukiwania, ekstrakcji i analizy danych pochodzących ze specyficznych tekstów, jakimi są opinie użytkowników. Obszar badań zajmujący się poruszaną problematyką nazywany jest drążeniem opinii (opinionmining) lub analizą wydźwięku (sentimentanalysis) i jest dobrze znanym problemem z zakresu przetwarzania języka naturalnego (NLP, naturallanguageprocessing), lingwistyki komputerowej (computationallinguistics) oraz eksploracyjnej analizy tekstu (textmining) 5. Zadaniem stawianym przed automatyczną analizą opinii konsumenckich jest określenie nastawienia autora wypowiedzi do jej przedmiotu. Opinie konsumenckie obejmują swoim zasięgiem opinie na temat dóbr, opublikowane w pewnym źródle internetowym, wyrażone przez podmioty niebędące ekspertami w danej dziedzinie 6.Opinie przedstawiają specyficzny rodzaj danych tekstowych, które mają subiektywny charakter wyrażają stosunek autora wypowiedzi do przedmiotu opinii. Opi- 3 D. Larose, Odkrywanie wiedzy z danych, Wydawnictwo Naukowe PWN, Warszawa P. Lula, utomatyczna analiza opinii konsumenckich,[w:]taksonomia 18, Klasyfikacja i analiza danych teoria i zastosowania, red. K. Jajuga, M. Walesiak, Wydawnictwo UE we Wrocławiu, Wrocław B. Liu, Opinion Mining and Sentiment nalysis, [w:]idem, Web Data Mining, Data-entric Systems and pplications, Springer Berlin Heidelberg, Berlin 2011, s S. Mudambi, D. Schuff, What makes a helpful online review? study of customer reviews on mazon.com, MIS Quarterly 34/1 (2010), s
3 Wykorzystanie metod automatyzacji 33 nie, oprócz subiektywnych odczuć autora, mogą zawierać obiektywne stwierdzenia, które mogąmiećwpływnawynikanalizy.dlategoczęśćbadaczyrozpoczynaanalizęod określenia, czy badany tekst jest obiektywny, czy subiektywny 7.W niektórych serwisach opinie słowne są wspierane oceną punktową lub gwiazdkami. Punkty mogą być przypisywane do całego produktu lub jego aspektów, gdzie lista takich aspektów jest zdefiniowana dla danego produktu. Popularną reprezentacją graficzną przyznawania ocen są gwiazdki, dzięki którym użytkownik może nadać ocenę w skali 1 5, klikając na odpowiednią gwiazdkę 8.Ważnymi zaletami takiego sposobu oceniania są jego szybkość i intuicyjność, a także łatwość przeprowadzania późniejszych analiz na tak wystawionych ocenach. Przykładowo określenie średniej oceny danego produktu wymaga jedynie policzenia średniej arytmetycznej przyznanych punktów. Podejście takie często traktowane jest jako ogólna ocena danego produktu lub jego aspektu. Niestety, istniejące wyniki badań wskazują, że średnia punktów może być mylnym wskaźnikiem sposobu postrzegania dóbr przez konsumentów (często dla jednego produktu recenzenci przyznali wiele bardzo pozytywnych, jak i jednoznacznie negatywnych ocen) 9. Opinie można podzielić na grupy według ich formatu 10 : zalety i wady opinie mogą być wyrażane w postaci list zalet i wad. Wartości w każdej z tych list mogą być dowolne lub wybierane z predefiniowanej dla danej kategorii produktów listy. Podsumowanie opinii wyrażonych w tym formacie może być łatwo wygenerowane, choćby poprzez określenie liczby konsumentów, którzy wybrali daną zaletę lub daną wadę w opinii produktu. Dzięki temu można szybko poznać najczęściej wymieniane wady i zalety danego produktu; zalety i wady oraz podsumowanie występuje także postać wypowiedzi tekstowej. Podsumowywanie opinii staje się trudniejszym zadaniem i wymaga wykorzystania technik przetwarzania języka naturalnego; dowolny wykorzystanie innych formatów. Podsumowanie najważniejszych z punktu widzenia utora cech poszczególnych formatów zaprezentowano w tabeli 1. Poszczególne formaty omówiono, uwzględniając podział: zakresu ocenianych aspektów w jakim stopniu możliwe jest wyrażanie opinii o aspektach danego dobra, uwzględniając różny poziom szczegółowości; stopnia trudności podsumowywania opinii na ile skomplikowane jest automatyczne przetwarzanie opinii wyrażanych w tym formacie. 7 B.Pang,L. Lee, Opinion Mining and Sentiment nalysis, Foundations and Trends in Information Retrieval 2/1 2 (2008), s N.Hu, J.Zhang, P.. Pavlou, Overcoming the J-shaped distribution of product reviews, ommun. M 52/10 (2009), s N.Hu, P. Pavlou, J. Zhang, an online reviews reveal a product s true quality?: empirical findings and analytical modeling of Online word-of-mouth communication, Proceedings of the 7th M conference on Electronic commerce, M, 2006, s B.Liu, Web DataMining. Exploring Hyperlinks, ontents, and Usage Data, Springer-Verlag Berlin, Heidelberg 2007.
4 34. Gładysz Tabela 1. Porównanie różnych formatów wyrażania opinii Format Skala punktowa / gwiazdki Zalety i wady Zalety i wady oraz podsumowanie Dowolny Źródło: opracowanie własne. Zakres ocenianych aspektów Ściśle ustalony, zazwyczaj wąski; zwykle pojedyncza ocena całego przedmiotu lub kilka ocen dla wybranych aspektów przedmiotu Listy możliwych zalet i wad mogą mieć wiele pozycji; listy te mogą też być rozszerzane przez konsumentów Nieograniczony; konsument może odnosić się do dowolnych aspektów recenzowanego dobra za pomocą dowolnych sformułowań Nieograniczony; konsument może odnosić się do dowolnych aspektów recenzowanego dobra za pomocą dowolnych użytych technik Stopień trudności podsumowania opinii Niski; proste wyliczenie średnich Niski lub wysoki, zależy, czy lista możliwych wad i zalet jest predefiniowana, czy też wprowadzana przez każdego użytkownika z osobna; narzucona struktura ułatwia przetwarzanie Bardzo wysoki; brak narzuconej struktury wypowiedzi oraz wieloznaczność języka naturalnego wymagają wykorzystania zaawansowanych technik przetwarzania języka naturalnego Bardzo wysoki 2.1. Przegląd podejść do automatycznej analizy opinii konsumenckich W literaturze przedmiotu przedstawiono możliwe rodzaje działań 11 : klasyfikacja opinii podział opinii na grupy według ich nacechowania (np. pozytywne, negatywne, neutralne) lub przypisanie pojedynczej opinii jej polaryzacji (przydzielenie jej do jednej z uprzednio wymienionych grup). Brana jest tu pod uwagę opinia jako całość; analiza ukierunkowana na cechy produktu wyszukanie w opinii poszczególnych aspektów (cech) przedmiotu opinii, a następnie zbadanie stosunku autora wypowiedzi do tego właśnie aspektu. Badana jest nie cała opinia, ale poszczególne jej części odnoszące się do kolejnych cech opisywanego produktu czy usługi; analiza porównawcza produktów badanie opinii na temat jednego produktu, określonej przez analizę zdania porównującego go do innego produktu. Konieczne jest zidentyfikowanie w opinii zdań porównujących, a następnie ich analiza ukierunkowana na przedmiot porównania. 11 B. Liu, op. cit.; B. Pang,L. Lee, Opinion Mining..., s
5 Wykorzystanie metod automatyzacji 35 Najczęściej wykorzystywanym rodzajem automatycznej analizy opinii konsumentów jest klasyfikacja opinii. Każdej opinii przypisywane jest nacechowanie określenie, w jakim stopniu opinia jest pozytywna, czy też negatywna. Wykorzystywanychjesttuwielepodejść.Podstawoweznichopierasięnasłowach. Każdemu słowu w opinii przypisywane jest nacechowanie, a następnie na tej podstawie dokonywana jest ocena nacechowania całej opinii. Podejście to ma jednak wiele wad i jest dużym uproszczeniem. Najczęściej opinie klasyfikowane są do jednej z dwóch grup: pozytywne lub negatywne. Spotkać można klasyfikację zawierającą dodatkową grupę neutralne oraz klasyfikacje wykorzystujące wielostopniowe skale (np.3-lub4-stopniowaskalapunktów). Jednak zarówno na podstawie studiów literaturowych 12, jak i własnych badań można stwierdzić, że obecnie wykorzystywane narzędzia nie dają dobrych rezultatów przy klasyfikacji na więcej niż dwie grupy. Koncentrując się na klasyfikacji opinii, można wyróżnić cztery textmininigowe podejścia do niej 13 : podejście oparte na słowach (word-basedapproach) znaczenie wypowiedzi (również jej nacechowanie) jest zakodowane w pojedynczych słowach stanowiących dany tekst; podejście bazujące na wzorcach (pattern-basedapproach) nacechowanie opinii wyznaczają nie pojedyncze słowa, ale zbudowane z nich związki frazeologiczne. Tak więc konieczne jest wyszukanie wśród słów związków wyrazowych; podejście bazujące na ontologiach (ontology-basedapproach) pojedyncza opinia może zostać przedstawiona jako instancja ontologii. Następnie instancje te mogą zostać porównane, opinie zaś zaklasyfikowane do jednej z grup; podejście, u którego podstaw stoi uczenie maszynowe (machine learning approach) dzięki zastosowaniu uczenia maszynowego można zbudować system,którynietylkonapodstawieodpowiedniodobranegouczącegozbioruopinii będzie je klasyfikował do odpowiednich grup, ale również będzie się rozwijał wraz z pojawieniem się nowych, specyficznych opinii. W pracy ambria, Schullera, Yunqinga i Havasi 14 znaleźć można podobną klasyfikację podejść do automatycznej analizy opinii konsumentów Podejście oparte na słowach Traktując każdą opinię konsumencką jako dokument tekstowy niemający określonej struktury, nie można dokonać prostej klasyfikacji i pozyskać z niego określonych informacji. Na tym etapie niezbędne jest wstępne przetworzenie opinii, czego efektem będzie odpowiednia postać tekstu składająca się ze zmniejszonej jego reprezentacji. Możliwości algorytmów eksploracji tekstu są mocno ograniczone, jeżeli chodzi o pracę na dużej ilości danych (duża złożoność obliczeniowa i długi czas pracy),dlatego etap ten obejmuje prze- 12 B. Pang, L. Lee, Seeing Stars: Exploiting lass Relationships for Sentiment ategorization with Respect to Rating Scales, Proceedings of the 43rd nnual Meeting on ssociation for omputational Linguistics, Stroudsburg, P, 2005,s P. Lula, K. Wójcik, Sentiment analysis of consumer opinions writen in Polish, Economics and Management 2011, s E. ambria, B. Schuller, X. Yunqing,. Havasi, New avenues in opinion mining and sentiment analysis, Intelligent Systems, IEEE 2013/28, s
6 36. Gładysz kształcenie tekstu do zmniejszonej i uproszczonej postaci. Postać taka umożliwia o wiele szybszą i bardziej efektywną analizę danych. W podejściu tym automatyczne przetwarzanie opinii konsumentów obejmuje następujące fazy: podział tekstu wejściowego opinii na zdania, słowa oraz usunięcie wszystkich znaków interpunkcyjnych; odrzucenie słów nieistotnych (wykorzystanie stop-listy); tematyzacja wybór słów istotnych i sprowadzenie ich do postaci podstawowej (stemming) przy wykorzystaniu metody reguł gramatycznych w algorytmie lub metody słownikowej; zliczanie wystąpień słów; obliczanie wag dla wszystkich słów; przypisanie każdemu dokumentowi przynależnych słów, które mogą odgrywać rolę słów kluczowych Wstępne przetworzenie opinii zmniejszenie reprezentacji tekstu Prawo Zipfa Zgodnie z teorią informacji w każdym języku naturalnym istnieje zależność, mówiąca o tym, że rozkład częstości słów występujących w danym języku nie jest losowy. o więcej rozkład ten jest bardzo charakterystyczny stosunkowo niewiele słów bardzo często pojawia się w treści dokumentu oraz dużo słów występuje bardzo rzadko. Ten nierównomierny rozkład słów w językach naturalnych został potwierdzony przez badanie amerykańskiego lingwisty George a Zipfa 15. Prawo to umożliwia odnalezienie zależności w ogromnych ilościach danych tekstowych, które na pierwszy rzut oka mogą wydawać się jednolite. Prawo to można także wykorzystać do określenia ważności słów. Gdy każdemu słowu z rozkładu Zipfa przypisze się wartość oznaczającą pozycję w rankingu ważności takiego słowa na podstawieczęstościjegowystąpienia,toczęstośćwystępowaniasłówbędzie odwrotnie proporcjonalna do pozycji tego słowa w rankingu ważności słów Stop-lista Każdy język naturalny charakteryzuje specyficzna konstrukcja o odpowiednich kryteriach składniowych i fleksyjnych. Do budowy zdań używane są różne części mowy i są to (w zależności od języka): zaimki, przyimki, rodzajniki, spójniki, wykrzykniki. Słowa należące do wymienionych kategorii mają bardzo wysoką częstość wystąpień, ale nie niosą żadnej użytecznej wiedzy. Metoda stop-listy 17 polega na pominięciu tych słów na początkowym etapie przygotowania danych w celu usprawnienia pracy algorytmu Przycinanie (pruning) Poza ograniczaniem liczności zbioru słów poprzez tworzenie stop-listy można także zmniejszać reprezentację tekstu za pomocą miar statystycznych jest to tzw. przycinanie (pruning). Rozwiązanie to polega na usuwaniu słów najczęściej lub zbyt często występujących w danym dokumencie tekstowym oraz słów, których częstość występowania jest 15 G. Zipf, Human Behaviour and the Principle of Least Effort, ambridge, M. Ward, 50 najważniejszych problemów zarządzania, Wydawnictwo Profesjonalnej Szkoły Biznesu, Kraków Rajaraman, J.D. Ullman, Data Mining. Mining of Massive Datasets, ambridge University Press, New York 2012.
7 Wykorzystanie metod automatyzacji 37 bardzo mała. Określenie progów oddzielających słowa nieistotne z powodu zbyt dużej lub zbyt małej częstości użycia znacznie zmniejsza rozmiar reprezentacji, poprawiając efektywność przetwarzania danych, redukując szum informacyjny, nie zmieniając przy tym znacząco wyników działania algorytmu eksploracji tekstu Funkcje ważące Podejście bazujące na pojęciu modelu przestrzeni wektorowej może być wykorzystywane jako punkt wyjścia dla zadań związanych z automatycznym przetwarzaniem opinii konsumentów 18. Zastosowanie modelu reprezentacji wektorowej dla dokumentów tekstowych sprowadza się do wyznaczenia macierzy częstości występowania poszczególnych słów w danej opinii 19. Po uzyskaniu macierzy częstości wykorzystywane są odpowiednie funkcje ważące (weightingfunctions), które mają za zadanie ją ulepszyć. Ważenie jest procesem, który każdemu słowu w dokumencie przypisuje wagę wynikającą z częstości jego wystąpień w dokumencie 20. Najprostszym sposobem ważenia macierzy jest przypisanie każdej współrzędnej wektora dokumentu częstości występowania słowa w dokumencie. Schemat ten jest określany mianem termfrequency i oznacza się go jako tf. Opisana operacja prowadzi do definicji wskaźnika istotności słowa w postaci: gdzie: tf (1) t, d t, d wskaźnik istotności t -słowa w d -tym dokumencie oparty na częstości wystąpienia. Ta prosta metoda ma poważną wadę każde słowo w dokumencie jest uznawane za jednakowo ważne. Należy również zauważyć, że wartość wskaźnika jest uzależniona od długości dokumentu. hcąc wyeliminować wpływ długości dokumentu, można dokonać przekształcenia równania (1), zastępując wszystkie dodatnie wartościprzez 1, wartości zerowe zaś pozostawiając niezmienione. Prowadzi to do wskaźnika istotności słowa w postaci: gdzie: B B tf tf 1 0 (2) wskaźnik istotności t -słowa w d -tym dokumencie oparty na jego wystąpieniu równy jedności, jeśli t -słowo występuje w d -tym dokumencie (jeden bądź więcej razy), oraz równy zero jedności,jeśli t -słowo nie występuje w d -tym dokumencie. 18 T. Kohonen, S. Kaski, K. Lagus, J. Salojrvi, J. Honkela, V. Paatero,. Saarela, Self-organization of a massive document collection, IEEE Transactions on Neutral Networks 2000/11, s D. Manning, H. Schütze, Foundations of Statistical Natural Language Processing, The MIT Press, ambridge, Mass., D. Manning, P. Raghavan, H. Schütze, Introduction to Information Retrieval, ambridge University Press, ambridge 2008.
8 38. Gładysz Próbą realizacji potrzeby zróżnicowania znaczenia poszczególnych słów w dokumencie może być przeskalowanie wartości macierzy tftd, przez częstotliwość kolekcji (collectionfrequency) cf 21. Jednakże praktyka badawcza pokazuje, że lepszym rozwiązaniem jest uwzględnienie liczby dokumentów, w których dane słowo występuje częstotliwość dokumentudf. Wartości df są tym większe, im słowo t występuje w większej liczbie t t dokumentów. W formule obliczeniowej stosuje się odwrotną częstotliwość dokumentu idftzdefiniowaną jako 1, która jest wysoka dla rzadko występującychsłów, niska idf t zaś dla słów często występujących. W wyniku połączenia opisanych dwóch wag otrzymuje się definicję jednego z najbardziej popularnych schematów ważenia dokumentów w dziedzinie wydobywania informacji TF-IDF 22. Odpowiednie równanie przyjmuje więc postać: gdzie: N łączna liczba dokumentów, tf idf tf log ( N df ) (3) t, d t, d t t, d 2 t wskaźnik istotności t -słowa w d -tym dokumencie oparty na reprezentacjitf- IDF. Zastosowanie równania (3) prowadzi do uzyskania wskaźników istotności słowa, które przyjmują: wartości maksymalne dla słów występujących często w małej liczbie dokumentów; wartości niskie dla słów występujących rzadko w małej liczbie dokumentów, lub występujących w dużej liczbie dokumentów, przez co słowa te mają małą siłę rozróżniającą dokumenty; wartości minimalne dla słów pojawiających się w (prawie) wszystkich dokumentach. 3. PRZEPROWDZONE BDNI W badaniach empirycznych wykorzystano 759 opinii w formach wyrażających wady, zalety i podsumowanie. Opinie dotyczyły bazy hotelowej w Rzeszowie. Pochodziły z serwisu Booking.com i dotyczyły dwóch hoteli: Grand Hotel Boutique oraz Hotel SchanelResidence. Do każdej opinii dołączona była ocena punktowa w skali 0 10, co w serwisie zostało przełożone na wyliczenie średniego wyniku danego hotelu.naliza istotnych słów jest możliwa po uwzględnieniu dostępnych możliwości wyboru plusów i minusów dostępnych przy wystawianiu opinii przez klienta. 21 R. ummins,. O Riordan, Evolving general term weighting schemes for information retrieval: Tests on larger collections, rtif.intell. Rev. 24/3 4(2005), s ;.D.Manning,P. Raghavan, H. Schütze, Introduction to Information G. Salton,. Wong,.S. Yang, vector space model for automatic indexing, ommunications of the M 1975/18, s
9 Wykorzystanie metod automatyzacji Przekształcenie słów do formy podstawowej Przekształcenie słów do formy podstawowej opiera się na bibliotece słowniku Morfologik. Jest to słownik do znakowania morfosyntaktycznego i syntezy gramatycznej. Został on opracowany przez Marcina Miłkowskiego przy wykorzystaniu zasobów słownika alternatywnego SJP.pl i udostępniony na takich samych warunkach. W Morfologiku każdej parze słów: forma pochodna forma bazowa, towarzysząznaczniki morfosyntaktyczne, które określają relację miedzy słowami. To właśnie obecność tych informacji zdecydowała o wyborze słownika Morfologik. Przekształcanie wyrazów do ich formy podstawowej zostało wykonane dla całościowej kolekcji opinii konsumenckich. Program został napisany w języku Java. Wykorzystano skrypty ontrol.java oraz StemPL.javakorzystający z biblioteki morfologik-stemming. W tabeli 2 zestawiono przykładowe działanie redukcji do rdzenia wybranych słów występujących w zbiorze opinii konsumenckich. Redukcja słów do ich formy podstawowej nie uwzględnia kontekstu użycia danego słowa. Potwierdzeniem tego może być słowo mnie, które zostało sprowadzone do formy podstawowej miąć. Jednak należałoby przeanalizować fragment zestawienie słów sąsiadujących, aby ocenić, czy nie zostało użyte w odniesieniu na przykładdla mnie, przy którym wynik redukcji do rdzenia jest nieprawidłowy. Należy jednak stwierdzić, że w analizowanym zbiorze opinii konsumenckich uzyskane wyniki redukcji słów do form podstawowych nie wpływają na znaczną utratę ich wartości informacyjnej. Tabela 2. Przykładowa redukcja do rdzenia słów zaczerpniętych z opinii konsumenckich Słowo wejściowe --> słowo po redukcji do rdzenia mnie-->miąć jestem-->być zadowolony-->zadowolony zamówiłem-->zamówić spełnione-->spełnić powala-->powalać polecam-->polecać przydałaby-->przydać Źródło: opracowanie własne Metody bazujące na macierzy częstości. W trakcie badań wyznaczono trzy wartości wskaźników istotności słów: B równanie (1), równanie (2), równanie (3). Obliczenia zrealizowano w dwóch wersjach w pierwszej nie uwzględniono stop-listy. Przyjęto bowiem, że prowadzona analiza ma zweryfikować możliwość automatycznego utworzenia stop-listy. W drugiej wersji obliczeń zastosowano stop-listę Badanie bez zastosowania stop-listy W celu określenia istotności słowa w całym korpusie wyznaczono dla poszczególnych słów sumę wskaźników cząstkowych obliczonych dla poszczególnych dokumentów. Przyjęto, że wyższa wartość wskaźnika świadczy o większym znaczeniu danego wyrazu. W trakcie obliczeń uwzględniono jedynie te wyrazy, które występują przynajmniej
10 40. Gładysz w dwóch dokumentach korpusu. Nie zastosowano stop-listy, gdyż przyjęto założenie, że w kolejnych etapach badań zostaną na niej umieszczone wyrazy wskazane przez omawiany tu algorytm jako nieistotne oraz wyrazy występujące tylko w jednym dokumencie. Obliczenia zrealizowano w pakiecie R Badanie z zastosowaniem stop-listy W celu określenia istotności słowa w całym korpusie wyznaczono dla poszczególnych słów sumę wskaźników cząstkowych obliczonych dla poszczególnych dokumentów. Przyjęto, że wyższa wartość wskaźnika świadczy o większym znaczeniu danego wyrazu. W trakcie obliczeń uwzględniono jedynie te wyrazy, które występują przynajmniej w dwóch dokumentach korpusu. Zastosowano także stop-listę utworzoną dla badanego zbioru danych w języku polskim. Obliczenia zrealizowano w pakiecie R. W tabeli 3 przedstawiono obliczone współczynniki korelacji liniowej pomiędzy trzema wskaźnikami istotności bez uwzględnienia stop-listy i z jej zastosowaniem. Tabela 3. Macierz korelacji opinii konsumenckich Źródło: opracowanie własne. Badanie bez zastosowania stop-listy B, 1, , , , , , , , , Badanie z zastosowaniem stop-listy B 1, , , , , , , , , Ocena metod bazujących na macierzy częstości Modelem bazowym dla analizowanej grupy wskaźników istotności słów jest model przestrzeni wektorowej konstruowany na podstawie macierzy częstości. W badaniach wykorzystano dwie wersje macierzy częstości pierwsza tworzona była bez uwzględnienia stop-listy, w drugiej zastosowanostop-listę. B Wskaźnik i td, może zostać wyznaczony niezależnie dla poszczególnych dokumentów. Wskaźnik można wyznaczyć jedynie na podstawie całego korpusu (jego obliczenie dla pojedynczego dokumentu wymaga znajomości odwrotnej częstości dokumentowej, która szacowana jest na podstawie korpusu). Badania pokazały, że podejście bez stosowania stop-listy nie pozwoliło na uzyskanie poprawnych rozwiązań (wiele wyrazów zidentyfikowanych przez metodę jako istotne nie ma dużej wartości informacyjnej). td
11 Wykorzystanie metod automatyzacji 41 W wypadku analizy opinii konsumenckich bez uwzględnienia stop-listy słowa o najwyższych wskaźnikach istotności zarówno B,,jak i powinny być uznane za nadmiarowe, ponieważ wprowadzają szum informacyjny. Należą do nich między innymi: być, nie, siebie, ten, ale, jak itd. Zdecydowanie lepsze wyniki uzyskane zostały po analizie opinii konsumenckich z uwzględnieniem stop-listy. Pierwsze pięć słów uzyskanych po wyliczeniu wartości wskaźników istotności dla każdej z analizowanych metod pokrywają się niemal w całości. Należą do nich: śniadanie, pokój, polecać, dobry, parking oraz występujące w metodzie wyliczającej wskaźnik td, słowo super (nie występuje zaś słowo polecać). Z powodzeniem można potraktować je jako słowa kluczowe mogące pojawić się w opiniach konsumenckich na temat bazy hotelowej. 4. PODSUMOWNIE W artykule pokrótce przedstawionobadania dotyczące oceny przydatności metod bazujących na macierzy częstości dla opinii konsumenckich. Uogólniając wyniki badań, można sformułować następujące wnioski w zakresie skuteczności omówionych metod dla zbioru opinii konsumenckich dotyczących bazy hotelowej: zdecydowanie lepsze wyniki skuteczności zastosowanych metod osiągnięte zostały po zastosowaniu stop-listy dla opinii konsumenckich; wwypadku badania metod bazujących na podstawowej macierzy częstości, jej reprezentacji binarnej i modyfikacji macierzy uwzględniającej TF-IDF uzyskuje się bardzo zbliżone wyniki. Reasumując dotychczasowe rozważania, należy zauważyć, że w celu określenia skuteczności analizowanych metod algebraicznych opartych na modelu przestrzeni wektorowej należy rozszerzyć badanie na szerszy wachlarz istniejących metod wykorzystywanych do automatycznej analizy opinii konsumenckich. Należy oczekiwać zdecydowanie lepszych wyników, proponując rozwiązania pozwalające na identyfikację słów kluczowych przy wykorzystaniu wiedzy dziedzinowej opisanej w postaci sieci semantycznej lub innej metody reprezentacji wiedzy. LITERTUR [1] ambria E., Schuller B., Yunqing X., Havasi., New avenues in opinion mining and sentiment analysis, Intelligent Systems, IEEE 2013/28, s [2] ummins R., O Riordan., Evolving general term weighting schemes for information retrieval: Tests on larger collections, rtif.intell.rev. 24/3 4(2005), s [3] Hu N., Pavlou P., Zhang J., an online reviews reveal a product s true quality?: empirical findings and analytical modeling of Online word-of-mouth communication, Proceedings of the 7th M conference on Electronic commerce, M, 2006, s [4] Hu N., Zhang J.,Pavlou P.., Overcoming the J-shaped distribution of product reviews, ommun. M 52/10 (2009), s [5] Kohonen T., Kaski S., Lagus K., Salojrvi J., Honkela J., Paatero V., Saarela., Self-organization of a massive document collection, IEEE Transactions on Neutral Networks, 2000/11, s [6] Larose D., Odkrywanie wiedzy z danych, Wydawnictwo Naukowe PWN, Warszawa [7] Liu B., Web Data Mining. Exploring Hyperlinks, ontents, and Usage Data, Springer-Verlag Berlin, Heidelberg [8] Liu B., Opinion Mining and Sentiment nalysis, [w:] idem,web Data Mining, Data-entric Systems and pplications, Springer, Berlin Heidelberg 2011, s
12 42. Gładysz [9] Lula P., utomatyczna analiza opinii konsumenckich, [w:]taksonomia 18, Klasyfikacja i analiza danych teoria i zastosowania, red. K. Jajuga, M. Walesiak, Wydawnictwo UE we Wrocławiu, Wrocław2011. [10] Lula P., Wójcik K., Sentiment analysis of consumer opinions written in Polish, Economics and Management 2011, s [11] Manning.D., Raghavan P., Schütze H., Introduction to Information Retrieval, ambridge University Press, ambridge [12] Manning.D., Schütze H., Foundations of Statistical Natural Language Processing, The MIT Press, ambridge, Mass., [13] Mudambi S., Schu D., What makes a helpful online review? study of customer reviews on mazon. com, MIS Quarterly 34/1 (2010), s [14] Pang B., Lee L., Seeing Stars: Exploiting lass Relationships for Sentiment ategorization with Respect to Rating Scales, Proceedings of the 43rd nnual Meeting on ssociation for omputational Linguistics, Stroudsburg, P, 2005,s [15] Pang B., Lee L., Opinion Mining and Sentiment nalysis, Foundations and Trends in Information Retrieval 2/1 2(2008), s [16] Rajaraman., Ullman J.D., Data Mining. Mining of Massive Datasets, ambridge University Press, New York [17] Salton G., Wong., Yang.S., vector space model for automatic indexing, ommunications of the M 1975/18, s [18] Zhu F., Zhang X., Impact of online consumer reviews on sales: The moderating role of product and consumer characteristics, Journal of Marketing 74/2 (2010), s [19] Zipf G., Human Behaviour and the Principle of Least Effort, ambridge METHODS OF USE OF UTOMTION TEXT NLYSIS ONSUMER OPINION The analysis of consumer opinion is an area of research that may mean months impact on the development of business enterprises. It is also a tool that can provide relevant information affecting the company's image, which is important for companies operating in a highly competitive market. Increasing the number of reviews available on the network has created the need for their automatic analysis and processing. This issue is gaining popularity among researchers and among entrepreneurs, for whom consumer reviews are a source of business information. With the ever-growing need for access to customer feedback, and thus the knowledge and information that can derive from them, tools to automate the process of acquiring the key and strategic information they are gaining in importance. This problem requires a slightly different view of the data and the selection of a particular method of analysis using data mining techniques, especially text. The main aim of this work is to analyse automatic classification opinion using exploratory methods of text meaning and methods based on patterns. Used approach will be compared with previously used in the research. Use of information obtained from customer feedback helps to raise awareness of employees at all levels of the organization, provides access to the right information at the right time, which affects the accuracy of business decisions. Keywords:consumer opinions, automatic analysis of consumer opinion, text mining, document classification, automation of text DOI: /rz.2016.mmr.14 Tekst złożono w redakcji: sierpień 2016 Przyjęto do druku: wrzesień 2016
Wpływ automatycznego tłumaczenia na wyniki automatycznej identyfikacji cha- rakteru opinii konsumenckich. 1 Wstęp
mgr Katarzyna Wójcik mgr Janusz Tuchowski Uniwersytet Ekonomiczny w Krakowie Wpływ automatycznego tłumaczenia na wyniki automatycznej identyfikacji charakteru opinii konsumenckich. 1 Wstęp Analiza opinii
Dobór optymalnego zestawu słów istotnych w opiniach konsumentów na potrzeby ich automatycznej analizy
Katarzyna Wójcik, Janusz Tuchowski Uniwersytet Ekonomiczny w Krakowie Dobór optymalnego zestawu słów istotnych w opiniach konsumentów na potrzeby ich automatycznej analizy Streszczenie. Analiza opinii
Summary in Polish. Fatimah Mohammed Furaiji. Application of Multi-Agent Based Simulation in Consumer Behaviour Modeling
Summary in Polish Fatimah Mohammed Furaiji Application of Multi-Agent Based Simulation in Consumer Behaviour Modeling Zastosowanie symulacji wieloagentowej w modelowaniu zachowania konsumentów Streszczenie
S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor
S O M SELF-ORGANIZING MAPS Przemysław Szczepańczyk Łukasz Myszor Podstawy teoretyczne Map Samoorganizujących się stworzył prof. Teuvo Kohonen (1982 r.). SOM wywodzi się ze sztucznych sieci neuronowych.
TEORETYCZNE PODSTAWY INFORMATYKI
1 TEORETYCZNE PODSTAWY INFORMATYKI WFAiS UJ, Informatyka Stosowana I rok studiów, I stopień Wykład 16 2 Data Science: Uczenie maszynowe Uczenie maszynowe: co to znaczy? Metody Regresja Klasyfikacja Klastering
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.
Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe. Autor: Mariusz Sasko Promotor: dr Adrian Horzyk Plan prezentacji 1. Wstęp 2. Cele pracy 3. Rozwiązanie 3.1. Robot
Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych
Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Informatyki i Elektroniki Instrukcja do zajęć laboratoryjnych wersja: 1.0 Nr ćwiczenia: 12, 13 Temat: Cel ćwiczenia: Wymagane przygotowanie
Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski
Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej Adam Żychowski Definicja problemu Każdy z obiektów może należeć do więcej niż jednej kategorii. Alternatywna definicja Zastosowania
SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.
SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:
SPOTKANIE 2: Wprowadzenie cz. I
Wrocław University of Technology SPOTKANIE 2: Wprowadzenie cz. I Piotr Klukowski Studenckie Koło Naukowe Estymator piotr.klukowski@pwr.edu.pl 17.10.2016 UCZENIE MASZYNOWE 2/27 UCZENIE MASZYNOWE = Konstruowanie
ORGANIZACJA PROCESÓW DYSTRYBUCJI W DZIAŁALNOŚCI PRZEDSIĘBIORSTW PRODUKCYJNYCH, HANDLOWYCH I USŁUGOWYCH
Systemy Logistyczne Wojsk nr 41/2014 ORGANIZACJA PROCESÓW DYSTRYBUCJI W DZIAŁALNOŚCI PRZEDSIĘBIORSTW PRODUKCYJNYCH, HANDLOWYCH I USŁUGOWYCH ORGANIZATION OF DISTRIBUTION PROCESSES IN PRODUCTIVE, TRADE AND
ANALIZA HIERARCHICZNA PROBLEMU W SZACOWANIU RYZYKA PROJEKTU INFORMATYCZNEGO METODĄ PUNKTOWĄ. Joanna Bryndza
ANALIZA HIERARCHICZNA PROBLEMU W SZACOWANIU RYZYKA PROJEKTU INFORMATYCZNEGO METODĄ PUNKTOWĄ Joanna Bryndza Wprowadzenie Jednym z kluczowych problemów w szacowaniu poziomu ryzyka przedsięwzięcia informatycznego
Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl
Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Aby skorzystać z możliwości RapidMinera w zakresie analizy tekstu, należy zainstalować Text Mining Extension. Wybierz: 1 Po
TEORETYCZNE PODSTAWY INFORMATYKI
1 TEORETYCZNE PODSTAWY INFORMATYKI 16/01/2017 WFAiS UJ, Informatyka Stosowana I rok studiów, I stopień Repetytorium złożoność obliczeniowa 2 Złożoność obliczeniowa Notacja wielkie 0 Notacja Ω i Θ Rozwiązywanie
Instrukcja interpretacji Raportu podobieństwa systemu Antyplagiat
Instrukcja interpretacji Raportu podobieństwa systemu Antyplagiat Użytkownik Indywidualny Raport podobieństwa: ułatwia ocenę samodzielności badanego tekstu, wskazuje liczbę zapożyczonych fragmentów i podaje
STRESZCZENIE. rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne.
STRESZCZENIE rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne. Zasadniczym czynnikiem stanowiącym motywację dla podjętych w pracy rozważań
Semantyczne podobieństwo stron internetowych
Uniwersytet Mikołaja Kopernika Wydział Matematyki i Informatyki Marcin Lamparski Nr albumu: 184198 Praca magisterska na kierunku Informatyka Semantyczne podobieństwo stron internetowych Praca wykonana
Metody indeksowania dokumentów tekstowych
Metody indeksowania dokumentów tekstowych Paweł Szołtysek 21maja2009 Metody indeksowania dokumentów tekstowych 1/ 19 Metody indeksowania dokumentów tekstowych 2/ 19 Czym jest wyszukiwanie informacji? Wyszukiwanie
Zaglądamy pod maskę: podstawy działania silnika wyszukiwawczego na przykładzie Lucene
2..22 Zaglądamy pod maskę: podstawy działania silnika wyszukiwawczego na przykładzie Lucene Dominika Puzio Indeks Podstawy: dokument Dokument: jednostka danych, pojedynczy element na liście wyników wyszukiwania,
Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner
Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner Wydział Matematyki i Nauk Informacyjnych Politechnika Warszawska Elementy nieprzystające Definicja odrzucania Klasyfikacja
BADANIA ZRÓŻNICOWANIA RYZYKA WYPADKÓW PRZY PRACY NA PRZYKŁADZIE ANALIZY STATYSTYKI WYPADKÓW DLA BRANŻY GÓRNICTWA I POLSKI
14 BADANIA ZRÓŻNICOWANIA RYZYKA WYPADKÓW PRZY PRACY NA PRZYKŁADZIE ANALIZY STATYSTYKI WYPADKÓW DLA BRANŻY GÓRNICTWA I POLSKI 14.1 WSTĘP Ogólne wymagania prawne dotyczące przy pracy określają m.in. przepisy
Badania eksperymentalne
Badania eksperymentalne Analiza CONJOINT mgr Agnieszka Zięba Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa Najpopularniejsze sposoby oceny wyników eksperymentu w schematach
Wyszukiwanie informacji w internecie. Nguyen Hung Son
Wyszukiwanie informacji w internecie Nguyen Hung Son Jak znaleźć informację w internecie? Wyszukiwarki internetowe: Potężne machiny wykorzystujące najnowsze metody z różnych dziedzin Architektura: trzy
Standard określania klasy systemu informatycznego resortu finansów
Dane dokumentu Nazwa Projektu: Kontrakt Konsolidacja i Centralizacja Systemów Celnych i Podatkowych Studium Projektowe Konsolidacji i Centralizacji Systemów Celnych i Podatkowych (SPKiCSCP) Numer wersji
Spis treści. Analiza i modelowanie_nowicki, Chomiak_Księga1.indb :03:08
Spis treści Wstęp.............................................................. 7 Część I Podstawy analizy i modelowania systemów 1. Charakterystyka systemów informacyjnych....................... 13 1.1.
Wyszukiwanie dokumentów/informacji
Wyszukiwanie dokumentów/informacji Wyszukiwanie dokumentów (ang. document retrieval, text retrieval) polega na poszukiwaniu dokumentów tekstowych z pewnego zbioru, które pasują do zapytania. Wyszukiwanie
WYZNACZANIE NIEPEWNOŚCI POMIARU METODAMI SYMULACYJNYMI
WYZNACZANIE NIEPEWNOŚCI POMIARU METODAMI SYMULACYJNYMI Stefan WÓJTOWICZ, Katarzyna BIERNAT ZAKŁAD METROLOGII I BADAŃ NIENISZCZĄCYCH INSTYTUT ELEKTROTECHNIKI ul. Pożaryskiego 8, 04-703 Warszawa tel. (0)
PROCES TWORZENIA DOKUMENTU
PROCES TWORZENIA DOKUMENTU 1. PLANOWANIE 2. ANALIZA ASPEKTÓW PRAWNYCH I ETYCZNYCH 3. GROMADZENIE INFORMACJI 4. ORGANIZOWANIE (STRUKTURALIZOWANIE) INFORMACJI 5. TWORZENIE PLANU (STRUKTURY) DOKUMENTU 6.
SATYSFAKCJA KLIENTÓW SKLEPÓW SPOŻYWCZYCH FUNKCJONUJĄCYCH W SIECI HANDLOWEJ - BADANIA ANKIETOWE
Anna Kasprzyk Mariusz Giemza Katedra Zarządzania Jakością Uniwersytet Ekonomiczny w Krakowie SATYSFAKCJA KLIENTÓW SKLEPÓW SPOŻYWCZYCH FUNKCJONUJĄCYCH W SIECI HANDLOWEJ - BADANIA ANKIETOWE Wprowadzenie
M. Dąbrowska. K. Grabowska. Wroclaw University of Economics
M. Dąbrowska K. Grabowska Wroclaw University of Economics Zarządzanie wartością przedsiębiorstwa na przykładzie przedsiębiorstw z branży produkującej napoje JEL Classification: A 10 Słowa kluczowe: Zarządzanie
Mirskim Laboratorium O F E R T A R E A L I Z A C Y J N A
Mirskim Laboratorium O F E R T A R E A L I Z A C Y J N A Badania są narzędziem modelowania interakcji przedsiębiorstwa z jego rynkowym otoczeniem. W gospodarce rynkowej i konkurencyjnej zdecydowana większość
10. Redukcja wymiaru - metoda PCA
Algorytmy rozpoznawania obrazów 10. Redukcja wymiaru - metoda PCA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. PCA Analiza składowych głównych: w skrócie nazywana PCA (od ang. Principle Component
Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska
Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska e-mail: bartosz.krawczyk@pwr.wroc.pl Czym jest klasyfikacja
Rozkład materiału nauczania
Dział/l.p. Ilość godz. Typ szkoły: TECHNIKUM Zawód: TECHNIK USŁUG FRYZJERSKICH Rok szkolny 2017/2018 Przedmiot: MATEMATYKA Klasa: III 60 godzin numer programu T5/O/5/12 Rozkład materiału nauczania Temat
Testy nieparametryczne
Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów
Narzędzia do automatycznego wydobywania kolokacji
Narzędzia do automatycznego wydobywania kolokacji Jan Kocoń, Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej marek.maziarz@pwr.edu.pl
Instrukcja interpretacji Raportu podobieństwa systemu Antyplagiat
Instrukcja interpretacji Raportu podobieństwa systemu Antyplagiat Raport podobieństwa: ułatwia ocenę samodzielności badanego tekstu, wskazuje liczbę zapożyczonych fragmentów i podaje ich źródła. I. Współczynniki
Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka
Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka L.p. Nazwisko i imię studenta Promotor Temat pracy magisterskiej 1. Wojciech Kłopocki dr Bartosz Ziemkiewicz Automatyczne
EmotiWord, semantyczne powiązanie i podobieństwo, odległość znaczeniowa
, semantyczne powiązanie i podobieństwo, odległość Projekt przejściowy ARR Politechnika Wrocławska Wydział Elektroniki Wrocław, 22 października 2013 Spis treści 1 językowa 2, kryteria 3 Streszczenie artykułu
Lokalizacja Oprogramowania
mgr inż. Anton Smoliński anton.smolinski@zut.edu.pl Lokalizacja Oprogramowania 16/12/2016 Wykład 6 Internacjonalizacja, Testowanie, Tłumaczenie Maszynowe Agenda Internacjonalizacja Testowanie lokalizacji
P.2.1 WSTĘPNA METODA OPISU I
1 S t r o n a P.2.1 WSTĘPNA METODA OPISU I ZNAKOWANIA DOKUMENTACJI MEDYCZNEJ W POSTACI ELEKTRONICZNEJ P.2. REKOMENDACJA OPISU I OZNAKOWANIA DOKUMENTACJI MEDYCZNEJ W POSTACI ELEKTRONICZNEJ 2 S t r o n a
1 Macierz odwrotna metoda operacji elementarnych
W tej części skupimy się na macierzach kwadratowych. Zakładać będziemy, że A M(n, n) dla pewnego n N. Definicja 1. Niech A M(n, n). Wtedy macierzą odwrotną macierzy A (ozn. A 1 ) nazywamy taką macierz
MODELOWANIE STANÓW CZYNNOŚCIOWYCH W JĘZYKU SIECI BAYESOWSKICH
Inżynieria Rolnicza 7(105)/2008 MODELOWANIE STANÓW CZYNNOŚCIOWYCH W JĘZYKU SIECI BAYESOWSKICH Katedra Podstaw Techniki, Uniwersytet Przyrodniczy w Lublinie Streszczenie. Zastosowanie sieci bayesowskiej
Analiza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
Systemy uczące się Lab 4
Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego
WIELOKRYTERIALNE PORZĄDKOWANIE METODĄ PROMETHEE ODPORNE NA ZMIANY WAG KRYTERIÓW
Uniwersytet Ekonomiczny we Wrocławiu WIELOKRYTERIALNE PORZĄDKOWANIE METODĄ PROMETHEE ODPORNE NA ZMIANY WAG KRYTERIÓW Wprowadzenie Wrażliwość wyników analizy wielokryterialnej na zmiany wag kryteriów, przy
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra
Spis treści. Wstęp... 9 KOMUNIKACJA MARKETINGOWA UCZELNI WYŻSZEJ... 11 ZNACZENIE MARKI W KOMUNIKACJI MARKETINGOWEJ UCZELNI WYŻSZEJ...
Spis treści Wstęp... 9 Rozdział I KOMUNIKACJA MARKETINGOWA UCZELNI WYŻSZEJ... 11 Rozdział II ZNACZENIE MARKI W KOMUNIKACJI MARKETINGOWEJ UCZELNI WYŻSZEJ... 33 Rozdział III ROLA SERWISU INTERNETOWEGO UCZELNI
Specjalnościowy Obowiązkowy Polski Semestr VI
KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu Nazwa modułu Nazwa modułu w języku angieskim Obowiązuje od roku akademickiego 0/06 Z-ID-608a Anaiza danych niestrukturanych Unstructured Data Anaysis A. USYTUOWANIE
Narzędzia Informatyki w biznesie
Narzędzia Informatyki w biznesie Przedstawiony program specjalności obejmuje obszary wiedzy informatycznej (wraz z stosowanymi w nich technikami i narzędziami), które wydają się być najistotniejsze w kontekście
Funkcje wymierne. Jerzy Rutkowski. Działania dodawania i mnożenia funkcji wymiernych określa się wzorami: g h + k l g h k.
Funkcje wymierne Jerzy Rutkowski Teoria Przypomnijmy, że przez R[x] oznaczamy zbiór wszystkich wielomianów zmiennej x i o współczynnikach rzeczywistych Definicja Funkcją wymierną jednej zmiennej nazywamy
Dopasowanie IT/biznes
Dopasowanie IT/biznes Dlaczego trzeba mówić o dopasowaniu IT-biznes HARVARD BUSINESS REVIEW, 2008-11-01 Dlaczego trzeba mówić o dopasowaniu IT-biznes http://ceo.cxo.pl/artykuly/51237_2/zarzadzanie.it.a.wzrost.wartosci.html
TOUCAN Team Evaluator OPIS FUNKCJONALNOŚCI
TOUCAN Team Evaluator OPIS FUNKCJONALNOŚCI SPIS TREŚCI Funkcje... 4 Ocena celów... 4 Definicja celów... 4 Procesowy model akceptacji -... 5 Ocena stopnia realizacji celu... 5 Ocena kompetencji... 5 Definicja
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny
Matematyczne Podstawy Informatyki
Matematyczne Podstawy Informatyki dr inż. Andrzej Grosser Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Rok akademicki 2013/2014 Stany równoważne Stany p i q są równoważne,
Inteligentna analiza danych
Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki
Streszczenie pracy doktorskiej Koncepcja metody identyfikacji i analizy ryzyka w projektach informatycznych
Uniwersytet Szczeciński Wydział Nauk Ekonomicznych i Zarządzania mgr inż. Aleksandra Radomska-Zalas Streszczenie pracy doktorskiej Koncepcja metody identyfikacji i analizy ryzyka w projektach informatycznych
PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com
Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych
strona 1 / 11 Autor: Walesiak Marek Subdyscyplina: Klasyfikacja i analiza danych Publikacje:
Autor: Walesiak Marek Subdyscyplina: Klasyfikacja i analiza danych Publikacje: 1. Autorzy rozdziału: Borys Tadeusz; Strahl Danuta; Walesiak Marek Tytuł rozdziału: Wkład ośrodka wrocławskiego w rozwój teorii
Scoring kredytowy w pigułce
Analiza danych Data mining Sterowanie jakością Analityka przez Internet Scoring kredytowy w pigułce Mariola Kapla Biuro Informacji Kredytowej S.A. StatSoft Polska Sp. z o.o. ul. Kraszewskiego 36 30-110
TEXT MINING W ANALIZIE ZBIORÓW PUBLIKACJI NAUKOWYCH TEXT MINING IN ANALYSIS OF SCIENTIFIC PUBLICATIONS
ZESZYTY NAUKOWE POLITECHNIKI ŚLĄSKIEJ 2017 Seria: ORGANIZACJA I ZARZĄDZANIE z. 114 Nr kol. 1993 Marcin WYSKWARSKI Politechnika Śląska Wydział Organizacji i Zarządzania marcin.wyskwarski@polsl.pl TEXT MINING
1 Układy równań liniowych
II Metoda Gaussa-Jordana Na wykładzie zajmujemy się układami równań liniowych, pojawi się też po raz pierwszy macierz Formalną (i porządną) teorią macierzy zajmiemy się na kolejnych wykładach Na razie
ALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
prospektywna analiza technologii
WSTĘP Innowacyjne technologie w coraz większym stopniu decydują o przewadze konkurencyjnej przedsiębiorstw. Stanowią również podstawę nowoczesnych procesów wytwórczych, umożliwiających spełnienie potrzeb
ANALIZA DANYCH ZE ŹRÓDEŁ OTWARTYCH CENNE ŹRÓDŁO INFORMACJI DR INŻ. MARIUSZ DZIECIĄTKO
ANALIZA DANYCH ZE ŹRÓDEŁ OTWARTYCH CENNE ŹRÓDŁO INFORMACJI DR INŻ. MARIUSZ DZIECIĄTKO Copyrigh t 2013, SAS Institute Inc. All rights reserve d. POLSKI INTERNET W LICZBACH 56% korzysta z Internetu co najmniej
SPOSOBY POMIARU KĄTÓW W PROGRAMIE AutoCAD
Dr inż. Jacek WARCHULSKI Dr inż. Marcin WARCHULSKI Mgr inż. Witold BUŻANTOWICZ Wojskowa Akademia Techniczna SPOSOBY POMIARU KĄTÓW W PROGRAMIE AutoCAD Streszczenie: W referacie przedstawiono możliwości
EvalCOMIX Przewodnik wprowadzajćy María Soledad Ibarra-Sáiz - Susana Olmos-Migueláñez - Gregorio Rodríguez-Gómez Luty
EvalCOMIX Przewodnik wprowadzajćy María Soledad Ibarra-Sáiz - Susana Olmos-Migueláñez - Gregorio Rodríguez-Gómez Luty - 2017 Ten projekt został zrealizowany przy wsparciu finansowym Komisji Europejskiej.
Ćwiczenia nr 7. TEMATYKA: Krzywe Bézier a
TEMATYKA: Krzywe Bézier a Ćwiczenia nr 7 DEFINICJE: Interpolacja: przybliżanie funkcji za pomocą innej funkcji, zwykle wielomianu, tak aby były sobie równe w zadanych punktach. Poniżej przykład interpolacji
MINISTER INWESTYCJI I ROZWOJU 1)
projekt z dnia 22 lutego 2019 r. MINISTER INWESTYCJI I ROZWOJU 1) Warszawa, dnia STANDARD ZAWODOWY RZECZOZNAWCÓW MAJĄTKOWYCH NR 2 WYCENA NIERUCHOMOŚCI PRZY ZASTOSOWANIU PODEJŚCIA PORÓWNAWCZEGO Na podstawie
WSPÓŁCZESNE TECHNIKI I METODY ZARZĄDZANIA W PRAKTYCE DOWODZENIA
ZESZYTY NAUKOWE WSOWL Nr 2 (160) 2011 ISSN 1731-8157 Magdalena HOPEJ KAMIŃSKA WSPÓŁCZESNE TECHNIKI I METODY ZARZĄDZANIA W PRAKTYCE DOWODZENIA Przedstawiono wyniki badań dotyczących stosowania w praktyce
Badania sondażowe. Schematy losowania. Agnieszka Zięba. Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa
Badania sondażowe Schematy losowania Agnieszka Zięba Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa 1 Próba jako miniatura populacji CELOWA subiektywny dobór jednostek
Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji
Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Jacek Szcześniak Jerzy Błaszczyński Roman Słowiński Poznań, 5.XI.2013r. Konspekt Wstęp Wprowadzenie Metody typu wrapper Nowe metody
Analiza wybranych aspektów wyników egzaminu gimnazjalnego
Wroclaw Univesity of Economics From the SelectedWorks of Józef Z. Dziechciarz 2012 Analiza wybranych aspektów wyników egzaminu gimnazjalnego Jozef Z. Dziechciarz, Wroclaw Univesity of Economics Agnieszka
Badania marketingowe
Badania marketingowe Dr hab. prof. SGH Katedra Rynku i Marketingu SGH teresataranko@o2.pl Konsultacje pokój 302 Madalińskiego 6/8 Wtorek -15.00-16.00 Struktura problematyki 1. Definicja i funkcje badań
Dopasowanie IT/biznes
Dopasowanie IT/biznes Dlaczego trzeba mówić o dopasowaniu IT-biznes HARVARD BUSINESS REVIEW, 2008-11-01 Dlaczego trzeba mówić o dopasowaniu IT-biznes http://ceo.cxo.pl/artykuly/51237_2/zarzadzanie.it.a.wzrost.wartosci.html
Pomiar i doskonalenie jakości procesów usługowych, metody oceny procesu usługowego- SERIQUAL, CIT, CSI.
Anna Jurek 133846 Izabela Sokołowska 133991 Gr. Pon. P godz. 15.15 Procesowe Zarządzanie Przedsiębiorstwem- seminarium. Pomiar i doskonalenie jakości procesów usługowych, metody oceny procesu usługowego-
Ewaluacja w polityce społecznej
Ewaluacja w polityce społecznej Metoda ewaluacji Dr hab. Ryszard Szarfenberg Instytut Polityki Społecznej UW rszarf.ips.uw.edu.pl/ewalps/dzienne/ Rok akademicki 2018/2019 Od pytań ewaluacyjnych do ocen
Zespół Szkolno-Przedszkolny nr 2 w Legionowie Gimnazjum nr 5. Przedmiotowy system oceniania na języku angielskim
Zespół Szkolno-Przedszkolny nr 2 w Legionowie Gimnazjum nr 5 Przedmiotowy system oceniania na języku angielskim 1 1. Ocena - celujący KRYTERIA OCENIANIA NA JĘZYKU ANGIELSKIM uczeń potrafi samodzielnie
Agnieszka Nowak Brzezińska
Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia
Priorytetyzacja przypadków testowych za pomocą macierzy
Priorytetyzacja przypadków testowych za pomocą macierzy W niniejszym artykule przedstawiony został problem przyporządkowania priorytetów do przypadków testowych przed rozpoczęciem testów oprogramowania.
WYMAGANIA EDUKACYJNE Z MATEMATYKI KLASA I GIMNAZJUM Małgorzata Janik
WYMAGANIA EDUKACYJNE Z MATEMATYKI KLASA I GIMNAZJUM Małgorzata Janik DOPUSZCZAJĄCY DOSTATECZNY DOBRY BARDZO DOBRY LICZBY I DZIAŁANIA zna pojęcie liczby naturalnej, całkowitej, wymiernej. rozumie rozszerzenie
Dodatkowo planowane jest przeprowadzenie oceny algorytmów w praktycznym wykorzystaniu przez kilku niezależnych użytkowników ukończonej aplikacji.
Spis Treści 1. Wprowadzenie... 2 1.1 Wstęp... 2 1.2 Cel pracy... 2 1.3 Zakres pracy... 2 1.4 Użyte technologie... 2 1.4.1 Unity 3D... 3 2. Sztuczna inteligencja w grach komputerowych... 4 2.1 Zadanie sztucznej
przetworzonego sygnału
Synteza falek ortogonalnych na podstawie oceny przetworzonego sygnału Instytut Informatyki Politechnika Łódzka 28 lutego 2012 Plan prezentacji 1 Sformułowanie problemu 2 3 4 Historia przekształcenia falkowego
Optymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
Wstęp do Techniki Cyfrowej... Teoria automatów
Wstęp do Techniki Cyfrowej... Teoria automatów Alfabety i litery Układ logiczny opisywany jest przez wektory, których wartości reprezentowane są przez ciągi kombinacji zerojedynkowych. Zwiększenie stopnia
0 + 0 = 0, = 1, = 1, = 0.
5 Kody liniowe Jak już wiemy, w celu przesłania zakodowanego tekstu dzielimy go na bloki i do każdego z bloków dodajemy tak zwane bity sprawdzające. Bity te są w ścisłej zależności z bitami informacyjnymi,
dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych
- Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 14 listopada 2011 roku 1 - - 2 3 4 5 - The purpose of computing is insight, not numbers Richard Hamming Motywacja - Mamy informację,
Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań
TABELA ODNIESIEŃ EFEKTÓW KSZTAŁCENIA OKREŚLONYCH DLA PROGRAMU KSZTAŁCENIA DO EFEKTÓW KSZTAŁCENIA OKREŚLONYCH DLA OBSZARU KSZTAŁCENIA I PROFILU STUDIÓW PROGRAM KSZTAŁCENIA: POZIOM KSZTAŁCENIA: PROFIL KSZTAŁCENIA:
Analiza zawartości dokumentów za pomocą probabilistycznych modeli graficznych
Analiza zawartości dokumentów za pomocą probabilistycznych modeli graficznych Probabilistic Topic Models Jakub M. TOMCZAK Politechnika Wrocławska, Instytut Informatyki 30.03.2011, Wrocław Plan 1. Wstęp
WIELOKRYTERIALNY DOBÓR ROZTRZĄSACZY OBORNIKA
Inżynieria Rolnicza 7(95)/2007 WIELOKRYTERIALNY DOBÓR ROZTRZĄSACZY OBORNIKA Andrzej Turski, Andrzej Kwieciński Katedra Maszyn i Urządzeń Rolniczych, Akademia Rolnicza w Lublinie Streszczenie: W pracy przedstawiono
Zastosowanie metod statystycznych do ekstrakcji słów kluczowych w kontekście projektu LT4eL. Łukasz Degórski
Zastosowanie metod statystycznych do ekstrakcji słów kluczowych w kontekście projektu LT4eL Łukasz Degórski LT4eL Language Technology for e-learning Wykorzystanie narzędzi językowych oraz technik sieci
Informatyka 1. Złożoność obliczeniowa
Informatyka 1 Wykład XI Złożoność obliczeniowa Robert Muszyński ZPCiR ICT PWr Zagadnienia: efektywność programów/algorytmów, sposoby zwiększania efektywności algorytmów, zasada 80 20, ocena efektywności
Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym
Wiesława MALSKA Politechnika Rzeszowska, Polska Anna KOZIOROWSKA Uniwersytet Rzeszowski, Polska Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym Wstęp Wnioskowanie statystyczne
Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
Krytyczne czynniki sukcesu w zarządzaniu projektami
Seweryn SPAŁEK Krytyczne czynniki sukcesu w zarządzaniu projektami MONOGRAFIA Wydawnictwo Politechniki Śląskiej Gliwice 2004 SPIS TREŚCI WPROWADZENIE 5 1. ZARZĄDZANIE PROJEKTAMI W ORGANIZACJI 13 1.1. Zarządzanie
3. Macierze i Układy Równań Liniowych
3. Macierze i Układy Równań Liniowych Rozważamy równanie macierzowe z końcówki ostatniego wykładu ( ) 3 1 X = 4 1 ( ) 2 5 Podstawiając X = ( ) x y i wymnażając, otrzymujemy układ 2 równań liniowych 3x
Granice ciągów liczbowych
Granice ciągów liczbowych Obliczyć z definicji granicę ciągu o wyrazie, gdzie jest pewną stałą liczbą. Definicja: granicą ciągu jest liczba, jeśli Sprawdzamy, czy i kiedy granica rozpatrywanego ciągu wynosi
Zad. 3: Układ równań liniowych
1 Cel ćwiczenia Zad. 3: Układ równań liniowych Wykształcenie umiejętności modelowania kluczowych dla danego problemu pojęć. Definiowanie właściwego interfejsu klasy. Zwrócenie uwagi na dobór odpowiednich
OCENA EFEKTYWNOŚCI INWESTYCJI. Jerzy T. Skrzypek
OCENA EFEKTYWNOŚCI INWESTYCJI Jerzy T. Skrzypek 1 2 3 4 5 6 7 8 Analiza płynności Analiza rentowności Analiza zadłużenia Analiza sprawności działania Analiza majątku i źródeł finansowania Ocena efektywności