Analiza danych nieustrukturyzowanych: Text Mining Wydział Nauk Ekonomicznych Uniwersytet Warszawski
Część 1 Analiza danych nieustrukturyzowanych 1) Przetwarzanie informacji 2) Text Mining 3) Zastosowania Text Mining 4) Web Mining 5) Zastosowania Web Mining
Część 1 Analiza danych nieustrukturyzowanych 1) Przetwarzanie informacji 2) Text Mining 3) Zastosowania Text Mining 4) Web Mining 5) Zastosowania Web Mining
Big Data nadmiar informacji Ogrom publikacji (książki, czasopisma, artykuły, raporty, dokumenty) Elektroniczny format zapisu (minimalne koszty powielania informacji) Internet (kanał błyskawicznej dystrybucji i wymiany informacji) 4
Przykład - przemysł biotechnologiczny Dostęp do informacji spory problem 80% wiedzy znajduje się tylko w artykułach naukowych Ludzka zdolność do przyswajania informacji jeśli czytasz ok. 60 artykułów tygodniowo a jedynie 10% z nich jest merytorycznie istotnych to przyswajasz wiedzę w tempie 6 artykułów na tydzień (=ok. 300/rok) Sama baza MedLine dodaje ok. 10 tys. abstraktów nowych artykułów miesięcznie! 5
Przetwarzanie informacji Cybernetyka Informatyka Technologia komputerowa ogromna moc obliczeniowa (liczba działań arytmetycznych wykonywanych przez komputer w danym czasie) możliwość przetwarzania tekstu możliwość porozumiewania się z maszyną w języku naturalnym (sztuczna inteligencja) 6
Język naturalny jest wytworem historycznego rozwoju, w przeciwieństwie do języków sztucznych ma złożoną składnię, wiele dwuznaczności, wciąż zmienia się i ewoluuje posługiwanie się nim wymaga posiadania wiedzy o świecie nośnik ludzkiej wiedzy, informacji i komunikacji 7
Przetwarzanie języka naturalnego Przetwarzanie informacji zapisanej w języku naturalnym - Natural Language Processing (NLP) inne nazwy: Computational Linguistics (CL), Human Language Technology (HLT), Natural Language Engineering (NLE) Rozwój NLP analiza gramatyczna stoicy (III w p.n.e.), Grimm, Rask (XIX w.), Chomsky (XX w.) analiza statystyczna metody stochastyczne, modele prawdopodobieństwa, korpusy językowe, uczenie maszynowe 8
Człowiek kontra komputer 3 maja 1997 pojedynek obliczeniowy superkomputera IBM Deep Blue z arcymistrzem szachowym Garrym Kasparovem (wygrywa Deep Blue) 16 lutego 2011 pojedynek słowny superkomputera IBM Watson z mistrzami teleturnieju słownego Jeopardy Kenem Jenningsem i Bradem Rutterem (wygrywa Watson) 9
Przetwarzanie tekstu - czytanie Człowiek wysoka precyzja szeroki zakres dziedzin analiza zdanie po zdaniu wysoki stopień zrozumienia szersza wiedza i kontekst jeden język w danej chwili bardzo wolno Komputer niska precyzja (zaszumienie) ograniczony zakres dziedzin analiza słownikowo-korpusowa niski stopień zrozumienia reguły wnioskowania wiele języków równocześnie bardzo szybko 10
Trzy podejścia do analizy tekstu 11
Text Mining Text Mining Proces automatycznego uzyskiwania znaczącej i przydatnej, nie znanej wcześniej wiedzy ze zbiorów dokumentów tekstowych inne nazwy: Text Data Mining, Text Analytics, Knowledge Discovery in Text (KDT), Intelligent Text Analysis 12
Data Mining vs Text Mining DATA MINING TEXT MINING Źródło danych baza danych zbiór dokumentów Typ danych dane sformalizowane nieustrukturyzowany tekst Przetwarzanie oczyszczanie danych i normalizacja identyfikacja jednostek tekstu i zliczanie Powiązane dziedziny statystyka, uczenie maszynowe wydobywanie informacji, selekcja informacji, lingwistyka obliczeniowa 13
Część 1 Analiza danych nieustrukturyzowanych 1) Przetwarzanie informacji 2) Text Mining 3) Zastosowania Text Mining 4) Web Mining 5) Zastosowania Web Mining
Text Mining i powiązane dziedziny 15
Drzewo decyzyjne metod Text Mining 16
Rynek Text Mining - Text Analytics 17
Firmy na rynku Text Analytics 18
SAS Text Analytics: Text Mining, Sentiment Analysis i Content Categorization 19
Tekstowa baza danych Dostępne informacje - luźne zbiory dokumentów tekstowych Ustrukturyzowanie informacji nadaje im postać tekstowej bazy danych Tekst wczytywany do tekstowej bazy danych różne systemy zapisu (angielski, francuski, polski, grecki, rosyjski, arabski, japoński, sanskryt,...) różne formaty dokumentów tekstowych 20
Formaty dokumentów tekstowych 21
Proces Text Mining "kodowanie" informacji zawartych w tekście Wstępna obróbka tekstu Analiza kolekcji tekstowej zastosowanie różnych metod w celu wykrycia zależności między cechami graficzna reprezentacja wyników Wizualizacja 22
Wstępna obróbka tekstu 1. Identyfikacja jednostek tekstu: paragrafy, zdania, wyrazy, frazy. 2. Pomijanie nieistotnych słów i fraz, które często występują, ale są bezużyteczne w danej analizie, gdyż nie niosą żadnego znaczenia użycie stoplisty. 3. Redukcja do rdzenia (stemming, lematyzacja) - sprowadzanie wyrazów do podstawowej formy gramatycznej. 4. Normalizacja określenie, jaką część mowy stanowi dane słowo. 5. Wykorzystanie synonimów. 23
Analiza kolekcji tekstowej Zliczenie wystąpień wyrazów, wyznaczenie miar i wag bogactwa słownictwa Uzyskane w ten sposób dane są podstawą do dalszych analiz opis zbioru dokumentów klastrowanie dokumentów klasyfikacja dokumentów 24
Wizualizacja 25
Część 1 Analiza danych nieustrukturyzowanych 1) Przetwarzanie informacji 2) Text Mining 3) Zastosowania Text Mining 4) Web Mining 5) Zastosowania Web Mining
Zastosowania Zarządzanie relacjami z klientem (CRM) Źródła danych: reklamacje, opinie, zapisy call center Cele analiz: podniesienie jakości produktów i usług, zarządzanie produktem (product management), routing połączeń i automatyzacja działań CRM Finanse i zgodność z prawem (legal compliance) Źródła danych: raporty finansowe, newsy finansowe, dokumenty firmowe, rejestry handlowe Cele analiz: wykrywanie nieprawidłowości, prania pieniędzy i nielegalnych transakcji, raportowanie anomalii cenowych 27
Zastosowania Bezpieczeństwo publiczne Źródła danych: raporty i rekordy baz danych ruchu lotniczego, policji, opieki lekarskiej Cele analiz: lepsza identyfikacja przyczyn w celu uniknięcia przyszłych błędów Wywiad i antyterroryzm Źródła danych: notatki i raporty śledczych, przechwycone dokumenty Cele analiz: stowarzyszenia i siatki niebezpiecznych organizacji, wzorce behawioralne, wzorce ataku, rozwój strategii 28
Zastosowania Zarządzanie opieką zdrowotną Źródła danych: badania kliniczne, rekordy bazy danych pacjentów, regulacje prawno-medyczne, artykuły medyczne Cele analiz: lepsza diagnostyka i leczenie, promowanie wysokiej jakości usług, kontrola kosztów, projektowanie leków Projektowanie leków sztandarowy przykład Szukając przyczyn bólów migrenowych, dokonano Text Miningu artykułów medycznych, uzyskując następujące wzorce: stres jest związany z migrenami stres może prowadzić do niedoborów magnezu blokery kanału wapniowego mogą zapobiegać migrenom magnez jest naturalnym blokerem kanału wapniowego rozszerzająca się depresja korowa (ang. CSD) jest związana z niektórymi migrenami wysoki poziom magnezu hamuje rozwój CSD pacjenci migrenowi mają nadmierną agregację płytek krwi magnez może powstrzymać nadmierną agregację płytek krwi 29
Zastosowania Predictive Analytics & text mining 90% Search & Search-based Apps 86% Business Intelligence 84% Voice of the Customer 82%, Social Media 75% Decision Support, KM 81% Big Data - other 70%, Finance 61% Call Center, Tech Support 63% Risk, Compliance, Governance 61% Security, Fraud Detection - 54% 30
Część 1 Analiza danych nieustrukturyzowanych 1) Przetwarzanie informacji 2) Text Mining 3) Zastosowania Text Mining 4) Web Mining 5) Zastosowania Web Mining
Sieć WWW Największe na Ziemi publicznie dostępne źródło informacji i danych portale (wiadomości, artykuły, pliki) fora i blogi (komentarze, opinie, oceny) instytucje i urzędy publiczne (dane, statystyki) sklepy internetowe (produkty, opisy, katalogi) elektroniczna wymiana danych, bankowość, telekomunikacja, e-learning itp. (usługi) Ogromny zbiór nieustrukturyzowanych dokumentów powiązanych hiperłączami 32
Web Mining Web Mining Proces automatycznego odnajdywania i wydobywania istotnych informacji z zasobów internetowych, tj. z danych ukrytych w dokumentach (hiper)tekstowych 33
Proces Web Mining Pozyskiwanie danych Selekcja wybranych informacji z danych Wstępna obróbka tekstu Analiza kolekcji tekstowej Wizualizacja 34
Web Mining 35
Web content wydobywanie informacji z zasobów WWW (tekst, rysunki, liczby, audio i video itp.) Web structure analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage Web Mining analiza sposobu korzystania z WWW przez użytkowników (logi serwerów, identyfikacja użytkownika itp.) 36
Część 1 Analiza danych nieustrukturyzowanych 1) Przetwarzanie informacji 2) Text Mining 3) Zastosowania Text Mining 4) Web Mining 5) Zastosowania Web Mining
Zastosowania Web Content Mining Identyfikacja tematów poruszanych przez użytkowników na danej stronie Filtrowanie stron w poszukiwaniu informacji i wzorców powiązań Bezpieczeństwo w Internecie: nadzór czatów (dzieci), identyfikacja spamu w wiadomościach e-mail 38
Opinion mining Zastosowania Web Content Mining cd. wiele stron zawierających ogromne ilości komentarzy oraz opinie klientów, np. Ceneo, Skąpiec, Opineo jednakże informacji jest zbyt wiele, a nie chcesz spędzić więcej czasu na czytaniu recenzji o książce, niż na czytaniu samej książki firmom jest trudno śledzić wszystkie opinie pojawiające się w sieci i dotyczące ich produktów 39
Zastosowania Web Content Mining cd. 40
Zastosowania Web Structure Mining Poznawanie jakości stron WWW ranking stron, rzetelność źródeł informacji na stronie Odkrywanie interesujących struktur stron WWW graficzne modele, najczęściej odwiedzane strony Klasyfikacja stron WWW strony podobne tematycznie 41
Zastosowania Web Usage Mining Web Mining w e-commerce Oszacowanie długotrwałości klientów (lifetime value of clients) Ścisłe określenie grupy docelowej i dotarcie do niej Opracowanie skutecznych strategii reklamowych dotyczących konkretnych produktów Przewidywanie zachowania użytkowników na podstawie ich profili/ip/geolokalizacji Przedstawianie personalizowanych informacji 42
Zastosowania Web Usage Mining cd. Web Mining w marketingu Kim są odwiedzający dany serwis WWW? Dlaczego jedni użytkownicy powracają na ten serwis, a inni nie? Czy powracający różnią się od tych, którzy odwiedzają serwis sporadycznie lub przypadkowo? Czy kolejność odwiedzania stron jest związana np. ze skłonnością do kupowania w e-sklepie? Czym różnią się kupujący w e-sklepie od tych, którzy odwiedzają serwis i nic nie kupują? Na jakiej podstronie użytkownicy kończą odwiedziny serwisu WWW? 43
Zastosowania Web Usage Mining cd. Analiza wzorców korzystania ze strony www (adres każdej odwiedzonej strony, strona wcześniej odwiedzona, czas przebywania na danej stronie, adres następnej strony, do której przeszedł użytkownik) 44
Pamiętajmy, że wciąż: dostępna ludzkości wiedza w 90% ma postać tekstową! 45