Studia Podyplomowe Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS Analiza danych nieustrukturyzowanych: Text Mining

Podobne dokumenty
Eksploracja danych a serwisy internetowe Przemysław KAZIENKO

Analiza danych i data mining.

ANALIZA DANYCH ZE ŹRÓDEŁ OTWARTYCH CENNE ŹRÓDŁO INFORMACJI DR INŻ. MARIUSZ DZIECIĄTKO


Business Intelligence jako narzędzie do walki z praniem brudnych pieniędzy

Lokalizacja Oprogramowania

Analiza internetowa czyli Internet jako hurtownia danych

EKSPLORACJA DANYCH TEKSTOWYCH (TEXT MINING) W PRZEDSIĘBIORSTWIE (TEXT MINING METHODS AND APPLICATIONS IN THE ENTERPRISE)

Projektowanie informatycznych systemów zarządzania produkcją

Semantyczne podobieństwo stron internetowych

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Badania marketingowe. Źródło:

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Wpływ automatycznego tłumaczenia na wyniki automatycznej identyfikacji cha- rakteru opinii konsumenckich. 1 Wstęp

Oferta dla na autorską akcję Commerce PRO, czyli kompleksowe działania polegające na wsparciu sprzedaży przy wykorzystaniu Search Engine Marketing

Text mining w programie RapidMiner Michał Bereta

DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE:

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

Razem godzin w semestrze: Plan obowiązuje od roku akademickiego 2014/15 - zatwierdzono na Radzie Wydziału w dniu r.

ŚCIEŻKI ZAKUPOWE KONSUMENTÓW

Proces odkrywania wiedzy z baz danych

Imagination Is More Important Than Knowledge

Deduplikacja danych. Zarządzanie jakością danych podstawowych

Szkolenia SAS Cennik i kalendarz 2017

Prezentacja usług. Informacja Komunikacja Dystrybucja - Sprzedaż

dr inż. Maciej Kiewra Prezentacja wygłoszona na konferencji BI vs Big Data podczas Kongresu GigaCon Warszawa, r.

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Narzędzia Informatyki w biznesie

Analiza i wizualizacja danych Data analysis and visualization

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

AUTOMATYKA INFORMATYKA

Mariusz Dzieciątko. Krótko o sobie / Personal Overview/

POLITECHNIKA LUBELSKA Wydział Elektrotechniki Kierunek: INFORMATYKA II stopień niestacjonarne i Informatyki. Część wspólna dla kierunku

Analityka i BigData w służbie cyberbezpieczeństa

Konferencja. Business Intelligence Trends 24 czerwca 2014 r.

Wyższa Szkoła Informatyki Stosowanej i Zarządzania. Mikołaj Janicki Pro Duct By Business Friends sp. z o.o. 14 czerwca 2012

Oferta SEO. Analiza i optymalizacja

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Marketing w ecommerce

Minimum programowe dla studentów MIĘDZYWYDZIAŁOWYCH INDYWIDUALNYCH STUDIÓW SPOŁECZNO-HUMANISTYCZNYCH - studia magisterskie II stopnia

data mining machine learning data science

RAPORT POLSKI INTERNET 2009/2010. ul. Wołoska 7, budynek Mars, klatka D, II piętro Warszawa, tel. (0 22) , fax (0 22)

Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych

Skrócona instrukcja obsługi

Dr hab. Marek Nahotko BADANIA NAUKOWE NAD WYDAWNICTWAMI ELEKTRONICZNYMI. Główne problemy badawcze

Nowoczesne narzędzia do ochrony informacji. Paweł Nogowicz

Specjalnościowy Obowiązkowy Polski Semestr VI

Oferta reklamowa w serwisach Grupy Marketingowej TAI

Eksploracja danych (data mining)

PROJEKT. (indywidualny) RESEARCHING Humanistyka drugiej generacji, specjalność dziennikarstwo internetowe i social media rok III/semestr letni 2015/16

reklama display zaprezentuj się potencjalnym Klientom

Semantyczna analiza języka naturalnego

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Poza sztuczną CTO 15 maj, Watson Warsaw Summit 2017

Kierunek: Informatyka i Ekonometria Poziom studiów: Studia I stopnia Forma i tryb studiów: Niestacjonarne. Wykład Ćwiczenia

Analiza danych tekstowych i języka naturalnego

Agenda. BizRunner Content Marketing

w ekonomii, finansach i towaroznawstwie

Skuteczna Strategia CRM - wyzwanie dla organizacji. Artur Kowalski Prometriq

Community Manager quiz

netsprint Oferta 360 stopni 1

Wykaz tematów zajęć bibliotecznych w CDN PBP Filia w Turku w roku szkolnym 2016/2017. Zajęcia dla przedszkolaków i uczniów klas 1-3

Plan studiów niestacjonarnych pierwszego stopnia Kierunek: ANALITYKA I BADANIA EKONOMICZNE A. Moduły międzykierunkowe obligatoryjne

Bydgoskie Centrum Archiwizacji Cyfrowej sp. z o.o.

Case study. Divante zwiększa sprzedaż w sklepie marki Caterina

Skuteczne sposoby budowania ruchu w oparciu o SEM/SEO. - Karol Wnukiewicz

Plan studiów stacjonarnych pierwszego stopnia Kierunek: ANALITYKA I BADANIA EKONOMICZNE A. Moduły międzykierunkowe obligatoryjne

Przedmiot: język angielski zawodowy w klasie o profilu technik informatyk. Szkoła: Powiatowy Zespół Nr 10SME im. M. Kopernika ( IV etap kształcenia)

Informatyka Studia II stopnia

Narzędzia do analizy działań marketingowych w internecie: Google Analytics & Webmaster Tools, analityka social media

Jak wybrać 45 najlepszych. prezentacji na FORUM?

Studia Podyplomowe Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS Analiza danych nieustrukturyzowanych: Text Mining

Modele biznesu w Internecie

Instrukcja do panelu administracyjnego. do zarządzania kontem FTP WebAs.

Największe serwisy medyczne dla pacjentów

O f e r t a b a d a w c z a. Analityka rynku. Maj 2016

Efekt kształcenia. Wiedza

Funkcjonalność oprogramowania Bazy Wiedzy i Repozytorium Politechniki Warszawskiej

CUSTOMER JOURNEY. Klient omnichannelowy: potrzeby i oczekiwania. Inquiry sp. z o.o., 2018

Studia Podyplomowe Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS Analiza danych nieustrukturyzowanych: Text Mining

UMIEJĘTNE WYSZUKIWANIE INFORMACJI

Google Ads. Oferta. Strategiczny Partner Google w Europie Środkowej. 95% NOWA OFERTA

MARKETING INTERNETOWY

Co to jest Business Intelligence?

Ekonomiczny Uniwersytet Dziecięcy

Business Intelligence narzędziem wsparcia sprzedaży

AKADEMIA MARKETINGU CYFROWEGO SZKOLENIE DEDYKOWANE

POZYCJONOWANIE I OPTYMALIZACJA STRON WWW PDF >>>WIĘCEJ<<<

Czym jest. Inbound Marketing?

Sieć reklamowa Google

Absolwent szkoły kształcącej w zawodzie technik organizacji reklamy powinien być przygotowany do wykonywania następujących zadań zawodowych:

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Wymagania edukacyjne niezbędne do uzyskania poszczególnych ocen JĘZYK ANGIELSKI ZAWODOWY - INFORMATYKA KLASA 2 LUB 4

REAL TIME BUSINESS INTELLIGENCE REALNY ROZWÓJ BIZNESU. STUDIUM PRZYPADKU W OBSZARZE MARKETINGU RADOSŁAW GRABIEC SAS INSTITUTE

Wprowadzenie do teorii systemów ekspertowych

Kongres Logistyczny PTL 2001

Szanowni Państwo, Jesteśmy zespołem projektowym realizującym indywidualne projekty a nie pudełkowe rozwiązania. Działamy na rynku usług projektowych.

Transkrypt:

Analiza danych nieustrukturyzowanych: Text Mining Wydział Nauk Ekonomicznych Uniwersytet Warszawski

Część 1 Analiza danych nieustrukturyzowanych 1) Przetwarzanie informacji 2) Text Mining 3) Zastosowania Text Mining 4) Web Mining 5) Zastosowania Web Mining

Część 1 Analiza danych nieustrukturyzowanych 1) Przetwarzanie informacji 2) Text Mining 3) Zastosowania Text Mining 4) Web Mining 5) Zastosowania Web Mining

Big Data nadmiar informacji Ogrom publikacji (książki, czasopisma, artykuły, raporty, dokumenty) Elektroniczny format zapisu (minimalne koszty powielania informacji) Internet (kanał błyskawicznej dystrybucji i wymiany informacji) 4

Przykład - przemysł biotechnologiczny Dostęp do informacji spory problem 80% wiedzy znajduje się tylko w artykułach naukowych Ludzka zdolność do przyswajania informacji jeśli czytasz ok. 60 artykułów tygodniowo a jedynie 10% z nich jest merytorycznie istotnych to przyswajasz wiedzę w tempie 6 artykułów na tydzień (=ok. 300/rok) Sama baza MedLine dodaje ok. 10 tys. abstraktów nowych artykułów miesięcznie! 5

Przetwarzanie informacji Cybernetyka Informatyka Technologia komputerowa ogromna moc obliczeniowa (liczba działań arytmetycznych wykonywanych przez komputer w danym czasie) możliwość przetwarzania tekstu możliwość porozumiewania się z maszyną w języku naturalnym (sztuczna inteligencja) 6

Język naturalny jest wytworem historycznego rozwoju, w przeciwieństwie do języków sztucznych ma złożoną składnię, wiele dwuznaczności, wciąż zmienia się i ewoluuje posługiwanie się nim wymaga posiadania wiedzy o świecie nośnik ludzkiej wiedzy, informacji i komunikacji 7

Przetwarzanie języka naturalnego Przetwarzanie informacji zapisanej w języku naturalnym - Natural Language Processing (NLP) inne nazwy: Computational Linguistics (CL), Human Language Technology (HLT), Natural Language Engineering (NLE) Rozwój NLP analiza gramatyczna stoicy (III w p.n.e.), Grimm, Rask (XIX w.), Chomsky (XX w.) analiza statystyczna metody stochastyczne, modele prawdopodobieństwa, korpusy językowe, uczenie maszynowe 8

Człowiek kontra komputer 3 maja 1997 pojedynek obliczeniowy superkomputera IBM Deep Blue z arcymistrzem szachowym Garrym Kasparovem (wygrywa Deep Blue) 16 lutego 2011 pojedynek słowny superkomputera IBM Watson z mistrzami teleturnieju słownego Jeopardy Kenem Jenningsem i Bradem Rutterem (wygrywa Watson) 9

Przetwarzanie tekstu - czytanie Człowiek wysoka precyzja szeroki zakres dziedzin analiza zdanie po zdaniu wysoki stopień zrozumienia szersza wiedza i kontekst jeden język w danej chwili bardzo wolno Komputer niska precyzja (zaszumienie) ograniczony zakres dziedzin analiza słownikowo-korpusowa niski stopień zrozumienia reguły wnioskowania wiele języków równocześnie bardzo szybko 10

Trzy podejścia do analizy tekstu 11

Text Mining Text Mining Proces automatycznego uzyskiwania znaczącej i przydatnej, nie znanej wcześniej wiedzy ze zbiorów dokumentów tekstowych inne nazwy: Text Data Mining, Text Analytics, Knowledge Discovery in Text (KDT), Intelligent Text Analysis 12

Data Mining vs Text Mining DATA MINING TEXT MINING Źródło danych baza danych zbiór dokumentów Typ danych dane sformalizowane nieustrukturyzowany tekst Przetwarzanie oczyszczanie danych i normalizacja identyfikacja jednostek tekstu i zliczanie Powiązane dziedziny statystyka, uczenie maszynowe wydobywanie informacji, selekcja informacji, lingwistyka obliczeniowa 13

Część 1 Analiza danych nieustrukturyzowanych 1) Przetwarzanie informacji 2) Text Mining 3) Zastosowania Text Mining 4) Web Mining 5) Zastosowania Web Mining

Text Mining i powiązane dziedziny 15

Drzewo decyzyjne metod Text Mining 16

Rynek Text Mining - Text Analytics 17

Firmy na rynku Text Analytics 18

SAS Text Analytics: Text Mining, Sentiment Analysis i Content Categorization 19

Tekstowa baza danych Dostępne informacje - luźne zbiory dokumentów tekstowych Ustrukturyzowanie informacji nadaje im postać tekstowej bazy danych Tekst wczytywany do tekstowej bazy danych różne systemy zapisu (angielski, francuski, polski, grecki, rosyjski, arabski, japoński, sanskryt,...) różne formaty dokumentów tekstowych 20

Formaty dokumentów tekstowych 21

Proces Text Mining "kodowanie" informacji zawartych w tekście Wstępna obróbka tekstu Analiza kolekcji tekstowej zastosowanie różnych metod w celu wykrycia zależności między cechami graficzna reprezentacja wyników Wizualizacja 22

Wstępna obróbka tekstu 1. Identyfikacja jednostek tekstu: paragrafy, zdania, wyrazy, frazy. 2. Pomijanie nieistotnych słów i fraz, które często występują, ale są bezużyteczne w danej analizie, gdyż nie niosą żadnego znaczenia użycie stoplisty. 3. Redukcja do rdzenia (stemming, lematyzacja) - sprowadzanie wyrazów do podstawowej formy gramatycznej. 4. Normalizacja określenie, jaką część mowy stanowi dane słowo. 5. Wykorzystanie synonimów. 23

Analiza kolekcji tekstowej Zliczenie wystąpień wyrazów, wyznaczenie miar i wag bogactwa słownictwa Uzyskane w ten sposób dane są podstawą do dalszych analiz opis zbioru dokumentów klastrowanie dokumentów klasyfikacja dokumentów 24

Wizualizacja 25

Część 1 Analiza danych nieustrukturyzowanych 1) Przetwarzanie informacji 2) Text Mining 3) Zastosowania Text Mining 4) Web Mining 5) Zastosowania Web Mining

Zastosowania Zarządzanie relacjami z klientem (CRM) Źródła danych: reklamacje, opinie, zapisy call center Cele analiz: podniesienie jakości produktów i usług, zarządzanie produktem (product management), routing połączeń i automatyzacja działań CRM Finanse i zgodność z prawem (legal compliance) Źródła danych: raporty finansowe, newsy finansowe, dokumenty firmowe, rejestry handlowe Cele analiz: wykrywanie nieprawidłowości, prania pieniędzy i nielegalnych transakcji, raportowanie anomalii cenowych 27

Zastosowania Bezpieczeństwo publiczne Źródła danych: raporty i rekordy baz danych ruchu lotniczego, policji, opieki lekarskiej Cele analiz: lepsza identyfikacja przyczyn w celu uniknięcia przyszłych błędów Wywiad i antyterroryzm Źródła danych: notatki i raporty śledczych, przechwycone dokumenty Cele analiz: stowarzyszenia i siatki niebezpiecznych organizacji, wzorce behawioralne, wzorce ataku, rozwój strategii 28

Zastosowania Zarządzanie opieką zdrowotną Źródła danych: badania kliniczne, rekordy bazy danych pacjentów, regulacje prawno-medyczne, artykuły medyczne Cele analiz: lepsza diagnostyka i leczenie, promowanie wysokiej jakości usług, kontrola kosztów, projektowanie leków Projektowanie leków sztandarowy przykład Szukając przyczyn bólów migrenowych, dokonano Text Miningu artykułów medycznych, uzyskując następujące wzorce: stres jest związany z migrenami stres może prowadzić do niedoborów magnezu blokery kanału wapniowego mogą zapobiegać migrenom magnez jest naturalnym blokerem kanału wapniowego rozszerzająca się depresja korowa (ang. CSD) jest związana z niektórymi migrenami wysoki poziom magnezu hamuje rozwój CSD pacjenci migrenowi mają nadmierną agregację płytek krwi magnez może powstrzymać nadmierną agregację płytek krwi 29

Zastosowania Predictive Analytics & text mining 90% Search & Search-based Apps 86% Business Intelligence 84% Voice of the Customer 82%, Social Media 75% Decision Support, KM 81% Big Data - other 70%, Finance 61% Call Center, Tech Support 63% Risk, Compliance, Governance 61% Security, Fraud Detection - 54% 30

Część 1 Analiza danych nieustrukturyzowanych 1) Przetwarzanie informacji 2) Text Mining 3) Zastosowania Text Mining 4) Web Mining 5) Zastosowania Web Mining

Sieć WWW Największe na Ziemi publicznie dostępne źródło informacji i danych portale (wiadomości, artykuły, pliki) fora i blogi (komentarze, opinie, oceny) instytucje i urzędy publiczne (dane, statystyki) sklepy internetowe (produkty, opisy, katalogi) elektroniczna wymiana danych, bankowość, telekomunikacja, e-learning itp. (usługi) Ogromny zbiór nieustrukturyzowanych dokumentów powiązanych hiperłączami 32

Web Mining Web Mining Proces automatycznego odnajdywania i wydobywania istotnych informacji z zasobów internetowych, tj. z danych ukrytych w dokumentach (hiper)tekstowych 33

Proces Web Mining Pozyskiwanie danych Selekcja wybranych informacji z danych Wstępna obróbka tekstu Analiza kolekcji tekstowej Wizualizacja 34

Web Mining 35

Web content wydobywanie informacji z zasobów WWW (tekst, rysunki, liczby, audio i video itp.) Web structure analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage Web Mining analiza sposobu korzystania z WWW przez użytkowników (logi serwerów, identyfikacja użytkownika itp.) 36

Część 1 Analiza danych nieustrukturyzowanych 1) Przetwarzanie informacji 2) Text Mining 3) Zastosowania Text Mining 4) Web Mining 5) Zastosowania Web Mining

Zastosowania Web Content Mining Identyfikacja tematów poruszanych przez użytkowników na danej stronie Filtrowanie stron w poszukiwaniu informacji i wzorców powiązań Bezpieczeństwo w Internecie: nadzór czatów (dzieci), identyfikacja spamu w wiadomościach e-mail 38

Opinion mining Zastosowania Web Content Mining cd. wiele stron zawierających ogromne ilości komentarzy oraz opinie klientów, np. Ceneo, Skąpiec, Opineo jednakże informacji jest zbyt wiele, a nie chcesz spędzić więcej czasu na czytaniu recenzji o książce, niż na czytaniu samej książki firmom jest trudno śledzić wszystkie opinie pojawiające się w sieci i dotyczące ich produktów 39

Zastosowania Web Content Mining cd. 40

Zastosowania Web Structure Mining Poznawanie jakości stron WWW ranking stron, rzetelność źródeł informacji na stronie Odkrywanie interesujących struktur stron WWW graficzne modele, najczęściej odwiedzane strony Klasyfikacja stron WWW strony podobne tematycznie 41

Zastosowania Web Usage Mining Web Mining w e-commerce Oszacowanie długotrwałości klientów (lifetime value of clients) Ścisłe określenie grupy docelowej i dotarcie do niej Opracowanie skutecznych strategii reklamowych dotyczących konkretnych produktów Przewidywanie zachowania użytkowników na podstawie ich profili/ip/geolokalizacji Przedstawianie personalizowanych informacji 42

Zastosowania Web Usage Mining cd. Web Mining w marketingu Kim są odwiedzający dany serwis WWW? Dlaczego jedni użytkownicy powracają na ten serwis, a inni nie? Czy powracający różnią się od tych, którzy odwiedzają serwis sporadycznie lub przypadkowo? Czy kolejność odwiedzania stron jest związana np. ze skłonnością do kupowania w e-sklepie? Czym różnią się kupujący w e-sklepie od tych, którzy odwiedzają serwis i nic nie kupują? Na jakiej podstronie użytkownicy kończą odwiedziny serwisu WWW? 43

Zastosowania Web Usage Mining cd. Analiza wzorców korzystania ze strony www (adres każdej odwiedzonej strony, strona wcześniej odwiedzona, czas przebywania na danej stronie, adres następnej strony, do której przeszedł użytkownik) 44

Pamiętajmy, że wciąż: dostępna ludzkości wiedza w 90% ma postać tekstową! 45