Analiza danych nieustrukturyzowanych: Text Mining Wydział Nauk Ekonomicznych Uniwersytet Warszawski
1) Komercyjne 1. Zintegrowane aplikacje analityczne 2. Inne aplikacje (analiza sentymentu) 2) Aplikacje open source Część 3 Dostępne narzędzia Text Mining
1) Komercyjne 1. Zintegrowane aplikacje analityczne 2. Inne aplikacje (analiza sentymentu) 2) Aplikacje open source Część 3 Dostępne narzędzia Text Mining
Zintegrowane aplikacje analityczne SAS Text Miner IBM SPSS Modeler Text Analytics STATISTICA Text Miner Provalis Research WordStat Megaputer TextAnalyst 173
Firma: SAS Produkt: SAS Text Miner
SAS Text Miner http://support.sas.com/documentation/onlinedoc/txtminer/ 175
Obsługiwane języki SAS Text Miner prowadzi analizę nieustrukturyzowanych dokumentów w językach europejskich: angielski, holenderski, francuski, niemiecki, włoski, portugalski, hiszpański, szwedzki, polski oraz: japoński, koreański, uproszczony chiński, tradycyjny chiński, arabski 176
Obsługiwane funkcje szukanie rdzenia wyrazów automatyczne rozpoznawanie terminów wielowyrazowych standaryzacja wyrażeń takich jak data, godzina, waluta, procenty wydobywanie niestandardowych wyrażeń (nazwy organizacji, produkty, tytuły itp.) etykietowanie części mowy rozpoznawanie synonimów 177
Zastosowania filtrowanie wiadomości e-mail grupowanie dokumentów według tematu w określone kategorie wyszukiwanie w tekście nowych informacji analiza klastrów w dokumentach naukowych analiza klastrów danych ankietowych analiza klastrów w skargach, komentarzach i zażaleniach klientów 178
SAS Text Analytics 179
SAS Content Categorization 180
SAS Social Media Analytics 181
SAS Social Media Analytics 182
SAS Social Media Analytics social forecast 183
SAS Social Media Analytics sentiment by time 184
SAS Social Media Analytics media workbench 185
SAS Social Media Analytics fraud framework 186
Success stories Maspex Wadowice Group Parks Division of Alberta Tourism, Parks and Recreation https://www.sas.com/en_us/customers/alberta-parks.html Hong Kong government's Efficiency Unit https://www.sas.com/en_us/customers/maspex-wadowicegroup.html https://www.sas.com/en_us/customers/hong-kong-efficiencyunit-visual-analytics.html 187
Success stories Sub-Zero and Wolf Appliance http://www.sas.com/en_us/news/pressreleases/2014/march/sub-zero-warranty-analytics-award.html Hewlett-Packard http://www.sas.com/en_us/customers/hp.html Whirlpool http://www.sas.com/success/pdf/whirlpool.pdf 188
Firma: IBM SPSS Produkt: IBM SPSS Modeler Text Analytics
IBM SPSS Modeler Text Analytics http://www-01.ibm.com/software/analytics/spss/ 190
Wspierane natywnie Obsługiwane języki angielski, francuski, hiszpański, holenderski, niemiecki, włoski, portugalski, japoński Wspierane przez moduł tłumaczeniowy Language Translation Interface arabski, chiński, hindi, perski, rumuński, rosyjski, somalijski, szwedzki 191
Zastosowania Analiza wzorców w tekstach i powiązań między tekstami Analiza pytań otwartych w ankietach Klasteryzacja, kategoryzacja Modelowanie predykcyjne 192
What do you like most about this portable music player? /categories 193
What do you like most about this portable music player? / concept map 194
What do you like most about this portable music player? / positive 195
What do you like least about this portable music player? / negative 196
Customer service / text link analysis 197
What factors influence your decision to choose a car rental company for business? 198
Sentiment Analysis 199
Success stories Socio Logiciels http://www- 03.ibm.com/software/businesscasestudies/us/en/corp?synkey=C6 76775B74434A23 BMW Group http://www- 03.ibm.com/software/businesscasestudies/us/en/corp?synkey=C8 32269U02087M63 200
Success stories Woonbedrijf SWS http://www- 03.ibm.com/software/businesscasestudies/us/en/corp?synkey=Y1 64052G07720B64 Hamilton County Department of Education http://www- 03.ibm.com/software/businesscasestudies/us/en/corp?synkey=T4 06213A14992E19 201
Firma: StatSoft Produkt: STATISTICA Text Miner
STATISTICA Text Miner http://www.statsoft.pl/programy/statistica-text-miner 203
Wspierane natywnie Obsługiwane języki duński, holenderski, angielski, francuski, niemiecki, włoski, portugalski, hiszpański, szwedzki 204
Obsługiwane funkcje szukanie rdzenia wyrazów pomijanie nieistotnych słów transformacja i redukcja wymiarów analiza dokumentów podsumowania mapy podobieństw analiza skupień (metody EM i k-średnich) predykcyjny text mining 205
Zastosowania Analiza dużych zbiorów dokumentów tekstowych grupowanie dokumentów w określone kategorie wyszukiwanie w tekście nowych informacji Analiza treści stron WWW, portali internetowych i grup dyskusyjnych Prognozowanie 206
Accident reports 207
Credit scoring 208
Success stories Biuro Ubezpieczycieli Czeskich http://www.statsoft.pl/portals/0/downloads/success_stories/ckp_ wykorzystuje_statistica_enterprise_text_miner.pdf Analiza opisów roszczeń ubezpieczeniowych przewidywanie ryzyka wystąpienia wysokich roszczeń z tytułu uszczerbku na zdrowiu dokładniejsze szacowanie łącznej wartości odszkodowania z tytułu OC na wczesnym etapie rozpatrywania danej sprawy 209
Firma: Provalis Research Produkt: WordStat
Provalis Research WordStat http://provalisresearch.com/products/content-analysis-software/ 211
Wspierane natywnie Obsługiwane języki angielski, francuski, hiszpański, niemiecki, włoski, portugalski 212
Obsługiwane funkcje analiza wyszukanego tekstu i wizualizacja wyszukiwanie słowa kluczowego i słowa kluczowego w kontekście identyfikacja powiązanych segmentów tekstu grupowanie i analiza korespondencyjna wyrażeń klasteryzacja automatyczna klasyfikacja tekstu krzyżowanie dwóch zmiennych 213
Zastosowania analiza zawartości zamkniętych/otwartych zapytań w formularzach, kwestionariuszach wydobywanie informacji ze sprawozdań i raportów wydarzeń analiza nowych informacji w literaturze naukowej i sprawozdaniach wykrywanie nieprawidłowości i oszustw identyfikacja autorstwa i analiza patentowa analiza stron WWW 214
Keyword retrieval 215
Keyword distribution 216
Bubble chart 217
Dendogram 218
2D concept map 219
3D concept map 220
Proximity plot 221
Success stories JetBlue Airways Cornell University School of Hotel Administration Center for Business Performance http://provalisresearch.com/solutions/case-studies/application-oftext-mining-to-aviation-safety-data/ http://provalisresearch.com/solutions/case-studies/contentanalysis-of-hotel-customer-satisfaction/ http://provalisresearch.com/solutions/case-studies/mesuringdisclosure-of-intangible-resources-in-corporate-annual-reports/ 222
Firma: Megaputer Produkt: TextAnalyst
Megaputer TextAnalyst http://megaputer.com/site/textanalyst.php 224
Wspierane natywnie angielski Obsługiwane języki 225
tworzenie list synonimów klasteryzacja Obsługiwane funkcje kategoryzacja dokumentów wydobywanie niestandardowych wyrażeń wizualizacja powiązań między dokumentami a słowami analiza powiązań stron WWW 226
Zastosowania identyfikacja słów kluczowych automatyczne generowanie streszczeń tematyczna eksploracja tekstu wykrywanie nieprawidłowości generowanie interaktywnych raportów prognozowanie 227
Keyword extraction - medical records 228
Topic detection - medical records 229
Link chart crime reports 230
Correlation diagram crime reports 231
Success stories e-complaints from e-auction Store http://cluteonline.com/journals/index.php/jber/article/view/2286 Crime reports analysis http://www.megaputer.com/site/success_stories.php Government agency http://www.megaputer.com/site/success_stories.php 232
1) Komercyjne 1. Zintegrowane aplikacje analityczne 2. Inne aplikacje (analiza sentymentu) 2) Aplikacje open source Część 3 Dostępne narzędzia Text Mining
Inne aplikacje (analiza sentymentu) Attensity Analyze www.attensity.com Clarabridge Analyze www.clarabridge.com 234
Firma: Attensity Produkt: Attensity Analyze
Attensity Analyze http://www.attensity.com/attensity-analyze 236
Overall sentiment - social media 237
Top compliments - social media 238
Top complaints - social media 239
Conversation spikes - social media 240
Success stories Neiman Marcus http://textanalyticsnews.com/social-mediaanalytics/presentations/day2/neiman-marcus.pdf Fraud detection in Financial Services http://communications.attensity.com/acton/fs/blocks/showlandin gpage/a/10059/p/p-007e/t/page/fm/0 Text mining in telecommunications enterprise http://communications.attensity.com/acton/fs/blocks/showlandin gpage/a/10059/p/p-00e5/t/page/fm/0 241
Firma: Clarabridge Produkt: Clarabridge Analyze
Clarabridge Analyze http://www.clarabridge.com/wpcontent/uploads/2014/11/clarabridge_6-3_datasheet.pdf 243
Overall sentiment - hotels 244
Category volume report - hotels 245
Motion chart - hotels 246
Success stories Red Roof Inn http://www.clarabridge.com/case_study/red-roof-inn/ Sage Software http://www.clarabridge.com/case_study/sage-software/ B/E Aerospace http://www.clarabridge.com/case_study/be-aerospace/ 247
1) Komercyjne 1. Zintegrowane aplikacje analityczne 2. Inne aplikacje (analiza sentymentu) 2) Aplikacje open source Część 3 Dostępne narzędzia Text Mining
Aplikacje open source GATE http://gate.ac.uk/ RapidMiner https://rapidminer.com/products/studio/ National Centre for Text Mining http://www.nactem.ac.uk/software.php 249