Analiza danych nieustrukturyzowanych: Text Mining Wydział Nauk Ekonomicznych Uniwersytet Warszawski
1) Komercyjne 1. Zintegrowane aplikacje analityczne 2. Analiza sentymentu 2) Aplikacje open source Część 3 Inne narzędzia Text Mining
1) Komercyjne 1. Zintegrowane aplikacje analityczne 2. Analiza sentymentu 2) Aplikacje open source Część 3 Inne narzędzia Text Mining
Zintegrowane aplikacje analityczne SAS Text Miner IBM SPSS Modeler Text Analytics STATISTICA Text Miner Provalis Research WordStat Megaputer TextAnalyst 171
Firma: SAS Produkt: SAS Text Miner
SAS Text Miner http://support.sas.com/documentation/onlinedoc/txtminer/ 173
Obsługiwane języki SAS Text Miner prowadzi analizę nieustrukturyzowanych dokumentów w językach europejskich: angielski, holenderski, francuski, niemiecki, włoski, portugalski, hiszpański, szwedzki, polski oraz: japoński, koreański, uproszczony chiński, tradycyjny chiński, arabski 174
Obsługiwane funkcje szukanie rdzenia wyrazów automatyczne rozpoznawanie terminów wielowyrazowych standaryzacja wyrażeń takich jak data, godzina, waluta, procenty wydobywanie niestandardowych wyrażeń (nazwy organizacji, produkty, tytuły itp.) etykietowanie części mowy rozpoznawanie synonimów 175
Zastosowania filtrowanie wiadomości e-mail grupowanie dokumentów według tematu w określone kategorie wyszukiwanie w tekście nowych informacji analiza klastrów w dokumentach naukowych analiza klastrów danych ankietowych analiza klastrów w skargach, komentarzach i zażaleniach klientów 176
SAS Text Analytics 177
SAS Content Categorization 178
SAS Social Media Analytics 179
SAS Social Media Analytics 180
SAS Social Media Analytics social forecast 181
SAS Social Media Analytics sentiment by time 182
SAS Social Media Analytics media workbench 183
SAS Social Media Analytics fraud framework 184
Success stories Maspex Wadowice Group Parks Division of Alberta Tourism, Parks and Recreation https://www.sas.com/en_us/customers/alberta-parks.html Hong Kong government's Efficiency Unit https://www.sas.com/en_us/customers/maspex-wadowicegroup.html https://www.sas.com/en_us/customers/hong-kong-efficiencyunit-visual-analytics.html 185
Success stories Sub-Zero and Wolf Appliance http://www.sas.com/en_us/news/pressreleases/2014/march/sub-zero-warranty-analytics-award.html Hewlett-Packard http://www.sas.com/en_us/customers/hp.html 186
Firma: IBM SPSS Produkt: IBM SPSS Modeler Text Analytics
IBM SPSS Modeler Text Analytics https://www.ibm.com/support/knowledgecenter/ss3ra7_15.0.0/ com.ibm.spss.ta.help/tmfc_intro.htm 188
Obsługiwane języki Wspierane natywnie angielski, francuski, hiszpański, holenderski, niemiecki, włoski, portugalski, japoński Wspierane przez moduł tłumaczeniowy Language Translation Interface arabski, chiński, hindi, perski, rumuński, rosyjski, somalijski, szwedzki 189
Zastosowania Analiza wzorców w tekstach i powiązań między tekstami Analiza pytań otwartych w ankietach Klasteryzacja, kategoryzacja Modelowanie predykcyjne 190
What do you like most about this portable music player? /categories 191
What do you like most about this portable music player? /concept map 192
What do you like most about this portable music player? /positive 193
What do you like most about this portable music player? /negative 194
Customer service / text link analysis 195
What factors influence your decision to choose a car rental company for business? 196
Sentiment Analysis 197
Success stories PGM Holdings K.K. http://www-03.ibm.com/software/businesscasestudies Hamilton County Department of Education http://www-03.ibm.com/software/businesscasestudies BMW Group http://www-03.ibm.com/software/businesscasestudies 198
Firma: StatSoft Produkt: STATISTICA Text Miner
STATISTICA Text Miner http://www.statsoft.pl/programy/statistica-text-miner 200
Obsługiwane języki Wspierane natywnie duński, holenderski, angielski, francuski, niemiecki, włoski, portugalski, hiszpański, szwedzki 201
Obsługiwane funkcje szukanie rdzenia wyrazów pomijanie nieistotnych słów transformacja i redukcja wymiarów analiza dokumentów podsumowania mapy podobieństw analiza skupień (metody EM i k-średnich) predykcyjny text mining 202
Analiza dużych zbiorów dokumentów tekstowych grupowanie dokumentów w określone kategorie wyszukiwanie w tekście nowych informacji Analiza treści stron WWW, portali internetowych i grup dyskusyjnych Prognozowanie Zastosowania 203
Accident reports 204
Credit scoring 205
Success stories Biuro Ubezpieczycieli Czeskich http://media.statsoft.pl/_old_dnn/downloads/success_stories/ckp _wykorzystuje_statistica_enterprise_text_miner.pdf Analiza opisów roszczeń ubezpieczeniowych przewidywanie ryzyka wystąpienia wysokich roszczeń z tytułu uszczerbku na zdrowiu dokładniejsze szacowanie łącznej wartości odszkodowania z tytułu OC na wczesnym etapie rozpatrywania danej sprawy 206
Firma: Provalis Research Produkt: WordStat
Provalis Research WordStat http://provalisresearch.com/products/content-analysis-software/ 208
Obsługiwane języki Wspierane natywnie angielski, francuski, hiszpański, niemiecki, włoski, portugalski 209
analiza wyszukanego tekstu i wizualizacja wyszukiwanie słowa kluczowego i słowa kluczowego w kontekście identyfikacja powiązanych segmentów tekstu grupowanie i analiza korespondencyjna wyrażeń klasteryzacja Obsługiwane funkcje automatyczna klasyfikacja tekstu krzyżowanie dwóch zmiennych 210
analiza zawartości zamkniętych/otwartych zapytań w formularzach, kwestionariuszach wydobywanie informacji ze sprawozdań i raportów wydarzeń analiza nowych informacji w literaturze naukowej i sprawozdaniach wykrywanie nieprawidłowości i oszustw identyfikacja autorstwa i analiza patentowa analiza stron WWW Zastosowania 211
Keyword retrieval 212
Keyword distribution 213
Bubble chart 214
Dendogram 215
2D concept map 216
3D concept map 217
Proximity plot 218
JetBlue Airways Success stories Cornell University School of Hotel Administration Center for Business Performance http://provalisresearch.com/solutions/case-studies/application-oftext-mining-to-aviation-safety-data/ http://provalisresearch.com/solutions/case-studies/contentanalysis-of-hotel-customer-satisfaction/ http://provalisresearch.com/solutions/case-studies/mesuringdisclosure-of-intangible-resources-in-corporate-annual-reports/ 219
Firma: Megaputer Produkt: TextAnalyst
Megaputer TextAnalyst http://megaputer.com/site/textanalyst.php 221
Obsługiwane języki Wspierane natywnie angielski 222
tworzenie list synonimów klasteryzacja Obsługiwane funkcje kategoryzacja dokumentów wydobywanie niestandardowych wyrażeń wizualizacja powiązań między dokumentami a słowami analiza powiązań stron WWW 223
Zastosowania identyfikacja słów kluczowych automatyczne generowanie streszczeń tematyczna eksploracja tekstu wykrywanie nieprawidłowości generowanie interaktywnych raportów prognozowanie 224
Keyword extraction - medical records 225
Topic detection - medical records 226
Link chart crime reports 227
Correlation diagram crime reports 228
Success stories e-complaints from e-auction Store http://www.cluteinstitute.com/ojs/index.php/jber/article/view/2 286 Crime reports analysis http://www.megaputer.com/site/success_stories.php Government agency http://www.megaputer.com/site/success_stories.php 229
1) Komercyjne 1. Zintegrowane aplikacje analityczne 2. Analiza sentymentu 2) Aplikacje open source Część 3 Inne narzędzia Text Mining
Firma: Clarabridge Produkt: Clarabridge Analyze
Clarabridge Analyze http://www.clarabridge.com/wpcontent/uploads/2014/11/clarabridge_6-3_datasheet.pdf 232
Overall sentiment - hotels 233
Category volume report - hotels 234
Motion chart - hotels 235
Red Roof Inn Success stories http://www.clarabridge.com/case_study/red-roof-inn/ B/E Aerospace http://www.clarabridge.com/case_study/be-aerospace/ 236
1) Komercyjne 1. Zintegrowane aplikacje analityczne 2. Analiza sentymentu 2) Aplikacje open source Część 3 Inne narzędzia Text Mining
Aplikacje open source GATE http://gate.ac.uk/ RapidMiner https://rapidminer.com/products/studio/ National Centre for Text Mining http://www.nactem.ac.uk/software.php 238