Studia Podyplomowe Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS Analiza danych nieustrukturyzowanych: Text Mining

Transkrypt

1 Analiza danych nieustrukturyzowanych: Text Mining Wydział Nauk Ekonomicznych Uniwersytet Warszawski

2 Część 2 SAS Text Miner 1) Krótka charakterystyka narzędzia 2) Etapy procesu text mining 3) Komponenty 4) Makro % tmfilter

4 Enterprise Miner SAS analizy data mining interaktywna wizualizacja danych Text Miner przetwarzanie tekstu analizy data mining interaktywna wizualizacja danych 54

5 SAS Text Miner odkrywanie wiedzy i wydobywanie informacji z szerokiej gamy dokumentów tekstowych zebranych w zbiory możliwość odnalezienia i dotarcia do tematów lub konceptów, jakie są zawarte w danym zbiorze dokumentów 55

6 Obsługiwane formaty dokumentów PDF ASCII Corel Presentations HTML Lotus Word Pro WordPerfect Microsoft Excel, PowerPoint, Word Microsoft Outlook, Outlook Express 56

7 Funkcjonalności SAS Text Miner dysponuje makrem %tmfilter, które: wydobywa tekst z plików o różnym formacie lub przeszukuje strony internetowe tworzy bazę danych SAS gotową do dalszych analiz 57

8 Uwaga! SAS Text Miner może wydobywać sam tekst z plików w formacie PDF, ale nie obraz tekstu z pliku PDF Jeśli plik zawiera zeskanowany tekst (tj. obraz tekstu), należy go przekonwertować na dokument tekstowy za pomocą programu OCR (Optical Character Recognition) 58

10 Etapy procesu text mining 1. Wstępna analiza tekstu (file preprocessing) przetworzenie zbioru dokumentów w jedną bazę danych SAS - input dla Text Miner 2. Parsowanie - rozbiór struktury tekstu (text parsing) a) dekompozycja danych tekstowych b) ilościowa reprezentacja zbioru dokumentów 60

11 Etapy procesu text mining 3. Transformacja i redukcja wymiarów (transformation, dimension reduction) a) transformacja reprezentacji ilościowej tekstu b) redukcja wymiarów do zwartego formatu informacyjnego 4. Analiza (document analysis) klastrowanie, klasyfikowanie, prognozowanie, tworzenie powiązań tematycznych w zbiorze dokumentów 61

12 Część 2 SAS Text Miner 1) Krótka charakterystyka narzędzia 2) Etapy procesu text mining 1. Wstępna analiza tekstu 2. Parsowanie - rozbiór struktury tekstu a) dekompozycja danych tekstowych b) ilościowa reprezentacja zbioru dokumentów 3. Transformacja i redukcja wymiarów a) transformacja reprezentacji ilościowej tekstu b) redukcja wymiarów do zwartego formatu informacyjnego 4. Analiza 3) Komponenty 4) Makro % tmfilter

13 Wstępna analiza tekstu (file preprocessing) Makro %tmfilter tworzy bazę danych SAS, która zawiera tekst wydobyty z plików różnego formatu Źródła danych tekstowych lokalne pliki tekstowe bazy danych SAS tabele w zewnętrznych bazach danych pliki dostępne w sieci internetowej 63

15 Termin wielowyrazowy to grupa wyrazów rozpatrywana jako pojedynczy termin Zazwyczaj jest to zwrot idiomatyczny lub nazwa własna, np.: due to because of Web browser Terminy i zwroty wielowyrazowe Wyrazy złożone są obsługiwane w językach: angielski, francuski, niemiecki, włoski, portugalski, hiszpański 65

16 Części mowy SAS Text Miner identyfikuje części mowy każdego wyrażenia na bazie jego kontekstu W rezultacie każdy termin jest przyporządkowany do gramatycznej kategorii na podstawie jego roli w danym zdaniu Analiza ta jest obsługiwana w językach: angielski, francuski, niemiecki, hiszpański 66

17 Kategorie jednostek specjalnych Dokumenty z reguły zawierają pewne szczególne jednostki tekstu, takie jak: adres, przedsiębiorstwo, waluta, data, adres internetowy, lokalizacja, miara, organizacja, procent, osoba, telefon, produkt, godzina, okres czasu, tytuł SAS Text Miner może zidentyfikować i wydobyć takie jednostki specjalne dla języków: angielski, francuski, niemiecki, hiszpański 67

18 Stop lista Stop listy można użyć, aby kontrolować pominięcie konkretnych słów z analizy (wyrazy o mało znaczącej treści zebrane w formie tabeli) SAS Text Miner posiada stop listy dla języków: angielski, francuski, niemiecki 68

19 Przykład stop listy 69

20 Start lista Start listy można użyć, aby kontrolować włączenie konkretnych słów do analizy (lista pozwala na zbadanie tylko wybranych słów) SAS Text Miner nie posiada domyślnej start listy 70

21 Znajdowanie podstawy fleksyjnej SAS Text Miner może zostać skonfigurowany w celu znajdowania podstawy fleksyjnej słów (stemming, lematyzacja) Jedno słowo może grupować różne części mowy np. słowo nauka może grupować zarówno uczyć jak i nauczyciel Jednocześnie SAS Text Miner potrafi rozróżnić nauka jako czasownik oraz rzeczownik 71

22 Przykłady podstawy fleksyjnej Podstawa fleksyjna reach big aller (francuski) Wyrażenia reaches, reached, reaching bigger, biggest vais, vas, va, allons, allez, vont 72

23 Synonimy SAS Text Miner korzysta z listy synonimów w celu pogrupowania danych Np: uczyć ma synonimy: instruować, edukować, kształcić, które nie mają wspólnej podstawy fleksyjnej, ale niosą tę samą informację 73

24 Forma kanoniczna Oprócz synonimów słów istnieją także synonimy jednostek specjalnych Jednostki specjalne, pomimo różnych nazw, są traktowane przez SAS Text Miner tak samo jak ich forma kanoniczna 74

25 Przykłady formy kanonicznej DATA i rok 07/03/07 7 marzec 7 marzec Procent 50% Pięćdziesiąt procent Pięćdziesiąt pt. proc Forma kanoniczna Forma kanoniczna 50% 75

26 Własne ustawienia SAS Text Miner umożliwia stworzenie własnych synonimów oraz form kanonicznych W tym celu należy stworzyć zbiór danych SAS zawierający listę synonimów, która uwzględnia min. trzy zmienne: słowo (term) baza fleksyjna (parent) kategoria część mowy (category) 76

27 Przykłady własnych synonimów Słowo Baza Kategoria wiele dużo liczebnik synonim pracownicy pracować czasownik EM Enterprise Miner SAS produkt stemming forma kanoniczna 77

29 Reprezentacja tekstu Oparte o zbiór słów kluczowych ( bag of words document representation) Każdy dokument tekstowy reprezentowany jest zbiorem słów kluczowych opisujących dokument i przypisywanych dokumentowi najczęściej przez osobę tworzącą dokument. Wyszukiwanie dokumentów jest również realizowane poprzez podanie słów kluczowych Oparte o reprezentację wektorową (vector space document representation) Dowolny dokument jest reprezentowany w postaci wektora częstości występowania słów kluczowych, a całość zebrana jest w macierzy Term_Frequency_Matrix 79

30 Zbiór dokumentów Doc 1 Coca-Cola announced earnings on Wednesday, Dec 12, 2013 Doc 2 Coca-Cola s profits are down as of 12/12/2013 powyższy zbiór dwóch jednozdaniowych dokumentów SAS Text Miner przekształci do postaci macierzy częstości (term-by-document frequency matrix) 80

31 Macierz częstości występowania terminów w dokumencie Parsed term ID D1 D2 Coca-cola announce earnings Wednesday Dec On profit down As of s be /12/

32 Macierz częstości występowania terminów w dokumencie wiersze reprezentują rozłożone wyrażenia (rdzenie oraz formy kanoniczne) w kolumnach odnoszących się do dokumentów przedstawiona jest liczba wystąpień (częstość) danego wyrażenia w tym dokumencie niektóre wyrażenia zostały usunięte przez stop listę macierz częstości służy jako podstawa analizy zbioru dokumentów 82

33 Ilościowa reprezentacja to za mało... Macierz częstości jest olbrzymia, zawiera tysiące wyrażeń Jak polepszyć macierz? transformacja (funkcje ważące) redukcja wymiarów macierzy Dopiero później: analiza 83

35 Występowanie słów w tekście 85

36 Prawo Zipfa Prawo Zipfa częstotliwość występowania słowa w tekście jest odwrotnie proporcjonalna do jego pozycji w rankingu 86

37 Prawo Zipfa i moc dyskryminacyjna Terminy o największej mocy dyskryminacyjnej mają od niskiej do średniej częstotliwości 87

38 Celowość transformacji tematyka większości dokumentów jest zazwyczaj wystarczająco dobrze określona przez niewielką ilość słów kluczowych pozostałe informacje - zbędny balast potrzebna jest funkcja wybierająca słowa najbardziej istotne dla zbioru dokumentów dziedzina - elementy reprezentacji (słowa) wartości - określać będą przydatność tych elementów dla dalszej analizy 88

39 Funkcje ważące funkcje ważące (weighting functions) ulepszają macierz częstości występowania terminów w dokumencie (term-by-document frequency matrix), która jest podstawą analizy zbioru dokumentów im rzadsze słowo, tym większa jego waga i tym bardziej dokumenty zawierające to słowo są do siebie podobne. Dzięki temu można stworzyć podzbiory dokumentów o zbliżonej strukturze 89

40 Funkcje ważące Na całkowitą wagę danej pozycji w macierzy częstości składają się 2 czynniki waga częstości (frequency weight) waga wyrażenia (term weight) Wzór ogólny â ij = L ij G i gdzie: L ij - frequency weight G i term weight 90

41 Funkcje ważące Waga częstości (lokalna) Informacje o 1 dokumencie, jakie niesie dane słowo/termin Waga wyrażenia (globalna) Informacje o zbiorze dokumentów, jakie niesie dane słowo/termin 91

42 Wagi częstości (L ij ) Są to funkcje częstości występowania słowa i w dokumencie j Dostępne funkcje: Binarna (binary) Logarytmiczna (log) Pusta (none) 92

43 Wagi częstości (L ij ) Binarna (0-1), używana dla prostych dokumentów o nieskomplikowanej składni L 1 L ij ij Logarytmiczna, obniża efekt często powtarzanego pojedynczego słowa L ij log 2 ( a 1) Pusta, wszystkie wagi mają wartość 1 1 L ij 0 ij - gdy wyrażenie i występuje w dokumencie j - w przeciwnym przypadku 93

44 Wagi wyrażenia (G i ) Są to funkcje zliczające wystąpienia słowa i w całym zbiorze dokumentów Dostępne funkcje: Entropia (entropy) GF-IDF (Global Frequency times Inverse Document Frequency) IDF (Inverse Document Frequency) Normalna (normal) Pusta (none) 94

45 Wagi wyrażenia (G i ) Entropia, kładzie nacisk na słowa, które występują tylko w kilku dokumentach z całego zbioru. Największą wagę otrzymują wyrażenia rzadkie w zbiorze dokumentów G i P ij 1 f g ij i j p ij log log g i 2 2 ( p ( n) ij ) n f ij -liczba dokumentów w zbiorze -częstość występowania wyrażenia i w dokumencie j -liczba wystąpień wyrażenia i w całym zbiorze 95

46 Wagi wyrażenia (G i ) GF-IDF, podobnie jak Entropia kładzie nacisk na słowa, które występują tylko w kilku dokumentach w całym zbiorze. Największą wagę otrzymują wyrażenia rzadkie w zbiorze dokumentów G i g d i i d i -liczba dokumentów, w których pojawia się wyrażenie i 96

47 Wagi wyrażenia (G i ) IDF, tzw. odwrotna częstość, podkreśla wyrażenia występujące tylko w kilku dokumentach n log 2 1 di Normalna, podkreśla bardziej proporcję ilości pojawień wyrażenia w zbiorze dokumentów, niż samą liczbę wystąpień 1 Pusta, wszystkie wagi mają wartość 1 G i G i G i 1 j f 2 ij 97

48 Wagi związane z kategoriami dokumentów Statystyka chi-kwadrat, mierzy zależność między występowaniem wyrażenia w dokumencie, a przynależnością dokumentu do danej kategorii MI (Mutual Information), mierzy jak ściśle rozkład dokumentów zawierających wyrażenie pasuje do podziału na kategorie G i max k log P( x i, k) P( xi ) P( k) IG (Information Gain), wskazuje jak dobrze dane wyrażenie lub jego brak przewiduje kategorię dokumentów k log P k P i P k i log P k i P i P k i log P k i Gi P k k k 98

49 Wagi związane z kategoriami dokumentów aby łatwo wyłonić dokumenty zawierające wyrażenie występujące rzadko, stosuje się Entropię oraz GF-IDF gdy dostępna jest informacja o kategoriach dokumentów, dobre wyniki ważenia daje statystyka chi-kwadrat 99

50 Funkcje ważące przykład ważenia 100

52 Celowość redukcji wymiarów Modelowanie i obliczenia wykonywane na wielowymiarowych przestrzeniach słów są bardzo kosztowne i trudne do przeprowadzenia Duża ilość wymiarów oznacza rozrzedzone dane wejściowe dziesiątki tysięcy wyodrębnionych słów niewielki procent istotnych słów (prawo Zipfa) Redukcja wymiarów macierzy zwiększa efektywność analizy 102

53 Redukcja wymiarów: Dekompozycja SVD Singular Value Decomposition Metoda ta generuje k wymiarów, które najlepiej przybliżają macierz częstości parametr k określany jest przez użytkownika mała wartość k (2-50) jest przydatna w dalszej klasteryzacji duża wartość k (30-200) jest przydatna w dalszej predykcji lub klasyfikacji 103

54 Redukcja wymiarów: Dekompozycja SVD Zastosowanie dekompozycji SVD pozwala na redukcję wymiaru macierzy częstości bez utraty informacji Szczególnie ważna, gdy dokumenty są długie i jest w nich wiele homonimów Homonimy wyrazy wieloznaczne, mają tę samą postać, ale różne znaczenie np. zamek/zamek, granat/granat, itp. 104

55 Przebieg dekompozycji SVD - przykład

56 Przykład dekompozycji SVD Document 1: deposit the cash and check in the bank Document 2: the river boat is on the bank Document 3: borrow based on credit Document 4: river boat floats up the river Document 5: boat is by the dock near the bank Document 6: with credit, I can borrow cash from the bank Document 7: boat floats by dock near the river bank Document 8: check the parade route to see the floats Document 9: along the parade route 106

57 Przykład dekompozycji SVD Zbiór 9 dokumentów dokumenty 1,3,6 dotyczą bankowości i pożyczek dokumenty 2,4,5,7 dotyczą brzegu rzeki dokumenty 8, 9 dotyczą trasy defilady Niektóre z dokumentów zawierają homonimy bank jako instytucja finansowa lub brzeg rzeki check jako rzeczownik w dokumencie 1 lub jako czasownik w dokumencie 8 float jako czasownik w dokumencie 4 lub jako rzeczownik w dokumencie 8 107

58 d1 d2 d3 d4 d5 d6 d7 d8 d9 Studia Podyplomowe Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS the cash check bank river boat be on borrow credit floats by dock near parade route

59 Przykład dekompozycji SVD Obserwując elementy macierzy można zauważyć, że: dokumenty 1 i 2 są do siebie bardziej podobne niż dokumenty 1 i 3, gdyż dokumenty 1 i 2 zawierają słowo bank, podczas gdy dokumenty 1 i 3 nie mają wspólnych wyrazów w rzeczywistości jednak dokumenty 1 i 2 nie są wcale ze sobą powiązane; to dokumenty 1 i 3 dotyczą tych samych zagadnień Dekompozycja SVD pozwala przezwyciężyć powyższe problemy 109

60 Rozkład macierzy Rozkład macierzy A m*n na iloczyn macierzy, czyli SVD: A=U S V T 110

61 Przykład dekompozycji SVD W wyniku dekompozycji SVD macierz częstości została zredukowana do 2 wymiarów Przestrzeń semantyczna staje się 2-wymiarowa Przewidywany rozkład dokumentów można zobrazować w 2-wymiarowej przestrzeni 111

62 2-wymiarowy rozkład dokumentów 112

63 2-wymiarowy rozkład dokumentów Dokument 1 jest bliżej dokumentu 3 niż 2 (jest to zgodne z prawdą, chociaż dokumenty 1 i 3 nie zawierają takich samych słów) Dokument 5 jest ściśle powiązany z dokumentami 2,4, 7 Przewidywania umiejscawiają podobne dokumenty obok siebie, nawet jeśli zawierają one niewiele wspólnych słów 113

65 Analiza Główne cele Text Miningu, czyli opis tekstu i predykcja, są realizowane poprzez tworzenie powiązań tematycznych w zbiorze dokumentów klastrowanie klasyfikowanie prognozowanie 115

66 Metoda hierarchiczna Klastrowanie jeden klaster może zawierać inny brak innych rodzajów nałożeń klastrów 116

67 Klastrowanie Metoda EM (Expectation Maximization) oblicza prawdopodobieństwa przynależności do skupień przy założeniu jednego lub wielu rozkładów prawdopodobieństwa dozwolona różna wielkość i kształt klastrów 117

68 Klastrowanie Przykłady Automatyczne streszczenie zbioru dokumentów Automatyczne generowanie słów kluczowych Odkrycie głównych tematów i kluczowych koncepcji wewnątrz zbioru dokumentów Marketing: wykrycie różniących się potrzebami grup klientów na podstawie ankiet klientów, a następnie opracowanie kampanii marketingowych kierowanych do poszczególnych grup docelowych Ubezpieczenia: identyfikacja grup posiadaczy komunikacyjnych polis OC i AC obarczonych ryzykiem wystąpienia wysokich kosztów roszczeń na podstawie opisów roszczeń ubezpieczeniowych 118

69 Klasyfikowanie Polega na sortowaniu dokumentów wg wcześniej zdefiniowanych kategorii Wymaga zbioru treningowego Opiera się na wnioskowaniu pamięciowym sieciach neuronowych drzewach decyzyjnych Zastosowanie automatyczne przekierowywanie i filtrowanie spamu dobieranie pracowników na stanowiska 119

70 Prognozowanie Polega na ogólnym nieautomatycznym wnioskowaniu na podstawie wykrytych konceptów, wzorców i powiązań tematycznych w zbiorze dokumentów Przykłady przewidywanie wystąpienia problemu na podstawie zapisów rozmów z call center prognozowanie kosztów usługi, bazujące na tekstowym opisie problemu przewidywanie poziomu satysfakcji klientów na podstawie ich komentarzy i opinii prognozowanie wahań cen akcji na podstawie wiadomości prasowych i ogłoszeń biznesowych 120

72 Część 2 SAS Text Miner 1. Krótka charakterystyka narzędzia 2. Etapy procesu text mining 3. Komponenty Text Parsing Text Filter Text Topic Text Cluster Text Rule Builder Text Import 4. Makro % tmfilter

73 Text Parsing 123

74 Ustawienia Text Parsing Język: ENGLISH / POLISH Zidentyfikuj wyrażenia to samo słowo jako różne części mowy grupy rzeczowników szukanie wielowyrazowych wyrażeń złożonych z rzeczowników, np. stopa procentowa (interest rate), burzowa pogoda (inclement weather) itp. jednostki specjalne - nazwiska, adresy, firmy, kwoty w walutach itp. 124

75 Ustawienia Text Parsing Ignoruj części mowy Ignoruj jednostki specjalne Ignoruj typy atrybutów interpunkcja liczby 125

76 Ustawienia Text Parsing Dostępne części mowy: Det rodzajnik (a, an), zaimek wskazujący (this, that ) Conj spójnik Aux czasownik posiłkowy Prep przyimek Pron zaimek Part bezokolicznik, partykuła przecząca (not, ain t), zaimki dzierżawcze (my, your, her, his ) Interj wykrzyknik Noun rzeczownik Verb czasownik Prop nazwa własna (proper noun) Adj przymiotnik Adv przysłówek Abbr skrót Num liczby (pisane słownie) 126

77 Ustawienia Text Parsing Synonimy Wyrazy mające wspólną podstawę fleksyjną sprowadź do formy rdzenia (stem terms) Lista synonimów SASHELP.ENGSYNMS (angielski) 127

78 Ustawienia Text Parsing Listy słów włączonych do/wyłączonych z analizy Start lista Stop lista SASHELP.ENGSTOP (angielski) SASHELP.FRCHSTOP (francuski) SASHELP.GRMNSTOP (niemiecki) Liczba słów do wyświetlenia 128

80 Text Filter 130

81 Ustawienia Text Filter Wagi funkcje ważące częstości Binarna Logarytmiczna [domyślnie] Pusta funkcje ważące wyrażenia Entropia [domyślnie] GF-IDF IDF Normalna Pusta Chi-kwadrat MI IG 131

82 Interactive Filter Viewer 132

83 Concept Linking 133

85 Text Topic 135

86 Ustawienia Text Topic Tematy użytkownika Liczba tematów jednowyrazowych Liczba tematów wielowyrazowych Tematy skorelowane 136

88 Text Cluster 138

89 Ustawienia Text Cluster Dekompozycja SVD wielkość wymiaru macierzy do jakiego ma być przeskalowana dekompozycją SVD maksymalna liczba wymiarów (>1) 139

90 Ustawienia Text Cluster Liczba klastrów: dokładna lub maksymalna Wybierz algorytm klastrowania metoda hierarchiczna metoda EM (Expectation Maximization) Obserwacje nietypowe hierarchiczna: outliers nie są brane pod uwagę EM: tworzone są osobne jednoelementowe klastry Wybierz liczbę terminów opisujących klaster 140

92 Text Rule Builder 142

93 Ustawienia Text Rule Builder Błąd uogólnienia wyznacza przewidywane prawdopodobieństwo wykrycia reguł na nietrenowanym zbiorze danych (wyznaczany w celu uniknięcia przetrenowania modelu) very low low medium [domyślnie] high very high 143

94 Ustawienia Text Rule Builder Klarowność reguł wyznacza maksymalny poziom p-value niezbędny, by dodać termin do reguły (wartości - medium, high i very high - dają mniej liczne, "czystsze" reguły) very low (p<0.17) low (p<0.05) medium (p<0.005) [domyślnie] high (p<0.0005) very high (p< ) 144

95 Ustawienia Text Rule Builder Kompletność wyznacza kompletność procesu szukania reguł, czyli ile potencjalnych reguł jest branych pod uwagę w każdym kroku (wyższe wartości powodują wzrost czasu potrzebnego do pracy węzła oraz mogą powodować przetrenowanie modelu) very low low medium [domyślnie] high very high 145

97 Text Import Importuje tekst źródłowy i konwertuje go w input do dalszej analizy tekstu (Text Import to zamiennik Data Source) 147

99 Makro %tmfilter Rozbiór struktury dokumentu (text parsing) wymaga użycia tekstu zakodowanego w ASCII lub Latin1 Makro %tmfilter umożliwia: odczyt plików tekstowych różnych formatów przekonwertowanie ich w zbiór danych SAS Pozwala to na użycie zbioru danych SAS jako input w dalszej analizie tekstu 149

100 Atrybuty konfiguracji %tmfilter HOST określa nazwę hosta lub adresu IP komputera, na którym działa makro. Ustawienie domyślne: localhost DATASET DIR określa nazwę tworzonego zbioru danych. Ustawienie domyślne: WORK.DATA określa ścieżkę dostępu do katalogu zawierającego oryginalne pliki tekstowe 150

101 Atrybuty konfiguracji %tmfilter DESTDIR określa nazwę katalogu, w którym zostaną zapisane przekonwertowane pliki z DIR URL określa URL, w dowolnej formie: lub ale nie dłuższy niż 255 znaków DEPTH określa liczbę poziomów URL. Ustawienie domyślne: 2 (dana strona, wszystkie linki w niej zawarte oraz linki w tych linkach) 151

102 Atrybuty konfiguracji %tmfilter NORESTRICT określa czy przetwarzać dokument poza wskazaną domeną. Pusta wartość oznacza ograniczenie tylko do danej domeny USERNAME określa nazwę użytkownika dla domeny chronionej hasłem PASSWORD określa hasło użytkownika dla domeny chronionej hasłem 152

103 Atrybuty konfiguracji %tmfilter NUMBYTES określa liczbę bajtów z każdego pliku umieszczoną w zmiennej tekstowej TEXT. Ustawienie domyślne: 60 B Wartość maksymalna: (=32KB) LANUGAGE określa język/listę języków, które mają być rozpoznane w tekście. Dla krótkich tekstów <256 znaków rozpoznanie języka jest mniej dokładne 153

104 Output %tmfilter Utworzona przez makro baza danych SAS może zawierać: 1. pełny tekst każdego dokumentu [TEXT] zmienna tekstowa obejmuje całe teksty dokumentów 2. ścieżki dostępu do dokumentów [URI] zmienna tekstowa obejmuje jedynie fragmenty tekstów dokumentów Jeśli analizowane dokumenty są większe niż 32KB, zbiór danych powinien zawierać ścieżki dostępu do dokumentów 154

105 Zmienne generowane przez makro TEXT URI tekst z każdego dokumentu (domyślnie 60 B ustawione w NUMBYTES) ścieżka do oryginalnego pliku NAME nazwa oryginalnego pliku FILTERED ścieżka do pliku html, który powstał podczas konwertowania oryginalnego pliku do formatu html. Zmienna nie powstaje, gdy nie ma określonego folderu DESTDIR 155

106 Zmienne generowane przez makro LANGUAGE zidentyfikowany język dokumentu źródłowego TRUNCATED wskazuje, czy tekst został skrócony. Wartość 1 oznacza okrojenie tekstu OMITTED wskazuje, czy dokument został pominięty podczas próby ekstrakcji tekstu. Wartość 1 oznacza pominięcie dokumentu 156

107 Zmienne generowane przez makro CREATED data i czas utworzenia dokumentu ACCESSED data i czas ostatniego otwarcia dokumentu MODIFIED data i czas ostatniej modyfikacji dokumentu SIZE wielkość dokumentu w bajtach 157

108 Część 2 SAS Text Miner 1. Krótka charakterystyka narzędzia 2. Etapy procesu text mining 3. Komponenty 4. Makro % tmfilter Pliki tekstowe Strony WWW

109 Przykład działania makra Najprostsze makro zawiera nazwę tworzonego zbioru danych oraz ścieżkę dostępu do katalogu z oryginalnymi plikami: %tmfilter(dataset=mylib.pliki1, dir=c:\sasuser\pliki1); 159

110 Makro odczytuje folder źródłowy oraz jego podfoldery 160

111 Powstaje baza danych MYLIB.PLIKI1 Plik jest obrazkiem, dlatego nie wyłuskano z niego tekstu 161

112 Zmienne TRUNCATED i OMITTED Nie można pracować na dokumencie Dokument musiał być skrócony ( >32KB) Można pracować na dokumencie 162

113 Przykład innego makra Makro zawiera nazwę tworzonego zbioru danych, ścieżkę dostępu do katalogu z oryginalnymi plikami oraz określa liczbę bajtów w zmiennej TEXT: %tmfilter(dataset=mylib.pliki2, dir=c:\sasuser\pliki2, numbytes=32000); 163

114 Rozpoznawanie języka przez makro Makro identyfikuje język dokumentu źródłowego: %tmfilter (dataset=mylib.pliki3, dir=c:\sasuser\pliki3, language=english german dutch french swedish italian spanish portuguese); 164

115 Powstaje baza danych MYLIB.PLIKI3 165

116 Część 2 SAS Text Miner 1. Krótka charakterystyka narzędzia 2. Etapy procesu text mining 3. Komponenty 4. Makro % tmfilter Pliki tekstowe Strony WWW

117 Odczytanie danych ze stron WWW Makro %tmfilter używane do odczytania danych ze stron WWW powinno określać wartości atrybutów URL, DESTDIR, DATASET i DIR Jeśli adres internetowy zawiera ampersandę &, wówczas należy zastosować funkcję %NRSTR() podczas specyfikacji adresu URL 167

118 Przykład działania makra Najprostsze makro określa adres URL, liczbę poziomów DEPTH oraz nazwę katalogu DESTDIR, do którego zostaną zapisane przekonwertowane pliki z DIR: %tmfilter(url= depth=1, destdir=c:\sasuser\destdir, dataset=mylib.plikihtml, dir=c:\sasuser\dir); 168

119 Powstaje baza danych MYLIB.PLIKIHTML 169