Studia Podyplomowe Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS Analiza danych nieustrukturyzowanych: Text Mining
|
|
- Mariusz Urbaniak
- 8 lat temu
- Przeglądów:
Transkrypt
1 Analiza danych nieustrukturyzowanych: Text Mining Wydział Nauk Ekonomicznych Uniwersytet Warszawski
2 Część 2 SAS Text Miner 1) Krótka charakterystyka narzędzia 2) Etapy procesu text mining 3) Komponenty 4) Makro % tmfilter
3 Część 2 SAS Text Miner 1) Krótka charakterystyka narzędzia 2) Etapy procesu text mining 3) Komponenty 4) Makro % tmfilter
4 Enterprise Miner SAS analizy data mining interaktywna wizualizacja danych Text Miner przetwarzanie tekstu analizy data mining interaktywna wizualizacja danych 54
5 SAS Text Miner odkrywanie wiedzy i wydobywanie informacji z szerokiej gamy dokumentów tekstowych zebranych w zbiory możliwość odnalezienia i dotarcia do tematów lub konceptów, jakie są zawarte w danym zbiorze dokumentów 55
6 Obsługiwane formaty dokumentów PDF ASCII Corel Presentations HTML Lotus Word Pro WordPerfect Microsoft Excel, PowerPoint, Word Microsoft Outlook, Outlook Express 56
7 Funkcjonalności SAS Text Miner dysponuje makrem %tmfilter, które: wydobywa tekst z plików o różnym formacie lub przeszukuje strony internetowe tworzy bazę danych SAS gotową do dalszych analiz 57
8 Uwaga! SAS Text Miner może wydobywać sam tekst z plików w formacie PDF, ale nie obraz tekstu z pliku PDF Jeśli plik zawiera zeskanowany tekst (tj. obraz tekstu), należy go przekonwertować na dokument tekstowy za pomocą programu OCR (Optical Character Recognition) 58
9 Część 2 SAS Text Miner 1) Krótka charakterystyka narzędzia 2) Etapy procesu text mining 3) Komponenty 4) Makro % tmfilter
10 Etapy procesu text mining 1. Wstępna analiza tekstu (file preprocessing) przetworzenie zbioru dokumentów w jedną bazę danych SAS - input dla Text Miner 2. Parsowanie - rozbiór struktury tekstu (text parsing) a) dekompozycja danych tekstowych b) ilościowa reprezentacja zbioru dokumentów 60
11 Etapy procesu text mining 3. Transformacja i redukcja wymiarów (transformation, dimension reduction) a) transformacja reprezentacji ilościowej tekstu b) redukcja wymiarów do zwartego formatu informacyjnego 4. Analiza (document analysis) klastrowanie, klasyfikowanie, prognozowanie, tworzenie powiązań tematycznych w zbiorze dokumentów 61
12 Część 2 SAS Text Miner 1) Krótka charakterystyka narzędzia 2) Etapy procesu text mining 1. Wstępna analiza tekstu 2. Parsowanie - rozbiór struktury tekstu a) dekompozycja danych tekstowych b) ilościowa reprezentacja zbioru dokumentów 3. Transformacja i redukcja wymiarów a) transformacja reprezentacji ilościowej tekstu b) redukcja wymiarów do zwartego formatu informacyjnego 4. Analiza 3) Komponenty 4) Makro % tmfilter
13 Wstępna analiza tekstu (file preprocessing) Makro %tmfilter tworzy bazę danych SAS, która zawiera tekst wydobyty z plików różnego formatu Źródła danych tekstowych lokalne pliki tekstowe bazy danych SAS tabele w zewnętrznych bazach danych pliki dostępne w sieci internetowej 63
14 Część 2 SAS Text Miner 1) Krótka charakterystyka narzędzia 2) Etapy procesu text mining 1. Wstępna analiza tekstu 2. Parsowanie - rozbiór struktury tekstu a) dekompozycja danych tekstowych b) ilościowa reprezentacja zbioru dokumentów 3. Transformacja i redukcja wymiarów a) transformacja reprezentacji ilościowej tekstu b) redukcja wymiarów do zwartego formatu informacyjnego 4. Analiza 3) Komponenty 4) Makro % tmfilter
15 Termin wielowyrazowy to grupa wyrazów rozpatrywana jako pojedynczy termin Zazwyczaj jest to zwrot idiomatyczny lub nazwa własna, np.: due to because of Web browser Terminy i zwroty wielowyrazowe Wyrazy złożone są obsługiwane w językach: angielski, francuski, niemiecki, włoski, portugalski, hiszpański 65
16 Części mowy SAS Text Miner identyfikuje części mowy każdego wyrażenia na bazie jego kontekstu W rezultacie każdy termin jest przyporządkowany do gramatycznej kategorii na podstawie jego roli w danym zdaniu Analiza ta jest obsługiwana w językach: angielski, francuski, niemiecki, hiszpański 66
17 Kategorie jednostek specjalnych Dokumenty z reguły zawierają pewne szczególne jednostki tekstu, takie jak: adres, przedsiębiorstwo, waluta, data, adres internetowy, lokalizacja, miara, organizacja, procent, osoba, telefon, produkt, godzina, okres czasu, tytuł SAS Text Miner może zidentyfikować i wydobyć takie jednostki specjalne dla języków: angielski, francuski, niemiecki, hiszpański 67
18 Stop lista Stop listy można użyć, aby kontrolować pominięcie konkretnych słów z analizy (wyrazy o mało znaczącej treści zebrane w formie tabeli) SAS Text Miner posiada stop listy dla języków: angielski, francuski, niemiecki 68
19 Przykład stop listy 69
20 Start lista Start listy można użyć, aby kontrolować włączenie konkretnych słów do analizy (lista pozwala na zbadanie tylko wybranych słów) SAS Text Miner nie posiada domyślnej start listy 70
21 Znajdowanie podstawy fleksyjnej SAS Text Miner może zostać skonfigurowany w celu znajdowania podstawy fleksyjnej słów (stemming, lematyzacja) Jedno słowo może grupować różne części mowy np. słowo nauka może grupować zarówno uczyć jak i nauczyciel Jednocześnie SAS Text Miner potrafi rozróżnić nauka jako czasownik oraz rzeczownik 71
22 Przykłady podstawy fleksyjnej Podstawa fleksyjna reach big aller (francuski) Wyrażenia reaches, reached, reaching bigger, biggest vais, vas, va, allons, allez, vont 72
23 Synonimy SAS Text Miner korzysta z listy synonimów w celu pogrupowania danych Np: uczyć ma synonimy: instruować, edukować, kształcić, które nie mają wspólnej podstawy fleksyjnej, ale niosą tę samą informację 73
24 Forma kanoniczna Oprócz synonimów słów istnieją także synonimy jednostek specjalnych Jednostki specjalne, pomimo różnych nazw, są traktowane przez SAS Text Miner tak samo jak ich forma kanoniczna 74
25 Przykłady formy kanonicznej DATA i rok 07/03/07 7 marzec 7 marzec Procent 50% Pięćdziesiąt procent Pięćdziesiąt pt. proc Forma kanoniczna Forma kanoniczna 50% 75
26 Własne ustawienia SAS Text Miner umożliwia stworzenie własnych synonimów oraz form kanonicznych W tym celu należy stworzyć zbiór danych SAS zawierający listę synonimów, która uwzględnia min. trzy zmienne: słowo (term) baza fleksyjna (parent) kategoria część mowy (category) 76
27 Przykłady własnych synonimów Słowo Baza Kategoria wiele dużo liczebnik synonim pracownicy pracować czasownik EM Enterprise Miner SAS produkt stemming forma kanoniczna 77
28 Część 2 SAS Text Miner 1) Krótka charakterystyka narzędzia 2) Etapy procesu text mining 1. Wstępna analiza tekstu 2. Parsowanie - rozbiór struktury tekstu a) dekompozycja danych tekstowych b) ilościowa reprezentacja zbioru dokumentów 3. Transformacja i redukcja wymiarów a) transformacja reprezentacji ilościowej tekstu b) redukcja wymiarów do zwartego formatu informacyjnego 4. Analiza 3) Komponenty 4) Makro % tmfilter
29 Reprezentacja tekstu Oparte o zbiór słów kluczowych ( bag of words document representation) Każdy dokument tekstowy reprezentowany jest zbiorem słów kluczowych opisujących dokument i przypisywanych dokumentowi najczęściej przez osobę tworzącą dokument. Wyszukiwanie dokumentów jest również realizowane poprzez podanie słów kluczowych Oparte o reprezentację wektorową (vector space document representation) Dowolny dokument jest reprezentowany w postaci wektora częstości występowania słów kluczowych, a całość zebrana jest w macierzy Term_Frequency_Matrix 79
30 Zbiór dokumentów Doc 1 Coca-Cola announced earnings on Wednesday, Dec 12, 2013 Doc 2 Coca-Cola s profits are down as of 12/12/2013 powyższy zbiór dwóch jednozdaniowych dokumentów SAS Text Miner przekształci do postaci macierzy częstości (term-by-document frequency matrix) 80
31 Macierz częstości występowania terminów w dokumencie Parsed term ID D1 D2 Coca-cola announce earnings Wednesday Dec On profit down As of s be /12/
32 Macierz częstości występowania terminów w dokumencie wiersze reprezentują rozłożone wyrażenia (rdzenie oraz formy kanoniczne) w kolumnach odnoszących się do dokumentów przedstawiona jest liczba wystąpień (częstość) danego wyrażenia w tym dokumencie niektóre wyrażenia zostały usunięte przez stop listę macierz częstości służy jako podstawa analizy zbioru dokumentów 82
33 Ilościowa reprezentacja to za mało... Macierz częstości jest olbrzymia, zawiera tysiące wyrażeń Jak polepszyć macierz? transformacja (funkcje ważące) redukcja wymiarów macierzy Dopiero później: analiza 83
34 Część 2 SAS Text Miner 1) Krótka charakterystyka narzędzia 2) Etapy procesu text mining 1. Wstępna analiza tekstu 2. Parsowanie - rozbiór struktury tekstu a) dekompozycja danych tekstowych b) ilościowa reprezentacja zbioru dokumentów 3. Transformacja i redukcja wymiarów a) transformacja reprezentacji ilościowej tekstu b) redukcja wymiarów do zwartego formatu informacyjnego 4. Analiza 3) Komponenty 4) Makro % tmfilter
35 Występowanie słów w tekście 85
36 Prawo Zipfa Prawo Zipfa częstotliwość występowania słowa w tekście jest odwrotnie proporcjonalna do jego pozycji w rankingu 86
37 Prawo Zipfa i moc dyskryminacyjna Terminy o największej mocy dyskryminacyjnej mają od niskiej do średniej częstotliwości 87
38 Celowość transformacji tematyka większości dokumentów jest zazwyczaj wystarczająco dobrze określona przez niewielką ilość słów kluczowych pozostałe informacje - zbędny balast potrzebna jest funkcja wybierająca słowa najbardziej istotne dla zbioru dokumentów dziedzina - elementy reprezentacji (słowa) wartości - określać będą przydatność tych elementów dla dalszej analizy 88
39 Funkcje ważące funkcje ważące (weighting functions) ulepszają macierz częstości występowania terminów w dokumencie (term-by-document frequency matrix), która jest podstawą analizy zbioru dokumentów im rzadsze słowo, tym większa jego waga i tym bardziej dokumenty zawierające to słowo są do siebie podobne. Dzięki temu można stworzyć podzbiory dokumentów o zbliżonej strukturze 89
40 Funkcje ważące Na całkowitą wagę danej pozycji w macierzy częstości składają się 2 czynniki waga częstości (frequency weight) waga wyrażenia (term weight) Wzór ogólny â ij = L ij G i gdzie: L ij - frequency weight G i term weight 90
41 Funkcje ważące Waga częstości (lokalna) Informacje o 1 dokumencie, jakie niesie dane słowo/termin Waga wyrażenia (globalna) Informacje o zbiorze dokumentów, jakie niesie dane słowo/termin 91
42 Wagi częstości (L ij ) Są to funkcje częstości występowania słowa i w dokumencie j Dostępne funkcje: Binarna (binary) Logarytmiczna (log) Pusta (none) 92
43 Wagi częstości (L ij ) Binarna (0-1), używana dla prostych dokumentów o nieskomplikowanej składni L 1 L ij ij Logarytmiczna, obniża efekt często powtarzanego pojedynczego słowa L ij log 2 ( a 1) Pusta, wszystkie wagi mają wartość 1 1 L ij 0 ij - gdy wyrażenie i występuje w dokumencie j - w przeciwnym przypadku 93
44 Wagi wyrażenia (G i ) Są to funkcje zliczające wystąpienia słowa i w całym zbiorze dokumentów Dostępne funkcje: Entropia (entropy) GF-IDF (Global Frequency times Inverse Document Frequency) IDF (Inverse Document Frequency) Normalna (normal) Pusta (none) 94
45 Wagi wyrażenia (G i ) Entropia, kładzie nacisk na słowa, które występują tylko w kilku dokumentach z całego zbioru. Największą wagę otrzymują wyrażenia rzadkie w zbiorze dokumentów G i P ij 1 f g ij i j p ij log log g i 2 2 ( p ( n) ij ) n f ij -liczba dokumentów w zbiorze -częstość występowania wyrażenia i w dokumencie j -liczba wystąpień wyrażenia i w całym zbiorze 95
46 Wagi wyrażenia (G i ) GF-IDF, podobnie jak Entropia kładzie nacisk na słowa, które występują tylko w kilku dokumentach w całym zbiorze. Największą wagę otrzymują wyrażenia rzadkie w zbiorze dokumentów G i g d i i d i -liczba dokumentów, w których pojawia się wyrażenie i 96
47 Wagi wyrażenia (G i ) IDF, tzw. odwrotna częstość, podkreśla wyrażenia występujące tylko w kilku dokumentach n log 2 1 di Normalna, podkreśla bardziej proporcję ilości pojawień wyrażenia w zbiorze dokumentów, niż samą liczbę wystąpień 1 Pusta, wszystkie wagi mają wartość 1 G i G i G i 1 j f 2 ij 97
48 Wagi związane z kategoriami dokumentów Statystyka chi-kwadrat, mierzy zależność między występowaniem wyrażenia w dokumencie, a przynależnością dokumentu do danej kategorii MI (Mutual Information), mierzy jak ściśle rozkład dokumentów zawierających wyrażenie pasuje do podziału na kategorie G i max k log P( x i, k) P( xi ) P( k) IG (Information Gain), wskazuje jak dobrze dane wyrażenie lub jego brak przewiduje kategorię dokumentów k log P k P i P k i log P k i P i P k i log P k i Gi P k k k 98
49 Wagi związane z kategoriami dokumentów aby łatwo wyłonić dokumenty zawierające wyrażenie występujące rzadko, stosuje się Entropię oraz GF-IDF gdy dostępna jest informacja o kategoriach dokumentów, dobre wyniki ważenia daje statystyka chi-kwadrat 99
50 Funkcje ważące przykład ważenia 100
51 Część 2 SAS Text Miner 1) Krótka charakterystyka narzędzia 2) Etapy procesu text mining 1. Wstępna analiza tekstu 2. Parsowanie - rozbiór struktury tekstu a) dekompozycja danych tekstowych b) ilościowa reprezentacja zbioru dokumentów 3. Transformacja i redukcja wymiarów a) transformacja reprezentacji ilościowej tekstu b) redukcja wymiarów do zwartego formatu informacyjnego 4. Analiza 3) Komponenty 4) Makro % tmfilter
52 Celowość redukcji wymiarów Modelowanie i obliczenia wykonywane na wielowymiarowych przestrzeniach słów są bardzo kosztowne i trudne do przeprowadzenia Duża ilość wymiarów oznacza rozrzedzone dane wejściowe dziesiątki tysięcy wyodrębnionych słów niewielki procent istotnych słów (prawo Zipfa) Redukcja wymiarów macierzy zwiększa efektywność analizy 102
53 Redukcja wymiarów: Dekompozycja SVD Singular Value Decomposition Metoda ta generuje k wymiarów, które najlepiej przybliżają macierz częstości parametr k określany jest przez użytkownika mała wartość k (2-50) jest przydatna w dalszej klasteryzacji duża wartość k (30-200) jest przydatna w dalszej predykcji lub klasyfikacji 103
54 Redukcja wymiarów: Dekompozycja SVD Zastosowanie dekompozycji SVD pozwala na redukcję wymiaru macierzy częstości bez utraty informacji Szczególnie ważna, gdy dokumenty są długie i jest w nich wiele homonimów Homonimy wyrazy wieloznaczne, mają tę samą postać, ale różne znaczenie np. zamek/zamek, granat/granat, itp. 104
55 Przebieg dekompozycji SVD - przykład
56 Przykład dekompozycji SVD Document 1: deposit the cash and check in the bank Document 2: the river boat is on the bank Document 3: borrow based on credit Document 4: river boat floats up the river Document 5: boat is by the dock near the bank Document 6: with credit, I can borrow cash from the bank Document 7: boat floats by dock near the river bank Document 8: check the parade route to see the floats Document 9: along the parade route 106
57 Przykład dekompozycji SVD Zbiór 9 dokumentów dokumenty 1,3,6 dotyczą bankowości i pożyczek dokumenty 2,4,5,7 dotyczą brzegu rzeki dokumenty 8, 9 dotyczą trasy defilady Niektóre z dokumentów zawierają homonimy bank jako instytucja finansowa lub brzeg rzeki check jako rzeczownik w dokumencie 1 lub jako czasownik w dokumencie 8 float jako czasownik w dokumencie 4 lub jako rzeczownik w dokumencie 8 107
58 d1 d2 d3 d4 d5 d6 d7 d8 d9 Studia Podyplomowe Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS the cash check bank river boat be on borrow credit floats by dock near parade route
59 Przykład dekompozycji SVD Obserwując elementy macierzy można zauważyć, że: dokumenty 1 i 2 są do siebie bardziej podobne niż dokumenty 1 i 3, gdyż dokumenty 1 i 2 zawierają słowo bank, podczas gdy dokumenty 1 i 3 nie mają wspólnych wyrazów w rzeczywistości jednak dokumenty 1 i 2 nie są wcale ze sobą powiązane; to dokumenty 1 i 3 dotyczą tych samych zagadnień Dekompozycja SVD pozwala przezwyciężyć powyższe problemy 109
60 Rozkład macierzy Rozkład macierzy A m*n na iloczyn macierzy, czyli SVD: A=U S V T 110
61 Przykład dekompozycji SVD W wyniku dekompozycji SVD macierz częstości została zredukowana do 2 wymiarów Przestrzeń semantyczna staje się 2-wymiarowa Przewidywany rozkład dokumentów można zobrazować w 2-wymiarowej przestrzeni 111
62 2-wymiarowy rozkład dokumentów 112
63 2-wymiarowy rozkład dokumentów Dokument 1 jest bliżej dokumentu 3 niż 2 (jest to zgodne z prawdą, chociaż dokumenty 1 i 3 nie zawierają takich samych słów) Dokument 5 jest ściśle powiązany z dokumentami 2,4, 7 Przewidywania umiejscawiają podobne dokumenty obok siebie, nawet jeśli zawierają one niewiele wspólnych słów 113
64 Część 2 SAS Text Miner 1) Krótka charakterystyka narzędzia 2) Etapy procesu text mining 1. Wstępna analiza tekstu 2. Parsowanie - rozbiór struktury tekstu a) dekompozycja danych tekstowych b) ilościowa reprezentacja zbioru dokumentów 3. Transformacja i redukcja wymiarów a) transformacja reprezentacji ilościowej tekstu b) redukcja wymiarów do zwartego formatu informacyjnego 4. Analiza 3) Komponenty 4) Makro % tmfilter
65 Analiza Główne cele Text Miningu, czyli opis tekstu i predykcja, są realizowane poprzez tworzenie powiązań tematycznych w zbiorze dokumentów klastrowanie klasyfikowanie prognozowanie 115
66 Metoda hierarchiczna Klastrowanie jeden klaster może zawierać inny brak innych rodzajów nałożeń klastrów 116
67 Klastrowanie Metoda EM (Expectation Maximization) oblicza prawdopodobieństwa przynależności do skupień przy założeniu jednego lub wielu rozkładów prawdopodobieństwa dozwolona różna wielkość i kształt klastrów 117
68 Klastrowanie Przykłady Automatyczne streszczenie zbioru dokumentów Automatyczne generowanie słów kluczowych Odkrycie głównych tematów i kluczowych koncepcji wewnątrz zbioru dokumentów Marketing: wykrycie różniących się potrzebami grup klientów na podstawie ankiet klientów, a następnie opracowanie kampanii marketingowych kierowanych do poszczególnych grup docelowych Ubezpieczenia: identyfikacja grup posiadaczy komunikacyjnych polis OC i AC obarczonych ryzykiem wystąpienia wysokich kosztów roszczeń na podstawie opisów roszczeń ubezpieczeniowych 118
69 Klasyfikowanie Polega na sortowaniu dokumentów wg wcześniej zdefiniowanych kategorii Wymaga zbioru treningowego Opiera się na wnioskowaniu pamięciowym sieciach neuronowych drzewach decyzyjnych Zastosowanie automatyczne przekierowywanie i filtrowanie spamu dobieranie pracowników na stanowiska 119
70 Prognozowanie Polega na ogólnym nieautomatycznym wnioskowaniu na podstawie wykrytych konceptów, wzorców i powiązań tematycznych w zbiorze dokumentów Przykłady przewidywanie wystąpienia problemu na podstawie zapisów rozmów z call center prognozowanie kosztów usługi, bazujące na tekstowym opisie problemu przewidywanie poziomu satysfakcji klientów na podstawie ich komentarzy i opinii prognozowanie wahań cen akcji na podstawie wiadomości prasowych i ogłoszeń biznesowych 120
71 Część 2 SAS Text Miner 1) Krótka charakterystyka narzędzia 2) Etapy procesu text mining 3) Komponenty 4) Makro % tmfilter
72 Część 2 SAS Text Miner 1. Krótka charakterystyka narzędzia 2. Etapy procesu text mining 3. Komponenty Text Parsing Text Filter Text Topic Text Cluster Text Rule Builder Text Import 4. Makro % tmfilter
73 Text Parsing 123
74 Ustawienia Text Parsing Język: ENGLISH / POLISH Zidentyfikuj wyrażenia to samo słowo jako różne części mowy grupy rzeczowników szukanie wielowyrazowych wyrażeń złożonych z rzeczowników, np. stopa procentowa (interest rate), burzowa pogoda (inclement weather) itp. jednostki specjalne - nazwiska, adresy, firmy, kwoty w walutach itp. 124
75 Ustawienia Text Parsing Ignoruj części mowy Ignoruj jednostki specjalne Ignoruj typy atrybutów interpunkcja liczby 125
76 Ustawienia Text Parsing Dostępne części mowy: Det rodzajnik (a, an), zaimek wskazujący (this, that ) Conj spójnik Aux czasownik posiłkowy Prep przyimek Pron zaimek Part bezokolicznik, partykuła przecząca (not, ain t), zaimki dzierżawcze (my, your, her, his ) Interj wykrzyknik Noun rzeczownik Verb czasownik Prop nazwa własna (proper noun) Adj przymiotnik Adv przysłówek Abbr skrót Num liczby (pisane słownie) 126
77 Ustawienia Text Parsing Synonimy Wyrazy mające wspólną podstawę fleksyjną sprowadź do formy rdzenia (stem terms) Lista synonimów SASHELP.ENGSYNMS (angielski) 127
78 Ustawienia Text Parsing Listy słów włączonych do/wyłączonych z analizy Start lista Stop lista SASHELP.ENGSTOP (angielski) SASHELP.FRCHSTOP (francuski) SASHELP.GRMNSTOP (niemiecki) Liczba słów do wyświetlenia 128
79 Część 2 SAS Text Miner 1. Krótka charakterystyka narzędzia 2. Etapy procesu text mining 3. Komponenty Text Parsing Text Filter Text Topic Text Cluster Text Rule Builder Text Import 4. Makro % tmfilter
80 Text Filter 130
81 Ustawienia Text Filter Wagi funkcje ważące częstości Binarna Logarytmiczna [domyślnie] Pusta funkcje ważące wyrażenia Entropia [domyślnie] GF-IDF IDF Normalna Pusta Chi-kwadrat MI IG 131
82 Interactive Filter Viewer 132
83 Concept Linking 133
84 Część 2 SAS Text Miner 1. Krótka charakterystyka narzędzia 2. Etapy procesu text mining 3. Komponenty Text Parsing Text Filter Text Topic Text Cluster Text Rule Builder Text Import 4. Makro % tmfilter
85 Text Topic 135
86 Ustawienia Text Topic Tematy użytkownika Liczba tematów jednowyrazowych Liczba tematów wielowyrazowych Tematy skorelowane 136
87 Część 2 SAS Text Miner 1. Krótka charakterystyka narzędzia 2. Etapy procesu text mining 3. Komponenty Text Parsing Text Filter Text Topic Text Cluster Text Rule Builder Text Import 4. Makro % tmfilter
88 Text Cluster 138
89 Ustawienia Text Cluster Dekompozycja SVD wielkość wymiaru macierzy do jakiego ma być przeskalowana dekompozycją SVD maksymalna liczba wymiarów (>1) 139
90 Ustawienia Text Cluster Liczba klastrów: dokładna lub maksymalna Wybierz algorytm klastrowania metoda hierarchiczna metoda EM (Expectation Maximization) Obserwacje nietypowe hierarchiczna: outliers nie są brane pod uwagę EM: tworzone są osobne jednoelementowe klastry Wybierz liczbę terminów opisujących klaster 140
91 Część 2 SAS Text Miner 1. Krótka charakterystyka narzędzia 2. Etapy procesu text mining 3. Komponenty Text Parsing Text Filter Text Topic Text Cluster Text Rule Builder Text Import 4. Makro % tmfilter
92 Text Rule Builder 142
93 Ustawienia Text Rule Builder Błąd uogólnienia wyznacza przewidywane prawdopodobieństwo wykrycia reguł na nietrenowanym zbiorze danych (wyznaczany w celu uniknięcia przetrenowania modelu) very low low medium [domyślnie] high very high 143
94 Ustawienia Text Rule Builder Klarowność reguł wyznacza maksymalny poziom p-value niezbędny, by dodać termin do reguły (wartości - medium, high i very high - dają mniej liczne, "czystsze" reguły) very low (p<0.17) low (p<0.05) medium (p<0.005) [domyślnie] high (p<0.0005) very high (p< ) 144
95 Ustawienia Text Rule Builder Kompletność wyznacza kompletność procesu szukania reguł, czyli ile potencjalnych reguł jest branych pod uwagę w każdym kroku (wyższe wartości powodują wzrost czasu potrzebnego do pracy węzła oraz mogą powodować przetrenowanie modelu) very low low medium [domyślnie] high very high 145
96 Część 2 SAS Text Miner 1. Krótka charakterystyka narzędzia 2. Etapy procesu text mining 3. Komponenty Text Parsing Text Filter Text Topic Text Cluster Text Rule Builder Text Import 4. Makro % tmfilter
97 Text Import Importuje tekst źródłowy i konwertuje go w input do dalszej analizy tekstu (Text Import to zamiennik Data Source) 147
98 Część 2 SAS Text Miner 1) Krótka charakterystyka narzędzia 2) Etapy procesu text mining 3) Komponenty 4) Makro % tmfilter
99 Makro %tmfilter Rozbiór struktury dokumentu (text parsing) wymaga użycia tekstu zakodowanego w ASCII lub Latin1 Makro %tmfilter umożliwia: odczyt plików tekstowych różnych formatów przekonwertowanie ich w zbiór danych SAS Pozwala to na użycie zbioru danych SAS jako input w dalszej analizie tekstu 149
100 Atrybuty konfiguracji %tmfilter HOST określa nazwę hosta lub adresu IP komputera, na którym działa makro. Ustawienie domyślne: localhost DATASET DIR określa nazwę tworzonego zbioru danych. Ustawienie domyślne: WORK.DATA określa ścieżkę dostępu do katalogu zawierającego oryginalne pliki tekstowe 150
101 Atrybuty konfiguracji %tmfilter DESTDIR określa nazwę katalogu, w którym zostaną zapisane przekonwertowane pliki z DIR URL określa URL, w dowolnej formie: lub ale nie dłuższy niż 255 znaków DEPTH określa liczbę poziomów URL. Ustawienie domyślne: 2 (dana strona, wszystkie linki w niej zawarte oraz linki w tych linkach) 151
102 Atrybuty konfiguracji %tmfilter NORESTRICT określa czy przetwarzać dokument poza wskazaną domeną. Pusta wartość oznacza ograniczenie tylko do danej domeny USERNAME określa nazwę użytkownika dla domeny chronionej hasłem PASSWORD określa hasło użytkownika dla domeny chronionej hasłem 152
103 Atrybuty konfiguracji %tmfilter NUMBYTES określa liczbę bajtów z każdego pliku umieszczoną w zmiennej tekstowej TEXT. Ustawienie domyślne: 60 B Wartość maksymalna: (=32KB) LANUGAGE określa język/listę języków, które mają być rozpoznane w tekście. Dla krótkich tekstów <256 znaków rozpoznanie języka jest mniej dokładne 153
104 Output %tmfilter Utworzona przez makro baza danych SAS może zawierać: 1. pełny tekst każdego dokumentu [TEXT] zmienna tekstowa obejmuje całe teksty dokumentów 2. ścieżki dostępu do dokumentów [URI] zmienna tekstowa obejmuje jedynie fragmenty tekstów dokumentów Jeśli analizowane dokumenty są większe niż 32KB, zbiór danych powinien zawierać ścieżki dostępu do dokumentów 154
105 Zmienne generowane przez makro TEXT URI tekst z każdego dokumentu (domyślnie 60 B ustawione w NUMBYTES) ścieżka do oryginalnego pliku NAME nazwa oryginalnego pliku FILTERED ścieżka do pliku html, który powstał podczas konwertowania oryginalnego pliku do formatu html. Zmienna nie powstaje, gdy nie ma określonego folderu DESTDIR 155
106 Zmienne generowane przez makro LANGUAGE zidentyfikowany język dokumentu źródłowego TRUNCATED wskazuje, czy tekst został skrócony. Wartość 1 oznacza okrojenie tekstu OMITTED wskazuje, czy dokument został pominięty podczas próby ekstrakcji tekstu. Wartość 1 oznacza pominięcie dokumentu 156
107 Zmienne generowane przez makro CREATED data i czas utworzenia dokumentu ACCESSED data i czas ostatniego otwarcia dokumentu MODIFIED data i czas ostatniej modyfikacji dokumentu SIZE wielkość dokumentu w bajtach 157
108 Część 2 SAS Text Miner 1. Krótka charakterystyka narzędzia 2. Etapy procesu text mining 3. Komponenty 4. Makro % tmfilter Pliki tekstowe Strony WWW
109 Przykład działania makra Najprostsze makro zawiera nazwę tworzonego zbioru danych oraz ścieżkę dostępu do katalogu z oryginalnymi plikami: %tmfilter(dataset=mylib.pliki1, dir=c:\sasuser\pliki1); 159
110 Makro odczytuje folder źródłowy oraz jego podfoldery 160
111 Powstaje baza danych MYLIB.PLIKI1 Plik jest obrazkiem, dlatego nie wyłuskano z niego tekstu 161
112 Zmienne TRUNCATED i OMITTED Nie można pracować na dokumencie Dokument musiał być skrócony ( >32KB) Można pracować na dokumencie 162
113 Przykład innego makra Makro zawiera nazwę tworzonego zbioru danych, ścieżkę dostępu do katalogu z oryginalnymi plikami oraz określa liczbę bajtów w zmiennej TEXT: %tmfilter(dataset=mylib.pliki2, dir=c:\sasuser\pliki2, numbytes=32000); 163
114 Rozpoznawanie języka przez makro Makro identyfikuje język dokumentu źródłowego: %tmfilter (dataset=mylib.pliki3, dir=c:\sasuser\pliki3, language=english german dutch french swedish italian spanish portuguese); 164
115 Powstaje baza danych MYLIB.PLIKI3 165
116 Część 2 SAS Text Miner 1. Krótka charakterystyka narzędzia 2. Etapy procesu text mining 3. Komponenty 4. Makro % tmfilter Pliki tekstowe Strony WWW
117 Odczytanie danych ze stron WWW Makro %tmfilter używane do odczytania danych ze stron WWW powinno określać wartości atrybutów URL, DESTDIR, DATASET i DIR Jeśli adres internetowy zawiera ampersandę &, wówczas należy zastosować funkcję %NRSTR() podczas specyfikacji adresu URL 167
118 Przykład działania makra Najprostsze makro określa adres URL, liczbę poziomów DEPTH oraz nazwę katalogu DESTDIR, do którego zostaną zapisane przekonwertowane pliki z DIR: %tmfilter(url= depth=1, destdir=c:\sasuser\destdir, dataset=mylib.plikihtml, dir=c:\sasuser\dir); 168
119 Powstaje baza danych MYLIB.PLIKIHTML 169
Studia Podyplomowe Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS Analiza danych nieustrukturyzowanych: Text Mining
Analiza danych nieustrukturyzowanych: Text Mining Wydział Nauk Ekonomicznych Uniwersytet Warszawski Część 2 SAS Text Miner 1) Krótka charakterystyka narzędzia 2) Etapy procesu text mining 3) Komponenty
Bardziej szczegółowoText mining w programie RapidMiner Michał Bereta www.michalbereta.pl
Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Aby skorzystać z możliwości RapidMinera w zakresie analizy tekstu, należy zainstalować Text Mining Extension. Wybierz: 1 Po
Bardziej szczegółowoData Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
Bardziej szczegółowoHierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
Bardziej szczegółowoSPOTKANIE 2: Wprowadzenie cz. I
Wrocław University of Technology SPOTKANIE 2: Wprowadzenie cz. I Piotr Klukowski Studenckie Koło Naukowe Estymator piotr.klukowski@pwr.edu.pl 17.10.2016 UCZENIE MASZYNOWE 2/27 UCZENIE MASZYNOWE = Konstruowanie
Bardziej szczegółowoWydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych
Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Informatyki i Elektroniki Instrukcja do zajęć laboratoryjnych wersja: 1.0 Nr ćwiczenia: 12, 13 Temat: Cel ćwiczenia: Wymagane przygotowanie
Bardziej szczegółowoSAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006
SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu
Bardziej szczegółowoAnaliza danych tekstowych i języka naturalnego
Kod szkolenia: Tytuł szkolenia: ANA/TXT Analiza danych tekstowych i języka naturalnego Dni: 3 Opis: Adresaci szkolenia Dane tekstowe stanowią co najmniej 70% wszystkich danych generowanych w systemach
Bardziej szczegółowoAnaliza korespondencji
Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy
Bardziej szczegółowoNarzędzia do automatycznego wydobywania kolokacji
Narzędzia do automatycznego wydobywania kolokacji Jan Kocoń, Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej marek.maziarz@pwr.edu.pl
Bardziej szczegółowoP R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H
W O J S K O W A A K A D E M I A T E C H N I C Z N A W Y D Z I A Ł E L E K T R O N I K I Drukować dwustronnie P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H Grupa... Data wykonania
Bardziej szczegółowoZagadnienia optymalizacji i aproksymacji. Sieci neuronowe.
Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe. zajecia.jakubw.pl/nai Literatura: S. Osowski, Sieci neuronowe w ujęciu algorytmicznym. WNT, Warszawa 997. PODSTAWOWE ZAGADNIENIA TECHNICZNE AI
Bardziej szczegółowoAUTOMATYKA INFORMATYKA
AUTOMATYKA INFORMATYKA Technologie Informacyjne Sieć Semantyczna Przetwarzanie Języka Naturalnego Internet Edytor Serii: Zdzisław Kowalczuk Inteligentne wydobywanie informacji z internetowych serwisów
Bardziej szczegółowoSemantyczne podobieństwo stron internetowych
Uniwersytet Mikołaja Kopernika Wydział Matematyki i Informatyki Marcin Lamparski Nr albumu: 184198 Praca magisterska na kierunku Informatyka Semantyczne podobieństwo stron internetowych Praca wykonana
Bardziej szczegółowoEkstrakcja informacji oraz stylometria na usługach psychologii Część 2
Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2 ws.clarin-pl.eu/websty.shtml Tomasz Walkowiak, Maciej Piasecki Politechnika Wrocławska Grupa Naukowa G4.19 Katedra Inteligencji Obliczeniowej
Bardziej szczegółowoSpis treści. 1: Wyszukiwanie elementu : Do linii modelu : Powiel arkusze : Długość kabla : Rozmieszczenie widoków...
Co nowego 2018 R2 Spis treści NOWOŚCI... 5 1: Wyszukiwanie elementu... 5 2: Do linii modelu... 6 3: Powiel arkusze... 7 4: Długość kabla... 8 5: Rzędne poziomów... 9 ULEPSZENIA... 10 1: Połączenie z Excel...
Bardziej szczegółowoInstrukcja konfiguracji funkcji skanowania
Instrukcja konfiguracji funkcji skanowania WorkCentre M123/M128 WorkCentre Pro 123/128 701P42171_PL 2004. Wszystkie prawa zastrzeżone. Rozpowszechnianie bez zezwolenia przedstawionych materiałów i informacji
Bardziej szczegółowoKlasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)
Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania
Bardziej szczegółowoCzęść 2: Data Mining
Łukasz Przywarty 171018 Wrocław, 18.01.2013 r. Grupa: CZW/N 10:00-13:00 Raport z zajęć laboratoryjnych w ramach przedmiotu Hurtownie i eksploracja danych Część 2: Data Mining Prowadzący: dr inż. Henryk
Bardziej szczegółowoSYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
Bardziej szczegółowoSZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie
SZKOLENIA SAS ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie DANIEL KUBIK ŁUKASZ LESZEWSKI ROLE ROLE UŻYTKOWNIKÓW MODUŁU
Bardziej szczegółowoSzkolenia SAS Cennik i kalendarz 2017
Szkolenia SAS Spis treści NARZĘDZIA SAS FOUNDATION 2 ZAAWANSOWANA ANALITYKA 2 PROGNOZOWANIE I EKONOMETRIA 3 ANALIZA TREŚCI 3 OPTYMALIZACJA I SYMULACJA 3 3 ROZWIĄZANIA DLA HADOOP 3 HIGH-PERFORMANCE ANALYTICS
Bardziej szczegółowoEksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1
Grupowanie Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Grupowanie wykład 1 Sformułowanie problemu Dany jest zbiór obiektów (rekordów). Znajdź naturalne pogrupowanie
Bardziej szczegółowoZapisuje dokument a jednocześnie umożliwia jego konwertowanie. Po naciśnięciu pojawia się okno zapisywania:
- 1 - PLIK Aby uruchomić menu programu należy Wskazać myszką podmenu Plik a następnie nacisnąć lewy przycisk myszki lub Wcisnąć klawisz (wejście do menu), następnie klawiszami kursorowymi (w prawo
Bardziej szczegółowoWprowadzenie do SAS. Wprowadzenie. Historia SAS. Struktura SAS 8. Interfejs: SAS Explorer. Interfejs. Część I: Łagodny wstęp do SAS Rafał Latkowski
Wprowadzenie do SAS Część I: Łagodny wstęp do SAS Rafał Latkowski Wprowadzenie 2 Historia SAS Struktura SAS 8 1976 BASE SAS 1980 SAS/GRAPH & SAS/ETS 1985 SAS/IML, BASE SAS for PC Raportowanie i grafika
Bardziej szczegółowodr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych
- Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 14 listopada 2011 roku 1 - - 2 3 4 5 - The purpose of computing is insight, not numbers Richard Hamming Motywacja - Mamy informację,
Bardziej szczegółowoWyszukiwanie informacji w internecie. Nguyen Hung Son
Wyszukiwanie informacji w internecie Nguyen Hung Son Jak znaleźć informację w internecie? Wyszukiwarki internetowe: Potężne machiny wykorzystujące najnowsze metody z różnych dziedzin Architektura: trzy
Bardziej szczegółowoAnna Osiewalska Biblioteka Główna Uniwersytetu Ekonomicznego w Krakowie
Anna Osiewalska Biblioteka Główna Uniwersytetu Ekonomicznego w Krakowie Bibliografie czasopism naukowych Biblioteki Głównej UEK jako źródło danych dla analiz bibliometrycznych Streszczenie Przedstawiono
Bardziej szczegółowoAnaliza składowych głównych
Analiza składowych głównych Wprowadzenie (1) W przypadku regresji naszym celem jest predykcja wartości zmiennej wyjściowej za pomocą zmiennych wejściowych, wykrycie związku między wielkościami wejściowymi
Bardziej szczegółowoLokalizacja Oprogramowania
mgr inż. Anton Smoliński anton.smolinski@zut.edu.pl Lokalizacja Oprogramowania 16/12/2016 Wykład 6 Internacjonalizacja, Testowanie, Tłumaczenie Maszynowe Agenda Internacjonalizacja Testowanie lokalizacji
Bardziej szczegółowoWyszukiwanie dokumentów/informacji
Wyszukiwanie dokumentów/informacji Wyszukiwanie dokumentów (ang. document retrieval, text retrieval) polega na poszukiwaniu dokumentów tekstowych z pewnego zbioru, które pasują do zapytania. Wyszukiwanie
Bardziej szczegółowoS O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor
S O M SELF-ORGANIZING MAPS Przemysław Szczepańczyk Łukasz Myszor Podstawy teoretyczne Map Samoorganizujących się stworzył prof. Teuvo Kohonen (1982 r.). SOM wywodzi się ze sztucznych sieci neuronowych.
Bardziej szczegółowoCLUSTERING. Metody grupowania danych
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means
Bardziej szczegółowo2
1 2 3 4 5 Dużo pisze się i słyszy o projektach wdrożeń systemów zarządzania wiedzą, które nie przyniosły oczekiwanych rezultatów, bo mało kto korzystał z tych systemów. Technologia nie jest bowiem lekarstwem
Bardziej szczegółowoCo to jest grupowanie
Grupowanie danych Co to jest grupowanie 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Szukanie grup, obszarów stanowiących lokalne gromady punktów Co to jest grupowanie
Bardziej szczegółowoAlgorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów
Bardziej szczegółowoPRAKTYCZNE WYKORZYSTANIE KATEGORYZACJI TREŚCI
PRAKTYCZNE WYKORZYSTANIE KATEGORYZACJI TREŚCI JAKO INNOWACYJNE WSPARCIE HURTOWNI DANYCH W CENTRUM ONKOLOGII-INSTYTUT IM. MARII SKŁODOWSKIEJ-CURIE. Rafał Wojdan AGENDA Dlaczego kategoryzacja treści w Centrum
Bardziej szczegółowoData Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład
Data Mining Wykład 5 Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny Indeks Gini Popularnym kryterium podziału, stosowanym w wielu produktach komercyjnych, jest indeks Gini Algorytm SPRINT
Bardziej szczegółowoKRYTERIA OCENIANIA Z JĘZYKA ANGIELSKIEGO W KLASACH I-III GIMNAZJUM
KRYTERIA OCENIANIA Z JĘZYKA ANGIELSKIEGO W KLASACH I-III GIMNAZJUM Zgodnie z własnym Programem nauczania w Gimnazjum Specjalnym Nr 100 w Warszawie dla uczniów z upośledzeniem umysłowym w stopniu lekkim
Bardziej szczegółowoSystem Korekty Tekstu Polskiego
Wnioski Grzegorz Szuba System Korekty Tekstu Polskiego Plan prezentacji Geneza problemu i cele pracy Opis algorytmu bezkontekstowego Opis algorytmów kontekstowych Wyniki testów Rozszerzenie pracy - uproszczona
Bardziej szczegółowoAnaliza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU
Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów
Bardziej szczegółowoNarzędzia do automatycznego wydobywania kolokacji
Narzędzia do automatycznego wydobywania kolokacji Jan Kocoń, Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej marek.maziarz@pwr.edu.pl
Bardziej szczegółowoPrzetwarzanie i analiza danych w języku Python / Marek Gągolewski, Maciej Bartoszuk, Anna Cena. Warszawa, Spis treści
Przetwarzanie i analiza danych w języku Python / Marek Gągolewski, Maciej Bartoszuk, Anna Cena. Warszawa, 2016 Spis treści Przedmowa XI I Podstawy języka Python 1. Wprowadzenie 3 1.1. Język i środowisko
Bardziej szczegółowoSpis treści. 1 Moduł RFID (APA) 3
Spis treści 1 Moduł RFID (APA) 3 1.1 Konfigurowanie Modułu RFID..................... 3 1.1.1 Lista elementów Modułu RFID................. 3 1.1.2 Konfiguracja Modułu RFID (APA)............... 4 1.1.2.1
Bardziej szczegółowoO czym w Sejmie piszczy? Analiza tekstowa przemówień poselskich
O czym w Sejmie piszczy? Analiza tekstowa przemówień poselskich mgr Aleksander Nosarzewski Szkoła Główna Handlowa w Warszawie pod kierunkiem naukowym dr hab. Bogumiła Kamińskiego, prof. SGH Problem Potrzeba
Bardziej szczegółowo1. Opis. 2. Wymagania sprzętowe:
1. Opis Aplikacja ARSOFT-WZ2 umożliwia konfigurację, wizualizację i rejestrację danych pomiarowych urządzeń produkcji APAR wyposażonych w interfejs komunikacyjny RS232/485 oraz protokół MODBUS-RTU. Aktualny
Bardziej szczegółowoPOZYCJONOWANIE STRONY SKLEPU
. Wszystko O Pozycjonowaniu I Marketingu. >>>POZYCJONOWANIE STRON LEGNICA POZYCJONOWANIE STRONY SKLEPU >>>WIĘCEJ
Bardziej szczegółowoZalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel
według przewidywań internetowego magazynu ZDNET News z 8 lutego 2001 roku eksploracja danych (ang. data mining ) będzie jednym z najbardziej rewolucyjnych osiągnięć następnej dekady. Rzeczywiście MIT Technology
Bardziej szczegółowoRozdział ten zawiera informacje na temat zarządzania Modułem Modbus TCP oraz jego konfiguracji.
1 Moduł Modbus TCP Moduł Modbus TCP daje użytkownikowi Systemu Vision możliwość zapisu oraz odczytu rejestrów urządzeń, które obsługują protokół Modbus TCP. Zapewnia on odwzorowanie rejestrów urządzeń
Bardziej szczegółowoSystem imed24 Instrukcja Moduł Analizy i raporty
System imed24 Instrukcja Moduł Analizy i raporty Instrukcja obowiązująca do wersji 1.8.0 Spis treści 1. Moduł Analizy i Raporty... 3 1.1. Okno główne modułu Analizy i raporty... 3 1.1.1. Lista szablonów
Bardziej szczegółowoFull Text Search. Study Group Tomasz Libera
Full Text Search Study Group 70-461 Tomasz Libera BIO SQL Server Developer Członek Zarządu Stowarzyszenia PLSSUG Założyciel i lider krakowskiego oddziału Organizator i prelegent konferencji SQLDay, SQL
Bardziej szczegółowoAnaliza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32
Analiza i projektowanie oprogramowania Analiza i projektowanie oprogramowania 1/32 Analiza i projektowanie oprogramowania 2/32 Cel analizy Celem fazy określania wymagań jest udzielenie odpowiedzi na pytanie:
Bardziej szczegółowoSzkoła Podstawowa Nr 45 z Oddziałami Integracyjnymi im. Jana Pawła II w Białymstoku Przedmiotowy system oceniania JĘZYK ANGIELSKI
Szkoła Podstawowa Nr 45 z Oddziałami Integracyjnymi im. Jana Pawła II w Białymstoku Przedmiotowy system oceniania JĘZYK ANGIELSKI Normy wymagań na oceny w klasie IV Ocena dopuszczająca W zakresie gramatyki
Bardziej szczegółowoAutor: dr inż. Katarzyna Rudnik
Bazy danych Wykład 2 MS Access Obiekty programu, Reprezentacja danych w tabeli, Indeksy, Relacje i ich sprzężenia Autor: dr inż. Katarzyna Rudnik Obiekty programu MS ACCESS Obiekty typu Tabela są podstawowe
Bardziej szczegółowoALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
Bardziej szczegółowoInstrukcja obsługi DHL KONWERTER 1.6
Instrukcja obsługi DHL KONWERTER 1.6 Opis: Niniejsza instrukcja opisuje wymogi użytkowania aplikacji oraz zawiera informacje na temat jej obsługi. DHL Konwerter powstał w celu ułatwienia oraz usprawnienia
Bardziej szczegółowoZadania. Przygotowanie zbiorów danych. 1. Sposób 1: 2. Sposób 2:
Wstęp Jednym z typowych zastosowań metod sztucznej inteligencji i uczenia maszynowego jest przetwarzanie języka naturalnego (ang. Natural Language Processing, NLP), której typowych przykładem jest analiza
Bardziej szczegółowoNa komputerach z systemem Windows XP zdarzenia są rejestrowane w trzech następujących dziennikach: Dziennik aplikacji
Podgląd zdarzeń W systemie Windows XP zdarzenie to każde istotne wystąpienie w systemie lub programie, które wymaga powiadomienia użytkownika lub dodania wpisu do dziennika. Usługa Dziennik zdarzeń rejestruje
Bardziej szczegółowoSpecjalnościowy Obowiązkowy Polski Semestr VI
KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu Nazwa modułu Nazwa modułu w języku angieskim Obowiązuje od roku akademickiego 0/06 Z-ID-608a Anaiza danych niestrukturanych Unstructured Data Anaysis A. USYTUOWANIE
Bardziej szczegółowoAlgorytmy decyzyjne będące alternatywą dla sieci neuronowych
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny
Bardziej szczegółowoZastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner rok akademicki 2014/2015 Sieci Kohonena Sieci Kohonena Sieci Kohonena zostały wprowadzone w 1982 przez fińskiego
Bardziej szczegółowoPerl a XML. Narzędzia informatyczne w językoznawstwie. Generowanie danych XML - Przykład. Generowanie danych XML. Perl - Przetwarzanie XML
Perl a XML Narzędzia informatyczne w językoznawstwie Perl - Przetwarzanie XML Marcin Junczys-Dowmunt junczys@amu.edu.pl Zakład Logiki Stosowanej http://www.logic.amu.edu.pl 31 modułów w CPAN zawiera w
Bardziej szczegółowoSłowem wstępu. Część rodziny języków XSL. Standard: W3C XSLT razem XPath 1.0 XSLT Trwają prace nad XSLT 3.0
Słowem wstępu Część rodziny języków XSL Standard: W3C XSLT 1.0-1999 razem XPath 1.0 XSLT 2.0-2007 Trwają prace nad XSLT 3.0 Problem Zakładane przez XML usunięcie danych dotyczących prezentacji pociąga
Bardziej szczegółowoWyszukiwanie tekstów
Wyszukiwanie tekstów Dziedzina zastosowań Elektroniczne encyklopedie Wyszukiwanie aktów prawnych i patentów Automatyzacja bibliotek Szukanie informacji w Internecie Elektroniczne teksy Ksiązki e-book Artykuły
Bardziej szczegółowoCustomer Attribution Models. czyli o wykorzystaniu machine learning w domu mediowym.
Customer Attribution Models czyli o wykorzystaniu machine learning w domu mediowym. Proces decyzyjny MAILING SEO SEM DISPLAY RETARGETING PRZEGRANI??? ZWYCIĘZCA!!! Modelowanie atrybucja > Słowo klucz: wpływ
Bardziej szczegółowoAnaliza danych i data mining.
Analiza danych i data mining. mgr Katarzyna Racka Wykładowca WNEI PWSZ w Płocku Przedsiębiorczy student 2016 15 XI 2016 r. Cel warsztatu Przekazanie wiedzy na temat: analizy i zarządzania danymi (data
Bardziej szczegółowoWidzenie komputerowe (computer vision)
Widzenie komputerowe (computer vision) dr inż. Marcin Wilczewski 2018/2019 Organizacja zajęć Tematyka wykładu Cele Python jako narzędzie uczenia maszynowego i widzenia komputerowego. Binaryzacja i segmentacja
Bardziej szczegółowoSystemy Wspomagania Decyzji
Rodzaje danych oraz ich przetwarzanie Szkoła Główna Służby Pożarniczej Zakład Informatyki i Łączności January 29, 2014 1 Dane tabelaryczne 2 Dane tekstowe 3 Dane sensoryczne 4 Dane multimedialne 5 Podsumowanie
Bardziej szczegółowoKonkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji
Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące
Bardziej szczegółowoZasady Nazewnictwa. Dokumentów XML 2007-11-08. Strona 1 z 9
Zasady Nazewnictwa Dokumentów 2007-11-08 Strona 1 z 9 Spis treści I. Wstęp... 3 II. Znaczenie spójnych zasady nazewnictwa... 3 III. Zasady nazewnictwa wybrane zagadnienia... 3 1. Język oraz forma nazewnictwa...
Bardziej szczegółowoWprowadzenie do badań operacyjnych - wykład 2 i 3
Wprowadzenie do badań operacyjnych - wykład 2 i 3 Hanna Furmańczyk 14 listopada 2008 Programowanie liniowe (PL) - wszystkie ograniczenia muszą być liniowe - wszystkie zmienne muszą być ciągłe n j=1 c j
Bardziej szczegółowoAnaliza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
Bardziej szczegółowoINSTALACJA OPROGRAMOWANIA
INSTALACJA OPROGRAMOWANIA Na stronie www.maptaq.pl w zakładce Do pobrania znajdziecie Państwo dodatki do wszystkich urzadzeń oferowanych przez MAPTAQ Polska. 1. Należy pobrać programowanie GPS MASTER w
Bardziej szczegółowoTechnologie Informacyjne
Przygotowanie danych Szkoła Główna Służby Pożarniczej Zakład Informatyki i Łączności December 5, 2016 1 Dane tabelaryczne 2 Dane tekstowe 3 Dane sensoryczne 4 Dane multimedialne Dane tabelaryczne ID data
Bardziej szczegółowoZmienne zależne i niezależne
Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }
Bardziej szczegółowoInformatyka wspomaga przedmioty ścisłe w szkole
Informatyka wspomaga przedmioty ścisłe w szkole Prezentuje : Dorota Roman - Jurdzińska W arkuszu I na obu poziomach występują dwa zadania związane z algorytmiką: Arkusz I bez komputera analiza algorytmów,
Bardziej szczegółowoECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 5.0
ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 5.0 Przeznaczenie Sylabusa Dokument ten zawiera szczegółowy Sylabus dla modułu ECDL/ICDL Użytkowanie baz danych. Sylabus opisuje zakres wiedzy
Bardziej szczegółowoPODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE
UNIWERSYTET WARMIŃSKO-MAZURSKI W OLSZTYNIE PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE http://matman.uwm.edu.pl/psi e-mail: psi@matman.uwm.edu.pl ul. Słoneczna 54 10-561
Bardziej szczegółowoElementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Bardziej szczegółowoPrzepływy danych. Oracle Designer: Modelowanie przepływów danych. Diagramy przepływów danych (1) Diagramy przepływów danych (2)
Przepływy danych Oracle Designer: Modelowanie przepływów danych Cele: zobrazowanie funkcji zachodzących w organizacji, identyfikacja szczegółowych informacji, przetwarzanych przez funkcje, pokazanie wymiany
Bardziej szczegółowo4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74
3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15
Bardziej szczegółowoALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH
1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Eksploracja danych Algorytmy klastujące Problem 3 Mając daną chmurę punktów chcielibyśmy zrozumieć ich
Bardziej szczegółowoSilent setup SAS Enterprise Guide (v 3.x)
SAS Institute TECHNICAL SUPPORT Silent setup SAS Enterprise Guide (v 3.x) Silent Setup ( cicha instalacja oprogramowania) pozwala na instalację Enterprise Guide (lub całości oprogramowania SAS) na wielu
Bardziej szczegółowoDMX DMX DMX DMX: CREATE MINING STRUCTURE. Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski
DMX DMX DMX Data Mining Extensions jest językiem do tworzenia i działania na modelach eksploracji danych w Microsoft SQL Server Analysis Services SSAS. Za pomocą DMX można tworzyć strukturę nowych modeli
Bardziej szczegółowoPojęcie systemu informacyjnego i informatycznego
BAZY DANYCH Pojęcie systemu informacyjnego i informatycznego DANE wszelkie liczby, fakty, pojęcia zarejestrowane w celu uzyskania wiedzy o realnym świecie. INFORMACJA - znaczenie przypisywane danym. SYSTEM
Bardziej szczegółowoNarzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra
Bardziej szczegółowoJoyce Cox Joan Lambert. Microsoft Access. 2013 Krok po kroku. Przekład: Jakub Niedźwiedź
Joyce Cox Joan Lambert Microsoft Access 2013 Krok po kroku Przekład: Jakub Niedźwiedź APN Promise, Warszawa 2013 Spis treści Wprowadzenie................................................................vii
Bardziej szczegółowoInteligentne wydobywanie informacji z internetowych serwisów społecznościowych
Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych AUTOMATYKA INFORMATYKA Technologie Informacyjne Sieć Semantyczna Przetwarzanie Języka Naturalnego Internet Edytor Serii: Zdzisław
Bardziej szczegółowoTransformacja współrzędnych geodezyjnych mapy w programie GEOPLAN
Transformacja współrzędnych geodezyjnych mapy w programie GEOPLAN Program GEOPLAN umożliwia zmianę układu współrzędnych geodezyjnych mapy. Można tego dokonać przy udziale oprogramowania przeliczającego
Bardziej szczegółowoSPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization
Wrocław University of Technology SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Jakub M. Tomczak Studenckie Koło Naukowe Estymator jakub.tomczak@pwr.wroc.pl 4.1.213 Klasteryzacja Zmienne
Bardziej szczegółowoXpress Sp. z o.o. jako wieloletni Premium Partner firmy Xerox ma w swojej ofercie rozwiązanie
Xpress Sp. z o.o. jako wieloletni Premium Partner firmy Xerox ma w swojej ofercie rozwiązanie XPRESS SCAN, które pozwala użytkownikom bezpośrednio z urządzenia Xerox przez panel dotykowy zrealizować odpowiedni
Bardziej szczegółowoJęzyk UML w modelowaniu systemów informatycznych
Język UML w modelowaniu systemów informatycznych dr hab. Bożena Woźna-Szcześniak Akademia im. Jan Długosza bwozna@gmail.com Wykład 10 Diagramy wdrożenia I Diagramy wdrożenia - stosowane do modelowania
Bardziej szczegółowoSystemy baz danych. mgr inż. Sylwia Glińska
Systemy baz danych Wykład 1 mgr inż. Sylwia Glińska Baza danych Baza danych to uporządkowany zbiór danych z określonej dziedziny tematycznej, zorganizowany w sposób ułatwiający do nich dostęp. System zarządzania
Bardziej szczegółowoTEXT MINING W ANALIZIE ZBIORÓW PUBLIKACJI NAUKOWYCH TEXT MINING IN ANALYSIS OF SCIENTIFIC PUBLICATIONS
ZESZYTY NAUKOWE POLITECHNIKI ŚLĄSKIEJ 2017 Seria: ORGANIZACJA I ZARZĄDZANIE z. 114 Nr kol. 1993 Marcin WYSKWARSKI Politechnika Śląska Wydział Organizacji i Zarządzania marcin.wyskwarski@polsl.pl TEXT MINING
Bardziej szczegółowoWyszukiwanie dokumentów WWW bazujące na słowach kluczowych
Eksploracja zasobów internetowych Wykład 3 Wyszukiwanie dokumentów WWW bazujące na słowach kluczowych mgr inż. Maciej Kopczyński Białystok 2014 Wstęp Wyszukiwanie dokumentów za pomocą słów kluczowych bazujące
Bardziej szczegółowoMETODA SYMPLEKS. Maciej Patan. Instytut Sterowania i Systemów Informatycznych Uniwersytet Zielonogórski
METODA SYMPLEKS Maciej Patan Uniwersytet Zielonogórski WSTĘP Algorytm Sympleks najpotężniejsza metoda rozwiązywania programów liniowych Metoda generuje ciąg dopuszczalnych rozwiązań x k w taki sposób,
Bardziej szczegółowoINSTRUKCJA OBSŁUGI DLA SIECI
INSTRUKCJA OBSŁUGI DLA SIECI Zapisywanie dziennika druku w lokalizacji sieciowej Wersja 0 POL Definicje dotyczące oznaczeń w tekście W tym Podręczniku użytkownika zastosowano następujące ikony: Uwagi informują
Bardziej szczegółowoWYMAGANIA EDUKACYJNE
SZKOŁA PODSTAWOWA W RYCZOWIE WYMAGANIA EDUKACYJNE niezbędne do uzyskania poszczególnych śródrocznych i rocznych ocen klasyfikacyjnych z JĘZYKA ANGIELSKIEGO w klasie 3 Szkoły Podstawowej str. 1 Wymagania
Bardziej szczegółowo