Studia Podyplomowe Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS Analiza danych nieustrukturyzowanych: Text Mining

Wielkość: px
Rozpocząć pokaz od strony:

Download "Studia Podyplomowe Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS Analiza danych nieustrukturyzowanych: Text Mining"

Transkrypt

1 Analiza danych nieustrukturyzowanych: Text Mining Wydział Nauk Ekonomicznych Uniwersytet Warszawski

2 Część 2 SAS Text Miner 1) Krótka charakterystyka narzędzia 2) Etapy procesu text mining 3) Komponenty 4) Makro % tmfilter

3 Część 2 SAS Text Miner 1) Krótka charakterystyka narzędzia 2) Etapy procesu text mining 3) Komponenty 4) Makro % tmfilter

4 Enterprise Miner SAS analizy data mining interaktywna wizualizacja danych Text Miner przetwarzanie tekstu analizy data mining interaktywna wizualizacja danych 54

5 SAS Text Miner odkrywanie wiedzy i wydobywanie informacji z szerokiej gamy dokumentów tekstowych zebranych w zbiory możliwość odnalezienia i dotarcia do tematów lub konceptów, jakie są zawarte w danym zbiorze dokumentów 55

6 Obsługiwane formaty dokumentów PDF ASCII Corel Presentations HTML Lotus Word Pro WordPerfect Microsoft Excel, PowerPoint, Word Microsoft Outlook, Outlook Express 56

7 Funkcjonalności SAS Text Miner dysponuje makrem %tmfilter, które: wydobywa tekst z plików o różnym formacie lub przeszukuje strony internetowe tworzy bazę danych SAS gotową do dalszych analiz 57

8 Uwaga! SAS Text Miner może wydobywać sam tekst z plików w formacie PDF, ale nie obraz tekstu z pliku PDF Jeśli plik zawiera zeskanowany tekst (tj. obraz tekstu), należy go przekonwertować na dokument tekstowy za pomocą programu OCR (Optical Character Recognition) 58

9 Część 2 SAS Text Miner 1) Krótka charakterystyka narzędzia 2) Etapy procesu text mining 3) Komponenty 4) Makro % tmfilter

10 Etapy procesu text mining 1. Wstępna analiza tekstu (file preprocessing) przetworzenie zbioru dokumentów w jedną bazę danych SAS - input dla Text Miner 2. Parsowanie - rozbiór struktury tekstu (text parsing) a) dekompozycja danych tekstowych b) ilościowa reprezentacja zbioru dokumentów 60

11 Etapy procesu text mining 3. Transformacja i redukcja wymiarów (transformation, dimension reduction) a) transformacja reprezentacji ilościowej tekstu b) redukcja wymiarów do zwartego formatu informacyjnego 4. Analiza (document analysis) klastrowanie, klasyfikowanie, prognozowanie, tworzenie powiązań tematycznych w zbiorze dokumentów 61

12 Część 2 SAS Text Miner 1) Krótka charakterystyka narzędzia 2) Etapy procesu text mining 1. Wstępna analiza tekstu 2. Parsowanie - rozbiór struktury tekstu a) dekompozycja danych tekstowych b) ilościowa reprezentacja zbioru dokumentów 3. Transformacja i redukcja wymiarów a) transformacja reprezentacji ilościowej tekstu b) redukcja wymiarów do zwartego formatu informacyjnego 4. Analiza 3) Komponenty 4) Makro % tmfilter

13 Wstępna analiza tekstu (file preprocessing) Makro %tmfilter tworzy bazę danych SAS, która zawiera tekst wydobyty z plików różnego formatu Źródła danych tekstowych lokalne pliki tekstowe bazy danych SAS tabele w zewnętrznych bazach danych pliki dostępne w sieci internetowej 63

14 Część 2 SAS Text Miner 1) Krótka charakterystyka narzędzia 2) Etapy procesu text mining 1. Wstępna analiza tekstu 2. Parsowanie - rozbiór struktury tekstu a) dekompozycja danych tekstowych b) ilościowa reprezentacja zbioru dokumentów 3. Transformacja i redukcja wymiarów a) transformacja reprezentacji ilościowej tekstu b) redukcja wymiarów do zwartego formatu informacyjnego 4. Analiza 3) Komponenty 4) Makro % tmfilter

15 Termin wielowyrazowy to grupa wyrazów rozpatrywana jako pojedynczy termin Zazwyczaj jest to zwrot idiomatyczny lub nazwa własna, np.: due to because of Web browser Terminy i zwroty wielowyrazowe Wyrazy złożone są obsługiwane w językach: angielski, francuski, niemiecki, włoski, portugalski, hiszpański 65

16 Części mowy SAS Text Miner identyfikuje części mowy każdego wyrażenia na bazie jego kontekstu W rezultacie każdy termin jest przyporządkowany do gramatycznej kategorii na podstawie jego roli w danym zdaniu Analiza ta jest obsługiwana w językach: angielski, francuski, niemiecki, hiszpański 66

17 Kategorie jednostek specjalnych Dokumenty z reguły zawierają pewne szczególne jednostki tekstu, takie jak: adres, przedsiębiorstwo, waluta, data, adres internetowy, lokalizacja, miara, organizacja, procent, osoba, telefon, produkt, godzina, okres czasu, tytuł SAS Text Miner może zidentyfikować i wydobyć takie jednostki specjalne dla języków: angielski, francuski, niemiecki, hiszpański 67

18 Stop lista Stop listy można użyć, aby kontrolować pominięcie konkretnych słów z analizy (wyrazy o mało znaczącej treści zebrane w formie tabeli) SAS Text Miner posiada stop listy dla języków: angielski, francuski, niemiecki 68

19 Przykład stop listy 69

20 Start lista Start listy można użyć, aby kontrolować włączenie konkretnych słów do analizy (lista pozwala na zbadanie tylko wybranych słów) SAS Text Miner nie posiada domyślnej start listy 70

21 Znajdowanie podstawy fleksyjnej SAS Text Miner może zostać skonfigurowany w celu znajdowania podstawy fleksyjnej słów (stemming, lematyzacja) Jedno słowo może grupować różne części mowy np. słowo nauka może grupować zarówno uczyć jak i nauczyciel Jednocześnie SAS Text Miner potrafi rozróżnić nauka jako czasownik oraz rzeczownik 71

22 Przykłady podstawy fleksyjnej Podstawa fleksyjna reach big aller (francuski) Wyrażenia reaches, reached, reaching bigger, biggest vais, vas, va, allons, allez, vont 72

23 Synonimy SAS Text Miner korzysta z listy synonimów w celu pogrupowania danych Np: uczyć ma synonimy: instruować, edukować, kształcić, które nie mają wspólnej podstawy fleksyjnej, ale niosą tę samą informację 73

24 Forma kanoniczna Oprócz synonimów słów istnieją także synonimy jednostek specjalnych Jednostki specjalne, pomimo różnych nazw, są traktowane przez SAS Text Miner tak samo jak ich forma kanoniczna 74

25 Przykłady formy kanonicznej DATA i rok 07/03/07 7 marzec 7 marzec Procent 50% Pięćdziesiąt procent Pięćdziesiąt pt. proc Forma kanoniczna Forma kanoniczna 50% 75

26 Własne ustawienia SAS Text Miner umożliwia stworzenie własnych synonimów oraz form kanonicznych W tym celu należy stworzyć zbiór danych SAS zawierający listę synonimów, która uwzględnia min. trzy zmienne: słowo (term) baza fleksyjna (parent) kategoria część mowy (category) 76

27 Przykłady własnych synonimów Słowo Baza Kategoria wiele dużo liczebnik synonim pracownicy pracować czasownik EM Enterprise Miner SAS produkt stemming forma kanoniczna 77

28 Część 2 SAS Text Miner 1) Krótka charakterystyka narzędzia 2) Etapy procesu text mining 1. Wstępna analiza tekstu 2. Parsowanie - rozbiór struktury tekstu a) dekompozycja danych tekstowych b) ilościowa reprezentacja zbioru dokumentów 3. Transformacja i redukcja wymiarów a) transformacja reprezentacji ilościowej tekstu b) redukcja wymiarów do zwartego formatu informacyjnego 4. Analiza 3) Komponenty 4) Makro % tmfilter

29 Reprezentacja tekstu Oparte o zbiór słów kluczowych ( bag of words document representation) Każdy dokument tekstowy reprezentowany jest zbiorem słów kluczowych opisujących dokument i przypisywanych dokumentowi najczęściej przez osobę tworzącą dokument. Wyszukiwanie dokumentów jest również realizowane poprzez podanie słów kluczowych Oparte o reprezentację wektorową (vector space document representation) Dowolny dokument jest reprezentowany w postaci wektora częstości występowania słów kluczowych, a całość zebrana jest w macierzy Term_Frequency_Matrix 79

30 Zbiór dokumentów Doc 1 Coca-Cola announced earnings on Wednesday, Dec 12, 2013 Doc 2 Coca-Cola s profits are down as of 12/12/2013 powyższy zbiór dwóch jednozdaniowych dokumentów SAS Text Miner przekształci do postaci macierzy częstości (term-by-document frequency matrix) 80

31 Macierz częstości występowania terminów w dokumencie Parsed term ID D1 D2 Coca-cola announce earnings Wednesday Dec On profit down As of s be /12/

32 Macierz częstości występowania terminów w dokumencie wiersze reprezentują rozłożone wyrażenia (rdzenie oraz formy kanoniczne) w kolumnach odnoszących się do dokumentów przedstawiona jest liczba wystąpień (częstość) danego wyrażenia w tym dokumencie niektóre wyrażenia zostały usunięte przez stop listę macierz częstości służy jako podstawa analizy zbioru dokumentów 82

33 Ilościowa reprezentacja to za mało... Macierz częstości jest olbrzymia, zawiera tysiące wyrażeń Jak polepszyć macierz? transformacja (funkcje ważące) redukcja wymiarów macierzy Dopiero później: analiza 83

34 Część 2 SAS Text Miner 1) Krótka charakterystyka narzędzia 2) Etapy procesu text mining 1. Wstępna analiza tekstu 2. Parsowanie - rozbiór struktury tekstu a) dekompozycja danych tekstowych b) ilościowa reprezentacja zbioru dokumentów 3. Transformacja i redukcja wymiarów a) transformacja reprezentacji ilościowej tekstu b) redukcja wymiarów do zwartego formatu informacyjnego 4. Analiza 3) Komponenty 4) Makro % tmfilter

35 Występowanie słów w tekście 85

36 Prawo Zipfa Prawo Zipfa częstotliwość występowania słowa w tekście jest odwrotnie proporcjonalna do jego pozycji w rankingu 86

37 Prawo Zipfa i moc dyskryminacyjna Terminy o największej mocy dyskryminacyjnej mają od niskiej do średniej częstotliwości 87

38 Celowość transformacji tematyka większości dokumentów jest zazwyczaj wystarczająco dobrze określona przez niewielką ilość słów kluczowych pozostałe informacje - zbędny balast potrzebna jest funkcja wybierająca słowa najbardziej istotne dla zbioru dokumentów dziedzina - elementy reprezentacji (słowa) wartości - określać będą przydatność tych elementów dla dalszej analizy 88

39 Funkcje ważące funkcje ważące (weighting functions) ulepszają macierz częstości występowania terminów w dokumencie (term-by-document frequency matrix), która jest podstawą analizy zbioru dokumentów im rzadsze słowo, tym większa jego waga i tym bardziej dokumenty zawierające to słowo są do siebie podobne. Dzięki temu można stworzyć podzbiory dokumentów o zbliżonej strukturze 89

40 Funkcje ważące Na całkowitą wagę danej pozycji w macierzy częstości składają się 2 czynniki waga częstości (frequency weight) waga wyrażenia (term weight) Wzór ogólny â ij = L ij G i gdzie: L ij - frequency weight G i term weight 90

41 Funkcje ważące Waga częstości (lokalna) Informacje o 1 dokumencie, jakie niesie dane słowo/termin Waga wyrażenia (globalna) Informacje o zbiorze dokumentów, jakie niesie dane słowo/termin 91

42 Wagi częstości (L ij ) Są to funkcje częstości występowania słowa i w dokumencie j Dostępne funkcje: Binarna (binary) Logarytmiczna (log) Pusta (none) 92

43 Wagi częstości (L ij ) Binarna (0-1), używana dla prostych dokumentów o nieskomplikowanej składni L 1 L ij ij Logarytmiczna, obniża efekt często powtarzanego pojedynczego słowa L ij log 2 ( a 1) Pusta, wszystkie wagi mają wartość 1 1 L ij 0 ij - gdy wyrażenie i występuje w dokumencie j - w przeciwnym przypadku 93

44 Wagi wyrażenia (G i ) Są to funkcje zliczające wystąpienia słowa i w całym zbiorze dokumentów Dostępne funkcje: Entropia (entropy) GF-IDF (Global Frequency times Inverse Document Frequency) IDF (Inverse Document Frequency) Normalna (normal) Pusta (none) 94

45 Wagi wyrażenia (G i ) Entropia, kładzie nacisk na słowa, które występują tylko w kilku dokumentach z całego zbioru. Największą wagę otrzymują wyrażenia rzadkie w zbiorze dokumentów G i P ij 1 f g ij i j p ij log log g i 2 2 ( p ( n) ij ) n f ij -liczba dokumentów w zbiorze -częstość występowania wyrażenia i w dokumencie j -liczba wystąpień wyrażenia i w całym zbiorze 95

46 Wagi wyrażenia (G i ) GF-IDF, podobnie jak Entropia kładzie nacisk na słowa, które występują tylko w kilku dokumentach w całym zbiorze. Największą wagę otrzymują wyrażenia rzadkie w zbiorze dokumentów G i g d i i d i -liczba dokumentów, w których pojawia się wyrażenie i 96

47 Wagi wyrażenia (G i ) IDF, tzw. odwrotna częstość, podkreśla wyrażenia występujące tylko w kilku dokumentach n log 2 1 di Normalna, podkreśla bardziej proporcję ilości pojawień wyrażenia w zbiorze dokumentów, niż samą liczbę wystąpień 1 Pusta, wszystkie wagi mają wartość 1 G i G i G i 1 j f 2 ij 97

48 Wagi związane z kategoriami dokumentów Statystyka chi-kwadrat, mierzy zależność między występowaniem wyrażenia w dokumencie, a przynależnością dokumentu do danej kategorii MI (Mutual Information), mierzy jak ściśle rozkład dokumentów zawierających wyrażenie pasuje do podziału na kategorie G i max k log P( x i, k) P( xi ) P( k) IG (Information Gain), wskazuje jak dobrze dane wyrażenie lub jego brak przewiduje kategorię dokumentów k log P k P i P k i log P k i P i P k i log P k i Gi P k k k 98

49 Wagi związane z kategoriami dokumentów aby łatwo wyłonić dokumenty zawierające wyrażenie występujące rzadko, stosuje się Entropię oraz GF-IDF gdy dostępna jest informacja o kategoriach dokumentów, dobre wyniki ważenia daje statystyka chi-kwadrat 99

50 Funkcje ważące przykład ważenia 100

51 Część 2 SAS Text Miner 1) Krótka charakterystyka narzędzia 2) Etapy procesu text mining 1. Wstępna analiza tekstu 2. Parsowanie - rozbiór struktury tekstu a) dekompozycja danych tekstowych b) ilościowa reprezentacja zbioru dokumentów 3. Transformacja i redukcja wymiarów a) transformacja reprezentacji ilościowej tekstu b) redukcja wymiarów do zwartego formatu informacyjnego 4. Analiza 3) Komponenty 4) Makro % tmfilter

52 Celowość redukcji wymiarów Modelowanie i obliczenia wykonywane na wielowymiarowych przestrzeniach słów są bardzo kosztowne i trudne do przeprowadzenia Duża ilość wymiarów oznacza rozrzedzone dane wejściowe dziesiątki tysięcy wyodrębnionych słów niewielki procent istotnych słów (prawo Zipfa) Redukcja wymiarów macierzy zwiększa efektywność analizy 102

53 Redukcja wymiarów: Dekompozycja SVD Singular Value Decomposition Metoda ta generuje k wymiarów, które najlepiej przybliżają macierz częstości parametr k określany jest przez użytkownika mała wartość k (2-50) jest przydatna w dalszej klasteryzacji duża wartość k (30-200) jest przydatna w dalszej predykcji lub klasyfikacji 103

54 Redukcja wymiarów: Dekompozycja SVD Zastosowanie dekompozycji SVD pozwala na redukcję wymiaru macierzy częstości bez utraty informacji Szczególnie ważna, gdy dokumenty są długie i jest w nich wiele homonimów Homonimy wyrazy wieloznaczne, mają tę samą postać, ale różne znaczenie np. zamek/zamek, granat/granat, itp. 104

55 Przebieg dekompozycji SVD - przykład

56 Przykład dekompozycji SVD Document 1: deposit the cash and check in the bank Document 2: the river boat is on the bank Document 3: borrow based on credit Document 4: river boat floats up the river Document 5: boat is by the dock near the bank Document 6: with credit, I can borrow cash from the bank Document 7: boat floats by dock near the river bank Document 8: check the parade route to see the floats Document 9: along the parade route 106

57 Przykład dekompozycji SVD Zbiór 9 dokumentów dokumenty 1,3,6 dotyczą bankowości i pożyczek dokumenty 2,4,5,7 dotyczą brzegu rzeki dokumenty 8, 9 dotyczą trasy defilady Niektóre z dokumentów zawierają homonimy bank jako instytucja finansowa lub brzeg rzeki check jako rzeczownik w dokumencie 1 lub jako czasownik w dokumencie 8 float jako czasownik w dokumencie 4 lub jako rzeczownik w dokumencie 8 107

58 d1 d2 d3 d4 d5 d6 d7 d8 d9 Studia Podyplomowe Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS the cash check bank river boat be on borrow credit floats by dock near parade route

59 Przykład dekompozycji SVD Obserwując elementy macierzy można zauważyć, że: dokumenty 1 i 2 są do siebie bardziej podobne niż dokumenty 1 i 3, gdyż dokumenty 1 i 2 zawierają słowo bank, podczas gdy dokumenty 1 i 3 nie mają wspólnych wyrazów w rzeczywistości jednak dokumenty 1 i 2 nie są wcale ze sobą powiązane; to dokumenty 1 i 3 dotyczą tych samych zagadnień Dekompozycja SVD pozwala przezwyciężyć powyższe problemy 109

60 Rozkład macierzy Rozkład macierzy A m*n na iloczyn macierzy, czyli SVD: A=U S V T 110

61 Przykład dekompozycji SVD W wyniku dekompozycji SVD macierz częstości została zredukowana do 2 wymiarów Przestrzeń semantyczna staje się 2-wymiarowa Przewidywany rozkład dokumentów można zobrazować w 2-wymiarowej przestrzeni 111

62 2-wymiarowy rozkład dokumentów 112

63 2-wymiarowy rozkład dokumentów Dokument 1 jest bliżej dokumentu 3 niż 2 (jest to zgodne z prawdą, chociaż dokumenty 1 i 3 nie zawierają takich samych słów) Dokument 5 jest ściśle powiązany z dokumentami 2,4, 7 Przewidywania umiejscawiają podobne dokumenty obok siebie, nawet jeśli zawierają one niewiele wspólnych słów 113

64 Część 2 SAS Text Miner 1) Krótka charakterystyka narzędzia 2) Etapy procesu text mining 1. Wstępna analiza tekstu 2. Parsowanie - rozbiór struktury tekstu a) dekompozycja danych tekstowych b) ilościowa reprezentacja zbioru dokumentów 3. Transformacja i redukcja wymiarów a) transformacja reprezentacji ilościowej tekstu b) redukcja wymiarów do zwartego formatu informacyjnego 4. Analiza 3) Komponenty 4) Makro % tmfilter

65 Analiza Główne cele Text Miningu, czyli opis tekstu i predykcja, są realizowane poprzez tworzenie powiązań tematycznych w zbiorze dokumentów klastrowanie klasyfikowanie prognozowanie 115

66 Metoda hierarchiczna Klastrowanie jeden klaster może zawierać inny brak innych rodzajów nałożeń klastrów 116

67 Klastrowanie Metoda EM (Expectation Maximization) oblicza prawdopodobieństwa przynależności do skupień przy założeniu jednego lub wielu rozkładów prawdopodobieństwa dozwolona różna wielkość i kształt klastrów 117

68 Klastrowanie Przykłady Automatyczne streszczenie zbioru dokumentów Automatyczne generowanie słów kluczowych Odkrycie głównych tematów i kluczowych koncepcji wewnątrz zbioru dokumentów Marketing: wykrycie różniących się potrzebami grup klientów na podstawie ankiet klientów, a następnie opracowanie kampanii marketingowych kierowanych do poszczególnych grup docelowych Ubezpieczenia: identyfikacja grup posiadaczy komunikacyjnych polis OC i AC obarczonych ryzykiem wystąpienia wysokich kosztów roszczeń na podstawie opisów roszczeń ubezpieczeniowych 118

69 Klasyfikowanie Polega na sortowaniu dokumentów wg wcześniej zdefiniowanych kategorii Wymaga zbioru treningowego Opiera się na wnioskowaniu pamięciowym sieciach neuronowych drzewach decyzyjnych Zastosowanie automatyczne przekierowywanie i filtrowanie spamu dobieranie pracowników na stanowiska 119

70 Prognozowanie Polega na ogólnym nieautomatycznym wnioskowaniu na podstawie wykrytych konceptów, wzorców i powiązań tematycznych w zbiorze dokumentów Przykłady przewidywanie wystąpienia problemu na podstawie zapisów rozmów z call center prognozowanie kosztów usługi, bazujące na tekstowym opisie problemu przewidywanie poziomu satysfakcji klientów na podstawie ich komentarzy i opinii prognozowanie wahań cen akcji na podstawie wiadomości prasowych i ogłoszeń biznesowych 120

71 Część 2 SAS Text Miner 1) Krótka charakterystyka narzędzia 2) Etapy procesu text mining 3) Komponenty 4) Makro % tmfilter

72 Część 2 SAS Text Miner 1. Krótka charakterystyka narzędzia 2. Etapy procesu text mining 3. Komponenty Text Parsing Text Filter Text Topic Text Cluster Text Rule Builder Text Import 4. Makro % tmfilter

73 Text Parsing 123

74 Ustawienia Text Parsing Język: ENGLISH / POLISH Zidentyfikuj wyrażenia to samo słowo jako różne części mowy grupy rzeczowników szukanie wielowyrazowych wyrażeń złożonych z rzeczowników, np. stopa procentowa (interest rate), burzowa pogoda (inclement weather) itp. jednostki specjalne - nazwiska, adresy, firmy, kwoty w walutach itp. 124

75 Ustawienia Text Parsing Ignoruj części mowy Ignoruj jednostki specjalne Ignoruj typy atrybutów interpunkcja liczby 125

76 Ustawienia Text Parsing Dostępne części mowy: Det rodzajnik (a, an), zaimek wskazujący (this, that ) Conj spójnik Aux czasownik posiłkowy Prep przyimek Pron zaimek Part bezokolicznik, partykuła przecząca (not, ain t), zaimki dzierżawcze (my, your, her, his ) Interj wykrzyknik Noun rzeczownik Verb czasownik Prop nazwa własna (proper noun) Adj przymiotnik Adv przysłówek Abbr skrót Num liczby (pisane słownie) 126

77 Ustawienia Text Parsing Synonimy Wyrazy mające wspólną podstawę fleksyjną sprowadź do formy rdzenia (stem terms) Lista synonimów SASHELP.ENGSYNMS (angielski) 127

78 Ustawienia Text Parsing Listy słów włączonych do/wyłączonych z analizy Start lista Stop lista SASHELP.ENGSTOP (angielski) SASHELP.FRCHSTOP (francuski) SASHELP.GRMNSTOP (niemiecki) Liczba słów do wyświetlenia 128

79 Część 2 SAS Text Miner 1. Krótka charakterystyka narzędzia 2. Etapy procesu text mining 3. Komponenty Text Parsing Text Filter Text Topic Text Cluster Text Rule Builder Text Import 4. Makro % tmfilter

80 Text Filter 130

81 Ustawienia Text Filter Wagi funkcje ważące częstości Binarna Logarytmiczna [domyślnie] Pusta funkcje ważące wyrażenia Entropia [domyślnie] GF-IDF IDF Normalna Pusta Chi-kwadrat MI IG 131

82 Interactive Filter Viewer 132

83 Concept Linking 133

84 Część 2 SAS Text Miner 1. Krótka charakterystyka narzędzia 2. Etapy procesu text mining 3. Komponenty Text Parsing Text Filter Text Topic Text Cluster Text Rule Builder Text Import 4. Makro % tmfilter

85 Text Topic 135

86 Ustawienia Text Topic Tematy użytkownika Liczba tematów jednowyrazowych Liczba tematów wielowyrazowych Tematy skorelowane 136

87 Część 2 SAS Text Miner 1. Krótka charakterystyka narzędzia 2. Etapy procesu text mining 3. Komponenty Text Parsing Text Filter Text Topic Text Cluster Text Rule Builder Text Import 4. Makro % tmfilter

88 Text Cluster 138

89 Ustawienia Text Cluster Dekompozycja SVD wielkość wymiaru macierzy do jakiego ma być przeskalowana dekompozycją SVD maksymalna liczba wymiarów (>1) 139

90 Ustawienia Text Cluster Liczba klastrów: dokładna lub maksymalna Wybierz algorytm klastrowania metoda hierarchiczna metoda EM (Expectation Maximization) Obserwacje nietypowe hierarchiczna: outliers nie są brane pod uwagę EM: tworzone są osobne jednoelementowe klastry Wybierz liczbę terminów opisujących klaster 140

91 Część 2 SAS Text Miner 1. Krótka charakterystyka narzędzia 2. Etapy procesu text mining 3. Komponenty Text Parsing Text Filter Text Topic Text Cluster Text Rule Builder Text Import 4. Makro % tmfilter

92 Text Rule Builder 142

93 Ustawienia Text Rule Builder Błąd uogólnienia wyznacza przewidywane prawdopodobieństwo wykrycia reguł na nietrenowanym zbiorze danych (wyznaczany w celu uniknięcia przetrenowania modelu) very low low medium [domyślnie] high very high 143

94 Ustawienia Text Rule Builder Klarowność reguł wyznacza maksymalny poziom p-value niezbędny, by dodać termin do reguły (wartości - medium, high i very high - dają mniej liczne, "czystsze" reguły) very low (p<0.17) low (p<0.05) medium (p<0.005) [domyślnie] high (p<0.0005) very high (p< ) 144

95 Ustawienia Text Rule Builder Kompletność wyznacza kompletność procesu szukania reguł, czyli ile potencjalnych reguł jest branych pod uwagę w każdym kroku (wyższe wartości powodują wzrost czasu potrzebnego do pracy węzła oraz mogą powodować przetrenowanie modelu) very low low medium [domyślnie] high very high 145

96 Część 2 SAS Text Miner 1. Krótka charakterystyka narzędzia 2. Etapy procesu text mining 3. Komponenty Text Parsing Text Filter Text Topic Text Cluster Text Rule Builder Text Import 4. Makro % tmfilter

97 Text Import Importuje tekst źródłowy i konwertuje go w input do dalszej analizy tekstu (Text Import to zamiennik Data Source) 147

98 Część 2 SAS Text Miner 1) Krótka charakterystyka narzędzia 2) Etapy procesu text mining 3) Komponenty 4) Makro % tmfilter

99 Makro %tmfilter Rozbiór struktury dokumentu (text parsing) wymaga użycia tekstu zakodowanego w ASCII lub Latin1 Makro %tmfilter umożliwia: odczyt plików tekstowych różnych formatów przekonwertowanie ich w zbiór danych SAS Pozwala to na użycie zbioru danych SAS jako input w dalszej analizie tekstu 149

100 Atrybuty konfiguracji %tmfilter HOST określa nazwę hosta lub adresu IP komputera, na którym działa makro. Ustawienie domyślne: localhost DATASET DIR określa nazwę tworzonego zbioru danych. Ustawienie domyślne: WORK.DATA określa ścieżkę dostępu do katalogu zawierającego oryginalne pliki tekstowe 150

101 Atrybuty konfiguracji %tmfilter DESTDIR określa nazwę katalogu, w którym zostaną zapisane przekonwertowane pliki z DIR URL określa URL, w dowolnej formie: lub ale nie dłuższy niż 255 znaków DEPTH określa liczbę poziomów URL. Ustawienie domyślne: 2 (dana strona, wszystkie linki w niej zawarte oraz linki w tych linkach) 151

102 Atrybuty konfiguracji %tmfilter NORESTRICT określa czy przetwarzać dokument poza wskazaną domeną. Pusta wartość oznacza ograniczenie tylko do danej domeny USERNAME określa nazwę użytkownika dla domeny chronionej hasłem PASSWORD określa hasło użytkownika dla domeny chronionej hasłem 152

103 Atrybuty konfiguracji %tmfilter NUMBYTES określa liczbę bajtów z każdego pliku umieszczoną w zmiennej tekstowej TEXT. Ustawienie domyślne: 60 B Wartość maksymalna: (=32KB) LANUGAGE określa język/listę języków, które mają być rozpoznane w tekście. Dla krótkich tekstów <256 znaków rozpoznanie języka jest mniej dokładne 153

104 Output %tmfilter Utworzona przez makro baza danych SAS może zawierać: 1. pełny tekst każdego dokumentu [TEXT] zmienna tekstowa obejmuje całe teksty dokumentów 2. ścieżki dostępu do dokumentów [URI] zmienna tekstowa obejmuje jedynie fragmenty tekstów dokumentów Jeśli analizowane dokumenty są większe niż 32KB, zbiór danych powinien zawierać ścieżki dostępu do dokumentów 154

105 Zmienne generowane przez makro TEXT URI tekst z każdego dokumentu (domyślnie 60 B ustawione w NUMBYTES) ścieżka do oryginalnego pliku NAME nazwa oryginalnego pliku FILTERED ścieżka do pliku html, który powstał podczas konwertowania oryginalnego pliku do formatu html. Zmienna nie powstaje, gdy nie ma określonego folderu DESTDIR 155

106 Zmienne generowane przez makro LANGUAGE zidentyfikowany język dokumentu źródłowego TRUNCATED wskazuje, czy tekst został skrócony. Wartość 1 oznacza okrojenie tekstu OMITTED wskazuje, czy dokument został pominięty podczas próby ekstrakcji tekstu. Wartość 1 oznacza pominięcie dokumentu 156

107 Zmienne generowane przez makro CREATED data i czas utworzenia dokumentu ACCESSED data i czas ostatniego otwarcia dokumentu MODIFIED data i czas ostatniej modyfikacji dokumentu SIZE wielkość dokumentu w bajtach 157

108 Część 2 SAS Text Miner 1. Krótka charakterystyka narzędzia 2. Etapy procesu text mining 3. Komponenty 4. Makro % tmfilter Pliki tekstowe Strony WWW

109 Przykład działania makra Najprostsze makro zawiera nazwę tworzonego zbioru danych oraz ścieżkę dostępu do katalogu z oryginalnymi plikami: %tmfilter(dataset=mylib.pliki1, dir=c:\sasuser\pliki1); 159

110 Makro odczytuje folder źródłowy oraz jego podfoldery 160

111 Powstaje baza danych MYLIB.PLIKI1 Plik jest obrazkiem, dlatego nie wyłuskano z niego tekstu 161

112 Zmienne TRUNCATED i OMITTED Nie można pracować na dokumencie Dokument musiał być skrócony ( >32KB) Można pracować na dokumencie 162

113 Przykład innego makra Makro zawiera nazwę tworzonego zbioru danych, ścieżkę dostępu do katalogu z oryginalnymi plikami oraz określa liczbę bajtów w zmiennej TEXT: %tmfilter(dataset=mylib.pliki2, dir=c:\sasuser\pliki2, numbytes=32000); 163

114 Rozpoznawanie języka przez makro Makro identyfikuje język dokumentu źródłowego: %tmfilter (dataset=mylib.pliki3, dir=c:\sasuser\pliki3, language=english german dutch french swedish italian spanish portuguese); 164

115 Powstaje baza danych MYLIB.PLIKI3 165

116 Część 2 SAS Text Miner 1. Krótka charakterystyka narzędzia 2. Etapy procesu text mining 3. Komponenty 4. Makro % tmfilter Pliki tekstowe Strony WWW

117 Odczytanie danych ze stron WWW Makro %tmfilter używane do odczytania danych ze stron WWW powinno określać wartości atrybutów URL, DESTDIR, DATASET i DIR Jeśli adres internetowy zawiera ampersandę &, wówczas należy zastosować funkcję %NRSTR() podczas specyfikacji adresu URL 167

118 Przykład działania makra Najprostsze makro określa adres URL, liczbę poziomów DEPTH oraz nazwę katalogu DESTDIR, do którego zostaną zapisane przekonwertowane pliki z DIR: %tmfilter(url= depth=1, destdir=c:\sasuser\destdir, dataset=mylib.plikihtml, dir=c:\sasuser\dir); 168

119 Powstaje baza danych MYLIB.PLIKIHTML 169

Studia Podyplomowe Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS Analiza danych nieustrukturyzowanych: Text Mining

Studia Podyplomowe Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS Analiza danych nieustrukturyzowanych: Text Mining Analiza danych nieustrukturyzowanych: Text Mining Wydział Nauk Ekonomicznych Uniwersytet Warszawski Część 2 SAS Text Miner 1) Krótka charakterystyka narzędzia 2) Etapy procesu text mining 3) Komponenty

Bardziej szczegółowo

Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl

Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Aby skorzystać z możliwości RapidMinera w zakresie analizy tekstu, należy zainstalować Text Mining Extension. Wybierz: 1 Po

Bardziej szczegółowo

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu

Bardziej szczegółowo

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym

Bardziej szczegółowo

SPOTKANIE 2: Wprowadzenie cz. I

SPOTKANIE 2: Wprowadzenie cz. I Wrocław University of Technology SPOTKANIE 2: Wprowadzenie cz. I Piotr Klukowski Studenckie Koło Naukowe Estymator piotr.klukowski@pwr.edu.pl 17.10.2016 UCZENIE MASZYNOWE 2/27 UCZENIE MASZYNOWE = Konstruowanie

Bardziej szczegółowo

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Informatyki i Elektroniki Instrukcja do zajęć laboratoryjnych wersja: 1.0 Nr ćwiczenia: 12, 13 Temat: Cel ćwiczenia: Wymagane przygotowanie

Bardziej szczegółowo

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006 SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu

Bardziej szczegółowo

Analiza danych tekstowych i języka naturalnego

Analiza danych tekstowych i języka naturalnego Kod szkolenia: Tytuł szkolenia: ANA/TXT Analiza danych tekstowych i języka naturalnego Dni: 3 Opis: Adresaci szkolenia Dane tekstowe stanowią co najmniej 70% wszystkich danych generowanych w systemach

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania kolokacji Narzędzia do automatycznego wydobywania kolokacji Jan Kocoń, Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej marek.maziarz@pwr.edu.pl

Bardziej szczegółowo

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H W O J S K O W A A K A D E M I A T E C H N I C Z N A W Y D Z I A Ł E L E K T R O N I K I Drukować dwustronnie P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H Grupa... Data wykonania

Bardziej szczegółowo

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe. Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe. zajecia.jakubw.pl/nai Literatura: S. Osowski, Sieci neuronowe w ujęciu algorytmicznym. WNT, Warszawa 997. PODSTAWOWE ZAGADNIENIA TECHNICZNE AI

Bardziej szczegółowo

AUTOMATYKA INFORMATYKA

AUTOMATYKA INFORMATYKA AUTOMATYKA INFORMATYKA Technologie Informacyjne Sieć Semantyczna Przetwarzanie Języka Naturalnego Internet Edytor Serii: Zdzisław Kowalczuk Inteligentne wydobywanie informacji z internetowych serwisów

Bardziej szczegółowo

Semantyczne podobieństwo stron internetowych

Semantyczne podobieństwo stron internetowych Uniwersytet Mikołaja Kopernika Wydział Matematyki i Informatyki Marcin Lamparski Nr albumu: 184198 Praca magisterska na kierunku Informatyka Semantyczne podobieństwo stron internetowych Praca wykonana

Bardziej szczegółowo

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2 Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2 ws.clarin-pl.eu/websty.shtml Tomasz Walkowiak, Maciej Piasecki Politechnika Wrocławska Grupa Naukowa G4.19 Katedra Inteligencji Obliczeniowej

Bardziej szczegółowo

Spis treści. 1: Wyszukiwanie elementu : Do linii modelu : Powiel arkusze : Długość kabla : Rozmieszczenie widoków...

Spis treści. 1: Wyszukiwanie elementu : Do linii modelu : Powiel arkusze : Długość kabla : Rozmieszczenie widoków... Co nowego 2018 R2 Spis treści NOWOŚCI... 5 1: Wyszukiwanie elementu... 5 2: Do linii modelu... 6 3: Powiel arkusze... 7 4: Długość kabla... 8 5: Rzędne poziomów... 9 ULEPSZENIA... 10 1: Połączenie z Excel...

Bardziej szczegółowo

Instrukcja konfiguracji funkcji skanowania

Instrukcja konfiguracji funkcji skanowania Instrukcja konfiguracji funkcji skanowania WorkCentre M123/M128 WorkCentre Pro 123/128 701P42171_PL 2004. Wszystkie prawa zastrzeżone. Rozpowszechnianie bez zezwolenia przedstawionych materiałów i informacji

Bardziej szczegółowo

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania

Bardziej szczegółowo

Część 2: Data Mining

Część 2: Data Mining Łukasz Przywarty 171018 Wrocław, 18.01.2013 r. Grupa: CZW/N 10:00-13:00 Raport z zajęć laboratoryjnych w ramach przedmiotu Hurtownie i eksploracja danych Część 2: Data Mining Prowadzący: dr inż. Henryk

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia

Bardziej szczegółowo

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie SZKOLENIA SAS ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie DANIEL KUBIK ŁUKASZ LESZEWSKI ROLE ROLE UŻYTKOWNIKÓW MODUŁU

Bardziej szczegółowo

Szkolenia SAS Cennik i kalendarz 2017

Szkolenia SAS Cennik i kalendarz 2017 Szkolenia SAS Spis treści NARZĘDZIA SAS FOUNDATION 2 ZAAWANSOWANA ANALITYKA 2 PROGNOZOWANIE I EKONOMETRIA 3 ANALIZA TREŚCI 3 OPTYMALIZACJA I SYMULACJA 3 3 ROZWIĄZANIA DLA HADOOP 3 HIGH-PERFORMANCE ANALYTICS

Bardziej szczegółowo

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1 Grupowanie Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Grupowanie wykład 1 Sformułowanie problemu Dany jest zbiór obiektów (rekordów). Znajdź naturalne pogrupowanie

Bardziej szczegółowo

Zapisuje dokument a jednocześnie umożliwia jego konwertowanie. Po naciśnięciu pojawia się okno zapisywania:

Zapisuje dokument a jednocześnie umożliwia jego konwertowanie. Po naciśnięciu pojawia się okno zapisywania: - 1 - PLIK Aby uruchomić menu programu należy Wskazać myszką podmenu Plik a następnie nacisnąć lewy przycisk myszki lub Wcisnąć klawisz (wejście do menu), następnie klawiszami kursorowymi (w prawo

Bardziej szczegółowo

Wprowadzenie do SAS. Wprowadzenie. Historia SAS. Struktura SAS 8. Interfejs: SAS Explorer. Interfejs. Część I: Łagodny wstęp do SAS Rafał Latkowski

Wprowadzenie do SAS. Wprowadzenie. Historia SAS. Struktura SAS 8. Interfejs: SAS Explorer. Interfejs. Część I: Łagodny wstęp do SAS Rafał Latkowski Wprowadzenie do SAS Część I: Łagodny wstęp do SAS Rafał Latkowski Wprowadzenie 2 Historia SAS Struktura SAS 8 1976 BASE SAS 1980 SAS/GRAPH & SAS/ETS 1985 SAS/IML, BASE SAS for PC Raportowanie i grafika

Bardziej szczegółowo

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych - Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 14 listopada 2011 roku 1 - - 2 3 4 5 - The purpose of computing is insight, not numbers Richard Hamming Motywacja - Mamy informację,

Bardziej szczegółowo

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Wyszukiwanie informacji w internecie. Nguyen Hung Son Wyszukiwanie informacji w internecie Nguyen Hung Son Jak znaleźć informację w internecie? Wyszukiwarki internetowe: Potężne machiny wykorzystujące najnowsze metody z różnych dziedzin Architektura: trzy

Bardziej szczegółowo

Anna Osiewalska Biblioteka Główna Uniwersytetu Ekonomicznego w Krakowie

Anna Osiewalska Biblioteka Główna Uniwersytetu Ekonomicznego w Krakowie Anna Osiewalska Biblioteka Główna Uniwersytetu Ekonomicznego w Krakowie Bibliografie czasopism naukowych Biblioteki Głównej UEK jako źródło danych dla analiz bibliometrycznych Streszczenie Przedstawiono

Bardziej szczegółowo

Analiza składowych głównych

Analiza składowych głównych Analiza składowych głównych Wprowadzenie (1) W przypadku regresji naszym celem jest predykcja wartości zmiennej wyjściowej za pomocą zmiennych wejściowych, wykrycie związku między wielkościami wejściowymi

Bardziej szczegółowo

Lokalizacja Oprogramowania

Lokalizacja Oprogramowania mgr inż. Anton Smoliński anton.smolinski@zut.edu.pl Lokalizacja Oprogramowania 16/12/2016 Wykład 6 Internacjonalizacja, Testowanie, Tłumaczenie Maszynowe Agenda Internacjonalizacja Testowanie lokalizacji

Bardziej szczegółowo

Wyszukiwanie dokumentów/informacji

Wyszukiwanie dokumentów/informacji Wyszukiwanie dokumentów/informacji Wyszukiwanie dokumentów (ang. document retrieval, text retrieval) polega na poszukiwaniu dokumentów tekstowych z pewnego zbioru, które pasują do zapytania. Wyszukiwanie

Bardziej szczegółowo

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor S O M SELF-ORGANIZING MAPS Przemysław Szczepańczyk Łukasz Myszor Podstawy teoretyczne Map Samoorganizujących się stworzył prof. Teuvo Kohonen (1982 r.). SOM wywodzi się ze sztucznych sieci neuronowych.

Bardziej szczegółowo

CLUSTERING. Metody grupowania danych

CLUSTERING. Metody grupowania danych CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means

Bardziej szczegółowo

2

2 1 2 3 4 5 Dużo pisze się i słyszy o projektach wdrożeń systemów zarządzania wiedzą, które nie przyniosły oczekiwanych rezultatów, bo mało kto korzystał z tych systemów. Technologia nie jest bowiem lekarstwem

Bardziej szczegółowo

Co to jest grupowanie

Co to jest grupowanie Grupowanie danych Co to jest grupowanie 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Szukanie grup, obszarów stanowiących lokalne gromady punktów Co to jest grupowanie

Bardziej szczegółowo

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów

Bardziej szczegółowo

PRAKTYCZNE WYKORZYSTANIE KATEGORYZACJI TREŚCI

PRAKTYCZNE WYKORZYSTANIE KATEGORYZACJI TREŚCI PRAKTYCZNE WYKORZYSTANIE KATEGORYZACJI TREŚCI JAKO INNOWACYJNE WSPARCIE HURTOWNI DANYCH W CENTRUM ONKOLOGII-INSTYTUT IM. MARII SKŁODOWSKIEJ-CURIE. Rafał Wojdan AGENDA Dlaczego kategoryzacja treści w Centrum

Bardziej szczegółowo

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład Data Mining Wykład 5 Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny Indeks Gini Popularnym kryterium podziału, stosowanym w wielu produktach komercyjnych, jest indeks Gini Algorytm SPRINT

Bardziej szczegółowo

KRYTERIA OCENIANIA Z JĘZYKA ANGIELSKIEGO W KLASACH I-III GIMNAZJUM

KRYTERIA OCENIANIA Z JĘZYKA ANGIELSKIEGO W KLASACH I-III GIMNAZJUM KRYTERIA OCENIANIA Z JĘZYKA ANGIELSKIEGO W KLASACH I-III GIMNAZJUM Zgodnie z własnym Programem nauczania w Gimnazjum Specjalnym Nr 100 w Warszawie dla uczniów z upośledzeniem umysłowym w stopniu lekkim

Bardziej szczegółowo

System Korekty Tekstu Polskiego

System Korekty Tekstu Polskiego Wnioski Grzegorz Szuba System Korekty Tekstu Polskiego Plan prezentacji Geneza problemu i cele pracy Opis algorytmu bezkontekstowego Opis algorytmów kontekstowych Wyniki testów Rozszerzenie pracy - uproszczona

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania kolokacji Narzędzia do automatycznego wydobywania kolokacji Jan Kocoń, Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej marek.maziarz@pwr.edu.pl

Bardziej szczegółowo

Przetwarzanie i analiza danych w języku Python / Marek Gągolewski, Maciej Bartoszuk, Anna Cena. Warszawa, Spis treści

Przetwarzanie i analiza danych w języku Python / Marek Gągolewski, Maciej Bartoszuk, Anna Cena. Warszawa, Spis treści Przetwarzanie i analiza danych w języku Python / Marek Gągolewski, Maciej Bartoszuk, Anna Cena. Warszawa, 2016 Spis treści Przedmowa XI I Podstawy języka Python 1. Wprowadzenie 3 1.1. Język i środowisko

Bardziej szczegółowo

Spis treści. 1 Moduł RFID (APA) 3

Spis treści. 1 Moduł RFID (APA) 3 Spis treści 1 Moduł RFID (APA) 3 1.1 Konfigurowanie Modułu RFID..................... 3 1.1.1 Lista elementów Modułu RFID................. 3 1.1.2 Konfiguracja Modułu RFID (APA)............... 4 1.1.2.1

Bardziej szczegółowo

O czym w Sejmie piszczy? Analiza tekstowa przemówień poselskich

O czym w Sejmie piszczy? Analiza tekstowa przemówień poselskich O czym w Sejmie piszczy? Analiza tekstowa przemówień poselskich mgr Aleksander Nosarzewski Szkoła Główna Handlowa w Warszawie pod kierunkiem naukowym dr hab. Bogumiła Kamińskiego, prof. SGH Problem Potrzeba

Bardziej szczegółowo

1. Opis. 2. Wymagania sprzętowe:

1. Opis. 2. Wymagania sprzętowe: 1. Opis Aplikacja ARSOFT-WZ2 umożliwia konfigurację, wizualizację i rejestrację danych pomiarowych urządzeń produkcji APAR wyposażonych w interfejs komunikacyjny RS232/485 oraz protokół MODBUS-RTU. Aktualny

Bardziej szczegółowo

POZYCJONOWANIE STRONY SKLEPU

POZYCJONOWANIE STRONY SKLEPU . Wszystko O Pozycjonowaniu I Marketingu. >>>POZYCJONOWANIE STRON LEGNICA POZYCJONOWANIE STRONY SKLEPU >>>WIĘCEJ

Bardziej szczegółowo

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel według przewidywań internetowego magazynu ZDNET News z 8 lutego 2001 roku eksploracja danych (ang. data mining ) będzie jednym z najbardziej rewolucyjnych osiągnięć następnej dekady. Rzeczywiście MIT Technology

Bardziej szczegółowo

Rozdział ten zawiera informacje na temat zarządzania Modułem Modbus TCP oraz jego konfiguracji.

Rozdział ten zawiera informacje na temat zarządzania Modułem Modbus TCP oraz jego konfiguracji. 1 Moduł Modbus TCP Moduł Modbus TCP daje użytkownikowi Systemu Vision możliwość zapisu oraz odczytu rejestrów urządzeń, które obsługują protokół Modbus TCP. Zapewnia on odwzorowanie rejestrów urządzeń

Bardziej szczegółowo

System imed24 Instrukcja Moduł Analizy i raporty

System imed24 Instrukcja Moduł Analizy i raporty System imed24 Instrukcja Moduł Analizy i raporty Instrukcja obowiązująca do wersji 1.8.0 Spis treści 1. Moduł Analizy i Raporty... 3 1.1. Okno główne modułu Analizy i raporty... 3 1.1.1. Lista szablonów

Bardziej szczegółowo

Full Text Search. Study Group Tomasz Libera

Full Text Search. Study Group Tomasz Libera Full Text Search Study Group 70-461 Tomasz Libera BIO SQL Server Developer Członek Zarządu Stowarzyszenia PLSSUG Założyciel i lider krakowskiego oddziału Organizator i prelegent konferencji SQLDay, SQL

Bardziej szczegółowo

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32 Analiza i projektowanie oprogramowania Analiza i projektowanie oprogramowania 1/32 Analiza i projektowanie oprogramowania 2/32 Cel analizy Celem fazy określania wymagań jest udzielenie odpowiedzi na pytanie:

Bardziej szczegółowo

Szkoła Podstawowa Nr 45 z Oddziałami Integracyjnymi im. Jana Pawła II w Białymstoku Przedmiotowy system oceniania JĘZYK ANGIELSKI

Szkoła Podstawowa Nr 45 z Oddziałami Integracyjnymi im. Jana Pawła II w Białymstoku Przedmiotowy system oceniania JĘZYK ANGIELSKI Szkoła Podstawowa Nr 45 z Oddziałami Integracyjnymi im. Jana Pawła II w Białymstoku Przedmiotowy system oceniania JĘZYK ANGIELSKI Normy wymagań na oceny w klasie IV Ocena dopuszczająca W zakresie gramatyki

Bardziej szczegółowo

Autor: dr inż. Katarzyna Rudnik

Autor: dr inż. Katarzyna Rudnik Bazy danych Wykład 2 MS Access Obiekty programu, Reprezentacja danych w tabeli, Indeksy, Relacje i ich sprzężenia Autor: dr inż. Katarzyna Rudnik Obiekty programu MS ACCESS Obiekty typu Tabela są podstawowe

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Instrukcja obsługi DHL KONWERTER 1.6

Instrukcja obsługi DHL KONWERTER 1.6 Instrukcja obsługi DHL KONWERTER 1.6 Opis: Niniejsza instrukcja opisuje wymogi użytkowania aplikacji oraz zawiera informacje na temat jej obsługi. DHL Konwerter powstał w celu ułatwienia oraz usprawnienia

Bardziej szczegółowo

Zadania. Przygotowanie zbiorów danych. 1. Sposób 1: 2. Sposób 2:

Zadania. Przygotowanie zbiorów danych. 1. Sposób 1: 2. Sposób 2: Wstęp Jednym z typowych zastosowań metod sztucznej inteligencji i uczenia maszynowego jest przetwarzanie języka naturalnego (ang. Natural Language Processing, NLP), której typowych przykładem jest analiza

Bardziej szczegółowo

Na komputerach z systemem Windows XP zdarzenia są rejestrowane w trzech następujących dziennikach: Dziennik aplikacji

Na komputerach z systemem Windows XP zdarzenia są rejestrowane w trzech następujących dziennikach: Dziennik aplikacji Podgląd zdarzeń W systemie Windows XP zdarzenie to każde istotne wystąpienie w systemie lub programie, które wymaga powiadomienia użytkownika lub dodania wpisu do dziennika. Usługa Dziennik zdarzeń rejestruje

Bardziej szczegółowo

Specjalnościowy Obowiązkowy Polski Semestr VI

Specjalnościowy Obowiązkowy Polski Semestr VI KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu Nazwa modułu Nazwa modułu w języku angieskim Obowiązuje od roku akademickiego 0/06 Z-ID-608a Anaiza danych niestrukturanych Unstructured Data Anaysis A. USYTUOWANIE

Bardziej szczegółowo

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny

Bardziej szczegółowo

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015 Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner rok akademicki 2014/2015 Sieci Kohonena Sieci Kohonena Sieci Kohonena zostały wprowadzone w 1982 przez fińskiego

Bardziej szczegółowo

Perl a XML. Narzędzia informatyczne w językoznawstwie. Generowanie danych XML - Przykład. Generowanie danych XML. Perl - Przetwarzanie XML

Perl a XML. Narzędzia informatyczne w językoznawstwie. Generowanie danych XML - Przykład. Generowanie danych XML. Perl - Przetwarzanie XML Perl a XML Narzędzia informatyczne w językoznawstwie Perl - Przetwarzanie XML Marcin Junczys-Dowmunt junczys@amu.edu.pl Zakład Logiki Stosowanej http://www.logic.amu.edu.pl 31 modułów w CPAN zawiera w

Bardziej szczegółowo

Słowem wstępu. Część rodziny języków XSL. Standard: W3C XSLT razem XPath 1.0 XSLT Trwają prace nad XSLT 3.0

Słowem wstępu. Część rodziny języków XSL. Standard: W3C XSLT razem XPath 1.0 XSLT Trwają prace nad XSLT 3.0 Słowem wstępu Część rodziny języków XSL Standard: W3C XSLT 1.0-1999 razem XPath 1.0 XSLT 2.0-2007 Trwają prace nad XSLT 3.0 Problem Zakładane przez XML usunięcie danych dotyczących prezentacji pociąga

Bardziej szczegółowo

Wyszukiwanie tekstów

Wyszukiwanie tekstów Wyszukiwanie tekstów Dziedzina zastosowań Elektroniczne encyklopedie Wyszukiwanie aktów prawnych i patentów Automatyzacja bibliotek Szukanie informacji w Internecie Elektroniczne teksy Ksiązki e-book Artykuły

Bardziej szczegółowo

Customer Attribution Models. czyli o wykorzystaniu machine learning w domu mediowym.

Customer Attribution Models. czyli o wykorzystaniu machine learning w domu mediowym. Customer Attribution Models czyli o wykorzystaniu machine learning w domu mediowym. Proces decyzyjny MAILING SEO SEM DISPLAY RETARGETING PRZEGRANI??? ZWYCIĘZCA!!! Modelowanie atrybucja > Słowo klucz: wpływ

Bardziej szczegółowo

Analiza danych i data mining.

Analiza danych i data mining. Analiza danych i data mining. mgr Katarzyna Racka Wykładowca WNEI PWSZ w Płocku Przedsiębiorczy student 2016 15 XI 2016 r. Cel warsztatu Przekazanie wiedzy na temat: analizy i zarządzania danymi (data

Bardziej szczegółowo

Widzenie komputerowe (computer vision)

Widzenie komputerowe (computer vision) Widzenie komputerowe (computer vision) dr inż. Marcin Wilczewski 2018/2019 Organizacja zajęć Tematyka wykładu Cele Python jako narzędzie uczenia maszynowego i widzenia komputerowego. Binaryzacja i segmentacja

Bardziej szczegółowo

Systemy Wspomagania Decyzji

Systemy Wspomagania Decyzji Rodzaje danych oraz ich przetwarzanie Szkoła Główna Służby Pożarniczej Zakład Informatyki i Łączności January 29, 2014 1 Dane tabelaryczne 2 Dane tekstowe 3 Dane sensoryczne 4 Dane multimedialne 5 Podsumowanie

Bardziej szczegółowo

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące

Bardziej szczegółowo

Zasady Nazewnictwa. Dokumentów XML 2007-11-08. Strona 1 z 9

Zasady Nazewnictwa. Dokumentów XML 2007-11-08. Strona 1 z 9 Zasady Nazewnictwa Dokumentów 2007-11-08 Strona 1 z 9 Spis treści I. Wstęp... 3 II. Znaczenie spójnych zasady nazewnictwa... 3 III. Zasady nazewnictwa wybrane zagadnienia... 3 1. Język oraz forma nazewnictwa...

Bardziej szczegółowo

Wprowadzenie do badań operacyjnych - wykład 2 i 3

Wprowadzenie do badań operacyjnych - wykład 2 i 3 Wprowadzenie do badań operacyjnych - wykład 2 i 3 Hanna Furmańczyk 14 listopada 2008 Programowanie liniowe (PL) - wszystkie ograniczenia muszą być liniowe - wszystkie zmienne muszą być ciągłe n j=1 c j

Bardziej szczegółowo

Analiza składowych głównych. Wprowadzenie

Analiza składowych głównych. Wprowadzenie Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących

Bardziej szczegółowo

INSTALACJA OPROGRAMOWANIA

INSTALACJA OPROGRAMOWANIA INSTALACJA OPROGRAMOWANIA Na stronie www.maptaq.pl w zakładce Do pobrania znajdziecie Państwo dodatki do wszystkich urzadzeń oferowanych przez MAPTAQ Polska. 1. Należy pobrać programowanie GPS MASTER w

Bardziej szczegółowo

Technologie Informacyjne

Technologie Informacyjne Przygotowanie danych Szkoła Główna Służby Pożarniczej Zakład Informatyki i Łączności December 5, 2016 1 Dane tabelaryczne 2 Dane tekstowe 3 Dane sensoryczne 4 Dane multimedialne Dane tabelaryczne ID data

Bardziej szczegółowo

Zmienne zależne i niezależne

Zmienne zależne i niezależne Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }

Bardziej szczegółowo

Informatyka wspomaga przedmioty ścisłe w szkole

Informatyka wspomaga przedmioty ścisłe w szkole Informatyka wspomaga przedmioty ścisłe w szkole Prezentuje : Dorota Roman - Jurdzińska W arkuszu I na obu poziomach występują dwa zadania związane z algorytmiką: Arkusz I bez komputera analiza algorytmów,

Bardziej szczegółowo

ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 5.0

ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 5.0 ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 5.0 Przeznaczenie Sylabusa Dokument ten zawiera szczegółowy Sylabus dla modułu ECDL/ICDL Użytkowanie baz danych. Sylabus opisuje zakres wiedzy

Bardziej szczegółowo

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE UNIWERSYTET WARMIŃSKO-MAZURSKI W OLSZTYNIE PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE http://matman.uwm.edu.pl/psi e-mail: psi@matman.uwm.edu.pl ul. Słoneczna 54 10-561

Bardziej szczegółowo

Elementy statystyki wielowymiarowej

Elementy statystyki wielowymiarowej Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych

Bardziej szczegółowo

Przepływy danych. Oracle Designer: Modelowanie przepływów danych. Diagramy przepływów danych (1) Diagramy przepływów danych (2)

Przepływy danych. Oracle Designer: Modelowanie przepływów danych. Diagramy przepływów danych (1) Diagramy przepływów danych (2) Przepływy danych Oracle Designer: Modelowanie przepływów danych Cele: zobrazowanie funkcji zachodzących w organizacji, identyfikacja szczegółowych informacji, przetwarzanych przez funkcje, pokazanie wymiany

Bardziej szczegółowo

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74 3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Eksploracja danych Algorytmy klastujące Problem 3 Mając daną chmurę punktów chcielibyśmy zrozumieć ich

Bardziej szczegółowo

Silent setup SAS Enterprise Guide (v 3.x)

Silent setup SAS Enterprise Guide (v 3.x) SAS Institute TECHNICAL SUPPORT Silent setup SAS Enterprise Guide (v 3.x) Silent Setup ( cicha instalacja oprogramowania) pozwala na instalację Enterprise Guide (lub całości oprogramowania SAS) na wielu

Bardziej szczegółowo

DMX DMX DMX DMX: CREATE MINING STRUCTURE. Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski

DMX DMX DMX DMX: CREATE MINING STRUCTURE. Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski DMX DMX DMX Data Mining Extensions jest językiem do tworzenia i działania na modelach eksploracji danych w Microsoft SQL Server Analysis Services SSAS. Za pomocą DMX można tworzyć strukturę nowych modeli

Bardziej szczegółowo

Pojęcie systemu informacyjnego i informatycznego

Pojęcie systemu informacyjnego i informatycznego BAZY DANYCH Pojęcie systemu informacyjnego i informatycznego DANE wszelkie liczby, fakty, pojęcia zarejestrowane w celu uzyskania wiedzy o realnym świecie. INFORMACJA - znaczenie przypisywane danym. SYSTEM

Bardziej szczegółowo

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra

Bardziej szczegółowo

Joyce Cox Joan Lambert. Microsoft Access. 2013 Krok po kroku. Przekład: Jakub Niedźwiedź

Joyce Cox Joan Lambert. Microsoft Access. 2013 Krok po kroku. Przekład: Jakub Niedźwiedź Joyce Cox Joan Lambert Microsoft Access 2013 Krok po kroku Przekład: Jakub Niedźwiedź APN Promise, Warszawa 2013 Spis treści Wprowadzenie................................................................vii

Bardziej szczegółowo

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych AUTOMATYKA INFORMATYKA Technologie Informacyjne Sieć Semantyczna Przetwarzanie Języka Naturalnego Internet Edytor Serii: Zdzisław

Bardziej szczegółowo

Transformacja współrzędnych geodezyjnych mapy w programie GEOPLAN

Transformacja współrzędnych geodezyjnych mapy w programie GEOPLAN Transformacja współrzędnych geodezyjnych mapy w programie GEOPLAN Program GEOPLAN umożliwia zmianę układu współrzędnych geodezyjnych mapy. Można tego dokonać przy udziale oprogramowania przeliczającego

Bardziej szczegółowo

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Wrocław University of Technology SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Jakub M. Tomczak Studenckie Koło Naukowe Estymator jakub.tomczak@pwr.wroc.pl 4.1.213 Klasteryzacja Zmienne

Bardziej szczegółowo

Xpress Sp. z o.o. jako wieloletni Premium Partner firmy Xerox ma w swojej ofercie rozwiązanie

Xpress Sp. z o.o. jako wieloletni Premium Partner firmy Xerox ma w swojej ofercie rozwiązanie Xpress Sp. z o.o. jako wieloletni Premium Partner firmy Xerox ma w swojej ofercie rozwiązanie XPRESS SCAN, które pozwala użytkownikom bezpośrednio z urządzenia Xerox przez panel dotykowy zrealizować odpowiedni

Bardziej szczegółowo

Język UML w modelowaniu systemów informatycznych

Język UML w modelowaniu systemów informatycznych Język UML w modelowaniu systemów informatycznych dr hab. Bożena Woźna-Szcześniak Akademia im. Jan Długosza bwozna@gmail.com Wykład 10 Diagramy wdrożenia I Diagramy wdrożenia - stosowane do modelowania

Bardziej szczegółowo

Systemy baz danych. mgr inż. Sylwia Glińska

Systemy baz danych. mgr inż. Sylwia Glińska Systemy baz danych Wykład 1 mgr inż. Sylwia Glińska Baza danych Baza danych to uporządkowany zbiór danych z określonej dziedziny tematycznej, zorganizowany w sposób ułatwiający do nich dostęp. System zarządzania

Bardziej szczegółowo

TEXT MINING W ANALIZIE ZBIORÓW PUBLIKACJI NAUKOWYCH TEXT MINING IN ANALYSIS OF SCIENTIFIC PUBLICATIONS

TEXT MINING W ANALIZIE ZBIORÓW PUBLIKACJI NAUKOWYCH TEXT MINING IN ANALYSIS OF SCIENTIFIC PUBLICATIONS ZESZYTY NAUKOWE POLITECHNIKI ŚLĄSKIEJ 2017 Seria: ORGANIZACJA I ZARZĄDZANIE z. 114 Nr kol. 1993 Marcin WYSKWARSKI Politechnika Śląska Wydział Organizacji i Zarządzania marcin.wyskwarski@polsl.pl TEXT MINING

Bardziej szczegółowo

Wyszukiwanie dokumentów WWW bazujące na słowach kluczowych

Wyszukiwanie dokumentów WWW bazujące na słowach kluczowych Eksploracja zasobów internetowych Wykład 3 Wyszukiwanie dokumentów WWW bazujące na słowach kluczowych mgr inż. Maciej Kopczyński Białystok 2014 Wstęp Wyszukiwanie dokumentów za pomocą słów kluczowych bazujące

Bardziej szczegółowo

METODA SYMPLEKS. Maciej Patan. Instytut Sterowania i Systemów Informatycznych Uniwersytet Zielonogórski

METODA SYMPLEKS. Maciej Patan. Instytut Sterowania i Systemów Informatycznych Uniwersytet Zielonogórski METODA SYMPLEKS Maciej Patan Uniwersytet Zielonogórski WSTĘP Algorytm Sympleks najpotężniejsza metoda rozwiązywania programów liniowych Metoda generuje ciąg dopuszczalnych rozwiązań x k w taki sposób,

Bardziej szczegółowo

INSTRUKCJA OBSŁUGI DLA SIECI

INSTRUKCJA OBSŁUGI DLA SIECI INSTRUKCJA OBSŁUGI DLA SIECI Zapisywanie dziennika druku w lokalizacji sieciowej Wersja 0 POL Definicje dotyczące oznaczeń w tekście W tym Podręczniku użytkownika zastosowano następujące ikony: Uwagi informują

Bardziej szczegółowo

WYMAGANIA EDUKACYJNE

WYMAGANIA EDUKACYJNE SZKOŁA PODSTAWOWA W RYCZOWIE WYMAGANIA EDUKACYJNE niezbędne do uzyskania poszczególnych śródrocznych i rocznych ocen klasyfikacyjnych z JĘZYKA ANGIELSKIEGO w klasie 3 Szkoły Podstawowej str. 1 Wymagania

Bardziej szczegółowo