Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych



Podobne dokumenty
AUTOMATYKA INFORMATYKA

Uniwersytet w Białymstoku Wydział Ekonomiczno-Informatyczny w Wilnie SYLLABUS na rok akademicki 2012/2013

Techniki uczenia maszynowego nazwa przedmiotu SYLABUS

Krzysztof Dobosz. Handel elektroniczny

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

RACHUNEK PRAWDOPODOBIE STWA

Python : podstawy nauki o danych / Alberto Boschetti, Luca Massaron. Gliwice, cop Spis treści

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Metody i techniki sztucznej inteligencji / Leszek Rutkowski. wyd. 2, 3 dodr. Warszawa, Spis treści

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Widzenie komputerowe (computer vision)

Metody klasyfikacji danych - część 1 p.1/24

Prof. Stanisław Jankowski

Analiza danych tekstowych i języka naturalnego

Szczegółowy opis przedmiotu zamówienia

Diagnostyka procesów przemysłowych Kod przedmiotu

Matematyczne podstawy informatyki Mathematical Foundations of Computational Sciences. Matematyka Poziom kwalifikacji: II stopnia

Grupy pytań na egzamin inżynierski na kierunku Informatyka

Obliczenia równoległe i rozproszone. Praca zbiorowa pod redakcją Andrzeja Karbowskiego i Ewy Niewiadomskiej-Szynkiewicz

Przetwarzanie i analiza danych w języku Python / Marek Gągolewski, Maciej Bartoszuk, Anna Cena. Warszawa, Spis treści

Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę

TEORETYCZNE PODSTAWY INFORMATYKI

ID1SII4. Informatyka I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny) stacjonarne (stacjonarne / niestacjonarne)

Kierunek:Informatyka- - inż., rok I specjalność: Grafika komputerowa

Copyright by Wydawnictwo EPROFESS Żory Wydanie I ISBN: Projekt okładki: Jacek Piekarczyk Skład: EPROFESS, Żory

Inżynieria danych I stopień Praktyczny Studia stacjonarne Wszystkie specjalności Katedra Inżynierii Produkcji Dr Małgorzata Lucińska

I. KARTA PRZEDMIOTU CEL PRZEDMIOTU

Sieci neuronowe do przetwarzania informacji / Stanisław Osowski. wyd. 3. Warszawa, Spis treści

KARTA MODUŁU KSZTAŁCENIA

Odniesienie do efektów kształcenia dla obszaru nauk EFEKTY KSZTAŁCENIA Symbol

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Kierunek:Informatyka- - inż., rok I specjalność: Grafika komputerowa, Inżynieria oprogramowania, Technologie internetowe

Relacja zakresu nauk humanistyczno-społecznych z Krajową Inteligentną Specjalizacją

Ewa Stemposz Andrzej Jodłowski Alina Stasiecka. Zarys metodyki wspierającej naukę projektowania systemów informacyjnych

PAŃSTWOWA WYŻSZA SZKOŁA ZAWODOWA W NYSIE

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA Bieżący sylabus w semestrze zimowym roku 2016/17

Hierarchia Chomsky ego Maszyna Turinga

ZAGADNIENIA DO EGZAMINU DYPLOMOWEGO NA STUDIACH INŻYNIERSKICH. Matematyka dyskretna, algorytmy i struktury danych, sztuczna inteligencja

Zagadnienia egzaminacyjne INFORMATYKA. stacjonarne. I-go stopnia. (INT) Inżynieria internetowa STOPIEŃ STUDIÓW TYP STUDIÓW SPECJALNOŚĆ

SI w procesach przepływu i porządkowania informacji. Paweł Buchwald Wyższa Szkoła Biznesu

STUDIA I MONOGRAFIE NR

KIERUNKOWE EFEKTY KSZTAŁCENIA

Analiza metod wykrywania przekazów steganograficznych. Magdalena Pejas Wydział EiTI PW

Opis efektów kształcenia dla modułu zajęć

I. KARTA PRZEDMIOTU CEL PRZEDMIOTU

mgr inż. Magdalena Deckert Poznań, r. Uczenie się klasyfikatorów przy zmieniającej się definicji klas.

WPROWADZENIE DO RACHUNKOWOŚCI

SZTUCZNA INTELIGENCJA

Recenzenci Stefan Mynarski, Waldemar Tarczyński. Redaktor Wydawnictwa Anna Grzybowska. Redaktor techniczny Barbara Łopusiewicz. Korektor Barbara Cibis

Semantyczne podobieństwo stron internetowych

Automatyczna predykcja. Materiały/konsultacje. Co to jest uczenie maszynowe? Przykład 6/10/2013. Google Prediction API, maj 2010

Krzysztof Dobosz. Przeszukiwanie. zasobów Internetu

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Ontologie, czyli o inteligentnych danych

Kierunek Informatyka stosowana Studia stacjonarne Studia pierwszego stopnia

PRZEWODNIK PO PRZEDMIOCIE

Notka biograficzna Streszczenie

Plan wykładu. Kompilatory. Literatura. Translatory. Literatura Translatory. Paweł J. Matuszyk

Spis treści. Przedmowa 11

KIERUNKOWE EFEKTY KSZTAŁCENIA

1. Historia 2. Podstawy neurobiologii 3. Definicje i inne kłamstwa 4. Sztuczny neuron i zasady działania SSN. Agenda

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Studia podyplomowe w zakresie przetwarzanie, zarządzania i statystycznej analizy danych

S PECJALNO S C I NTELIGENTNE S YSTEMY D ECYZYJNE

Mariusz Trzaska Modelowanie i implementacja systemów informatycznych

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA REALIZACJA W ROKU AKADEMICKIM 2016/2017

Sposoby wyszukiwania multimedialnych zasobów w Internecie

Systemy uczące się wykład 2

Analiza leksykalna 1. Teoria kompilacji. Dr inż. Janusz Majewski Katedra Informatyki

E.14.1 Tworzenie stron internetowych / Krzysztof T. Czarkowski, Ilona Nowosad. Warszawa, Spis treści

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Informatyka Studia II stopnia

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

1. Tabela odniesień efektów kierunkowych do efektów obszarowych z komentarzami

Wizja maszynowa w robotyce i automatyzacji Kod przedmiotu

3. Podaj elementy składowe jakie powinna uwzględniać definicja informatyki.

Opis efektów kształcenia dla modułu zajęć

Rok akademicki: 2013/2014 Kod: MEI s Punkty ECTS: 2. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

Kierunek:Informatyka- - inż., rok I specjalność: Grafika komputerowa i multimedia

Opracowanie systemu monitorowania zmian cen na rynku nieruchomości

Analiza danych. TEMATYKA PRZEDMIOTU

Zagadnienia egzaminacyjne AUTOMATYKA I ROBOTYKA. Stacjonarne I-go stopnia TYP STUDIÓW STOPIEŃ STUDIÓW SPECJALNOŚĆ

Prezentacja specjalności studiów II stopnia. Inteligentne Technologie Internetowe

Spis treści WSTĘP... 9

Zagadnienia egzaminacyjne INFORMATYKA. Stacjonarne. I-go stopnia. (INT) Inżynieria internetowa STOPIEŃ STUDIÓW TYP STUDIÓW SPECJALNOŚĆ

Monitoring procesów z wykorzystaniem systemu ADONIS

Grafika i Systemy Multimedialne (IGM)

Języki formalne i automaty Ćwiczenia 7

Transformacja wiedzy w budowie i eksploatacji maszyn

Analiza i wizualizacja danych Data analysis and visualization

INFORMATYKA Pytania ogólne na egzamin dyplomowy

Biblioteka Pedagogiczna w Głogowie

6. Algorytmy ochrony przed zagłodzeniem dla systemów Linux i Windows NT.

Przegląd problemów doskonalenia systemów zarządzania przedsiębiorstwem

Program nauczania informatyki w gimnazjum Informatyka dla Ciebie. Modyfikacja programu klasy w cyklu 2 godzinnym

NEURAL NETWORK ) FANN jest biblioteką implementującą SSN, którą moŝna wykorzystać. w C, C++, PHP, Pythonie, Delphi a nawet w środowisku. Mathematica.

studia I stopnia, stacjonarne rok akademicki 2017/2018 Elektrotechnika

Transkrypt:

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

AUTOMATYKA INFORMATYKA Technologie Informacyjne Sieć Semantyczna Przetwarzanie Języka Naturalnego Internet Edytor Serii: Zdzisław Kowalczuk

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych Redakcja: Bogdan Wiszniewski POMORSKIE WYDAWNICTWO NAUKOWO-TECHNICZNE GDAŃSK 2011 PWNT

Redaktor Naczelny i Edytor Serii: Redaktor wydania: Korekta wydawnicza: Projekt graficzny: Zdzisław Kowalczuk, prof. dr hab. inż. Bogdan Wiszniewski, prof. dr hab. inż. Anna Osadowska Monika Wiszniewska (Kowalczuk), mgr inż. arch. Praca naukowa finansowana przez MNiSzW i NCBR jako projekt rozwojowy ze środków na naukę w latach 2009 2011 Książka wydana nakładem Towarzystwa Konsultantów Polskich, Oddział Gdańsk Książkę wydrukowano na podstawie materiałów przygotowanych przez Autorów Copyright by TKP, Pomorskie Wydawnictwo Naukowo-Techniczne, Gdańsk 2011 Copyright by Bogdan Wiszniewski, 2011 All rights reserved Wszystkie nazwy produktów wymienione w niniejszej publikacji są zastrzeżonymi nazwami handlowymi lub znakami towarowymi odpowiednich firm. Niniejszej książki w całości lub części nie wolno powielać, ani przekazywać w żaden sposób (nawet za pomocą nośników mechanicznych, elektronicznych i magnetycznych), w tym też umieszczać lub rozpowszechniać w postaci cyfrowej zarówno w Internecie, jak i sieciach lokalnych, bez uzyskania pisemnej zgody Wydawnictwa PWNT Towarzystwa Konsultantów Polskich. Pomorskie Wydawnictwo Naukowo-Techniczne PWNT Towarzystwa Konsultantów Polskich Oddział Gdańsk 80-309 Gdańsk, ul. Grunwaldzka 311 tel./fax 58 552 1536 e-mail: tkp@konsulting.gda.pl strony: http://www.konsulting.gda.pl/pwnt (sklep internetowy) ISBN 978-83-926806-6-6

Spis treści Przedmowa Rozdział 1: Jȩzyki i gramatyki formalne 1 1.1 Języki formalne, języki programowania i metajęzyki... 1 1.1.1 Języki programowania... 2 1.1.2 Translatory, kompilatory oraz interpretery... 4 1.2 Gramatyki formalne... 4 1.2.1 Definicja i rodzaje gramatyk formalnych... 5 1.2.2 Notacje zapisu gramatyk formalnych... 6 1.2.3 Klasyfikacja Chomsky ego... 9 1.2.4 Wyrażenia regularne... 11 1.2.5 Jednoznaczność, rozstrzygalność i przydatność gramatyk... 13 1.3 Analiza zdań języka... 14 Rozdział 2: Automaty jako narzȩdzia w przetwarzaniu jȩzyka 17 2.1 Stany automatu i notacja grafowa... 17 2.2 Klasyfikacje automatów... 19 2.2.1 Funkcja automatu... 19 2.2.2 Akceptowane klasy języków... 19 2.2.3 Determinizm działania automatu... 20 2.3 Automaty skończone... 20 2.3.1 Deterministyczne automaty skończone (DFA)... 22 2.3.2 Niedeterministyczne automaty skończone(nfa)... 22 2.3.3 Niedeterministyczne automaty skończone z ɛ-przejściami (ɛ-nfa)... 24 2.4 Tworzenie automatu na podstawie wyrażenia regularnego... 24 2.5 Determinizacja automatu... 25 2.6 Minimalizacja automatu... 27 2.7 Automat Mealy ego... 29 2.8 Determinizacja automatu Mealy ego... 30 Rozdział 3: Przetwarzanie jȩzyka naturalnego 33 3.1 Perspektywy przetwarzania języka naturalnego... 34 3.2 Zastosowania przetwarzania języka naturalnego... 35 3.3 Model warstwowy przetwarzania... 36 3.3.1 Warstwa segmentacji... 36 3.3.2 Warstwa słownikowa... 37 3.3.3 Płytka analiza składniowa... 39 3.3.4 Warstwa składniowa... 40 3.3.5 Warstwa znaczeniowa... 42 3.3.6 Warstwa użycia... 44

vi 3.4 Jakość przetwarzania... 44 3.4.1 Miary jakości... 45 3.5 Poprawianie pisowni... 45 3.6 Optymalizacja reguł... 48 Rozdział 4: Głȩboka analiza tekstu w jȩzyku polskim 51 4.1 Pragmatyka i funkcje tekstów... 52 4.2 Problem homonimii... 53 4.3 Analizatory i wyszukiwarki... 54 4.4 Dehomonimizacja i desynkretyzacja... 55 4.5 Typy analiz... 56 4.5.1 Analiza morfologiczna... 56 4.5.2 Analiza składniowa... 57 4.5.3 Analiza głęboka... 58 4.5.4 Przykładowa analiza zdania... 58 4.6 Analiza semantyczna... 60 4.7 Nowe zjawiska językowe... 60 Rozdział 5: Metody wspomagania wyszukiwania informacji 63 5.1 Języki zapytań wyszukiwarek internetowych... 63 5.1.1 Język zapytań w wyszukiwarce Google... 64 5.1.2 Język zapytań w innych wyszukiwarkach... 64 5.2 Interaktywne rozszerzanie zapytań... 65 5.2.1 Metody globalne... 66 5.2.2 Metody lokalne... 67 5.2.3 Tworzenie rankingu użyteczności słów... 67 5.3 Zapytania powiązane tematycznie... 67 5.4 Personalizacja... 69 5.5 Wykorzystanie modelu przestrzeni wektorowej do wspomagania wyszukiwania.. 69 5.6 Wyszukiwanie relewantne... 71 5.7 Wyszukiwanie zasobów podobnych... 71 5.8 Klasteryzacja dokumentów... 72 5.9 Zapytania w języku naturalnym... 72 5.10 Chmury znaczników... 73 5.11 Metoda klasteryzacji kierunkowej... 74 Rozdział 6: Detekcja obiektów graficznych i ekstrakcja ich parametrów 75 6.1 Analiza obrysu obiektu... 75 6.1.1 Podział linii brzegowej na tokeny... 76 6.1.2 Wykorzystanie symetrii do porównywania kształtów... 77 6.2 Analiza zawartości obrazu (tekstury)... 79 6.2.1 N M-gramy... 79 6.2.2 Lokalne wzorce... 80 6.2.3 Filtry Gabora... 82 6.3 Wykrywanie obiektów metodą AdaBoost... 84 6.3.1 Wyznaczanie cech... 85 6.3.2 Funkcje klasyfikujące... 87 6.3.3 Kaskada klasyfikatorów... 88

Rozdział 7: Selekcja i ekstrakcja cech 91 7.1 Reprezentacja danych... 91 7.2 Selekcja cech... 92 7.2.1 Generowanie podzbioru cech... 93 7.2.2 Ocena jakości podzbioru cech... 96 7.2.3 Kryterium stopu... 99 7.3 Ekstrakcja cech... 99 7.3.1 Analiza głównych składowych...100 7.3.2 Wielowymiarowe skalowanie...101 7.3.3 Liniowa analiza dyskryminacyjna...102 Rozdział 8: Algorytmy klasyfikacji i uczenia w rozpoznawaniu treści 105 8.1 Uczenie a uogólnianie...106 8.2 Klasyfikator bayesowski...107 8.2.1 Estymacja parametrów rozkładu normalnego...108 8.2.2 Naiwny klasyfikator bayesowski...110 8.3 Klasyfikator najbliższego sąsiada...110 8.4 Drzewa decyzyjne...110 8.4.1 Algorytm ID3...111 8.4.2 Metody poprawy uogólniania...113 8.5 Sztuczne sieci neuronowe (SSN)...114 8.5.1 Uczenie klasyfikatora neuronowego w oparciu o zbiór przykładów...116 8.5.2 Algorytm propagacji wstecznej błędu...117 8.6 Metoda wektorów wspierających (SVM)...117 Rozdział 9: Studium przypadku system ISPAD 121 9.1 Moduł pozyskiwania danych...122 9.2 Moduł zarządzania korpusem...123 9.2.1 Narzędzia do pracy nad tekstami o określonych treściach...123 9.2.2 Testy korpusu ISPAD...124 9.3 Moduł analizy danych...125 9.3.1 Normalizacja i segmentacja tekstu...127 9.3.2 Analiza językowa...128 9.3.3 Wnioskowanie...132 9.3.4 Przygotowanie reakcji...136 9.4 Moduł zarządzania bazą wiedzy...137 Bibliografia 139 Skorowidz 145 Streszczenie w jȩz. angielskim 149 vii