Analiza danych tekstowych i języka naturalnego



Podobne dokumenty
Podstawy analizy danych numerycznych w języku Python

Dni: 2. Partner merytoryczny. Opis: Adresaci szkolenia

AUTOMATYKA INFORMATYKA

Front-end: solidne podstawy. Wszystko, co warto wiedzieć o HTML, CSS, JavaScript i Bootstrap.

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Korporacyjna Magistrala Usług na przykładzie Mule ESB

Górnośląska Wyższa Szkoła Pedagogiczna imienia Kardynała Augusta Hlonda - pedagogika, studia, studia podyplomowe, Śląsk, Katowice UTW Mysłowice

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Semantyczne podobieństwo stron internetowych

Architektura mikroserwisów na platformie Spring IO

Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych

Tytuł szkolenia: Angular 4 - budowanie nowoczesnych i wydajnych aplikacji przeglądarkowych

Specjalnościowy Obowiązkowy Polski Semestr VI

Python : podstawy nauki o danych / Alberto Boschetti, Luca Massaron. Gliwice, cop Spis treści

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Program warsztatów CLARIN-PL

Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family

Dariusz Brzeziński. Politechnika Poznańska, Instytut Informatyki

Czym jest Java? Rozumiana jako środowisko do uruchamiania programów Platforma software owa

Techniki uczenia maszynowego nazwa przedmiotu SYLABUS

Widzenie komputerowe (computer vision)

Modelowanie procesów biznesowych, przepływu pracy i wdrażanie aplikacji w oparciu o Jboss jbpm lub Activiti

Efektywne tworzenie aplikacji webowych z wykorzystaniem AngularJS, HTML5 i JavaScript


Podyplomowe Studium Informatyki w Bizniesie Wydział Matematyki i Informatyki, Uniwersytet Łódzki specjalność: Tworzenie aplikacji w środowisku Oracle

Korporacyjna Magistrala Usług na przykładzie Oracle Service Bus

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

CLUSTERING. Metody grupowania danych

Programowanie Komponentowe WebAPI

Analiza i projektowanie obiektowe 2017/2018. Wykład 3: Model wiedzy dziedzinowej

2/4. informatyka" studia I stopnia. Nazwa kierunku studiów i kod. Informatyka WM-I-N-1 programu wg USOS. Tytuł zawodowy uzyskiwany przez

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia

- 1 - Liczba godzin. Nr lekcji. Nr punktu w podręczniku. Zagadnienia do realizacji według podstawy programowej (treści nauczania)

Dni: 3. Opis: Adresaci szkolenia

Informatyczne fundamenty

Obiektowy model dokumentu. Katedra Mikroelektroniki i Technik Informatycznych

Wykład V. Rzut okiem na języki programowania. Studia Podyplomowe INFORMATYKA Podstawy Informatyki

Analiza i projektowanie obiektowe 2016/2017. Wykład 10: Tworzenie projektowego diagramu klas

PROLOG WSTĘP DO INFORMATYKI. Akademia Górniczo-Hutnicza. Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej.

Technologie IoT - Analityka Big Data IoT Big Data& Analytics

Implementacja metod eksploracji danych - Oracle Data Mining

Produktywne tworzenie aplikacji webowych z wykorzystaniem Groovy i

Politechnika Krakowska im. Tadeusza Kościuszki. Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2018/2019

Ćwiczenie 1. Przygotowanie środowiska JAVA

Kierunek:Informatyka- - inż., rok I specjalność: Grafika komputerowa i multimedia

Opis. Wymagania wstępne (tzw. sekwencyjny system zajęć i egzaminów) Liczba godzin zajęć dydaktycznych z podziałem na formy prowadzenia zajęć

O czym w Sejmie piszczy? Analiza tekstowa przemówień poselskich

Analiza danych i data mining.

INFORMATYKA, TECHNOLOGIA INFORMACYJNA ORAZ INFORMATYKA W LOGISTYCE

[Junior Developer - pierwsza praca jako programista - JavaDevMatt] 1. Sponsorzy Partnerzy projektu O czym i dla kogo jest ta książka?

Polszczyzna i inżynieria lingwistyczna. Autor: Marcin Miłkowski (IFiS PAN)

STUDIA STACJONARNE I STOPNIA Przedmioty kierunkowe

Full Stack JavaScript z Angular i Nest. Dni: 5. Opis: Adresaci szkolenia

METODY REPREZENTACJI INFORMACJI

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

INŻYNIERIA OPROGRAMOWANIA

Programowanie dla początkujących w 24 godziny / Greg Perry, Dean Miller. Gliwice, cop Spis treści

STUDIA PODYPLOMOWE. Analiza i Eksploracja Danych Rynkowych i Marketingowych. Podstawa prawna

PRZEWODNIK PO PRZEDMIOCIE

Text mining w programie RapidMiner Michał Bereta

Opis efektów kształcenia dla modułu zajęć

SZKOLENIE TWORZENIE SYSTEMÓW

Podstawy i języki programowania

Języki skryptowe. zasady zaliczania literatura wprowadzenie

Repetytorium z matematyki 3,0 1,0 3,0 3,0. Analiza matematyczna 1 4,0 2,0 4,0 2,0. Analiza matematyczna 2 6,0 2,0 6,0 2,0

Podstawy programowania

Język R : kompletny zestaw narzędzi dla analityków danych / Hadley Wickham, Garrett Grolemund. Gliwice, cop Spis treści

Efekt kształcenia. Wiedza

Przetwarzanie Języka Naturalnego dr inż. Krzysztof Rzecki. Przetwarzanie Języka Naturalnego konspekt (30 godzin) Dr inż.

WSKAŹNIKI ILOŚCIOWE - Punkty ECTS w ramach zajęć: Efekty kształcenia. Wiedza Umiejętności Kompetencje społeczne (symbole) MK_1. Analiza matematyczna

Grafika i Systemy Multimedialne (IGM)

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Kierunek:Informatyka- - inż., rok I specjalność: Grafika komputerowa i multimedia

STUDIA PODYPLOMOWE. Analiza i Eksploracja Danych Rynkowych i Marketingowych. Podstawa prawna

I. KARTA PRZEDMIOTU CEL PRZEDMIOTU

Lokalizacja Oprogramowania

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Uchwała Nr 59/2016/IX Senatu Politechniki Lubelskiej z dnia 15 grudnia 2016 r.

Programowanie w Javie 2. Płock, 26 luty 2014 r.

Warszawa. Indeksowanietreściwteoriipraktyce. warsztaty

Języki programowania zasady ich tworzenia

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

PROGRAM ZAJĘĆ REALIZOWANYCH W RAMACH PROJEKTU

Słowa kluczowe jak góry lodowe

Aplikacje biurowe pakiet Microsoft Office kurs podstawowy

ANALIZA DANYCH ZE ŹRÓDEŁ OTWARTYCH CENNE ŹRÓDŁO INFORMACJI DR INŻ. MARIUSZ DZIECIĄTKO

Politechnika Krakowska im. Tadeusza Kościuszki. Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2014/2015

Dzięki szkoleniu. Dni: 3. Opis: Adresaci szkolenia

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy

Teraz bajty. Informatyka dla szkół ponadpodstawowych. Zakres rozszerzony. Część 1.

Przetwarzanie i analiza danych w języku Python / Marek Gągolewski, Maciej Bartoszuk, Anna Cena. Warszawa, Spis treści

Specjalizacja magisterska Bazy danych

Analiza znaczeniowa sterowana składnią

Administratorzy systemów, inżynierowie, konsultanci, którzy wdrażają i zarządzają rozwiązaniami opartymi o serwery HP ProLiant

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

1. WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

Transkrypt:

Kod szkolenia: Tytuł szkolenia: ANA/TXT Analiza danych tekstowych i języka naturalnego Dni: 3 Opis: Adresaci szkolenia Dane tekstowe stanowią co najmniej 70% wszystkich danych generowanych w systemach informatycznych, a dodatkowo są to dane rzadko wykorzystywane w celu analizy i odkrywania wiedzy. Szkolenie ma przybliżyć problemy przetwarzania i analizy danych tekstowych. Szkolenie skierowane jest do: programistów, pragnących zastosować w swoich systemach metody odkrywania wiedzy z danych tekstowych dla analityków, którzy chcą rozbudować swój warsztat analityczny o narzędzie analizy danych tekstowych osób zainteresowanych zastosowaniem narzędzi statystycznych, metod uczenia maszynowego w pracy z danymi tekstowymi Wymagana podstawowa wiedza z programowania w dowolnym języku (np. Python, R, matlab itp). Cel szkolenia Nauczenie szeregu narzędzi do pracy z danymi tekstowymi, przedstawienie szeregu przykładów użycia pokrywających większość tematów tej dziedziny. Zaprezentowanie podstawowych języków w pracy z tekstami: R, Python oraz Java. Mocne strony szkolenia Dużo przykładów użycia do wykorzystania w życiu/pracy, szerokie zapoznanie słuchacza z dziedziną analizy danych tekstowych, i możliwościami jej wykorzystania w pracy Wymagania Minimalne doświadczenie z programowaniem, doświadczenie w analizie danych.

Parametry szkolenia 3*8 godzin (3*7 godzin netto) wykładów i warsztatów (z wyraźną przewagą warsztatów). Wielkość grupy: maks. 8-10 osób. Program szkolenia: 1. Praca z danymi tekstowymi Dane tekstowe - ich charakterystyka, trendy Analiza danych tekstowych a odkrywanie wiedzy z danych tekstowych Krajobraz dziedziny - spacer po różnych obszarach i ich zastosowaniach Języki programowania do pracy nad analizą danych tekstowych Data Scientist - zawód, który głównie pracuje z danymi tekstowymi 2. Wstępne przetwarzanie danych oraz proste narzędzia statystyczne Wprowadzenie do R Pakiet tm do pracy z tekstami Czytanie danych istniejące korpusy np. crude, acq. z katalogu plików z pliku tekstowego z Internetu Czyszczenie i Normalizacja danych usuwanie nieistotnych słów tzw. stop words usuwanie znaków punktacji oraz liczb sprowadzanie do małych liter

stemming/lemmatyzacja Budowanie macierzy Term-Document Wyszukiwanie częstych terminów Wyszukiwanie asocjacji Usuwanie rzadkich terminów Mierzenie podobieństwa między dokumentami i terminami Miara Cosinusowa Miara Jaccarda Wizualizacja ważności terminów w postaci chmury słów Tagowanie tekstu częściami mowy Przykłady użycia wstępnego przetwarzania tekstów na zbiorach wpisów StackOverflow, korpusach crude, acq, czy danych z Internetu Przykłady czytania danych z dobrze zdefiniowanych API (np. TwiiterR) Web scrapping z użyciem R na przykładzie pobierania i agregowanie statystyk NHL Parsowanie HTML z użyciem R 3. Zaawansowane przetwarzanie i wizualizacja danych Analiza Sentymentu podejście słownikowe, oparte na probabilistycznych modelach bayesowskich Rozpoznawanie nazw własnych (ang. Name Entity Recognition) Wykrywanie fraz (np. rzeczownikowych czy czasownikowych) Drzewa rozkładu Penn TreeBank

Składnica Przekrój metod wizualizacji danych w R word length counts plot, word frequency plots, word clouds, correlation plots, letter frequency plot, letter position, heatmap Grupowanie tekstów za pomocą różnych metod Metody data-centric Hierarchical Agglomerative Clustering, K-means, Metody description-centric Carrot2 oraz Yippy, SnSRC, Klasyfikacja na przykładzie detekcji spamu K Nearest Neighbours, SVM, Naive Bayes Semantyczne podobieństwo tekstów 4. Przetwarzanie danych tekstowych przykłady użycia zaczerpnięte z komercyjnych projektów Python i NLTK w kilku krokach na przykładach: wykrywanie wzorców w danych

Powered by TCPDF (www.tcpdf.org) tekstowych, budowanie słowników nazw własnych, pełno tekstowe wyszukiwanie z użyciem Apache Lucene, miary współwystępowanie jako podstawa mierzenia podobieństwa semantycznego. Budowanie bag-of-words z użyciem filtrów części mowy oraz nazw własnych Indukcja znaczeń słów oraz grupowanie wyników według znaczeń Budowanie w Javie ekstraktorów danych np. ScholarExtractor Ekstrakcja słów kluczowych z tekstów w Javie Klasyfikacja publikacji według taksonomii OSJ w Javie Wyszukiwanie podobnych kierunków studiów w oparciu o ich opisy kompetencji zapisane w plikach doc(x)/pdf (przetwarzanie tekstów za pomoca Apache Tika, oraz ekstrakcja symboli z tekstów w celu zbudowanie ustrukturyzowanej reprezentacji wektorowej, miara Jaccarda jak alternatywa dla cosinusowej) Wzbogacanie semantyczne z użyciem Javy oraz zasobów wiedzy (np. Wikipedia and BabelNet)