Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur
|
|
- Helena Wilczyńska
- 7 lat temu
- Przeglądów:
Transkrypt
1 Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur Maciej Piasecki, Paweł Kędzia Politechnika ska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19
2 Plan prezentacji Cel Ujednoznacznianie sensów słów (znaczeń leksykalnych) Wykrywanie ról semantycznych wewnątrz frazy NP System do ekstrakcyjnego streszczania tekstu System do wydobywania tekstowych słów kluczowych Relacje semantyczne między fragmentami tekstów
3 Cel Założenia: istniejące głębokie parsery semantyczne nie dają wyczerpującego pokrycia i nie radzą sobie z błędami językowymi wzbogacenie tekstu o częściowy opis semantyczny będzie korzystne dla wielu zastosowań, np. klasyfikacji semantycznej Cel zbudowanie zespołu narzędzi, które będą wzbogacać tekst o warstwy anotacji opisujące wybrane aspekty semantyki tekstu poziom zadań i poziom tekstu Realizacja punkt wyjścia: znaczenia leksykalne jako łącznik do zasobów wiedzy rozszerzenie opisu na frazy nominalne
4 Ujednoznacznianie sensów słów Proces polegający na przypisaniu słowu odpowiedniego znaczenia wybranego ze zbioru znaczeń słów, odpowiedniego dla tego słowa w danym kontekście.?
5 Ujednoznacznianie sensów słów stosowane podejścia Uczenie na podstawie oznaczeń w tekstach: Wymagane duże zasoby ręcznie oznaczonych tekstów Czasochłonność ręcznego oznaczania tekstów (koszty) - każde słowo z osobna posiada swoje anotacje Uczenie bez wstępnego oznaczania w tekście: Nie jest wymagane wstępne znakowanie znaczeń w tekstach Wykorzystanie istniejących struktur opisujących zależności między znaczeniami słów (Słowosieć)
6 WoSeDon - główna idea Nienadzorowane podejście oparte o przetwarzanie grafu. Wykorzystana idea algorytmu PageRank z własnymi modyfikacjami. Jako zasób znaczeń do przypisania wykorzystana została Słowosieć. Po powrocie z pracy zepsułem zamek w drzwiach. graf dla słowa zamek.
7 WoSeDon - udostępnianie Dostęp przez przeglądarkę: Możliwość instalacji lokalnie: git clone git@nlp.pwr.wroc.pl:wosedon WebWoSeDon: Narzędzie do generowania list frekwencyjnych znaczeń:
8 WebWoSeDon - DSpace
9 WebWoSeDon podstawowa funkcjonalność
10 WoSeDon - wyniki Ocena tylko na słowach polisemicznych Najlepsza precyzja osiągnięta na KPWr i Składnicy: KPWr Czas. Rzecz. Składnica Średnia Czas. Rzecz. Średnia 1 32,61 52,22 45,52 49,02 64,02 58, ,66 47,91 46,12 47,51 61,67 56, ,76 39,3 39,46 49,28 61,12 56,51 1: PPR, plwordnet 2.3synset+SUMO 2: Static, plwordnet 2.3LU plwordnet 2.3Synset re-ranking 10% 3: Static, plwordnet re-ranking 40%
11 Wykrywanie ról semantycznych Proces polegający na przypisywaniu do par słów z tekstu ról semantycznych jakie pełnią te słowa w strukturze semantycznej tekstu.
12 Wykrywanie ról semantycznych Role semantyczne wewnątrz frazy rzeczownikowej (NP) i przymiotnikowej (AdjP) Atrybut - łączy rzeczownik z jego cechą żółtyatrybut koc Ilość - jak liczny jest zbiór, bądź ilość niepoliczalnego dwadzieścia dwailość domy
13 Wykrywanie ról semantycznych Aktor - inicjator akcji, byt oddziałowujący na inny byt Pisanie Jankaaktor po tablicy Sposób - sposób wykonywania czynności np. Szybkisposób bieg Obiekt - byty lub sytuacje, które są w jakimś stanie, bądź ulegają zmianie stanu Złapanie piłkiobiekt
14 NPSemRel - przykładowa reguła Podejście regułowe: 101 wzorców WCCL dwuetapowe wykrywanie: określanie miejsca wykrywanie roli 200 losowych fraz z KPWr 331 instancji ról
15 NPSemRel - wyniki Ocena: na 26 tekstach KPWr na 100 tekstach NKJP 2+1 P R KPWr NKJP KPWr NKJP F KPWr NKJP aktor 58,3 91,5 30,4 34,4 40,0 50,0 obiekt 84,9 91,4 39,8 44,0 54,2 49,4 atrybut 43,8 44,6 58,3 75,8 50,0 56,2 ilość 83,3 62,4 55,6 43,6 66,7 51,4
16 MLNpSemRel Wykorzystanie maszynowego uczenia do wykrywania ról
17 MLNpSemRel Dwuetapowy proces klasyfikacji (+ generowanie par): a. Wyszukanie pary wyrazów, między który może zajść rola b. Wykrycie roli semantycznej
18 MLNpSemRel - wyniki Korpus: KPWr Ocena: walidacja krzyżowa, 10-cio krotna P R F aktor 0,758 0,715 0,736 obiekt 0,856 0,898 0,877 sposób 0,703 0,561 0,624 atrybut 0,856 0,919 0,886 ilość 0,904 0,789 0,843
19 Wykrywanie ról semantycznych NpSemRel oraz MLNpSemRel do pobrania: git clone
20 Streszczanie tekstu Ekstrakcyjne streszczanie tekstu polega na wyborze z tekstu tych zdań, które w najistotniejszy sposób opisują jego tematykę.
21 Ekstrakcyjne streszczanie tekstu Cel narzędzie do przeglądania wyników wyszukiwania lub przybliżonego porównywania dokumentów Założenia streszczanie ekstrakcyjne wybór z tekstu ograniczonej liczby zdań niosących najważniejsze informacje i zbudowanie z nich spójnego tekstu dostosowanie sprawdzonego systemu do języka polskiego i polskich narzędzi językowych
22 Streszczanie: system Schemat wstępne przetwarzanie tekstu ocena istotności zdań dla danego znaczenia danego tekstu wybór najistotniejszych zdań konwersja formatu, eliminacja słów o niskiej informacji utworzenie streszczenia zadanej długości połączenie najwyżej ocenionych zdań wg kolejności występowania w tekście Podstawa: system MEAD znany o modułowej konstrukcji, łatwy do dostosowania otwarta licencja
23 Zmodyfikowany system MEAD Charakterystyka MEAD Dostosowanie do języka polskiego (Tretter, 2015) cechy do oceny zdań: pozycja, długość, wartość centroidu, miara LexRank klasyfikator - funkcja z wartości cech pełne wsparcie dla kodowania UTF8 baza wag TF.IDF dla polskich lematów (Wikipedia) segmentacja - MACA lematyzacja - tager WCRFT zbudowanie korpusu streszczeń (crowdsourcing) Rozszerzenie rozpoznanie nazw własnych (Liner2)
24 Streszczanie tekstu git clone
25 Wydobywanie słów kluczowych Proces polegający na wydobyciu z tekstu słów, bądź ciągów słów charakteryzujących dany tekst.
26 Wydobywanie słów kluczowych Założenia ekstrakcyjne wydobywanie - słowa kluczowe z dokumentu nienadzorowane podejście - szerokie zastosowanie Podstawa - TextRank (Mihalcea i Tarau, 2004) graf powiązań słów na podstawie współwystępowania węzły - słowa znaczące (rzeczowniki i przymiotniki) granice współwystępowania: okno tekstowe lub zdanie ustalenie oceny węzłów za pomocą algorytmu PageRank wydobycie wielowyrazowych słów w oparciu o analizę wag węzłów TextRank dostosowany do języka polskiego segmentacja i lematyzacja - MACA i WCRFT wagi TF.IDF dla lematów policzone w oparciu o korpus Słowosieci problem: lematyzacja wielowyrazowych słów kluczowych
27 Relacje semantyczne między fragmentami tekstów Proces, podczas którego dla pary zdań przypisywana jest relacja zachodząca między nimi.
28 Relacje semantyczne Krzyżowanie się: Część informacji z S2 pokrywa się z S1. S1 przedstawia informacje X i Y, S2 przedstawia informacje X i Z S1: Samolot rozbił się, uderzając w 25 piętro budynku Pirelli znajdującego się w centrum miasta Milan. S2: Mały turystyczny samolot zderzył się z najwyższym budynkiem w Milanie. Parafraza: Dwa fragmenty tekstu zawierają dokładnie takie same informacje, ale wyrażone różnymi słowami S1: Wałęsa był agentem SB. S2: Lechu współpracował jako agent z SB.
29 Relacje semantyczne Zawieranie: S1 zawiera wszystkie informacje z S2, oraz dodatkowe informacje niewystępujące w S2. Oznacza to, że zdanie S1 ma bogatszą treść niż zdanie S2 S1: Z trzema zwycięstwami w tym roku Green Bay ma najlepszy wynik w lidze NFL. S2: Green Bay trzy razy osiągnął zwycięstwo w tym roku. Tożsamość: Dokładnie takie same zdania występują w dwóch różnych miejscach S1: Zgodnie z doniesieniami dym wydobywał się z dziury. S2: Zgodnie z doniesieniami dym wydobywał się z dziury.
30 Relacje semantyczne między fragmentami tekstów
31 Relacje semantyczne - statystyki Korpus uczący: Wikinewsy Automatyczna propozycja dokumentów podobnych (3) Wyszukiwanie podobnych zdań w paczkach 5 klasyfikatorów binarnych 4+1 Krzyżowanie się 4(3) 3(3) Suma Parafraza Tożsamość Zawieranie
32 Relacje semantyczne - wyniki Zbiór uczący Zbiór testowy R 0,784 0,721 Negative 0,738 0,608 0,667 Positive 0,643 0,818 0,739 0,531 R F-Measure Klasa 0,727 0,783 Negative 0,761 0,869 0,811 Positive 0,819 0,756 0,786 Negative 0,776 0,835 0,804 Positive R F-Measure Klasa 0,846 0,892 0,868 Negative 0,886 0,838 0,861 Positive 0,75 0,818 0,783 Negative 0,778 0,7 0,737 Positive Parafraza Zbiór testowy 0,618 Positive 0,847 P Zbiór uczący 0,72 Negative Krzyżowanie się Zbiór testowy Klasa 0,667 P Zbiór uczący F-Measure Brak relacji P
33 Relacje semantyczne - wyniki Zbiór uczący Zbiór testowy R 0,778 0,739 Negative 0,752 0,673 0,71 Positive 0,786 0,825 0,805 Negative 0,811 0,769 0,789 Positive R F-Measure 1 0,979 0, ,923 0,923 1 Klasa 0,989 Negative 0,99 Positive 0,96 Negative 0,96 Positive Tożsamość Zbiór testowy Klasa 0,704 P Zbiór uczący F-Measure Zawieranie P
34 Relacje semantyczne między fragmentami tekstów git clone
35 Podsumowanie - zastosowania Role jako cechy semantyczne: wykonawcy, obiekty czynności, atrybuty Znaczenia jako cechy semantyczne - hiperonimy itp. Relacje semantyczne - wykorzystanie w podobieństwie Słowa kluczowe - automatyczny opis słowami dokumentu Streszczanie - pomoc przy streszczaniu
36 Dziękujemy za uwagę!
Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex
Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy marcin.oleksy@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji Obliczeniowej
Program warsztatów CLARIN-PL
W ramach Letniej Szkoły Humanistyki Cyfrowej odbędzie się III cykl wykładów i warsztatów CLARIN-PL w praktyce badawczej. Narzędzia cyfrowe do analizy języka w naukach humanistycznych i społecznych 17-19
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra
Narzędzia do automatycznego wydobywania kolokacji
Narzędzia do automatycznego wydobywania kolokacji Jan Kocoń, Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej marek.maziarz@pwr.edu.pl
Narzędzia do automatycznego wydobywania kolokacji
Narzędzia do automatycznego wydobywania kolokacji Jan Kocoń, Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej marek.maziarz@pwr.edu.pl
WebSty otwarty webowy system do analiz stylometrycznych
WebSty otwarty webowy system do analiz stylometrycznych Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 maciej.piasecki@pwr.edu.pl
Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów
Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów Maciej Piasecki, Jan Kocoń Politechnika Wrocławska Katedra InteligencjiObliczeniowej Grupa
Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2
Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2 ws.clarin-pl.eu/websty.shtml Tomasz Walkowiak, Maciej Piasecki Politechnika Wrocławska Grupa Naukowa G4.19 Katedra Inteligencji Obliczeniowej
Słowosiec 3.0 - leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa
Słowosiec 3.0 - leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa Paweł Ke dzia, Marek Maziarz, Maciej Piasecki Politechnika ska Katedra Inteligencji
Inforex - zarządzanie korpusami i ich anotacja
Inforex - zarządzanie korpusami i ich anotacja Marcin Oleksy marcin.oleksy@pwr.edu.pl Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii
Słowosiec 3.0 - leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa
Słowosiec 3.0 - leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa Paweł Ke dzia, Marek Maziarz, Maciej Piasecki Politechnika Wrocławska Katedra Inteligencji
Open Access w technologii językowej dla języka polskiego
Open Access w technologii językowej dla języka polskiego Marek Maziarz, Maciej Piasecki Grupa Naukowa Technologii Językowych G4.19 Zakład Sztucznej Inteligencji, Instytut Informatyki, W-8, Politechnika
Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego
Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego Witold Kieraś Łukasz Kobyliński Maciej Ogrodniczuk Instytut Podstaw Informatyki PAN III Konferencja DARIAH-PL Poznań 9.11.2016
KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)
KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów) Marcin Oleksy Michał Marcińczuk Politechnika ska Instytut Informatyki
CLARIN rozproszony system technologii językowych dla różnych języków europejskich
CLARIN rozproszony system technologii językowych dla różnych języków europejskich Maciej Piasecki Politechnika Wrocławska Instytut Informatyki G4.19 Research Group maciej.piasecki@pwr.wroc.pl Projekt CLARIN
Narzędzia do automatycznej analizy odniesień w tekstach
CLARIN-PL Narzędzia do automatycznej analizy odniesień w tekstach Michał Marcińczuk Jan Kocoń Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 michal.marcinczuk@pwr.edu.pl
Zaawansowane narzędzie do analizy korpusu w oparciu o reguły
CLARIN-PL Zaawansowane narzędzie do analizy korpusu w oparciu o reguły Michał Marcińczuk Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 michal.marcinczuk@pwr.edu.pl 2015-04-13
Narzędzia do automatycznej analizy odniesień w tekstach
CLARIN-PL Narzędzia do automatycznej analizy odniesień w tekstach Michał Marcińczuk Jan Kocoń Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 michal.marcinczuk@pwr.edu.pl
Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.
Inforex - zarządzanie korpusami i ich anotacja Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy Jan Wieczorek Jan Kocoń marcin.oleksy@pwr.edu.pl jan.wieczorek@pwr.edu.pl jan.kocon@pwr.edu.pl
Co wylicza Jasnopis? Bartosz Broda
Co wylicza Jasnopis? Bartosz Broda Analiza języka polskiego Ekstrakcja tekstu Dokument narzędzie do mierzenia zrozumiałości Analiza morfologiczna Analiza morfosyntaktyczna Indeksy Klasa trudności:
Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska
Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska Seminarium przetwarzania języka naturalnego Mateusz Kopeć Instytut Podstaw Informatyki Polskiej Akademii Nauk 6 lutego 2012 Plan 1 Zadanie
Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.
Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe. Autor: Mariusz Sasko Promotor: dr Adrian Horzyk Plan prezentacji 1. Wstęp 2. Cele pracy 3. Rozwiązanie 3.1. Robot
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji
CLARIN infrastruktura naukowa technologii językowych
CLARIN infrastruktura naukowa technologii językowych Maciej Piasecki Politechnika ska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 maciej.piasecki@pwr.edu.pl Przykład: analiza pojęcia Problem:
WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów
IJP PAN / UP Kraków maciejeder@gmail.com WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów ws.clarin-pl.eu/websty.shtml Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika
CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy
Cykl wykładów i warsztatów CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy 13 15 kwietnia 2015 roku Warszawa, Pałac Staszica, ul. Nowy Świat 72, sala 144
LEM wydobywanie statystyk z korpusów
LEM wydobywanie statystyk z korpusów Maciej Piasecki, Tomasz Walkowiak Politechnika Wroc awska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Maciej Maryl Instytut Bada Literackich Polska Akademia
Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl
Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Aby skorzystać z możliwości RapidMinera w zakresie analizy tekstu, należy zainstalować Text Mining Extension. Wybierz: 1 Po
Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych
Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych Marcin Deptuła Julian Szymański, Henryk Krawczyk Politechnika Gdańska Wydział Elektroniki, Telekomunikacji i Informatyki Katedra Architektury
Wprowadzenie do uczenia maszynowego
Wprowadzenie do uczenia maszynowego Agnieszka Ławrynowicz 12 stycznia 2017 Co to jest uczenie maszynowe? dziedzina nauki, która zajmuje się sprawianiem aby komputery mogły uczyć się bez ich zaprogramowania
Zapytanie ofertowe nr 1/2016
to Zapytanie ofertowe nr 1/2016 z dnia 11052016 Espeo Software Sp z oo 2 Zapytanie ofertowe nr 1/2016 z dnia 11052016 Zapytanie ofertowe nr 1/2016 z dnia 11052016 Zamawiający: Espeo Software Sp z oo Adres:
Systemy uczące się wykład 2
Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania
Widzenie komputerowe (computer vision)
Widzenie komputerowe (computer vision) dr inż. Marcin Wilczewski 2018/2019 Organizacja zajęć Tematyka wykładu Cele Python jako narzędzie uczenia maszynowego i widzenia komputerowego. Binaryzacja i segmentacja
Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:
WYDOBYWANIE I WYSZUKIWANIE INFORMACJI Z INTERNETU Forma wykład: 30 godzin laboratorium: 30 godzin Główny cel kursu W ramach kursu studenci poznają podstawy stosowanych powszechnie metod wyszukiwania informacji
Procesy integracji modeli danych do jednolitej struktury WBD. Tadeusz Chrobak, Krystian Kozioł, Artur Krawczyk, Michał Lupa
Procesy integracji modeli danych do jednolitej struktury WBD Tadeusz Chrobak, Krystian Kozioł, Artur Krawczyk, Michał Lupa Koncepcja Wielorozdzielczej Bazy Danych Kluczowe uwarunkowania systemu generalizacji:
CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego
CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego Maciej Piasecki Politechnika Wrocławska Instytut Informatyki Grupa Naukowa G4.19 maciej.piasecki@pwr.wroc.pl
Analiza danych tekstowych i języka naturalnego
Kod szkolenia: Tytuł szkolenia: ANA/TXT Analiza danych tekstowych i języka naturalnego Dni: 3 Opis: Adresaci szkolenia Dane tekstowe stanowią co najmniej 70% wszystkich danych generowanych w systemach
AUTOMATYKA INFORMATYKA
AUTOMATYKA INFORMATYKA Technologie Informacyjne Sieć Semantyczna Przetwarzanie Języka Naturalnego Internet Edytor Serii: Zdzisław Kowalczuk Inteligentne wydobywanie informacji z internetowych serwisów
RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk
Wprowadzenie RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk Magdalena Deckert Politechnika Poznańska, Instytut Informatyki Seminarium ISWD, 21.05.2013 M. Deckert Przyrostowy
Bazy danych TERMINOLOGIA
Bazy danych TERMINOLOGIA Dane Dane są wartościami przechowywanymi w bazie danych. Dane są statyczne w tym sensie, że zachowują swój stan aż do zmodyfikowania ich ręcznie lub przez jakiś automatyczny proces.
W poszukiwaniu sensu w świecie widzialnym
W poszukiwaniu sensu w świecie widzialnym Andrzej Śluzek Nanyang Technological University Singapore Uniwersytet Mikołaja Kopernika Toruń AGH, Kraków, 28 maja 2010 1 Podziękowania Przedstawione wyniki powstały
Semantyczny Monitoring Cyberprzestrzeni
Semantyczny Monitoring Cyberprzestrzeni Partnerzy projektu: Katedra Informatyki Ekonomicznej Uniwersytet Ekonomiczny w Poznaniu Partnerzy projektu: Zarys problemu Źródło internetowe jako zasób użytecznych
Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego
Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego Maciej Piasecki, Tomasz Walkowiak Politechnika ska Katedra Inteligencji Obliczeniowej
Lokalizacja Oprogramowania
mgr inż. Anton Smoliński anton.smolinski@zut.edu.pl Lokalizacja Oprogramowania 16/12/2016 Wykład 6 Internacjonalizacja, Testowanie, Tłumaczenie Maszynowe Agenda Internacjonalizacja Testowanie lokalizacji
II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych
II cykl wykładów i warsztatów CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych 18-20 maja 2015 roku Politechnika Wrocławska, Centrum Kongresowe,
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania
Bydgoskie Centrum Archiwizacji Cyfrowej sp. z o.o.
STRONA GŁÓWNA ` Usługa earchiwizacja.pl przeznaczona jest zarówno dla osób indywidualnych, jak i firm. Wykorzystuje zasadę przetwarzania danych w chmurze. Pozwala to na dostęp do własnej bazy dokumentów
KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk
KorBa Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk ALLPPT.com _ Free PowerPoint Templates, Diagrams and Charts PODSTAWOWE
Elementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowania
Słowosiec 3.2 - leksykalna siec semantyczna je zyka polskiego i jej zastosowania Poziom rozszerzony Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 agnieszka.dziob@pwr.edu.pl
Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
Laboratorium technik optymalizacji: układanie uniwersyteckiego planu zajęć
Laboratorium technik optymalizacji: układanie uniwersyteckiego planu zajęć Marek Kubiak Opis problemu Rozważany problem układania uniwersyteckiego planu zajęć (ang. University Course Timetabling Problem
Python : podstawy nauki o danych / Alberto Boschetti, Luca Massaron. Gliwice, cop Spis treści
Python : podstawy nauki o danych / Alberto Boschetti, Luca Massaron. Gliwice, cop. 2017 Spis treści O autorach 9 0 recenzencie 10 Wprowadzenie 11 Rozdział 1. Pierwsze kroki 15 Wprowadzenie do nauki o danych
Systemy Wspomagania Decyzji
Rodzaje danych oraz ich przetwarzanie Szkoła Główna Służby Pożarniczej Zakład Informatyki i Łączności January 29, 2014 1 Dane tabelaryczne 2 Dane tekstowe 3 Dane sensoryczne 4 Dane multimedialne 5 Podsumowanie
Zastosowanie Wikipedii w przetwarzaniu języka naturalnego
Zastosowanie Wikipedii w przetwarzaniu języka naturalnego Plan prezentacji Wikipedia Klasyfikacja Zastosowanie w NLP Plan prezentacji Wikipedia Klasyfikacja Zastosowanie w NLP Rysunek : http://img2.wikia.nocookie.net/
Ujednoznacznianie sensów słów
ł ę ł ń ł Warsztaty Ujednoznacznianie sensów słów Ujednoznacznianie sensów słów Idea ujednoznaczniania sensów słów: zamek Warsztaty Ujednoznacznianie sensów słów Idea ujednoznaczniania sensów słów (cd.):
2
1 2 3 4 5 Dużo pisze się i słyszy o projektach wdrożeń systemów zarządzania wiedzą, które nie przyniosły oczekiwanych rezultatów, bo mało kto korzystał z tych systemów. Technologia nie jest bowiem lekarstwem
Agnieszka Nowak Brzezińska
Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia
mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.
mgr inż. Magdalena Deckert Poznań, 30.11.2010r. Metody przyrostowego uczenia się ze strumieni danych. Plan prezentacji Wstęp Concept drift i typy zmian Algorytmy przyrostowego uczenia się ze strumieni
Mapa Literacka analiza odniesień geograficznych w tekstach literackich
CLARIN-PL Mapa Literacka analiza odniesień geograficznych w tekstach literackich Michał Marcińczuk Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 michal.marcinczuk@pwr.edu.pl
LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów
LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów Łukasz Piątek, Jerzy W. Grzymała-Busse Katedra Systemów Ekspertowych i Sztucznej Inteligencji, Wydział Informatyki
Metody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych
Metody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych WMIM, Uniwersytet Warszawski ul. Banacha 2, 02-097 Warszawa, Polska andrzejanusz@gmail.com 13.06.2013 Dlaczego
CLARIN-PL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych
wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych Maciej Piasecki Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Technologii Językowej
Semantyczne podobieństwo stron internetowych
Uniwersytet Mikołaja Kopernika Wydział Matematyki i Informatyki Marcin Lamparski Nr albumu: 184198 Praca magisterska na kierunku Informatyka Semantyczne podobieństwo stron internetowych Praca wykonana
Centrum Technologii Językowych: repozytorium zasobów językowych i podstawowe usługi
CLARIN-PL Centrum Technologii Językowych: repozytorium zasobów językowych i podstawowe usługi Marcin Pol, Tomasz Walkowiak Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19
Asocjacyjna reprezentacja danych i wnioskowanie
Asocjacyjna reprezentacja danych i wnioskowanie Wykorzystane technologie JetBrains PyCharm 504 Python 35 Struktura drzewa GRAPH PARAM PARAM ID1 ID2 ID_N params params params param_name_1: param_value_1
Metody Sztucznej Inteligencji II
17 marca 2013 Neuron biologiczny Neuron Jest podstawowym budulcem układu nerwowego. Jest komórką, która jest w stanie odbierać i przekazywać sygnały elektryczne. Neuron działanie Jeżeli wartość sygnału
Praca Magisterska. Automatyczna kontekstowa korekta tekstów na podstawie Grafu Przyzwyczajeń. internetowego dla języka polskiego
Praca Magisterska Automatyczna kontekstowa korekta tekstów na podstawie Grafu Przyzwyczajeń Lingwistycznych zbudowanego przez robota internetowego dla języka polskiego Marcin A. Gadamer Promotor: dr Adrian
Narzędzia do automatycznej analizy odniesień w tekstach
CLARIN-PL Narzędzia do automatycznej analizy odniesień w tekstach Michał Marcińczuk Jan Kocoń Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 michal.marcinczuk@pwr.edu.pl
Diagramy obiegu dokumentów a UML w modelowaniu procesów biznesowych. Stanisław Niepostyn, Ilona Bluemke Instytut Informatyki, Politechnika Warszawska
Diagramy obiegu dokumentów a UML w modelowaniu procesów biznesowych Stanisław Niepostyn, Ilona Bluemke Instytut Informatyki, Politechnika Warszawska Wprowadzenie Modelowanie biznesowe jest stykiem między
OpenAI Gym. Adam Szczepaniak, Kamil Walkowiak
OpenAI Gym Adam Szczepaniak, Kamil Walkowiak Plan prezentacji Programowanie agentowe Uczenie przez wzmacnianie i problemy związane z rozwojem algorytmów Charakterystyka OpenAI Gym Biblioteka gym Podsumowanie
Słowosiec 3.0 - leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen
Słowosiec 3.0 - leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen Paweł Ke dzia, Marek Maziarz, Maciej Piasecki i Piotr Pe zik * Politechnika ska Katedra Inteligencji
EXSO-CORE - specyfikacja
EXSO-CORE - specyfikacja System bazowy dla aplikacji EXSO. Elementy tego systemu występują we wszystkich programach EXSO. Może on ponadto stanowić podstawę do opracowania nowych, dedykowanych systemów.
Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
3 grudnia Sieć Semantyczna
Akademia Górniczo-Hutnicza http://www.agh.edu.pl/ 1/19 3 grudnia 2005 Sieć Semantyczna Michał Budzowski budzow@grad.org 2/19 Plan prezentacji Krótka historia Problemy z WWW Koncepcja Sieci Semantycznej
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra
Narzędzia do wydobywania słowników związków frazeologicznych i terminów
Narzędzia do wydobywania słowników związków frazeologicznych i terminów Marek Maziarz, Michał Wendelberger Politechnika Wrocławska Instytut Informatyki Grupa Naukowa G4.19 marek.maziarz@pwr.edu.pl michal.wendelberger@pwr.edu.pl
Co to jest znaczenie? Współczesne koncepcje znaczenia i najważn. i najważniejsze teorie semantyczne
Co to jest znaczenie? Współczesne koncepcje znaczenia i najważniejsze teorie semantyczne Uniwersytet Kardynała Stefana Wyszyńskiego 1 Koncepcje znaczenia 2 3 1. Koncepcje referencjalne znaczenie jako byt
KRYTERIA OCENIANIA Z JĘZYKA ANGIELSKIEGO DLA KLASY VI
Ocena celująca KRYTERIA OCENIANIA Z JĘZYKA ANGIELSKIEGO DLA KLASY VI Poziom kompetencji językowej ucznia wykracza poza wiadomości i umiejętności przewidziane dla klasy szóstej. - uczeń potrafi przyjąć
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów
Komputerowe Systemy Przemysłowe: Modelowanie - UML. Arkadiusz Banasik arkadiusz.banasik@polsl.pl
Komputerowe Systemy Przemysłowe: Modelowanie - UML Arkadiusz Banasik arkadiusz.banasik@polsl.pl Plan prezentacji Wprowadzenie UML Diagram przypadków użycia Diagram klas Podsumowanie Wprowadzenie Języki
Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek
Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek Cel projektu Celem projektu jest przygotowanie systemu wnioskowania, wykorzystującego wybrane algorytmy sztucznej inteligencji; Nabycie
Funkcjonalność słów kluczowych pozwala na przypisanie zestawu słów do wykładowców, grup i sal, w celach wyszukiwania danych.
Słowa kluczowe... 1 Wprowadzenie... 1 Słowa kluczowe- przedmioty... 1 Słowa kluczowe- grupy... 4 Słowa kluczowe- wykładowcy i przedmioty... 4 Słowa kluczowe To rozszerzenie dostępne jest dla użytkowników,
WYKŁAD 6. Reguły decyzyjne
Wrocław University of Technology WYKŁAD 6 Reguły decyzyjne autor: Maciej Zięba Politechnika Wrocławska Reprezentacje wiedzy Wiedza w postaci reguł decyzyjnych Wiedza reprezentowania jest w postaci reguł
Systemy uczące się Lab 4
Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego
Składowanie i dostęp do danych w rozproszonym systemie ochrony własności intelektualnej ANDRZEJ SOBECKI, POLITECHNIKA GDAŃSKA INFOBAZY 2014
Składowanie i dostęp do danych w rozproszonym systemie ochrony własności intelektualnej ANDRZEJ SOBECKI, POLITECHNIKA GDAŃSKA INFOBAZY 2014 Podstawowy proces gromadzenia Trudności: Weryfikacja dokumentu
Podstawy Informatyki. Algorytmy i ich poprawność
Podstawy Informatyki Algorytmy i ich poprawność Błędy Błędy: językowe logiczne Błędy językowe Związane ze składnią języka Wykrywane automatycznie przez kompilator lub interpreter Prosty sposób usuwania
Semantyczna analiza języka naturalnego
Semantyczna analiza języka naturalnego Rozwiązanie Applica oparte o IBM SPSS Modeler Piotr Surma Applica 2 Agenda O Applica Analiza tekstu w języku polskim - wyzwania Rozwiązanie Applica Analiza Tekstu
Systemy uczące się wykład 1
Systemy uczące się wykład 1 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 5 X 2018 e-mail: przemyslaw.juszczuk@ue.katowice.pl Konsultacje: na stronie katedry + na stronie domowej
Recenzja rozprawy doktorskiej
Dr hab. Hung Son Nguyen Wydział Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski email: son@mimuw.edu.pl Warszawa, 20/4/2019 Recenzja rozprawy doktorskiej Tytuł: Metody semantycznej kategoryzacji
Spis treści tomu pierwszego
Spis treści tomu pierwszego WSTĘP.... 11 DŹWIĘK JAKO ZJAWISKO FIZYCZNE...15 CHARAKTERYSTYKA AKUSTYCZNA I AUDYTYWNA DŹWIĘKÓW MOWY.. 17 SŁUCH...20 WYŻSZE PIĘTRA UKŁADU SŁUCHOWEGO...22 EMISJE OTOAKUSTYCZNE...25
Wydobywanie informacji oraz cech tekstów: analiza frekwencyjna
Wydobywanie informacji oraz cech tekstów: analiza frekwencyjna Maciej Piasecki, Tomasz Walkowiak Politechnika Wrocławska Grupa Naukowa G4.19 Katedra Inteligencji Obliczeniowej Wydział Informatyki i Zarządzania
UCZENIE MASZYNOWE I SZTUCZNA INTELIGENCJA Jako narzędzia wspomagania decyzji w zarządzaniu kapitałem ludzkim organizacji
UCZENIE MASZYNOWE I SZTUCZNA INTELIGENCJA Jako narzędzia wspomagania decyzji w zarządzaniu kapitałem ludzkim organizacji Filip Wójcik Wydział Zarządzania, Informatyki i Finansów Instytut Informatyki Ekonomicznej
Wydobywanie informacji oraz cech tekstów: tworzenie prostych statystyk Część 1
Wydobywanie informacji oraz cech tekstów: tworzenie prostych statystyk Część 1 Jan Kocoń, Tomasz Walkowiak Politechnika Wrocławska Grupa Naukowa G4.19 Katedra Inteligencji Obliczeniowej Wydział Informatyki
Testowanie modeli predykcyjnych
Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności
METODY INŻYNIERII WIEDZY
METODY INŻYNIERII WIEDZY WALIDACJA KRZYŻOWA dla ZAAWANSOWANEGO KLASYFIKATORA KNN ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
SI w procesach przepływu i porządkowania informacji. Paweł Buchwald Wyższa Szkoła Biznesu
SI w procesach przepływu i porządkowania informacji Paweł Buchwald Wyższa Szkoła Biznesu Początki SI John MC Carthy prekursor SI Alan Thuring pomysłodawca testu na określenie inteligencji maszyn Powolny
Technologie Informacyjne
Systemy Uczące się Szkoła Główna Służby Pożarniczej Zakład Informatyki i Łączności January 16, 2017 1 Wprowadzenie 2 Uczenie nadzorowane 3 Uczenie bez nadzoru 4 Uczenie ze wzmocnieniem Uczenie się - proces
Świat rzeczywisty i jego model
2 Świat rzeczywisty i jego model Świat rzeczywisty (dziedzina problemu) Świat obiektów (model dziedziny) Dom Samochód Osoba Modelowanie 3 Byty i obiekty Byt - element świata rzeczywistego (dziedziny problemu),