Wykrywanie agresywności z polskojęzycznych postów użytkowników sieci socjalnych

Podobne dokumenty
Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek

Semantyczne podobieństwo stron internetowych

Lokalizacja Oprogramowania

Mapa Literacka analiza odniesień geograficznych w tekstach literackich

Obowiązkowy A. Przedmioty kształcenia ogólnego 1 Etykieta w życiu publicznym wykład 9 zaliczenie tak 1 B. Przedmioty podstawowe

ANALIZA DANYCH ZE ŹRÓDEŁ OTWARTYCH CENNE ŹRÓDŁO INFORMACJI DR INŻ. MARIUSZ DZIECIĄTKO

Rok I, semestr I (zimowy) Liczba godzin

AUTOMATYKA INFORMATYKA

Efekt kształcenia. Ma uporządkowaną, podbudowaną teoretycznie wiedzę ogólną w zakresie algorytmów i ich złożoności obliczeniowej.

Opracowanie systemu monitorowania zmian cen na rynku nieruchomości

Prezentacja specjalności studiów II stopnia. Inteligentne Technologie Internetowe

Instytut Technik Innowacyjnych Semantyczna integracja danych - metody, technologie, przykłady, wyzwania

Stanusch Technologies S.A. lider w rozwiązaniach opartych o sztuczną inteligencję

Systemy Wspomagania Decyzji

Vulnerability Management. Vulnerability Assessment. Greenbone GSM

Stan faktyczny bezpieczeństwa w polskich przedsiębiorstwach- 1/3

INŻYNIERIA OPROGRAMOWANIA

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Efektywne przetwarzanie informacji

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Grafika i Systemy Multimedialne (IGM)

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Dodatkowo planowane jest przeprowadzenie oceny algorytmów w praktycznym wykorzystaniu przez kilku niezależnych użytkowników ukończonej aplikacji.

Instytut Nauk Technicznych, PWSZ w Nysie Kierunek: Informatyka Specjalność: Gry komputerowe i multimedia, GKiM studia niestacjonarne Dla rocznika:

KARTA MODUŁU KSZTAŁCENIA

Efekty kształcenia dla kierunku studiów INFORMATYKA, Absolwent studiów I stopnia kierunku Informatyka WIEDZA

Rok I, semestr I (zimowy) Liczba godzin

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Nowoczesne narzędzia w relacjach z klientami

Kryteria oceniania z języka angielskiego dla klas II-III

INŻYNIERIA OPROGRAMOWANIA

9. Praktyczna ocena jakości klasyfikacji

Efekt kształcenia. Wiedza

Ontologie, czyli o inteligentnych danych

Prof. Stanisław Jankowski

PAŃSTWOWY INSTYTUT WETERYNARYJNY

Uniwersytet Śląski. Wydział Informatyki i Nauki o Materiałach PROGRAM KSZTAŁCENIA. Studia III stopnia (doktoranckie) kierunek Informatyka

MP-8 KARTA MONITOROWANIA PODSTAWY PROGRAMOWEJ KSZTAŁCENIA OGÓLNEGO. j. angielski klasa PRZEDMIOT. czwarta r.szk... Imię i nazwisko n-la przedmiotu

STUDIA I MONOGRAFIE NR

Zaawansowane programowanie obiektowe - wykład 5

Kraków, 14 marca 2013 r.

Dodatkowo, w przypadku modułu dotyczącego integracji z systemami partnerów, Wykonawca będzie przeprowadzał testy integracyjne.

Identyfikacja znamion ukrytego plagiatu. Z wykorzystaniem IDEA Caseware

Obowiązkowy A. Przedmioty kształcenia ogólnego 1 Etykieta w życiu publicznym wykład 9 zaliczenie tak 1 B. Przedmioty podstawowe

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2)

Informatyka Studia II stopnia

OŚRODEK ROZWOJU EDUKACJI [dalej: Zamawiający ] Al. Ujazdowskie Warszawa

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Dziewięć dziesiątych w obliczu mechatronizacji techniki

KRYTERIA OCENIANIA DŁUŻSZYCH FORM WYPOWIEDZI PISEMNYCH NOTATKA. L.p. Kryteria oceny Punktacja

Instytut Nauk Technicznych, PWSZ w Nysie Kierunek: Informatyka Specjalność: Systemy internetowe, SI studia niestacjonarne Dla rocznika:

Infrastruktura PLGrid

nr seryjny komputera 4 Płyta główna WyposaŜona w złącza: 1 x PCI-Express x 16, 1 x PCI-Express x 1, 1 x PCI zapis po zmianie:

Numeron. System ienergia

Polityka prywatności changeinstitute.com.pl..1 Postanowienia Ogólne

Instytut Nauk Technicznych, PWSZ w Nysie Kierunek: Informatyka Specjalność: Systemy internetowe, SI studia stacjonarne Dla rocznika: 2018/2019

Relacja: III Seminarium Naukowe "Inżynierskie zastosowania technologii informatycznych"

Formularz oferty OFERTA WYKONANIA USŁUGI. Ja niżej podpisany/a:

Analiza danych tekstowych i języka naturalnego

PRZEDMIOTOWE ZASADY OCENIANIA Z JĘZYKA ANGIELSKIEGO DLA KLAS I-III

Nadzorowanie stanu serwerów i ich wykorzystania przez użytkowników

KRAJOWY REJESTR NOWOTWORÓW ZINTEGROWANY SYSTEM REJESTRACJI NOWOTWORÓW ZŁOŚLIWYCH W POLSCE

Efektywność wyszukiwania informacji w publicznie dostępnych katalogach bibliotek wykorzystujących polskie programy biblioteczne

DLA SEKTORA INFORMATYCZNEGO W POLSCE

Przedstawiona do recenzji rozprawa doktorska Pana mgra inż. Adama Dudka pt. :

Logika stosowana. Ćwiczenia Wnioskowanie przez abdukcję. Marcin Szczuka. Instytut Matematyki, Uniwersytet Warszawski

Aurea BPM Dokumenty pod kontrolą

Instytut Informatyki, PWSZ w Nysie Kierunek: Informatyka Specjalność: Systemy i sieci komputerowe, SSK studia stacjonarne Rok 2012/2013

Zestawy zagadnień na egzamin dyplomowy (inżynierski) dla kierunku INFORMATYKA (studia I stopnia)

mgr inż. Magdalena Deckert Poznań, r. Uczenie się klasyfikatorów przy zmieniającej się definicji klas.

Open Access w technologii językowej dla języka polskiego


Instytut Nauk Technicznych, PWSZ w Nysie Kierunek: Informatyka Specjalność: Systemy i sieci komputerowe, SSK studia niestacjonarne Dla rocznika:

Web 3.0 Sieć Pełna Znaczeń (Semantic Web) Perspektywy dla branży motoryzacyjnej i finansowej. Przyjęcie branżowe EurotaxGlass s Polska 10 luty 2012

CERAD Centrum Projektowania i Syntezy Radiofarmaceutyków Ukierunkowanych Molekularnie

ROZWÓJ SYSTEMÓW SZTUCZNEJ INTELIGENCJI W PERSPEKTYWIE "PRZEMYSŁ 4.0"

Przyciągnij wzrok, a osiągniesz sukces!

Transformacja wiedzy w budowie i eksploatacji maszyn

WNIOSEK O PORTFOLIO: Narzędzia nowoczesnej humanistyki

Systemy ekspertowe i ich zastosowania. Katarzyna Karp Marek Grabowski

Lista rankingowa/suplement/korekta* Dla projektów o wartości wydatków kwalifikowanych co najmniej 15 mln PLN

Analiza wyników egzaminu gimnazjalnego Test język obcy nowożytny język angielski (poziom podstawowy) Test GA-P1-132

Słownik. Instrukcja obsługi programu

ZAPROSZENIE DO ZŁOŻENIA OFERTY Nr 1/8.2/2014

Konferencja Biblioteka Akademicka: Infrastruktura Uczelnia Otoczenie Gliwice, października 2013 r.

Malware + Machine Learning (ML) - czy to ma sens? Kamil Frankowicz

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Efektywne przetwarzanie informacji pozyskiwanych z różnych źródeł. Adrian Weremiuk Prezes Zarządu XSystem S.A.

Język angielski Wymagania edukacyjne dla klas III

Szczegółowy Opis Przedmiotu Zamówienia. dotyczy. ZAPYTANIE OFERTOWE nr ISB UZEOP 1/2015

Państwowa Wyższa Szkoła Techniczno-Ekonomiczna w Jarosławiu

Fundamenty pracy grupowej. Komunikacja. Komunikacja. Ewolucja elektronicznej komunikacji. Generacje systemów owych

Praca Magisterska. Automatyczna kontekstowa korekta tekstów na podstawie Grafu Przyzwyczajeń. internetowego dla języka polskiego

Zakładane efekty kształcenia dla kierunku Wydział Telekomunikacji, Informatyki i Elektrotechniki

PRZEWODNIK PO PRZEDMIOCIE

w tym laborat. Razem semin. konwer. wykłady ćwicz. w tym laborat. Razem ECTS Razem semin. konwer.

Bash - wprowadzenie. Bash - wprowadzenie 1/39

Technologie Informacyjne

Rok I, semestr I (zimowy) Liczba godzin

Transkrypt:

Wykrywanie agresywności z polskojęzycznych postów użytkowników sieci socjalnych dr German Budnik (german.budnik@uwb.edu.pl) Wydział Ekonomiczno-Informatyczny w Wilnie Uniwersytet w Białymstoku 1

Motywacja 2

Online game Online chat has part has part actor High positive lexeme Motywacja Dyskretyzacja danych o zachowaniu has attribute action category has value Medium positive Low positive Neutral Low negative Medium negative High negative Usage counter has value has attribute category is defined by Web page / post/picture /video/musi c is defined by voting move Mouse operation is a is a is a scroll click Mouse over / mouse out 3

Motywacja Główna hipoteza badawcza Zebrane dane o zachowaniu osób w środowiskach wirtualnych, pozwolą wnioskować o wzorcach czynności agresywnych Uzasadnienie wybrania Aktualność Wyróżnienie 4

Motywacja Zapotrzebowanie i aktualność 1. Złożone problemy społeczne spowodowane marginalnym zachowaniem osób (akty agresji, zachowanie aspołeczne itp.); 2. Zgłoszony konkurs Agencji Zaawansowanych Projektów Badawczych w Obszarze Obronności w zakresie DETECTION AND COMPUTATIONAL ANALYSIS OF PSYCHOLOGICAL SIGNALS [DARPA, 2014]; 3. Nowoczesne prace w obszarze klasyfikacji i interpretacji czynności w środowiskach wirtualnych [Ho et al., 2014], [Gutschmidt, 2013]; 4. Istnienie nowoczesnych metod implementacji zmiany zachowania z wykorzystaniem oprogramowania inteligentnego [Klein, 2014]. 5

Kategorie agresywności 6

Funkcje agresywnych działań językowych Prof. Maria Peisert (Uniwersytet Wrocławski) Dążność do poniżenia osoby oponenta, zapchnięcie jej na niższe poziomy hierarchii społecznej to jedna z najważniejszych funkcji działań językowych, które można włączyć w zakres pojęcia agresja. 7

Wyrządzenie szkody odbiorcy przez pomniejszenie jego statusu 1. Umieszczenie imienia oponenta w nieprzystojnym otoczeniu leksykalnym. 2. Metaforyczne przeniesienie na oponenta nazw zwierząt, z którymi wiążą się negatywne konotacje semantyczne, np. szczur, nazw części ciała człowieka terminami należącymi do świata zwierząt, np. r$$$j. 3. Oskarżanie o naruszenie norm społecznych, np. dz$$$ka, pe$$$ał. 4. Zarzucenie oponentowi braku wiedzy, inteligencji, np. idiota, bałwan. 8

Wstępna analiza tekstów Oprogramowanie Instytutu Monitorowania Mediów pozwala na śledzenie informacji i opiniach o markach we wszystkich rodzajach mediów. 9

Wstępna analiza tekstów Zapytanie - szereg słów stosowanych dla metaforycznego określenia oponenta. 9191 postów w sieciach socjalnych ( 23-11-2015 ). 1134 przeczytano postów. 261- usunięto duplikatów 10

873 podjęte klasyfikacji ręcznej w obiec modelu prof. M. Peisert Wykryte szablonowe wyrazy agresywne (w formie podstawowej): Wyniki analizy wstępnej 1. <ty> <być> <w> 2. <wy> <być> <w> 3. <sam> <być> <w> 4. <być> <w> 5. <ty> <w> 6. <jak> <w> 7. <być> <jak> <w> 8. <co to za> <w> * w wyraz wulgarny Agresywnych postów 140 ; Nieagresywnych postów 733. 11

Rozpoznawanie form podstawowych 12

Główne funkcje stworzonego prototypu Połączenie się z Analizatorem Morfologicznym dla przetwarzania tekstów Analiza i klasyfikacja przetworzonych tekstów Wczytywanie wyrazów wulgarnych Uwzględnienie zdań złożonych, fragmentując ich na zdania proste Rozpoznawanie szablonowych wyrazów agresywnych Uwzględnienie negacji w zdaniach prostych Wpisywanie wyniku klasyfikacji 13

Połączenie się z Analizatorem Morfologicznym dla przetwarzania tekstów Interfejs REST API 1 post (wiadomość tekstowa) ~ 11 sekund 873 postów 14

Uwzględnienie zdań złożonych, fragmentując ich na zdania proste Kilka zdań (token </zdanie>) Znak (np. <,> / < ; >) i brak myślniku (< - >) < ale > < że > / < ze > < a > / < i > 15

Rozpoznawanie szablonowych wyrazów agresywnych Dla szablonowych wyrazów agresywnych 1. <ty> <być> <w> 2. <wy> <być> <w> 3. <sam> <być> <w> 4. <być> <w> 5. <być> <jak> <w> podstawowa forma <być> uwzględniana, jeżeli słowem oryginalnym nie jest <jestem> <jest> <jesteśmy> 16

Logika prototypu klasyfikującego 1. <ty> <być> <w> 2. <wy> <być> <w> 3. <sam> <być> <w> 4. <być> <w> 5. <ty> <w> 6. <jak> <w> 7. <być> <jak> <w> 8. <co to za> <w> 17

Post oryginalny @justinbieber ja i @dallaspade chciałyśmy ci powiedzieć że jesteś i$$$ą. Szablonowy wyraz agresywny Być W Przykład 1 18

Post oryginalny Nie ma wątpliwości, że jesteś fanatycznym i$$$ą... Szablonowy wyraz agresywny Być W Przykład 2 19

Post oryginalny Chcę powiedzieć, że lubię być namiętnym i szczerym, ale również lubię dobrze się bawić i działam jak i$$$a. Szablonowy wyraz agresywny Być W false positive! Przykład 3 20

Podsumowanie wyników klasyfikacji komputerowej Agresywnych Nieagresywnych # postów 140 733 # false positive 13 83 % false positive 9.3% 11,3% # true positive 127 650 % true positive 90,7% 88,7% 21

Omówienie wyników Wada 1 osoba klasyfikująca posty Możliwości dla polepszenia pracy klasyfikatora nieprawidłowa pisownia wulgaryzmów rozpoznanie zdania prostego z wymienieniem cech (np. TY kłamliwa, $$$, mała <WULGARYZM>.) rozpoznanie zdania złożonego jako prostego (np. nie jesteś kłamcą a zwykłym <WULGARYZM>) rozpoznanie jednego zdanie rozdzielonego znakiem - wygląda jako kilka zdań polepszenie pracy analizatora morfologicznego Przyczyny false positive: żarty (np. ładny jak na szczura) wielu semantyczne słowo cytowanie 22

Porównanie wyników 23

Neuroph Studio: perceptron - model 24

Neuroph Studio: perceptron - model 25

Porównanie wyników pracy prototypu oprogramowania i perceptron modelu 26

Podziękowania Profesor W. Homenda (PW) Profesor M. Muraszkiewicz (PW) Dr P. Sołdacki (astrafox.pl) Instytut Monitorowania Mediów (www.imm.com.pl) 27