word2vec dla Polskiego Internetu
|
|
- Adam Sowiński
- 8 lat temu
- Przeglądów:
Transkrypt
1 word2vec dla Polskiego Internetu 27 listopada 2015 Wojciech Stokowiec Ośrodek Przetwarzania Informacji - Państwowy Instytut Badawczy
2 Agenda 1 word2vec CBOW Skip-Gram Optymalizacje Hierarchical Softmax Negative Sampling Internety Common Crawl Akka Przykłady Common Crawl Wiki
3 Przykład motywujący 2
4 Przykład motywujący 2
5 Przykład motywujący 2
6 Przykład motywujący 2
7 Przykład motywujący 2
8 word2vec + Google News 3 Korzystając z gotowego modelu ze strony from gensim.models.word2vec import word2vec model = word2vec.load_word2vec_format( GoogleNews-vectors-negative300.bin, binary=true) model.most_similar(positive=[ woman, king ], negative=[ man ], topn=5) [(u queen, ), (u monarch, ), (u princess, ), (u crown_prince, ), (u prince, )]
9 word2vec + Google News 4 Co ciekawe, poza semantycznymi relacjami, word2vec jest w stanie "wyłapać"podstawy gramatyki, takie jak stopniowanie przymiotników: model.most_similar(positive=[ biggest, small ], negative=[ big ], topn=5) [(u smallest, ), (u largest, ), (u tiny, ), (u large, ), (u minuscule, )]
10 word2vec 5 Należy pamiętać, że: word2vec to nie jeden model! word2vec to nie deep learning! Rysunek: CBOW oraz Skip-gram
11 Continuous Bag of Words 6 Rysunek: CBOW z jednym słowem w kontekście
12 CBOW 7 Dla danego kontekstu x, zakładając kodowanie 1 z N, tj x k = 1 oraz x k = 0 dla x k x k możemy obliczyć wartości warstwy ukrytej: h = x T W = W (k, ) := v wi (1) Następnie wyliczamy wartość funkcji oceny u j dla każdego słowa w j w słowniku: u j = v w j T h. (2) Aby wyznaczyć prawdopodobieństwo wyemitowania słowa w j pod warunkiem zaobserwowania danego kontekstu korzystamy z funkcji softmax: ) p(w O w I ) = exp(u exp (v O) T V i=1 exp(u i) = wo v wi ). (3) V i=1 (v exp w T i v wi
13 CBOW 8 Rysunek: CBOW z dłuższym kontekstem
14 CBOW 9 Analogicznie, tylko że warstwa ukryta wygląda w sposób następujący: h = 1 C W (x 1 + x x C ) = 1 C (v w 1 + v w v wc ). (4)
15 Skip-Gram 10 Rysunek: Skig-gram
16 Skip-Gram 11 Skip-gram jest lustrzanym odbiciem architektury CBOW, tj. na podstawie słowa staramy się przewidzieć jego kontekst. Niech dany będzie ciąg słów: w 1, w 2,..., w T oraz długość kontekstu c, wtedy staramy się maksymalizować następującą funkcję: 1 T T t=1 c j c, j 0 log p(w t+j wt ), (5) a prawdopodobieństwa p(w t+j wt ) zdefiniowane są w sposób następujący: p(w O w I ) = exp ( v w O T v wi ) W w=1 exp ( v w T v wi, ) (6) gdzie v w oraz v w oznaczają "wejściowe"i "wyjścioweżeprezentacje wektorowe słowa "w", a W jest liczbą słów w słowniku.
17 Optymalizacje 12 Przypomnijmy, że w wzorze 7 w mianowniku znajduje się czynnik normalizujący: p(w O w I ) = exp ( v w O T v wi ) W w=1 exp ( v w T v wi, ) (7) Przy dużym słowniku (a takie występują w przyrodzie) metody optymalizacyjne oparte na prostym gradiencie są co najmniej nieefektywne. Można sobie z tym radzić na parę sposobów!
18 Hierarchical Softmax 13 Jest to efektywny sposób na znalezienie szukanego prawdopodobieństwa Model używa drzewa binarnego do reprezentacji słów ze słownika
19 Hierarchical Softmax 14 Rysunek: Przykład drzewa binarnego dla hierarchicznego sofmax u Prawdopodobieństwo, że dane słowo w jest słowem wyjściowym zadane jest następującym wzorem: p(w = w O ) = L(w) 1 j=1 ( ) σ n(w, j + 1) = ch(n(w, j)) v T n(w,j) h (8)
20 Hierarchical Softmax 15 Skąd wziąć to drzewo? Użyć losowo wygenerowanego Rozwiązanie w najlepszym przypadku nieoptymalne
21 Hierarchical Softmax 15 Skąd wziąć to drzewo? Użyć losowo wygenerowanego Rozwiązanie w najlepszym przypadku nieoptymalne Można użyć zewnętrznych źródeł, np. WordNet
22 Hierarchical Softmax 15 Skąd wziąć to drzewo? Użyć losowo wygenerowanego Rozwiązanie w najlepszym przypadku nieoptymalne Można użyć zewnętrznych źródeł, np. WordNet Można użyć metod klastrowania hierarchicznego:
23 Hierarchical Softmax 15 Skąd wziąć to drzewo? Użyć losowo wygenerowanego Rozwiązanie w najlepszym przypadku nieoptymalne Można użyć zewnętrznych źródeł, np. WordNet Można użyć metod klastrowania hierarchicznego:
24 Hierarchical Softmax 15 Skąd wziąć to drzewo? Użyć losowo wygenerowanego Rozwiązanie w najlepszym przypadku nieoptymalne Można użyć zewnętrznych źródeł, np. WordNet Można użyć metod klastrowania hierarchicznego:
25 Hierarchical Softmax 15 Skąd wziąć to drzewo? Użyć losowo wygenerowanego Rozwiązanie w najlepszym przypadku nieoptymalne Można użyć zewnętrznych źródeł, np. WordNet Można użyć metod klastrowania hierarchicznego:
26 Hierarchical Softmax 15 Skąd wziąć to drzewo? Użyć losowo wygenerowanego Rozwiązanie w najlepszym przypadku nieoptymalne Można użyć zewnętrznych źródeł, np. WordNet Można użyć metod klastrowania hierarchicznego:
27 Hierarchical Softmax 15 Skąd wziąć to drzewo? Użyć losowo wygenerowanego Rozwiązanie w najlepszym przypadku nieoptymalne Można użyć zewnętrznych źródeł, np. WordNet Można użyć metod klastrowania hierarchicznego: Mikolov w swojej implementacji word2vec a używa drzew Huffmana
28 Negative Sampling 16 W swojej pracy z 2013 roku Mikolov używają następującej funkcji celu: log σ ( v w T ) k ( vwi O + E wi P n(w )[ log σ v T )] wi vwi, (9) i=1 Gdzie k, to liczba próbek z rozkładu śzumu"p n (W ). Równanie 9 można zapisać w trochę czytelniejszy sposób: Prawidłowy rozkład Rozkład szumu {}}{ log σ ( { v w T ) }}{ vwi O + log σ ( v w T ) vwi i i P n(w ) (10)
29 Negative Sampling 16 W swojej pracy z 2013 roku Mikolov używają następującej funkcji celu: log σ ( v w T ) k ( vwi O + E wi P n(w )[ log σ v T )] wi vwi, (9) i=1 Gdzie k, to liczba próbek z rozkładu śzumu"p n (W ). Równanie 9 można zapisać w trochę czytelniejszy sposób: Prawidłowy rozkład Rozkład szumu {}}{ log σ ( { v w T ) }}{ vwi O + log σ ( v w T ) vwi i i P n(w ) maksymalizujemy prawdopodobieństwo wystąpienia rzeczywistego kontekstu (10)
30 Negative Sampling 16 W swojej pracy z 2013 roku Mikolov używają następującej funkcji celu: log σ ( v w T ) k ( vwi O + E wi P n(w )[ log σ v T )] wi vwi, (9) i=1 Gdzie k, to liczba próbek z rozkładu śzumu"p n (W ). Równanie 9 można zapisać w trochę czytelniejszy sposób: Prawidłowy rozkład Rozkład szumu {}}{ log σ ( { v w T ) }}{ vwi O + log σ ( v w T ) vwi i i P n(w ) (10) maksymalizujemy prawdopodobieństwo wystąpienia rzeczywistego kontekstu minimalizujemy prawdopodobieństwo wystąpienia losowych słów w kontekście
31 Negative Sampling 16 W swojej pracy z 2013 roku Mikolov używają następującej funkcji celu: log σ ( v w T ) k ( vwi O + E wi P n(w )[ log σ v T )] wi vwi, (9) i=1 Gdzie k, to liczba próbek z rozkładu śzumu"p n (W ). Równanie 9 można zapisać w trochę czytelniejszy sposób: Prawidłowy rozkład Rozkład szumu {}}{ log σ ( { v w T ) }}{ vwi O + log σ ( v w T ) vwi i i P n(w ) (10) maksymalizujemy prawdopodobieństwo wystąpienia rzeczywistego kontekstu minimalizujemy prawdopodobieństwo wystąpienia losowych słów w kontekście P n (w) U(w) 3/4 /Z
32 Common Crawl 17 Fundacja Common Crawl to organizacja non-profit której celem jest demokratyzacja dostępu do informacji zawartej w internecie poprzez stworzenie i utrzymanie otwartego repozytorium tekstowych danych internetowych, które są powszechnie dostępne i łatwe do analizy. strona fundacji Common Crawl
33 Common Crawl 18 Mnóstwo danych! Jeden dump "ważyókoło 140TB danych i zawiera 1.80 mld stron internetowych Około 17 dumpów, zrobionych na przestrzeni lat Każdy dump składa się z plików: WARC - zawierających nieobrobione dane WAT - zawierających meta-dane opisujące dany rekord WET - zawierających wyłuskany ze strony tekst Jeden dump zawiera około 10TB danych w formacie WET Do tej pory przetworzyliśmy 9 dumpów, co daje około 90TB danych tekstowych, ale...
34 Common Crawl 18 Mnóstwo danych! Jeden dump "ważyókoło 140TB danych i zawiera 1.80 mld stron internetowych Około 17 dumpów, zrobionych na przestrzeni lat Każdy dump składa się z plików: WARC - zawierających nieobrobione dane WAT - zawierających meta-dane opisujące dany rekord WET - zawierających wyłuskany ze strony tekst Jeden dump zawiera około 10TB danych w formacie WET Do tej pory przetworzyliśmy 9 dumpów, co daje około 90TB danych tekstowych, ale około 0.3% jest w języku polskim.
35 WET 19 Format WET zawiera minimalną ilość meta-danych, główną jego zawartością jest czysty tekst ze strony. Rysunek: Przykład pliku w formacie WET
36 Narzędzia 20
37 Akka 21 Obowiązkowe Hello World (cz. 1): // definiujemy protokol rozmowy case class Hello(who: String) // minimalny aktor class Greeter extends Actor { def receive = { case Hello(who) => println(s"it s a you, a $who!") case _ => println("name, please!") } }
38 Akka 22 Obowiązkowe Hello World (cz. 2): object Main extends App { } // inicjalizacja systemu aktorow val system = ActorSystem("HelloWorldSystem") // stworzenie aktora val greeter = system.actorof(props[greeter], name = "helloactor") // przeslanie wiadomosci greeter! "Mario!"
39 Nasi aktorzy 23 System aktorów do zarządzania aplikacją 1 File Master tworzący File Workerów oraz rozdzielający im prace 1 Terminator monitorujący cykl życia aktorów, oraz zamykający system 24 File Workerów do przetwarzania strumienia danych oraz wysyłania kawałków tekstu reprezentujących stronę do identyfikacji języka 36 Bouncerów filtrują teksy z języka polskiego przy pomocy biblioteki CLD2 zapis do Cassandry
40 Nasi aktorzy 24 w 1 b 1 M w R w 2 b R. Db. b M w N Workers Bouncers Rysunek: Architektura crawlera
41 word2vec na zbiorze Common Crawl 25 Tablica: Najbliższe słowa Słowo Najbliższy Wektor Dystans Król Cesarz Tusk Donald Kobieta Dziewczyna Mężczyzna Chłopak Sushi Pizza Apple Tablety Dziewczyna Rozochocona :-)
42 word2vec na zbiorze Common Crawl 26 Wyrażenie Tablica: Algebra wektorów Najbliższy wektor Król Mężczyzna + Kobieta Edyp :-) Większy Duży + Mały Mniejszy Włochy Rzym + Francja Paryż Dżungla + Król tarzantarzan lewkról
43 word2vec na polskiej Wikipedii 27 Tablica: Najbliższe słowa Słowo Najbliższy Wektor Dystans Król Władca Tusk Ramotar :-) Kobieta Dziewczyna Mężczyzna Chłopak Sushi Chowder Apple Iphone Dziewczyna Kobieta Kaczyński Wałęsa Kwaśnieswki Komorowski
44 word2vec na polskiej 28 Tablica: Algebra wektorów Wyrażenie Najbliższy wektor Król Mężczyzna + Kobieta Królowa Większy Duży + Mały Mniejszy Włochy Rzym + Francja Szwajcaria :-(
45 Podsumowanie 29 Udało się stworzyć największy korpus języka polskiego filtrując zbiory fundacji Commmon Crawl, ale...
46 Podsumowanie 29 Udało się stworzyć największy korpus języka polskiego filtrując zbiory fundacji Commmon Crawl, ale to straszny śmietnik.
47 Podsumowanie 29 Udało się stworzyć największy korpus języka polskiego filtrując zbiory fundacji Commmon Crawl, ale to straszny śmietnik. Pracujemy nad deduplikacją, korekcją błędów i odśmiecaniem.
48 Podsumowanie 29 Udało się stworzyć największy korpus języka polskiego filtrując zbiory fundacji Commmon Crawl, ale to straszny śmietnik. Pracujemy nad deduplikacją, korekcją błędów i odśmiecaniem. Wektorowe reprezentacje słów uzyskane poprzez uczenie word2veca na naszym korpusie są przesycone seksem :-)
49 Podsumowanie 29 Udało się stworzyć największy korpus języka polskiego filtrując zbiory fundacji Commmon Crawl, ale to straszny śmietnik. Pracujemy nad deduplikacją, korekcją błędów i odśmiecaniem. Wektorowe reprezentacje słów uzyskane poprzez uczenie word2veca na naszym korpusie są przesycone seksem :-) Wektorowe reprezentacje słów na polskiej wiki są nieznacznie lepsze.
50 Podsumowanie 29 Udało się stworzyć największy korpus języka polskiego filtrując zbiory fundacji Commmon Crawl, ale to straszny śmietnik. Pracujemy nad deduplikacją, korekcją błędów i odśmiecaniem. Wektorowe reprezentacje słów uzyskane poprzez uczenie word2veca na naszym korpusie są przesycone seksem :-) Wektorowe reprezentacje słów na polskiej wiki są nieznacznie lepsze. Zastosowanie word2veca do uzupełniania leksykonów sentymentu w zagadnieniu analizy wydźwięku
51 Podsumowanie 29 Udało się stworzyć największy korpus języka polskiego filtrując zbiory fundacji Commmon Crawl, ale to straszny śmietnik. Pracujemy nad deduplikacją, korekcją błędów i odśmiecaniem. Wektorowe reprezentacje słów uzyskane poprzez uczenie word2veca na naszym korpusie są przesycone seksem :-) Wektorowe reprezentacje słów na polskiej wiki są nieznacznie lepsze. Zastosowanie word2veca do uzupełniania leksykonów sentymentu w zagadnieniu analizy wydźwięku Polska język, trudna język.
52 Uwagi Informacje kontaktowe 30 W razie jakichkolwiek uwag, komentarzy lub wątpliwości proszę o kontakt: Wojciech Stokowiec wojciech.stokowiec@opi.org.pl
53 Dziękuje za uwagę!
Dariusz Brzeziński Instytut Informatyki, Politechnika Poznańska
Dariusz Brzeziński Instytut Informatyki, Politechnika Poznańska Czym jest znaczenie Reprezentacja wektorowa Ograniczenia modelu BOW Słowa w kontekście Redukcja wymiarów Word2vec GloVe Materiały sporządzone
Praca magisterska Jakub Reczycki. Opiekun : dr inż. Jacek Rumiński. Katedra Inżynierii Biomedycznej Wydział ETI Politechnika Gdańska
System gromadzenia, indeksowania i opisu słownikowego norm i rekomendacji Praca magisterska Jakub Reczycki Opiekun : dr inż. Jacek Rumiński Katedra Inżynierii Biomedycznej Wydział ETI Politechnika Gdańska
Języki programowania imperatywnego
Katedra Inżynierii Wiedzy laborki 10 Jeszcze o plikach i katalogach File.Exists; File.Delete; Directory.Exists; Directory.Delete(nazwa, true); File.Move(nazwa, nowanazwa); Directory.CreateDirectory(nazwa);
Wyszukiwanie informacji w internecie. Nguyen Hung Son
Wyszukiwanie informacji w internecie Nguyen Hung Son Jak znaleźć informację w internecie? Wyszukiwarki internetowe: Potężne machiny wykorzystujące najnowsze metody z różnych dziedzin Architektura: trzy
OpenAI Gym. Adam Szczepaniak, Kamil Walkowiak
OpenAI Gym Adam Szczepaniak, Kamil Walkowiak Plan prezentacji Programowanie agentowe Uczenie przez wzmacnianie i problemy związane z rozwojem algorytmów Charakterystyka OpenAI Gym Biblioteka gym Podsumowanie
Zasady programowania Dokumentacja
Marcin Kędzierski gr. 14 Zasady programowania Dokumentacja Wstęp 1) Temat: Przeszukiwanie pliku za pomocą drzewa. 2) Założenia projektu: a) Program ma pobierać dane z pliku wskazanego przez użytkownika
Kodowanie i kompresja Tomasz Jurdziński Studia Wieczorowe Wykład Kody liniowe - kodowanie w oparciu o macierz parzystości
Kodowanie i kompresja Tomasz Jurdziński Studia Wieczorowe Wykład 13 1 Kody liniowe - kodowanie w oparciu o macierz parzystości Przykład Różne macierze parzystości dla kodu powtórzeniowego. Co wiemy z algebry
Architektura rozproszonych magazynów danych
Big data Big data, large data cloud. Rozwiązania nastawione na zastosowanie w wielkoskalowych serwisach, np. webowych. Stosowane przez Google, Facebook, itd. Architektura rozproszonych magazynów danych
Temat: Algorytm kompresji plików metodą Huffmana
Temat: Algorytm kompresji plików metodą Huffmana. Wymagania dotyczące kompresji danych Przez M oznaczmy zbiór wszystkich możliwych symboli występujących w pliku (alfabet pliku). Przykład M = 2, gdy plik
akademia androida Pierwsze kroki w Androidzie część I
akademia androida Pierwsze kroki w Androidzie część I agenda Środowisko do pracy + emulator Struktura projektu z omówieniem Po co nam AndroidManifest.xml? Cykl życia aplikacji Zadanie 1. Kod, symulacja,
Strumienie, pliki. Sortowanie. Wyjątki.
Strumienie, pliki. Sortowanie. Wyjątki. Operacje I/O w Javie Serializacja Zapisuje całą klasę Plik binarny Delimiter nieokreślony Nie da się podglądać Pliki tekstowe Zapisuje wybrane informacje Plik tekstowy
Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego
Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego Witold Kieraś Łukasz Kobyliński Maciej Ogrodniczuk Instytut Podstaw Informatyki PAN III Konferencja DARIAH-PL Poznań 9.11.2016
Strumienie, pliki. Sortowanie. Wyjątki.
Strumienie, pliki. Sortowanie. Wyjątki. Serializacja Zapisuje całą klasę Plik binarny Delimiter nieokreślony Nie da się podglądać Pliki tekstowe Zapisuje wybrane informacje Plik tekstowy Delimiter ustawiamy
Hurtownie danych - przegląd technologii
Hurtownie danych - przegląd technologii Problematyka zasilania hurtowni danych - Oracle Data Integrator Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel
Witryny i aplikacje internetowe - rozkład godzin dla technikum informatycznego
Witryny i aplikacje internetowe - rozkład godzin dla technikum informatycznego w oparciu o Program nauczania dla zawodu technik informatyk 351203 o strukturze przedmiotowej, Warszawa 2012. Minimalna ilość
Algorytmy i struktury danych. Wykład 4 Tablice nieporządkowane i uporządkowane
Algorytmy i struktury danych Wykład 4 Tablice nieporządkowane i uporządkowane Tablice uporządkowane Szukanie binarne Szukanie interpolacyjne Tablice uporządkowane Szukanie binarne O(log N) Szukanie interpolacyjne
Programowanie Komponentowe WebAPI
Programowanie Komponentowe WebAPI dr inż. Ireneusz Szcześniak jesień 2016 roku WebAPI - interfejs webowy WebAPI to interfejs aplikacji (usługi, komponentu, serwisu) dostępnej najczęściej przez Internet,
Teoria informacji i kodowania Ćwiczenia Sem. zimowy 2016/2017
Algebra liniowa Zadanie 1 Czy jeśli wektory x, y i z, należące do binarnej przestrzeni wektorowej nad ciałem Galois GF (2), są liniowo niezależne, to można to samo orzec o następujących trzech wektorach:
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z liniowym zadaniem najmniejszych
Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2
Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2 ws.clarin-pl.eu/websty.shtml Tomasz Walkowiak, Maciej Piasecki Politechnika Wrocławska Grupa Naukowa G4.19 Katedra Inteligencji Obliczeniowej
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji
XML i nowoczesne technologie zarządzania treścią 2007/08
Zadanie 3 Poprawkowe XML i nowoczesne technologie zarządzania treścią 2007/08 Wprowadzenie Należy napisać program w Javie, który czytając w trybie SAX plik z listą operacji, wykonuje zadane operacje na
Uczenie sieci typu MLP
Uczenie sieci typu MLP Przypomnienie budowa sieci typu MLP Przypomnienie budowy neuronu Neuron ze skokową funkcją aktywacji jest zły!!! Powszechnie stosuje -> modele z sigmoidalną funkcją aktywacji - współczynnik
Rozpoznawanie obrazów
Rozpoznawanie obrazów Laboratorium Python Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest implementacja liniowego zadania
Opcje raportów. łatwe i czytelne raportowanie
Rejestracja czasu pracy bez odpowiedniego i łatwego w obsłudze procesu raportowania zapisanych godzin jest niepraktyczna. Naszym celem było stworzenie kompleksowego i funkcjonalnego systemu, dzięki któremu
SZKOLENIA DLA EDUKACJI
SZKOLENIA DLA EDUKACJI Jest tylko jeden sposób nauki. Poprzez działanie. Paulo Coelho Szkolenia TIK na rok 2016: Obsługa tablic interaktywnych Komputer w pracy nauczyciela Własna strona internetowa Cyfrowa
Maciej Piotr Jankowski
Reduced Adder Graph Implementacja algorytmu RAG Maciej Piotr Jankowski 2005.12.22 Maciej Piotr Jankowski 1 Plan prezentacji 1. Wstęp 2. Implementacja 3. Usprawnienia optymalizacyjne 3.1. Tablica ekspansji
Zdalne monitorowanie i zarządzanie urządzeniami sieciowymi
Uniwersytet Mikołaja Kopernika w Toruniu Wydział Matematyki i Informatyki Wydział Fizyki, Astronomii i Infomatyki Stosowanej Piotr Benetkiewicz Nr albumu: 168455 Praca magisterska na kierunku Informatyka
Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II
Zespół TI Instytut Informatyki Uniwersytet Wrocławski ti@ii.uni.wroc.pl http://www.wsip.com.pl/serwisy/ti/ Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II Rozkład wymagający
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 2 Detekcja twarzy autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się algorytmem gradientu prostego
Niech x 1,..., x n będzie ciągiem zdarzeń. ---
Matematyczne podstawy kryptografii, Ćw2 TEMAT 7: Teoria Shannona. Kody Huffmana, entropia. BIBLIOGRAFIA: [] Cz. Bagiński, cez.wipb.pl, [2] T. H. Cormen, C. E. Leiserson, R. L Rivest, Wprowadzenie do algorytmów,
Kompresja bezstratna. Entropia. Kod Huffmana
Kompresja bezstratna. Entropia. Kod Huffmana Kodowanie i bezpieczeństwo informacji - Wykład 10 29 kwietnia 2013 Teoria informacji Jeśli P(A) jest prawdopodobieństwem wystapienia informacji A to niech i(a)
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra
0 + 0 = 0, = 1, = 1, = 0.
5 Kody liniowe Jak już wiemy, w celu przesłania zakodowanego tekstu dzielimy go na bloki i do każdego z bloków dodajemy tak zwane bity sprawdzające. Bity te są w ścisłej zależności z bitami informacyjnymi,
Drugie kolokwium z Rachunku Prawdopodobieństwa, zestaw A
Drugie kolokwium z Rachunku Prawdopodobieństwa, zestaw A Zad. 1. Korzystając z podanych poniżej mini-tablic, oblicz pierwszy, drugi i trzeci kwartyl rozkładu N(10, 2 ). Rozwiązanie. Najpierw ogólny komentarz
Bash - wprowadzenie. Bash - wprowadzenie 1/39
Bash - wprowadzenie Bash - wprowadzenie 1/39 Bash - wprowadzenie 2/39 Czym jest bash? Rysunek : Zadanie powłoki to ukrycie wywołań systemowych Bash - wprowadzenie 3/39 Czym jest bash? Przykład polecenia:
Sieci neuronowe - projekt
Sieci neuronowe - projekt Maciej Barański, Kamil Dadel 15 stycznia 2015 Streszczenie W ramach projektu został zrealizowany algorytm kompresji stratnej bazujący na działaniu samoorganizującej się sieci
Rozkład materiału nauczania informatyki w klasie 5a, 5b, 5c i 5d.
Rozkład materiału nauczania informatyki w klasie 5a, 5b, 5c i 5d. Nr Temat lekcji Uwagi o realizacji dz5a dz5b ch5b dz5c ch5c dz5d ch5d Komputerowe środowisko pracy. 1 2 3 4 5 6 Przedmiotowy system oceniania.
Analiza danych tekstowych i języka naturalnego
Kod szkolenia: Tytuł szkolenia: ANA/TXT Analiza danych tekstowych i języka naturalnego Dni: 3 Opis: Adresaci szkolenia Dane tekstowe stanowią co najmniej 70% wszystkich danych generowanych w systemach
Lokalizacja Oprogramowania
mgr inż. Anton Smoliński anton.smolinski@zut.edu.pl Lokalizacja Oprogramowania 16/12/2016 Wykład 6 Internacjonalizacja, Testowanie, Tłumaczenie Maszynowe Agenda Internacjonalizacja Testowanie lokalizacji
Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl
Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Aby skorzystać z możliwości RapidMinera w zakresie analizy tekstu, należy zainstalować Text Mining Extension. Wybierz: 1 Po
Dlaczego GML? Gdańsk r. Karol Stachura
Dlaczego GML? Gdańsk 13.03.2017r. Karol Stachura Zanim o GML najpierw o XML Dlaczego stosuje się pliki XML: Tekstowe Samoopisujące się Elastyczne Łatwe do zmiany bez zaawansowanego oprogramowania Posiadające
Teoria Informacji i Metody Kompresji Danych
Teoria Informacji i Metody Kompresji Danych 1 Przykładowe zadania (dodatkowe materiały wykładowe) 2 Robert Susmaga Instytut Informatyki ul. Piotrowo 2 Poznań kontakt mail owy Robert.Susmaga@CS.PUT.Poznan.PL
CLUSTERING. Metody grupowania danych
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means
Zaawansowany kurs języka Python
Wykład 5. 30 października 2013 Plan wykładu 1 2 3 4 yield from Zamiast Example for item in iterable: yield item: można pisać Example yield from iterable Plan wykładu 1 2 3 4 Przykłady wyrażeń regularnych
1. Wybierz File New Application. Pojawi się nowa aplikacja w Delphi.
DCOM Aplikacje serwera i klienta DCOM, które zamierzamy stworzyć są podobne do tych zrobionych w ćwiczeniu dotyczącym TCP/IP. Aplikacja serwera będzie jedno wątkowa, a co za tym idzie będzie mogła obsłużyć
Tworzenie języków specyfikacji dla zagadnień numerycznych
Tworzenie języków specyfikacji dla zagadnień numerycznych prof. dr hab. inż. Norbert Sczygiol dr inż. Andrzej Grosser Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 11 września
Bazy danych wykład dwunasty. dwunasty Wykonywanie i optymalizacja zapytań SQL 1 / 36
Bazy danych wykład dwunasty Wykonywanie i optymalizacja zapytań SQL Konrad Zdanowski Uniwersytet Kardynała Stefana Wyszyńskiego, Warszawa dwunasty Wykonywanie i optymalizacja zapytań SQL 1 / 36 Model kosztów
System wspomagania harmonogramowania przedsięwzięć budowlanych
System wspomagania harmonogramowania przedsięwzięć budowlanych Wojciech Bożejko 1 Zdzisław Hejducki 2 Mariusz Uchroński 1 Mieczysław Wodecki 3 1 Instytut Informatyki, Automatyki i Robotyki Politechnika
Writer wzory matematyczne
Writer wzory matematyczne Procesor Writer pracuje zazwyczaj w trybie WYSIWYG, podczas wpisywania wzorów matematycznych nie całkiem. Wzory wpisujemy w oknie edytora wzorów w postaci tekstu. Tekst ten jest
Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I
Zespół TI Instytut Informatyki Uniwersytet Wrocławski ti@ii.uni.wroc.pl http://www.wsip.com.pl/serwisy/ti/ Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I Rozkład zgodny
Pojęcie bazy danych. Funkcje i możliwości.
Pojęcie bazy danych. Funkcje i możliwości. Pojęcie bazy danych Baza danych to: zbiór informacji zapisanych według ściśle określonych reguł, w strukturach odpowiadających założonemu modelowi danych, zbiór
TABLET - UDOSTĘPNIANIE DOKUMENTÓW
TABLET - UDOSTĘPNIANIE DOKUMENTÓW Sposobów przygotowania materiałów i możliwości ich udostępniania jest całe mnóstwo. Nawet nie można podać jednej (najłatwiejszej) metody. Wszystko zależy od: wiedzy i
Kwantyzacja wektorowa. Kodowanie różnicowe.
Kwantyzacja wektorowa. Kodowanie różnicowe. Kodowanie i kompresja informacji - Wykład 7 12 kwietnia 2010 Kwantyzacja wektorowa wprowadzenie Zamiast kwantyzować pojedyncze elementy kwantyzujemy całe bloki
Kurs języka Python Wykład 8. Przetwarzanie tekstu Wyrażenia regularne Biblioteka urllib Parsowanie html'a XML
Kurs języka Python Wykład 8. Przetwarzanie tekstu Wyrażenia regularne Biblioteka urllib Parsowanie html'a XML Wyrażenia regularne c:\> dir *.exe $ rm *.tmp Wyrażenia regularne 'alamakota' '(hop!)*' { '',
Ćw. IV. Tworzenie stron internetowych. Podstawy projektowania, wprowadzenie do języka HTML
Ćw. IV. Tworzenie stron internetowych. Podstawy projektowania, wprowadzenie do języka HTML Zad.1 Zapoznaj się z poniŝszymi artykułami dotyczącymi projektowania stron WWW:. http://galeria.muzykaduszy.pl/zasady.php
Google Web Toolkit. Piotr Findeisen
Google Web Toolkit Piotr Findeisen findepi@students.mimuw.edu.pl Czym jest GWT kompilator Javy do Javascriptu biblioteki Java/Javascript emulacja części java.lang i java.util webowe okienka narzędzia do
Architektury i protokoły dla budowania systemów wiedzy - zadania PCSS w projekcie SYNAT
Architektury i protokoły dla budowania systemów wiedzy - zadania PCSS w projekcie SYNAT A. Dudczak, C. Mazurek, T. Parkoła, J. Pukacki, M. Stroiński, M. Werla, J. Węglarz Poznańskie Centrum Superkomputerowo-Sieciowe
AUTOMATYKA INFORMATYKA
AUTOMATYKA INFORMATYKA Technologie Informacyjne Sieć Semantyczna Przetwarzanie Języka Naturalnego Internet Edytor Serii: Zdzisław Kowalczuk Inteligentne wydobywanie informacji z internetowych serwisów
Wykorzystanie innowacyjnego programu komputerowego AnalizatorOZE do oceny bilansów energii w budynkach mieszkalnych
Wykorzystanie innowacyjnego programu komputerowego AnalizatorOZE do oceny bilansów energii w budynkach mieszkalnych Opracowanie : mgr inż. Andrzej Chomiak Katowice, 18 czerwca 2013 r. Narzędzia wspomagania
Analizy na podstawie danych sprawozdawczych - Moduł Analiz dla Banków Spółdzielczych
Analizy na podstawie danych sprawozdawczych - Moduł Analiz dla Banków Spółdzielczych Kwiecień 2012 Wszelkie prawa zastrzeżone. Dokument może być reprodukowany lub przechowywany bez ograniczeń tylko w całości.
WYMAGANIA EDUKACYJNE Z ZAJĘĆ KOMPUTEROWYCH DLA KLASY SZÓSTEJ W ZAKRESIE WIADOMOŚCI I UMIEJĘTNOŚCI UCZNIÓW
EDUKACYJNE Z ZAJĘĆ KOMPUTEROWYCH DLA KLASY SZÓSTEJ W ZAKRESIE I UCZNIÓW Ocena celujący bardzo dobry dobry dostateczny dopuszczający Zakres wiadomości wykraczający dopełniający rozszerzający podstawowy
Programowanie obiektowe
Programowanie obiektowe Podstawowe cechy i możliwości języka Scala mgr inż. Krzysztof Szwarc krzysztof@szwarc.net.pl Sosnowiec, 2017 1 / 32 mgr inż. Krzysztof Szwarc Programowanie obiektowe Informacje
Podstawy technologii WWW
Podstawy technologii WWW Ćwiczenie 11 PHP, MySQL: więcej, więcej!, więcej!!. tabel i funkcjonalności. Na dzisiejszych zajęciach zdefiniujemy w naszej bazie kilka tabel powiązanych kluczem obcym i zobaczymy,
MOJA FIRMA PLUS. bankowość elektroniczna dla małych i średnich firm
MOJA FIRMA PLUS bankowość elektroniczna dla małych i średnich firm CO TO JEST PAKIET MOJA FIRMA PLUS? Usługa bankowości elektronicznej MOJA FIRMA PLUS umożliwia łatwy i szybki dostęp do rachunków za pomocą
Programowanie w języku Java
Katedra Inżynierii Wiedzy laborki 7 Rysunek: Przykładowa klasa Rysunek: Przykładowa klasa Rysunek: Przykładowa klasa Rysunek: Przykładowa klasa Rysunek: Zapis do pliku Rysunek: Odczyt z pliku Rysunek:
Ćwiczenie 3: Wprowadzenie do programu Matlab
Uniwersytet Zielonogórski Instytut Sterowania i Systemów Informatycznych Laboratorium modelowania i symulacji Ćwiczenie 3: Wprowadzenie do programu Matlab 1. Wyznaczyć wartość sumy 1 1 2 + 1 3 1 4 + 1
KRYTERIA OCENIANIA Z JĘZYKA ANGIELSKIEGO DLA KLASY VI
Ocena celująca KRYTERIA OCENIANIA Z JĘZYKA ANGIELSKIEGO DLA KLASY VI Poziom kompetencji językowej ucznia wykracza poza wiadomości i umiejętności przewidziane dla klasy szóstej. - uczeń potrafi przyjąć
Extensible Markup Language (XML) Wrocław, Java - technologie zaawansowane
Extensible Markup Language (XML) Wrocław, 15.03.2019 - Java - technologie zaawansowane Wprowadzenie XML jest językiem znaczników (ang. markup language) używanym do definiowania zbioru zasad rozmieszczenia
Instytut Technik Innowacyjnych Semantyczna integracja danych - metody, technologie, przykłady, wyzwania
Instytut Technik Innowacyjnych Semantyczna integracja danych - metody, technologie, przykłady, wyzwania Michał Socha, Wojciech Górka Integracja danych Prosty export/import Integracja 1:1 łączenie baz danych
Synteza strukturalna automatu Moore'a i Mealy
Synteza strukturalna automatu Moore'a i Mealy (wersja robocza - w razie zauważenia błędów proszę o uwagi na mail'a) Załóżmy, że mamy następujący graf automatu z 2 y 0 q 0 z 1 z 1 z 0 z 0 y 1 z 2 q 2 z
Zbieranie kontaktów.
Zbieranie kontaktów. Autor: Roman Przydatek Silvanet Hanna Kumpicka Polskie prawo zabrania wysyłania ofert handlowych na adresy e-mail, których właściciele nie wyrazili na to jednoznacznie zgody. W celu
Podstawy Pythona. Krzysztof Gdawiec. Instytut Informatyki Uniwersytet Śląski
Podstawy Pythona Krzysztof Gdawiec Instytut Informatyki Uniwersytet Śląski Słownik jest typem mutowalnym. Każdy element to para: klucz wartość. W celu stworzenia słownika pary klucz wartość umieszczamy
Systemy operacyjne. Laboratorium 8. Perl find
Systemy operacyjne Laboratorium 8 Perl find Temat obejmuje przeszukiwanie drzew katalogowych z użyciem perla oraz podstawowe zdolności w używaniu referencji, tablic asocjacyjnych i mechanizmów typu stat.
Wykład X. Programowanie. dr inż. Janusz Słupik. Gliwice, Wydział Matematyki Stosowanej Politechniki Śląskiej. c Copyright 2016 Janusz Słupik
Wykład X Wydział Matematyki Stosowanej Politechniki Śląskiej Gliwice, 2016 c Copyright 2016 Janusz Słupik Drzewa binarne Drzewa binarne Drzewo binarne - to drzewo (graf spójny bez cykli) z korzeniem (wyróżnionym
1 Moduł Modbus ASCII/RTU 3
Spis treści 1 Moduł Modbus ASCII/RTU 3 1.1 Konfigurowanie Modułu Modbus ASCII/RTU............. 3 1.1.1 Lista elementów Modułu Modbus ASCII/RTU......... 3 1.1.2 Konfiguracja Modułu Modbus ASCII/RTU...........
Uczenie sieci radialnych (RBF)
Uczenie sieci radialnych (RBF) Budowa sieci radialnej Lokalne odwzorowanie przestrzeni wokół neuronu MLP RBF Budowa sieci radialnych Zawsze jedna warstwa ukryta Budowa neuronu Neuron radialny powinien
Projektowanie aplikacji internetowych laboratorium
Projektowanie aplikacji internetowych laboratorium Programowanie w języku Java Do realizacji projektu potrzebne jest zintegrowane środowisko programistyczne NetBeans 7 (zrzuty ekranów pochodzą z wersji
Sterowanie wielkością zamówienia w Excelu - cz. 3
Sterowanie wielkością zamówienia w Excelu - cz. 3 21.06.2005 r. 4. Planowanie eksperymentów symulacyjnych Podczas tego etapu ważne jest określenie typu rozkładu badanej charakterystyki. Dzięki tej informacji
Klasy abstrakcyjne i interfejsy
Klasy abstrakcyjne i interfejsy Streszczenie Celem wykładu jest omówienie klas abstrakcyjnych i interfejsów w Javie. Czas wykładu 45 minut. Rozwiązanie w miarę standardowego zadania matematycznego (i nie
Katalog książek cz. 2
Katalog książek cz. 2 Odczytywanie danych z XML Do ćwiczenia dołączony jest plik books.xml zawierający pełen katalog książek. Poniższy listing zawiera przykładowy fragment danych w stosowanym formacie.
użytkownika 1 Jak wybrać temat pracy 2 Spis treści 3 Część pierwsza problematyka 4 Część druga stosowane metody 5 Część trzecia propozycja rozwiązania
1 Jak wybrać temat pracy 2 Spis treści 3 Część pierwsza problematyka 4 Część druga stosowane metody 5 Część trzecia propozycja rozwiązania 6 Część czwarta dokumentacja techniczna i dokumentacja użytkownika
Zad. 4: Rotacje 2D. 1 Cel ćwiczenia. 2 Program zajęć. 3 Opis zadania programowego
Zad. 4: Rotacje 2D 1 Cel ćwiczenia Wykształcenie umiejętności modelowania kluczowych dla danego problemu pojęć. Definiowanie właściwego interfejsu klasy. Zwrócenie uwagi na dobór odpowiednich struktur
Instrukcja przygotowania pliku do deponowania
Instrukcja przygotowania pliku do deponowania Etapy przygotowania pliku Przygotowanie pliku w formacie PDF Wielkość pliku PDF Uzupełnienie metadanych w dokumencie Nadanie nazwy pliku PDF Format tekstowy
LABORATORIUM 8,9: BAZA DANYCH MS-ACCESS
UNIWERSYTET ZIELONOGÓRSKI INSTYTUT INFORMATYKI I ELEKTROTECHNIKI ZAKŁAD INŻYNIERII KOMPUTEROWEJ Przygotowali: mgr inż. Arkadiusz Bukowiec mgr inż. Remigiusz Wiśniewski LABORATORIUM 8,9: BAZA DANYCH MS-ACCESS
STRONA INTERNETOWA oferta
STRONA INTERNETOWA oferta Zapraszam do wypełnienia ogólnego formularza, dzięki któremu będę mogła dowiedzieć się, jakiej strony internetowej potrzebujesz. Proszę o uzupełnienie wyznaczonych pól. WAŻNE!
Modulacja i kodowanie. Labolatorium. Kodowanie źródłowe Kod Huffman a
Modulacja i kodowanie Labolatorium Kodowanie źródłowe Kod Huffman a W tym ćwiczeniu zajmiemy się kodowaniem źródłowym (source coding). 1. Kodowanie źródłowe Głównym celem kodowanie źródłowego jest zmniejszenie
Praca Magisterska. Automatyczna kontekstowa korekta tekstów na podstawie Grafu Przyzwyczajeń. internetowego dla języka polskiego
Praca Magisterska Automatyczna kontekstowa korekta tekstów na podstawie Grafu Przyzwyczajeń Lingwistycznych zbudowanego przez robota internetowego dla języka polskiego Marcin A. Gadamer Promotor: dr Adrian
Teoria Informacji i Metody Kompresji Danych
Teoria Informacji i Metody Kompresji Danych 1 Materiały wykładowe (fragmenty) 2 Robert Susmaga Instytut Informatyki ul. Piotrowo 2 Poznań kontakt mail owy Robert.Susmaga@CS.PUT.Poznan.PL kontakt osobisty
SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization
Wrocław University of Technology SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Jakub M. Tomczak Studenckie Koło Naukowe Estymator jakub.tomczak@pwr.wroc.pl 4.1.213 Klasteryzacja Zmienne
S88 Badanie rzutu kostką sześcienną
S88 Badanie rzutu kostką sześcienną Andrzej Kapanowski 29 lutego 2012 Streszczenie Celem ćwiczenia jest zbadanie rzutu kostką sześcienną. Dokument ma być pomocą przy przygotowywaniu opracowania z ćwiczenia
LABORATORIUM 7: Problem komiwojażera (TSP) cz. 2
Instytut Mechaniki i Inżynierii Obliczeniowej Wydział Mechaniczny Technologiczny, Politechnika Śląska www.imio.polsl.pl OBLICZENIA EWOLUCYJNE LABORATORIUM 7: Problem komiwojażera (TSP) cz. 2 opracował:
Metody Kompilacji Wykład 3
Metody Kompilacji Wykład 3 odbywa się poprzez dołączenie zasad(reguł) lub fragmentów kodu do produkcji w gramatyce. Włodzimierz Bielecki WI ZUT 2 Na przykład, dla produkcji expr -> expr 1 + term możemy
Kurs języka Python Wykład 6. Pliki tekstowe Pliki rekordów Pliki CSV Strumienie
Kurs języka Python Wykład 6. Pliki tekstowe Pliki rekordów Pliki CSV Strumienie Operacje na plikach Otwarcie i zamknięcie pliku: fh = open('plik', 'r') Atrybuty: 'r' odczyt 'w' zapis 'a' dopisanie 'r+'
Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.
Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe. Autor: Mariusz Sasko Promotor: dr Adrian Horzyk Plan prezentacji 1. Wstęp 2. Cele pracy 3. Rozwiązanie 3.1. Robot
Java Server Faces narzędzie do implementacji w wy prezentacji
Java Server Faces narzędzie do implementacji w wy prezentacji pojęcie komponentu powiązanie z modelem danych widok (View) jako drzewo komponentów obiekty pomocnicze: konwertery, walidatory, obsługa zdarzeń
Kompresja danych Streszczenie Studia Dzienne Wykład 10,
1 Kwantyzacja wektorowa Kompresja danych Streszczenie Studia Dzienne Wykład 10, 28.04.2006 Kwantyzacja wektorowa: dane dzielone na bloki (wektory), każdy blok kwantyzowany jako jeden element danych. Ogólny
Procesy pojęcia podstawowe. 1.1 Jak kod źródłowy przekształca się w proces
Procesy pojęcia podstawowe 1 1.1 Jak kod źródłowy przekształca się w proces W języku wysokiego poziomu tworzy się tak zwany kod źródłowy który po zapisaniu będzie plikiem z programem źródłowym. Plik źródłowy
Wymagania na poszczególne oceny w klasach 3 gimnazjum
Wymagania na poszczególne oceny w klasach 3 gimnazjum Znaczenie komputera we współczesnym świecie Przypomnienie wiadomości na temat języka HTML Wstawianie tabeli na stronę WWW Wstawianie listy punktowanej