Algorytmy i struktury danych, Języki skryptowe, Metody i języki programowania.

Podobne dokumenty
Lab. Efekt 1 - kolokwium wykładowe. Efekt 2, 3 i 4 - samodzielnie rozwiązywane ćwiczenia laboratoryjne.

Lab. Poznanie procesu modelowania świata wirtualnego. Zaznajomienie z algorytmami symulacji zjawisk fizycznych w świecie wirtualnym.

Sprawdzian ustny lub pisemny, ocena wykonanych projektów.

Advanced Object Programming in Java

OPIS PRZEDMIOTU/MODUŁU KSZTAŁCENIA (SYLABUS)

OPIS PRZEDMIOTU/MODUŁU KSZTAŁCENIA (SYLABUS) Wydział Nauk Historycznych i Pedagogicznych, Instytut Archeologii 4. Kod przedmiotu/modułu 22-AR-S1-KMaA1

KARTA PRZEDMIOTU WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI CELE PRZEDMIOTU

12. Wymagania wstępne w zakresie wiedzy, umiejętności i kompetencji społecznych dla przedmiotu/modułu oraz zrealizowanych przedmiotów:

OPIS PRZEDMIOTU/MODUŁU KSZTAŁCENIA (SYLABUS)

OPIS PRZEDMIOTU/MODUŁU KSZTAŁCENIA (SYLABUS) Praktyczny Wstęp do programowania. Practical Introduction to Programming

OPIS PRZEDMIOTU/MODUŁU KSZTAŁCENIA (SYLABUS)

PRZEWODNIK PO PRZEDMIOCIE

OPIS PRZEDMIOTU/MODUŁU KSZTAŁCENIA (SYLABUS)

Course syllabus. Mathematical Basis of Logistics. Information Technology in Logistics. Obligatory course. 1 1 English

Distributed programming Distributed programming. Informatyka II stopień (I stopień / II stopień) Ogólno akademicki (ogólno akademicki / praktyczny)

OPIS PRZEDMIOTU/MODUŁU KSZTAŁCENIA (SYLABUS)

Politechnika Krakowska im. Tadeusza Kościuszki. Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2013/2014

OPIS PRZEDMIOTU/MODUŁU KSZTAŁCENIA (SYLABUS)

Zarządzenie Rektora Politechniki Gdańskiej nr 20/2012 z 19 lipca 2012

Wydział Matematyki i Nauk Informacyjnych Politechniki Warszawskiej

KARTA KURSU. Algorytmy, struktury danych i techniki programowania. Algorithms, Data Structures and Programming Techniques

Ekonofizyka 1 (Metody fizyki w ekonomii 1)

OPIS PRZEDMIOTU/MODUŁU KSZTAŁCENIA (SYLABUS)

PRZEWODNIK PO PRZEDMIOCIE. Negotiation techniques. Management. Stationary. II degree

Politechnika Krakowska im. Tadeusza Kościuszki. Karta przedmiotu. obowiązuje w roku akademickim 2012/2013. Algorytmy i struktury danych

KARTA PRZEDMIOTU. Zaliczenie na ocenę

Auditorium classes. Lectures

PROJECT. Syllabus for course Negotiations. on the study program: Management

OPIS PRZEDMIOTU/MODUŁU KSZTAŁCENIA (SYLABUS)

OPIS PRZEDMIOTU/MODUŁU KSZTAŁCENIA (SYLABUS) 3. Jednostka prowadząca przedmiot Wydział Nauk Historycznych i Pedagogicznych, Instytut Archeologii

PRZEWODNIK PO PRZEDMIOCIE

PRZEWODNIK PO PRZEDMIOCIE

Z-LOG-1070 Towaroznawstwo Commodity Studies. Logistics 1st degree (1st degree / 2nd degree) General (general / practical)

forma studiów: studia stacjonarne Liczba godzin/tydzień: 1, 0, 2, 0, 0

Algorytmy i struktury danych - opis przedmiotu

Zarządzanie w przedsiębiorstwach i systemach energetycznych. Academic year: 2013/2014 Code: SEN MK-s ECTS credits: 2

IZ2ZSD2 Złożone struktury danych Advanced data structures. Informatyka II stopień ogólnoakademicki niestacjonarne

PRZEWODNIK PO PRZEDMIOCIE

OPIS PRZEDMIOTU/MODUŁU KSZTAŁCENIA (SYLABUS) 3. Jednostka prowadząca przedmiot Wydział Nauk Historycznych i Pedagogicznych, Instytut Archeologii

OPIS PRZEDMIOTU/MODUŁU KSZTAŁCENIA (SYLABUS)

KARTA PRZEDMIOTU USYTUOWANIE PRZEDMIOTU W SYSTEMIE STUDIÓW. Informatyka. Stacjonarne. Praktyczny. Wszystkie specjalności

Programowanie obiektowe 1 - opis przedmiotu

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA Realizacja w roku akademickim 2016/17

PRZEWODNIK PO PRZEDMIOCIE

Probabilistic Methods and Statistics. Computer Science 1 st degree (1st degree / 2nd degree) General (general / practical)

Język Java i technologie Web - opis przedmiotu

Academic year: 2014/2015 Code: ZZIP s ECTS credits: 4. Field of study: Management and Production Engineering Specialty: -

Rok akademicki: 2018/2019 Kod: ITE s Punkty ECTS: 3. Poziom studiów: Studia I stopnia Forma i tryb studiów: Stacjonarne

Sieci multimedialne Multimedia networks. Informatyka I stopień (I stopień / II stopień) Ogólnoakademicki (ogólno akademicki / praktyczny)

OPISY KURSÓW. Nazwa kursu: PROGRAMOWANIE SYSTEMÓW ROZPROSZONYCH NA BAZIE STE- ROWNIKÓW PLC. Język wykładowy: polski

Academic year: 2013/2014 Code: EIT s ECTS credits: 3. Electrical Engineering, Automatics, Computer Science and Engineering in Biomedicine

KARTA MODUŁU KSZTAŁCENIA

Aplikacje WWW i PHP - opis przedmiotu

KARTA MODUŁU / KARTA PRZEDMIOTU A. USYTUOWANIE MODUŁU W SYSTEMIE STUDIÓW B. OGÓLNA CHARAKTERYSTYKA PRZEDMIOTU. Kod modułu

APLIKACJE KLIENT-SERWER Client-Server Applications Forma studiów: Stacjonarne Poziom kwalifikacji: I stopnia. Liczba godzin/tydzień: 2W, 2L

PROJECT. Syllabus for course Global Marketing. on the study program: Management

Specjalnościowy Obowiązkowy Polski Semestr trzeci

OPIS PRZEDMIOTU/MODUŁU KSZTAŁCENIA (SYLABUS)

Faculty: Management and Finance. Management

Computer Science 1 st degree (1st degree / 2nd degree) General (general / practical)

Algorytmy i struktury danych

Informatyka I stopień (I stopień / II stopień) Ogólnoakademicki (ogólno akademicki / praktyczny) niestacjonarne (stacjonarne / niestacjonarne)

Nazwa przedmiotu: MODELOWANIE I ANALIZA SYSTEMÓW INFORMATYCZNYCH. Modeling and analysis of computer systems Forma studiów: Stacjonarne

Kierunek i poziom studiów: Chemia, pierwszy. Sylabus modułu: Technologia informacyjna (0310-CH-S1-003) 1. Informacje ogólne

Geodezja i Kartografia I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny)

Nowoczesne projektowanie aplikacji intrnetowych - opis przedmiotu

Politechnika Krakowska im. Tadeusza Kościuszki. Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2014/2015

PRZEWODNIK PO PRZEDMIOCIE

ID2ZSD2 Złożone struktury danych Advanced data structures. Informatyka II stopień ogólnoakademicki stacjonarne

OPIS PRZEDMIOTU/MODUŁU KSZTAŁCENIA (SYLABUS)

Architektura komputerów II - opis przedmiotu

zajęcia w pomieszczeniu Ćwiczenia laboratoryjne w dydaktycznym pracowni informatycznej

KARTA MODUŁU KSZTAŁCENIA

KARTA PRZEDMIOTU. 1. NAZWA PRZEDMIOTU: Struktury danych i algorytmy. 2. KIERUNEK: Matematyka. 3. POZIOM STUDIÓW: I stopnia

Field of study: Computer Science Study level: First-cycle studies Form and type of study: Full-time studies. Auditorium classes.

Podstawy Informatyki Information Technology. Inżynieria Środowiska I stopień (I stopień / II stopień) akademicki (ogólno akademicki / praktyczny)

OPIS PRZEDMIOTU/MODUŁU KSZTAŁCENIA (SYLABUS) 3. Jednostka prowadząca przedmiot Wydział Nauk Historycznych i Pedagogicznych, Instytut Archeologii

Projektowanie aplikacji na platformie Android Kod przedmiotu

PRZEWODNIK PO PRZEDMIOCIE

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 9: Inference in Structured Prediction

Specjalnościowy Obowiązkowy Polski Semestr 5

Field of study: Computational Engineering Study level: First-cycle studies Form and type of study: Full-time studies. Auditorium classes.

PRZEWODNIK PO PRZEDMIOCIE

PRZEWODNIK PO PRZEDMIOCIE

Język angielski B2+ - obowiązkowy kurs języka specjalistycznego na studiach II stopnia dla studentów Wydziału Inżynierii Mechanicznej i Robotyki

Academic year: 2017/2018 Code: ITE s ECTS credits: 4. Study level: Second-cycle studies Form and type of study: -

E-2IZ1-03-s3. Informatyka I stopień (I stopień / II stopień) ogólno akademicki (ogólno akademicki / praktyczny)

PRZEWODNIK PO PRZEDMIOCIE

OPIS PRZEDMIOTU/MODUŁU KSZTAŁCENIA (SYLABUS)

English B2 course - compulsory course of 135 hours for students of FIRST- CYCLE studies - semester 2/3

PRZEDMIOTY WYBIERALNE, SPECJALNOŚCI, MIEJSCE WYKONYWANIA PRACY DYPLOMOWEJ (LICENCJACKIEJ/MAGISTERSKIEJ)

KARTA PRZEDMIOTU USYTUOWANIE PRZEDMIOTU W SYSTEMIE STUDIÓW. Informatyka. Stacjonarne. Praktyczny

Podstawy automatyki. Energetics 1 st degree (1st degree / 2nd degree) General (general / practical) Full-time (full-time / part-time)

kierunkowy (podstawowy / kierunkowy / inny HES) nieobowiązkowy (obowiązkowy / nieobowiązkowy) polski drugi semestr letni (semestr zimowy / letni)

Academic year: 2015/2016 Code: EEL SG-s ECTS credits: 3. Electrical Engineering, Automatics, Computer Science and Engineering in Biomedicine

English B2 course - compulsory course of 135 hours for students of FIRST- CYCLE studies - semester 1/3

Podstawy modelowania programów Kod przedmiotu

Description of learning outcomes for module

Transkrypt:

Kod: 2 53 576 Liczba punktów ECTS: 2 Nazwa przedmiotu Inteligentne przetwarzanie tekstu Nazwa w języku angielskim Język prowadzenia zajęć Poziom studiów Profil studiów Jednostka prowadząca Kierownik i realizatorzy polski studia II stopnia A, ogólnoakademicki Instytut Informatyki Stosowanej Grabowski Szymon, dr hab. Bieniecki Wojciech, dr inż. Formy zajęć i liczba godzin w semestrze Wyk. Ćw. Lab. Proj. Sem. Inne Suma godzin w semestrze 3 Cele przedmiotu Celem przedmiotu jest zapoznanie studentów z podstawowymi algorytmami przetwarzania tekstu, w trybie online i offline, oraz wybranymi ich zastosowaniami (m.in. aplikacje typu CAT, korekcja tekstu po OCR). Efekty kształcenia Metody weryfikacji efektów kształcenia Student poznaje algorytmy specyficzne dla przetwarzania danych tekstowych. Oczekiwanymi efektami kształcenia są: 1. znajomość sposobów przechowywania informacji tekstowej w bazach danych, 2. wyszukiwanie informacji tekstowej w sposób dokładny i przybliżonych w bazach danych i plikach, 3. znajomość algorytmów kompresji danych tekstowych, w tym algorytmów kompresji wspierających wyszukiwanie, 4. umiejętność tworzenia i wykorzystania miar podobieństwa do detekcji plagiatów i tłumaczenia (parsing, rozbiór zdania, analiza słów). Wymagania wstępne Efekty nr 2 i 3: samodzielne ćwiczenia laboratoryjne. Efekty nr 1, 2 i 3: kolokwium wykładowe. Efekt nr 4: prezentacja. Algorytmy i struktury danych, Języki skryptowe, Metody i języki programowania. Organizacja przedmiotu i treści kształcenia

WYKŁAD 1. Taksonomia problemów (wyszukiwanie on-line i off-line, wyszukiwanie dokładne i różne warianty wyszukiwania przybliżonego, szukanie wielu wzorców etc.). 2. Klasyczne algorytmy wyszukiwania dokładnego on-line: naiwny, KMP, BMH. 3. Miary wyszukiwania przybliżonego: odległość Hamminga, odległość Levenshteina, odległość indel, pasowanie (delta, gamma, alpha) i ich zastosowania, m.in. w bioinformatyce. 4. Miary podobieństwa sekwencji: najdłuższa wspólna podsekwencja (LCS), najdłuższy wspólny podciąg (LCSS). 5. Techniki algorytmiczne: programowanie dynamiczne, niedeterministyczny automat skończony i ich zastosowanie w wyszukiwaniu wzorców. Bit-parallelism. 6. Algorytmy wyszukiwania dokładnego on-line oparte na "równoległości bitowej": Shift-Or, BNDM, Average-Optimal Shift-Or. 7. Indeksowanie tekstu: drzewo sufiksowe (ST), tablica sufiksowa (SA). Wybrane algorytmy tworzenia SA. Transformata Burrowsa-Wheelera (BWT), jej związek z SA i zastosowania w kompresji danych. 8. Indeksowanie tekstu na poziomie słów: algorytm GLIMPSE. 9. Dyskusja i warianty schematu GLIMPSE (obsługa problemu krańców bloków, dodanie kompresji do reprezentacji list bloków), rozszerzenie jego funkcjonalności (obsługa zapytań przybliżonych). 1. Statystyczne modele języka. Dystrybucja słów w tekstach naturalnych. Prawo Zipfa i Heapsa. 11. Information Retrieval: zasady wyszukiwania dokumentów w bazie podobnych do danego zapytania (frazy). Pojęcia kompletności (recall) i dokładności (precision). 12. Popularne typy zapytań dla wyszukiwarek sieciowych. 13. PageRank. 14. Wykorzystanie technik statystycznego przetwarzania danych do analizy tekstu (wybrane zastosowania: wykrywanie plagiatów, ustalanie autorstwa dokumentu, klasyfikacja tematyczna dokumentów, zwalczanie email spamu i web spamu). ĆWICZENIA LABORATORYJNE 1. Wykorzystanie wyrażeń regularnych. 2. Implementacja i testowanie algorytmów wyszukiwania przybliżonego w tekście. 3. Analiza logów systemowych. 4. Parsowanie dokumentów HTML (z wykorzystaniem gotowych bibliotek). 5. Empiryczna weryfikacja prawa Zipfa i prawa Heapsa. 6. Testowanie wybranych indeksów pełnotekstowych i opartych na słowach. Formy zaliczenia - sprawdzenie osiągnięć efektów kształcenia Ocena końcowa jest średnią ważoną oceny z egzaminu obejmującego materiał wykładu (4%) oraz oceny z zadań wykonywanych na ćwiczeniach laboratoryjnych (6%). Literatura podstawowa Cormen T., Leiserson Ch., Rivest R., Stein C.: Wprowadzenie do algorytmów. WNT, 26. Banachowski L., Diks K., Rytter W.: Algorytmy i struktury danych, WNT, Warszawa, 23. Literatura uzupełniająca

Przeciętne obciążenie studenta pracą własną - ze zdefiniowaniem form pracy własnej Witten I., Moffat A., Bell T.: Managing Gigabytes. Compressing and Indexing Documents and Images (2nd ed.). Morgan Kaufmann Publishing, 1999. Mykowiecka A.: Inżynieria lingwistyczna. Komputerowe przetwarzanie tekstów w języku naturalnym. Wydawnictwo PJWSTK, 27. Baeza-Yates R., Ribeiro-Neto B.: Modern Information Retrieval. ACM Press, 1999. Abiteboul S., Buneman P., Suciu D.: Dane w sieci WWW. Mikom, 21. Harris S., Ross J.: Algorytmy. Od podstaw. Helion, 26. Sayood K.: Kompresja danych. RM, 22. Suma godzin wszystkich form zajęć 3 Udział w konsultacjach 5 Udział w pisemnych i/lub praktycznych formach weryfikacji 1 Przygotowywanie się do laboratorium 12 Przygotowywanie się do kolokwium wykładowego 6 Suma godzin: 54 Suma godzin powinna mieścić się w zakresie: 5..6 Uwagi brak Uwagi własne publikowane Aktualizacja 212-7-18

Code 2 53 576 ECTS credits: 2 Course name Course name in Polish Inteligentne przetwarzanie tekstu Language of instruction Level of studies Type of studies Unit running the programme Course coordinator and academic teachers nie zdefiniowano Instytut Informatyki Stosowanej Grabowski Szymon, dr hab. Bieniecki Wojciech, dr inż. Form of classes and number of teaching hour per semester Lec. Tut. Lab. Proj. Sem. Other Total number of teaching hour per semester 3 Goals The aim of the course is to teach students basic text processing algorithms, working online and offline, and their selected applications (computer-aided translation applications, post-ocr text correction, etc.). Learning outcomes Learning outcomes verification methods The student is expected to learn textual data processing analysis. His expected new knowledge and skills should comprise: 1. ways of storing information in text databases, 2. on-line and off-line text information search algorithms, for exact and approximate matching, 3. text compression algorithms, including those that support efficient query handling, 4. how to create and use similarity measures for plagiarism detection and translation support (sentence parsing, word stemming etc.). Prerequisites Effects no 2 and 3: laboratory assigments. Effects no 1, 2, and 3: lecture test. Effect no 4: presentation. Algorithms and data structures, Script languages, Programming languages and methods. Course organisation and content

LECTURE 1. The taxonomy of problems (on-line and off-line searching, exact and approximate searching, multiple pattern searching etc.). 2. Classic exact on-line search algorithms: naive, KMP, BMH. 3. Approximate search measures: Hamming distance, Levenshtein distance, indel distance, delta, gamma, alpha matching and their applications in bioinformatics and other fields. 4. The sequence similarity measures: longest common subsequence (LCS), longest common substring (LCSS). 5. Algorithmic techniques: dynamic programming, non-deterministic finite automata, and their applications to pattern searching. Bit-parallelism. 6. Bit-parallel algorithms for on-line exact searching: Shift-Or, BNDM, Average-Optimal Shift-Or. 7. Text indexing: suffix tree (ST), suffix array (SA). SA constructing algorithms. Burrows-Wheeler transform (BWT), its relation to SA and its data compression applications. 8. Word-based text indexing: GLIMPSE algorithm. 9. Discussion and variants of the GLIMPSE scheme (block boundary handling, adding compression to lists of indices), extending its functionalities (approximate query handling). 1. Statistical models of the language. Word distribution in NL texts. Zipf's and Heaps' laws. 11. Information Retrieval: how to retrieve documents relevant to a given query (phrase). Precision and Recall. 12. Common query types in web searches. 13. PageRank. 14. Statistical pattern recognition techniques in text analysis (selected applications: plagiarism detection, document authorship attribution, topic classification, fighting e-mail and web spam). LABORATORY 1. Regular expression applications. 2. Implementations and exprimental tests of selected approximate search algorithms. 3. System/web log analysis. 4. HMTL parsing (using available libraries). 5. Empirical verification of Zipf's and Heaps' laws. 6. Testing selected full-text and word-based indexes. Form of assessment The final grade is the weighted average of the lecture (theory) exam grade (4%) oraz the laboratory assignments grade (6%). Basic reference materials Cormen T., Leiserson Ch., Rivest R., Stein C.: Wprowadzenie do algorytmów. WNT, 26. Banachowski L., Diks K., Rytter W.: Algorytmy i struktury danych, WNT, Warszawa, 23. Other reference materials

Average student workload outside classroom Witten I., Moffat A., Bell T.: Managing Gigabytes. Compressing and Indexing Documents and Images (2nd ed.). Morgan Kaufmann Publishing, 1999. Mykowiecka A.: Inżynieria lingwistyczna. Komputerowe przetwarzanie tekstów w języku naturalnym. Wydawnictwo PJWSTK, 27. Baeza-Yates R., Ribeiro-Neto B.: Modern Information Retrieval. ACM Press, 1999. Abiteboul S., Buneman P., Suciu D.: Dane w sieci WWW. Mikom, 21. Harris S., Ross J.: Algorytmy. Od podstaw. Helion, 26. Sayood K.: Kompresja danych. RM, 22. Total hours of different forms of classes 3 Participation in consultations 5 Participation in written and/or practical forms of assesment 1 Preparation to laboratories 12 Preparation to the lecture test 6 Total hours: 54 Total hours should be in the range: 5..6 Published comments Aktualizacja 212-7-18