27.03.2014 Warszawa Indeksowanietreściwteoriipraktyce warsztaty
Rosnąca liczba informacji cyfrowej uniemożliwia osobiste zapoznanie się z każdym ważnym czy chociażby przydatnym dokumentem. W celu ułatwienia sobie poruszania się w uniwersum cyfrowym korzystamy z wyszukiwarek, najczęściej o zasięgu globalnym. Jednakże również firmowe lub organizacyjne repozytoria danych powoli stają się zbyt duże dla pojedynczego użytkownika. W celu ułatwienia klientom dostępu do interesujących ich dokumentów warto wdrożyć własne narzędzie przeszukujące zbiór instytucjonalnych dokumentów elektronicznych. Celem warsztatów jest zaprezentowanie technik przetwarzania elektronicznych dokumentów tekstowych na potrzeby automatycznego indeksowania oraz wyszukiwania informacji. W trakcie zajęć zostaną również przeprowadzone ćwiczenia instalacji i konfiguracji serwera indeksującego wraz z wyszukiwarką oraz dostosowania zainstalowanego systemu do pracy z polskojęzycznymi dokumentami. Do udziału w zapraszamy: pasjonatów efektywnego wyszukiwania informacji, administratorów serwisów internetowych, administratorów instytucjonalnych repozytoriów dokumentów cyfrowych, bibliotekarzy, kierowników i pracowników działów IT bibliotek tradycyjnych i cyfrowych. KORZYŚCI Podczas warsztatów uczestnicy: utrwalą i uporządkują sobie podstawy teoretyczne indeksowania treści i wyszukiwania informacji poznają procesy przygotowania dokumentów do automatycznego indeksowania i wyszukiwania porównają przydatność oraz skuteczność różnych konfiguracji narzędzi służących wstępnej optymalizacji tekstów do indeksowania samodzielnie zainstalują system indeksująco wyszukiwawczy i skonfigurują go do pracy z tekstami w języku polskim będą mieli okazję przetestować różne ustawienia systemu indeksującego oraz sprawdzić ich wpływ na efektywność procesu wyszukiwania informacji zyskają praktyczne porady usprawnienia procesu indeksowania treści oraz zwiększenia skuteczności wyszukiwania informacji przez własne systemy wyszukiwawcze PROGRAM Zasady indeksowania pełnotekstowego Preprocessing tekstów: ujednolicenie strony kodowej plików, oczyszczenie ze znaczników (parsing), normalizacja tekstów ujednolicanie wielkości liter, rozpoznawanie nazw własnych, metody przechowywania oraz identyfikowania tekstów (pojedyncze, zbiorcze), cztery strefy słownictwa (częste, charakterystyczne, gramatyczne, rzadkie), słowa małoznaczące, stoplist listy słów nieznaczących, zasady tworzenia, dyskusja wpływu rozmiaru listy na efektywność wyszukiwania informacji, ujednolicanie zapisu wyrazów: stemming wskazywanie wspólnego rdzenia, algorytmy, zasady stosowania dla języka polskiego, wpływ na koszty indeksowania oraz efektywność wyszukiwania informacji,
lematyzacja wskazywanie podstawowej formy gramatycznej dla wyrazów, podejście słownikowe, dobór słownika, sposoby rozwiązywania homonimii. modyfikacja słownika form gramatycznych Indeksowanie treści tworzenie reprezentacji tekstu: popularne sposoby indeksowania: słowozbiór (bag of words), model wektorowy (vector space model). ważenie wyrazów określanie znaczenia danego wyrazu w danym tekście na podstawie częstości, z uwzględnieniem częstości występowania w całej kolekcji, metody probabilistyczne OKAPI (BM25), ltu.ltu Dopasowywanie zapytań i indeksów: podobieństwo sinusa lub cosinusa kąta pomiędzy wektorami zapytania i dokumentu, metoda semi logiczna (logika Boole a), podobieństwo dokumentów Ranking odpowiedzi Ocena efektywności systemu wyszukiwania informacji: miary relewancji: MAP, P@5, P@10, itp. Pakiet Lucene najpopularniejsze otwarte oprogramowanie do indeksowania i wyszukiwania zasobów instalacja i konfiguracja pakietu Lucene, konfiguracja modułów dla języka polskiego, przygotowanie tekstów do indeksowania, ćwiczenia indeksowanie i wyszukiwanie informacji Pakiet SMART instalacja i konfiguracja pakietu Lucene, konfiguracja modułów dla języka polskiego, przygotowanie tekstów do indeksowania, ćwiczenia indeksowanie i wyszukiwanie informacji Biblioteki cyfrowe indeksowanie plików DjVu: aplikacje do digitalizacji dokumentów w formacie DjVu, sposoby przechowywania plików DjVu, ekstrakcja warstwy tekstowej z plików, dostępne sposoby indeksowania zawartości plików DjVu, próba usprawnienia indeksowania.
Pakiet NLP Toolkit (poziom przygotowania uczestników co najmniej średnio zaawansowany): instalacja pakietu, testowanie możliwości indeksowanie kolekcji testowych (są w j.angielskim), generowanie statystyk frekwencyjnych tekstów, wyszukiwanie dokumentów podobnych, wyszukiwanie informacji, próba zastosowania pakietu dla zasobów polskich (konieczność programowania, najlepiej w j. Python) EKSPERT: dr Piotr Malak Dr Piotr Malak jest adiunktem w Instytucie Informacji Naukowej i Bibliologii UMK w Toruniu. Jego zainteresowania badawcze dotyczą zarządzania informacją, wyszukiwania informacji w dokumentach oraz inżynierii lingwistycznej. Bada statystyczne prawidłowości języka naturalnego na potrzeby ulepszenia narzędzi wyszukiwawczych. Interesuje się również efektywnym zarządzaniem czasem, zadaniami i komunikacją. Zainteresowania naukowe łączy z praktyczną znajomości technologii komputerowej i języków programowania, tworząc samodzielnie oprogramowanie na potrzeby badań naukowych. Jest stypendystą Funduszu Stypendialnego Szwajcarsko Polskiego Programu Współpracy SCIEX NMSch w Université de Neuchâtel w Szwajcarii, gdzie prowadził grant badawczy 11.219: 11.219 IRP Information Retrieval and Text Categorization for Polish. Oprócz zajęć programowych prowadzi również autorskie, jak Intranety, Systemy zarządzania wiedzą i informacją w organizacjach czy Projektowanie i zarządzanie systemem informacyjnym w firmie infobrokerskiej. Prowadził wykłady gościnne na Uniwersytecie w Ankarze, Hogeschool van Amsterdam w Amsterdamie oraz na Uniwersytecie Wileńskim. INFORMACJE ORGANIZACYJNE Miejsce szkolenia: Golden Floor Millenium Plaza al. Jerozolimskie 123A 02 017 Warszawa Pokaż na mapie W ramach uczestnictwa zapewniamy: drukowane materiały warsztatowe kanapki na powitanie, lunch bufet, nielimitowany bufet kawowy (kawa, herbata, soki, woda, ciastka, owoce) certyfikat ukończenia warsztatów Godziny zajęć: 10:00 16:00
1 osoba DANE UCZESTNIKÓW 2 osoba 3 osoba DANE OSOBY ZGŁASZAJĄCEJ (DO KONTAKTU) DANE FIRMY Nazwa Adres NIP /fax Oświadczam, że zapoznałem się z Regulaminem określającym warunkami uczestnictwa i akceptuję zobowiązanie do zapłaty całości kwot wynikających z niniejszego zgłoszenia. Jednocześnie oświadczam, że jestem osobą upoważnioną do zaciągania wynikających z niniejszego zgłoszenia zobowiązań wobec Nova Skills sp. z o.o. Zgodnie z ustawą z dnia 29 sierpnia 1997 r. o ochronie danych osobowych (Dz.U. 1997r. Nr 133 poz. 833) Nova Skills sp. z o. o. z siedzibą w Warszawie (dalej NS), informuje, że jest administratorem danych osobowych. Wyrażam zgodę na przetwarzanie danych osobowych w celach promocji i marketingu działalności prowadzonej przez NS, świadczonych usług oraz oferowanych produktów, a także w celu promocji ofert klientów i partnerów NS. Zgodnie z ustawą z dnia 18.07.2002 r. (Dz. Ust. 144 poz. 1204) o świadczeniu usług drogą elektroniczną wyrażamy zgodę na otrzymywanie drogą elektroniczną ofert oraz informacji handlowych dotyczących NS oraz partnerów i klientów NS. Wyrażającemu zgodę na przetwarzanie danych osobowych przysługuje prawo kontroli przetwarzania danych, które jej dotyczą, w tym także prawo ich poprawiania. Zgodnie z 3 rozporządzenia Ministra Finansów z dnia 17 grudnia 2010 r. w sprawie przesyłania faktur w formie elektronicznej, zasad przechowywania oraz trybu udostępniania organowi podatkowemu lub organowi kontroli skarbowej (Dz. U. z 2010 r. Nr 249 poz. 1661), oświadczam, iż zgadzam się na wystawianie oraz przesyłanie mi faktur elektronicznych na adres e mail księgowości wskazany w formularzu zgłoszeniowym. FORMULARZ ZGŁOSZENIOWY Indeksowanie treści w teorii i praktyce 27 marca 2014 roku, Warszawa Golden Floor Millenium Plaza 550 zł + VAT do 11 marca 2014, później 1250 zł + VAT W ramach uczestnictwa zapewniamy: materiały drukowane, kanapki na powitanie, lunch bufet, nielimitowany bufet kawowy (kawa, herbata, soki, woda, ciastka, owoce) oraz certyfikat ukończenia szkolenia. REGULAMIN ZGŁOSZENIA 1. Warunkiem uczestnictwa w szkoleniu jest przesłanie do organizatora zgłoszenia oraz dokonanie wpłaty przed rozpoczęciem szkolenia na konto NS wskazane w potwierdzeniu. 2. Po otrzymaniu formularza zgłoszeniowego najpóźniej na 7 dni przed szkoleniem prześlemy Państwu oficjalne potwierdzenie uczestnictwa w szkoleniu na adres e mail osoby do kontaktu wskazanej w formularzu. 3. W przypadku wycofania zgłoszenia w terminie późniejszym niż 14 dni przed szkoleniem uczestnik zostanie obciążony kosztem w wysokości 50% wartości zamówienia. Wycofanie zgłoszenia w terminie późniejszym niż 7 dni przed rozpoczęciem szkolenia powoduje powstanie zobowiązania do zapłaty 100 % wartości zamówienia. Odwołanie zgłoszenia musi być dokonane w formie pisemnej. Możliwe jest zgłoszenie zastępstwa uczestnika inną osobą. NS zastrzega sobie prawo do zmiany ekspertów, miejsca szkolenia lub jego odwołania z przyczyn niezależnych. PODPIS OSOBY UPOWAŻNIONEJ DATA I PIECZĘĆ