Wyszukiwanie i Przetwarzanie Informacji WWW



Podobne dokumenty
Specjalizacja Web Mining

Wyszukiwanie i Przetwarzanie Informacji WWW

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

WYMAGANIA EDUKACYJNE SPOSOBY SPRAWDZANIA POSTĘPÓW UCZNIÓW WARUNKI I TRYB UZYSKANIA WYŻSZEJ NIŻ PRZEWIDYWANA OCENY ŚRÓDROCZNEJ I ROCZNEJ

Technologie internetowe Internet technologies Forma studiów: Stacjonarne Poziom kwalifikacji: I stopnia. Liczba godzin/tydzień: 2W, 2L

W dobie postępującej digitalizacji zasobów oraz zwiększającej się liczby dostawców i wydawców

Wyszukiwanie i Przetwarzanie Informacji WWW

OPIS PRZEDMIOTU. Podstawy edukacji matematycznej. Wydzia Pedagogiki i Psychologii

WYNIKI EGZAMINU MATURALNEGO W 2009 ROKU

Program szkoleniowy Efektywni50+ Moduł III Standardy wymiany danych

Projekt konceptualny z Baz Danych "Centralny system zarz dzania salami na AGH"

EDUKARIS - O±rodek Ksztaªcenia

POZYCJONOWANIE I OPTYMALIZACJA STRON WWW PDF >>>WIĘCEJ<<<

Badanie struktury sieci WWW

KARTA PRZEDMIOTU. 1. NAZWA PRZEDMIOTU: Technologia montażu. 2. KIERUNEK: Mechanika i Budowa Maszyn. 3. POZIOM STUDIÓW: Studia pierwszego stopnia

Numer obszaru: 8 E-learning w szkole - wykorzystanie platform edukacyjnych w pracy szkoły

Poniżej instrukcja użytkowania platformy

PRZEWODNIK PO PRZEDMIOCIE

Wst p i organizacja zaj

Praca Dyplomowa Magisterska

Specjalizacja magisterska Bazy danych

Numer obszaru: 13. Jak pracować z uczniem uzdolnionym informatycznie? Od grafiki i multimediów do poważnych algorytmów w środowisku Logomocja-Imagine

Lab. 02: Algorytm Schrage

Przypomnienie najważniejszych pojęć z baz danych. Co to jest baza danych?

Podstawa programowa kształcenia ogólnego informatyki w gimnazjum

KARTA PRZEDMIOTU. 12. PRZEDMIOTOWE EFEKTY KSZTAŁCENIA 3 Odniesienie do kierunkowych efektów kształcenia (symbol)

Laboratorium z przedmiotu MED. Lab1 - wprowadzenie

Wydział Zarządzania. Poziom i forma studiów. Ścieżka dyplomowania: Kod przedmiotu: Punkty ECTS 1) W - 30 C- 15 L- 0 P- 0 Pws- S- 0

Stosowanie geoinformatyki w kontekście centralizacji SILP Szkolenie centralne z zakresu geomatyki leśnej dla nadleśniczych, 2011r.

Platforma do obsługi zdalnej edukacji

Systemy zarządzania treścią

Przedmiotowe Zasady Oceniania z przedmiotu Informatyka

PRZEDMIOTOWY SYSTEM OCENIANIA Z ZAJĘĆ KOMPUTEROWYCH

KONCEPCJA NAUCZANIA PRZEDMIOTU RACHUNKOWOŚĆ SKOMPUTERYZOWANA" NA WYDZIALE ZARZĄDZANIA UNIWERSYTETU GDAŃSKIEGO

Transgraniczne świadczenie usług drogą elektroniczną. Prawo własności intelektualnej. European Commission Enterprise and Industry

KARTA PRZEDMIOTU. 10. WYMAGANIA WSTĘPNE: technologia informacyjna na poziomie szkoły średniej.

Inteligentne systemy informacyjne

Eksploracja Danych. (c) Marcin Sydow. Wst p. Data Science. Wprowadzenie. Cykl eksperymentu. Uczenie maszynowe. Zasoby.

2. Program USOS. 2.1 Bezpiecze stwo i ochrona danych osobowych. 2.2 Uruchomienie programu

Metody numeryczne i statystyka dla in»ynierów

MiASI. Modelowanie systemów informatycznych. Piotr Fulma«ski. 18 stycznia Wydziaª Matematyki i Informatyki, Uniwersytet Šódzki, Polska

Informatyka w selekcji - Wykªad 1

OPIS PRZEDMIOTU ZAMÓWIENIA:

Dyskretyzacja i kwantyzacja obrazów

GEO-SYSTEM Sp. z o.o. GEO-RCiWN Rejestr Cen i Wartości Nieruchomości Podręcznik dla uŝytkowników modułu wyszukiwania danych Warszawa 2007

epuap Ogólna instrukcja organizacyjna kroków dla realizacji integracji

Matematyka wykªad 1. Macierze (1) Andrzej Torój. 17 wrze±nia Wy»sza Szkoªa Zarz dzania i Prawa im. H. Chodkowskiej

Informatyka, I stopień. Programowanie (PRO300.1)

Modele liniowe i mieszane na przykªadzie analizy danych biologicznych - Wykªad 1

Edyta Juszczyk. Akademia im. Jana Dªugosza w Cz stochowie. Lekcja 1Wst p

Programowanie w internecie nazwa przedmiotu SYLABUS A. Informacje ogólne

Klasyczny model: jakość lojalność już dawno przestał działać!

PRZEWODNIK PO PRZEDMIOCIE

Hosting WWW Bezpieczeństwo hostingu WWW. Dr Michał Tanaś (

Harmonogram INFORMATYKA ANALITYCZNA Rok akademicki 2015/16 semestr zimowy

Człowiek w cyberprzestrzeni możliwości, zagrożenia i wyzwania - założenia programu studiów INTERDYSCYPLINARNE STUDIA PIERWSZEGO STOPNIA w ramach

WPROWADZENIE DO EKSPLORACJI DANYCH TEKSTOWYCH W ŚRODOWISKU WWW WYSZUKIWANIE INFORMACJI WYKŁAD 6. Piotr Gawrysiak. Anna Wróblewska Piotr Andruszkiewicz

ALEKSANDRA SŁABIAK. Przedmiotowy System Oceniania j. angielski kl. IV VI

Wyszukiwanie i Przetwarzanie Informacji WWW

Wyszukiwanie i Przetwarzanie Informacji WWW

Komputerowe Systemy Sterowania Sem.VI, Wykład organizacyjny

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

Bazy danych. Andrzej Łachwa, UJ, /15

Stacjonarne Wszystkie Katedra Informatyki Stosowanej dr inż. Krzysztof Strzałkowski. Kierunkowy Nieobowiązkowy Polski Semestr piaty

OCENA JAKO CI KSZTAŁCENIA W SGGW WYCHOWANIE FIZYCZNE

Numer obszaru: 4 Technologie informacyjno-komunikacyjne w realizacji podstawy programowej

Programowanie i struktury danych 1 / 44

Zagadnienia programowania obiektowego

Marcin Werla

MySource Matrix CMS - PROSTY INTERFEJS UŻYTKOWNIKA. INSTRUKCJA ver 1.2

Sposoby wyszukiwania multimedialnych zasobów w Internecie

Instalacja. Zawartość. Wyszukiwarka. Instalacja Konfiguracja Uruchomienie i praca z raportem Metody wyszukiwania...

Województwo Lubuskie, 2016 r.

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

UCHWAŁA Nr XXIV/178/05 RADY GMINY WARLUBIE z dnia 29 listopada 2005 r.

Eksploracja danych a serwisy internetowe Przemysław KAZIENKO

WYMAGANIA EDUKACYJNE Z MATEMATYKI DLA UCZNIÓW O SPECJALNYCH POTRZEBACH EDUKACYJNYCH

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2013/2014

TIN Techniki Internetowe zima

Poradnictwo zawodowe Zmieniony

Elementy Modelowania Matematycznego Wykªad 9 Systemy kolejkowe

Wyższego z dnia 9 października 2014 r. w sprawie warunków prowadzenia studiów na określonym kierunku i poziomie kształcenia (Dz. U. 2014, poz. 1370).

Rzut oka na zagadnienia zwi zane z projektowaniem list rozkazów

MiASI. Modelowanie integracji systemów. Piotr Fulma«ski. 26 stycznia Wydziaª Matematyki i Informatyki, Uniwersytet Šódzki, Polska

Co to jest pozycjonowanie stron internetowych? Dlaczego warto pozycjonować strony internetowe?

Algorytmy i bazy danych (wykład obowiązkowy dla wszystkich)

Raport, został przygotowany na podstawie 42 wypełnionych przez uczestników kursu ankiet ewaluacyjnych przeprowadzonych w dniach:

Aplikacje bazodanowe. Laboratorium 1. Dawid Poªap Aplikacje bazodanowe - laboratorium 1 Luty, 22, / 37

YapS Plan testów. Šukasz Bieniasz-Krzywiec Dariusz Leniowski Jakub Š cki 29 maja 2007

KARTA PRZEDMIOTU. 2. Kod przedmiotu ROZ L S1Is7 W Efekty kszta cenia:

PROJEKT WSPÓŁFINANSOWANY ZE ŚRODKÓW UNII EUROPEJSKIEJ W RAMACH EUROPEJSKIEGO FUNDUSZU SPOŁECZNEGO OPIS PRZEDMIOTU

Marcin Kassatti Katedra Technologii i Mediów Edukacyjnych Uniwersytet Pedagogiczny im. KEN Kraków

2. Kod przedmiotu ROZ L N1Is7 IW Efekty kszta cenia:

Wyszukiwanie i Przetwarzanie Informacji WWW

Zmiana Nr 1. Żywiec, dnia r. Wprowadza się następujące zmiany : 5 zmienia brzmienie :

Przykªady problemów optymalizacji kombinatorycznej

Początki obalamy mity

UCHWAŁA NR VI/133//15 SEJMIKU WOJEWÓDZTWA ŚWIĘTOKRZYSKIEGO z dnia 23 marca 2015r.

Z-LOG-1034 Technologie internetowe Internet Technologies

Transkrypt:

Wyszukiwanie i Przetwarzanie Informacji WWW Wprowadzenie Marcin Sydow Web Mining Lab, PJWSTK Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 1 / 19

Prowadz cy Organizacja dr Marcin Sydow Mi dzykatedralne Laboratorium Web Mining oraz Katedra Systemów Inteligentnych PJWSTK pokój: 311 e-mail: msyd@poljap.edu.pl tel.: +48 22 58 44 571 Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 2 / 19

Organizacja Kursu Organizacja 15 spotka«(wykªady bez wicze«) kolokwium ze znajomo±ci wykªadów sprawdzana obecno± na zaj ciach Zaliczenie - system punktowy (razem max. 55 p.): pisemny sprawdzian (max. 30) okoªo 10 kartkówek na pocz. zaj (10 x 2 = 20) obecno± /aktywno± (ok. 5) (opcjonalnie - dla bardzo ch tnych) projekt (?) Ocena wynikowa dana jest wzorem: score (wersja dla purystów: min(5, max(2, score ))) 10 10 Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 3 / 19

Organizacja Wymagania Na pozytywne zaliczenie wymagana jest: 1 caªo± materiaªu wykªadów: ogólna orientacja 2 wybrane 1-3 wykªady: dobra znajomo± Wykªady b d na bardzo ró»ne tematy i o zró»nicowanym charakterze: pogl dowe (wi kszo± ) techniczno-in»ynierskie techniczno-algorytmiczne Nie ma obowi zku zgª biania wszystkich szczegóªów - pozostawiony jest wybór Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 4 / 19

Organizacja Zaªo»enia Przydatna znajomo± nast puj cych zagadnie«: wzgl dne obycie z WWW umiej tno± korzystania z wyszukiwarek rozumienie podstaw html, http (TIN) elementarna wiedza z zakresu informatyki Mo»liwie maªy nacisk na szczegóªy techniczne i matematyk Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 5 / 19

Organizacja Jakich dziedzin dotyczy ten kurs? 1 wyszukiwanie informacji w korpusach dokumentów tekstowych (ang. Information Retrieval, IR) 2 wyszukiwarki internetowe (ang. search engines, rownie»: WIR od ang. Web Information Retrieval) 3 eksploracja danych w sieci WWW (ang. Web Mining WM) 4 wybrane zagadnienia ekonomiczne i spoªeczne dotycz ce WWW Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 6 / 19

Organizacja Co celowo pomini to Niektóre zagadnienia zaliczaj si do tematyki Web Mining ale pomini to je ze wzgl du na ograniczenia czasowe i fakt,»e wymagaj odr bnego kursu (lub taki kurs ju» istnieje) Nale» do nich m.in. Przetwarzanie J zyka Naturalnego (ang. NLP) Uczenie Maszynowe i Analiza Danych Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 7 / 19

Organizacja Czego kurs nie dotyczy bezpo±rednio? tzw. technologii internetowych (html, PHP, JavaScript, Flash, CGI, CMS, Web Services,...) budowy portali internetowych programowania (w tym sieciowego) i IO protokoªów (HTTP, TCP/IP) zagadnie«zwi zanych z Internetem (DNS, etc.) technologii XML, RDF, XPath,... mechanizmów dziaªania sieci P2P pozycjonowania stron (cho wi kszo± powy»szych zagadnie«ma du»y zwi zek z niniejszym kursem) Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 8 / 19

Plan Kursu Organizacja Wprowadzenie Podstawy wyszukiwania informacji (ang. IR) (indeks, zapytania, interfejs) Globalne wªasno±ci WWW i specyka wyszukiwania w WWW (ang. WIR) Wyszukiwarki internetowe du»ej skali (z lotu ptaka) Systemy zbierania dokumentów WWW (ang. crawler) Repozytoria Przykªady konkretnych rozwi za«architektury wielkich wyszukiwarek Analiza struktury grafu hyperlinków WWW Algorytm PageRank, jego wªa±ciwo±ci i warianty HITS, inne algorytmy i zastosowania w sieciach spoªecznych Ekonomiczne podstawy wyszukiwarek: reklamy Wybrane spoªeczne aspekty wyszukiwarek: zjawisko spamu Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 9 / 19

Tematyka Wyszukiwanie Informacji w uj ciu klasycznym (ang. Information Retrieval) wiedza - reprezentowana przez: korpus dokumentów potrzeba informacyjna - reprezentowana przez: zapytanie system ma zwróci dokumenty, które odpowiadaj potrzebie informacyjnej Jest bardzo wiele wariantów tego systemu. Dotyczy ±rodowisk o sªabej, zaszumionej lub niejednorodnej strukturze, takich jak WWW Wyszukiwanie w bazach danych (gdzie jest dobrze zdeniowana struktura) nie zalicza si do tego rodzaju. Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 10 / 19

Tematyka Rola Wyszukiwarek Zadanie wyszukiwania w WWW speªniaj dzisiaj gªównie wyszukiwarki internetowe - nale» ce do najcz ±ciej u»ywanych narz dzi przez ludzi (81% gobalnej populacji Internetu u»yªo przynajmniej raz wyszukiwarki w grudniu 2006 w Wielkiej Brytanii, wg. Nielsen/NetRatings) Wyszukiwarki WWW wywodz si z klasycznych systemów IR (rozwijanych od lat 60 XX. wieku) pracuj cych na kontrolowanych kolekcjach dokumentów tekstowych w korporacjach, etc. Kurs m.in. wyja±nia podstawowe zasady dziaªania zarówno klasycznych systemów jak i nowoczesnych wyszukiwarek WWW. Oprócz zagadnie«technicznych wspominane s wa»ne aspekty socjologiczno-ekonomiczne wyszukiwania w WWW. Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 11 / 19

Tematyka Eksploracja Danych WWW (ang. Web Mining) Skrzy»owanie starszej dziedziny: Eksploracji Danych (Data Mining) i zagadnie«specycznych dla sieci WWW. Dotyczy wyszukiwania wzorców i automatycznego odkrywania u»ytecznej wiedzy z sieci WWW poprzez zastosowanie technik typowych dla klasycznej analizy danych wzbogaconych o techniki specyczne dla WWW. Czyli w wielkim skrócie: WebMining = DataMining + WWW (1) Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 12 / 19

Tematyka Web Mining Cechy WWW: ogromne bogactwo danych zawartych w WWW wyj tkowa dynamika (ci gªy wykªadniczy wzrost) wysoka ró»norodno± i zaszumienie uczestnictwo setek milionów wzajemnie powi zanych procesów (sterowanych zarówno przez ludzi jak i maszyny) ogromne (i wci» rosn ce) zaanga»owanie ekonomiczne, polityczne i spoªeczne milionów agentów (o cz sto sprzecznych interesach) 1 Web nale»y do najciekawszych obecnie pól zastosowa«data Mining 2 Web Mining ci gle stawia niezwykªe wyzwania koncepcyjne i technologiczne, z których wiele wci» czeka na rozwi zanie Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 13 / 19

Tematyka Web Mining W Web Mining - tradycyjny podziaª na 3 gªówne dziaªy: 1 Eksploracja Zawarto±ci WWW (ang. Content Mining) (dawniejszy text mining + eksploracja struktury + NLP +...) 2 Eksploracja Struktury WWW (ang. Link Analysis) (grafy, grafy losowe, algebra, procesy stochastyczne, kombinatoryka,...) 3 Analiza U»ytkowników WWW (ang. Web Usage Mining) (eksploracja danych, analiza logów, analiza danych temporalnych, modelowanie u»ytkowników,...) Mo»na uzna,»e WIR (Web Information Retrieval, czyli Wyszukiwanie Informacji w WWW) jest równie» poddziedzin Web Mining Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 14 / 19

Tematyka Przykªady Ekstrakcja Informacji na zadany temat z WWW Automatyczne porównywanie cen wybranych produktów Identykacja Grup U»ytkowników o okre±lonych zainteresowaniach lub aktywno±ci Systemy demaskowania plagiatów (np. plagiat.pl) Automatyczne generowanie wiedzy z zasobów WWW Odnajdywanie osób Automatyczne ±ledzenie opinii publicznej na dany temat Wyszukiwarka multimediów (lmy, muzyka, etc.) Wykrywanie i Zwalczanie Chªamu Wyszukiwarkowego (ang. Spam) Wykrywanie nadu»y i przest pstw (nanse, terroryzm, etc.) Identykacja grup klientów Optymalizacja przestrzeni reklamowej Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 15 / 19

Tematyka Dost p do informacji WWW Obecne paradygmaty organizacji dost pu do informacji w WWW: 1 nawigacja r czna po dokumentach (pierwotny, obecnie w zaniku) 2 katalogi tematyczne dokumentów (w defensywie?) 3 wyszukiwarki boolowskie (obecnie dominuje) Wyszukiwarki zmieniªy proces rozwoju WWW. arcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 16 / 19

Tematyka Dost p do informacji WWW Obecne paradygmaty organizacji dost pu do informacji w WWW: 1 nawigacja r czna po dokumentach (pierwotny, obecnie w zaniku) 2 katalogi tematyczne dokumentów (w defensywie?) 3 wyszukiwarki boolowskie (obecnie dominuje) Wyszukiwarki zmieniªy proces rozwoju WWW. Co dalej? QA (odpowiadarki na pytania) nawigacja inteligentna (semantyczna)... arcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 16 / 19

Tematyka (Pre)historia WIR w skrócie 1611: prototyp indeksu (Strong's Exhaustive Concordance of Bible) 1945: Memex - prototyp WWW (V.Bush As we may think) 1960: SMART Information Retrieval System (G.Salton, Cornell Univ.) 1965: Xanadu - hypertext (Ted Nelson) 1980: system do nawigacji po dokumentach (T.Berners-Lee) 1990: narodziny WWW (Tim Berners-Lee, CERN) 1993-95: pierwsze przegl darki (Mosaic/Netscape) 1994: Lycos - pierwsza wyszukiwarka 1994: WebCrawler, 4K hostów (Brian Pinkerton) 1994: Jerry's Guide to the World Wide Web (pó¹niej: Yahoo) 1995: AltaVista, Excite, InfoSeek, Inktomi 1996: Yahoo wchodzi na gieªd 1996-1998: pocz tki Google Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 17 / 19

Zadania Co wypada wiedzie po tym wykªadzie: 1 Jakie s reguªy zaliczenia :) 2 Co to jest Web Information Retrieval 3 Czym zajmuje si Web Mining 4 Dziaªy Web Mining (3-4) 5 Przykªady zastosowa«(ze 3) 6 Orientacyjne liczby dotycz ce WWW 7 Rola wyszukiwarek 8 Podstawowa wiedza historyczna (co? kiedy?) Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 18 / 19

Dzi kuj za uwag Zadania Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 19 / 19