Wykład: dr inż. Irmina Masłowska Laboratoria: dr hab. inż. Miłosz Kadziński {irmina.maslowska,milosz.kadzinski}@cs.put.poznan.pl
CO TO JEST INTERNET? >> Internet stał się z dnia na dzień ogólnoświatową rozgłośnią, mechanizmem rozpowszechniania informacji, a także medium dla współpracy i interakcji pomiędzy ludźmi oraz ich komputerami bez względu na położenie geograficzne << Barry M. Leiner, Vinton G. Cerf, David D. Clark, Robert E. Kahn, Leonard Kleinrock, Daniel C. Lynch, Jon Postel, Larry G. Roberts, Stephen Wolff A Brief History of the Internet www.isoc.org Internet (dosł. międzysieć) to ogólnoświatowa sieć komputerowa. W znaczeniu informatycznym - przestrzeń adresów IP przydzielonych hostom i serwerom połączonym za pomocą urządzeń sieciowych, komunikujących się za pomocą protokołu internetowego z wykorzystaniem infrastruktury telekomunikacyjnej.
Standardy Internetu regulowane są przez agencje Internet Engineering Task Force (IETF) i publikowane w dokumentach RFC. Zgodnie z definicją słowa Internet oznacza ono globalny system informacyjny spełniający następujące warunki: jest logicznie połączony w jednorodną sieć adresową opartą na protokole IP (Internet Protocol), jest w stanie zapewnić komunikację przy użyciu protokołów z rodziny TCP/IP (Transmission Control Protocol/Internet Protocol), dostarcza, lub wykorzystuje usługi wyższego poziomu oparte na komunikacji i związanej z nią infrastrukturze.
Usługi (i protokoły) internetowe WWW (World Wide Web) Poczta elektroniczna Transfer plików (FTP File Transfer Protocol i SFTP Secure File Transfer Protocol) Serwisy społecznościowe Blogi, fora i listy dyskusyjne Komunikatory instant messengers, Telekonferencje VoIP czyli telefonia internetowa Radio i telewizja, video na żądanie - IPTV Telnet, SSH (Secure Shell) Sklepy i aukcje internetowe Bankowość elektroniczna Blockchain Gry online Sieci wymiany bezpośredniej P2P Czaty, jak IRC (Internet Relay Chat) Gopher
Natura Internetu olbrzymie rozmiary różnorodność dynamiczność zmian https://thenextweb.com/insider/2017/03/06/the-incredible-growth-of-theinternet-over-the-past-five-years-explained-in-detail stąd konieczność wzięcia pod uwagę takich aspektów, jak: skalowalność dane multimedialne i wielojęzyczne ulotność ( temporalność ) danych
Oct 2013 767,234,152 Sept 2015 892,743,625 Sept 2016 1,285,759,146 Sept 2017 1,805,060,730 www.netcraft.com www.zakon.org
www.isc.org www.zakon.org Jul 2013 996,230,757 Jul 2014 1,028,544,414 Jul 2015 1,033,836,245 Jan 2016 1,048,766,623 Jul 2017 1,074,971,748
Web Mining >> wykorzystanie technik data mining w automatycznym odkrywaniu i pozyskiwaniu informacji z dokumentów i usług dostępnych w sieci Web << O. Etzioni, The World-Wide Web: Quagmire or gold mine? Communications of ACM, 39(11):65-68, 1996
Web Mining jako dyscyplina naukowa leży na przecięciu badań baz danych wyszukiwania informacji (Information Retrieval IR) sztucznej inteligencji (w AI w szczególności czerpie z uczenia maszynowego ML i przetwarzania języka naturalnego NLP, intelligent agents IA)
Główne problemy/zadania Web Mining dotarcie do adekwatnej informacji; niska precyzja (precision)/ kompletność (recall) głównie IR pozyskiwanie wiedzy z dostępnej informacji głównie DM personalizacja informacji (indywidualizacja zarówno co do treści jak i formy) pozyskiwanie informacji o klientach i użytkownikach
3 kategorie w ramach Web Mining: eksploracja zawartości (treści) Content mining eksploracja struktury Structure mining eksploracja wykorzystania Usage mining Web Mining Web Content Mining Web Structure Mining Web Usage Mining Web Page Content Mining Search Result Mining General Access Pattern Tracking Customized Usage Tracking Za: Jiawei Han, 1998
Information Rertrieval >> IR is the automatic retrieval of ALL relevant documents while retrieving as FEW of the irrelevant as possible << van Rijsbergen C.J. (1979) Information Retrieval. Butterworths, London >> IR deals with the representation, storage, organization of, and access to information items << Baeza-Yates R., Ribeiro-Neto B. (1999) Modern Information Retrieval. Addison-Wesley, ACM Press, New York
Badania IR dotyczą: szukania informacji w kolekcjach tekstów indeksowania dokumentów modelowania klasyfikacji dokumentów analizy skupień architektury systemów interfejsów użytkownika wizualizacji filtrowania...
Information Retrieval vs. Data Retrieval
Information Retrieval vs. Data Retrieval słaba strukturalizacja lub brak dobrze zdefiniowana struktura i semantyka
efektywność dostępu do adekwatnej informacji
efektywność dostępu do adekwatnej informacji działanie użytkownika
efektywność dostępu do adekwatnej informacji działanie użytkownika reprezentacja dokumentów
Działanie użytkownika searching translates his information need into a query browsing Baeza-Yates & Ribeiro-Neto, 1999
Logiczna reprezentacja dokumentów document accents, spacing, etc. stopwords noun groups stemming automatic or manual indexing structure recognition structure full text index terms Baeza-Yates & Ribeiro-Neto, 1999