Wykład: dr inż. Irmina Masłowska Laboratoria: dr inż. Miłosz Kadziński mgr inż. Michał Tomczyk {irmina.maslowska,milosz.kadzinski}@cs.put.poznan.pl
CO TO JEST INTERNET? >> Internet stał się z dnia na dzień ogólnoświatową rozgłośnią, mechanizmem rozpowszechniania informacji, a także medium dla współpracy i interakcji pomiędzy ludźmi oraz ich komputerami bez względu na położenie geograficzne << Barry M. Leiner, Vinton G. Cerf, David D. Clark, Robert E. Kahn, Leonard Kleinrock, Daniel C. Lynch, Jon Postel, Larry G. Roberts, Stephen Wolff A Brief History of the Internet www.isoc.org Internet (dosł. międzysieć) to ogólnoświatowa sieć komputerowa. W znaczeniu informatycznym - przestrzeń adresów IP przydzielonych hostom i serwerom połączonym za pomocą urządzeń sieciowych, komunikujących się za pomocą protokołu internetowego z wykorzystaniem infrastruktury telekomunikacyjnej.
Standardy Internetu regulowane są przez agencje Internet Engineering Task Force (IETF) i publikowane w dokumentach RFC. Zgodnie z definicją słowa Internet oznacza ono globalny system informacyjny spełniający następujące warunki: jest logicznie połączony w jednorodną sieć adresową opartą na protokole IP (Internet Protocol), jest w stanie zapewnić komunikację przy użyciu protokołów z rodziny TCP/IP (Transmission Control Protocol/Internet Protocol), dostarcza, lub wykorzystuje usługi wyższego poziomu oparte na komunikacji i związanej z nią infrastrukturze.
Usługi (i protokoły) internetowe WWW (World Wide Web) Poczta elektroniczna Transfer plików (FTP File Transfer Protocol i SFTP Secure File Transfer Protocol) Serwisy społecznościowe Blogi, fora i listy dyskusyjne Komunikatory instant messengers VoIP czyli telefonia internetowa Radio i telewizja na żądanie Telekonferencje Telnet, SSH (Secure Shell) Sklepy i aukcje internetowe Bankowość elektroniczna Gry online Sieci wymiany bezpośredniej P2P Czaty, jak IRC (Internet Relay Chat) Gopher
Eksploracja Zasobów Internetu
The OSI Model 7. Application Layer NNTP SIP SSI DNS FTP Gopher HTTP NFS NTP SMPP SMTP DHCP SNMP Telnet (more) 6. Presentation Layer MIME XDR SSL TLS 5. Session Layer Named Pipes NetBIOS SAP SIP PPTP L2TP 4. Transport Layer TCP UDP SCTP DCCP 3. Network Layer IP (IPv4, IPv6) ICMP IPsec IGMP IPX AppleTalk 2. Data Link Layer ARP CSLIP SLIP Ethernet Frame relay ITU-T G.hn DLL PPP 1. Physical Layer RS-232 RS-449 V.35 V.34 I.430 I.431 T1 E1 POTS SONET/SDH OTN DSL 802.11a/b/g/n PHY 802.15.x PHY ITU-T G.hn PHY Ethernet USB Bluetooth http://en.wikipedia.org/wiki/osi_model
Natura Internetu olbrzymie rozmiary różnorodność dynamiczność zmian stąd konieczność wzięcia pod uwagę takich aspektów, jak: skalowalność dane multimedialne i wielojęzyczne ulotność ( temporalność ) danych
Total Sites Across All Domains August 1995 - September 2011 October 2012 620,480,777 sites October 2013 767,234,152 sites September 2014 1,022,954,603 September 2015 892,743,625 www.netcraft.com www.zakon.org
www.isc.org www.zakon.org Jul 2012 908,585,739 Jul 2013 996,230,757 Jul 2014 1,028,544,414 Jul 2015 1,033,836,245
Web Mining >> wykorzystanie technik data mining w automatycznym odkrywaniu i pozyskiwaniu informacji z dokumentów i usług dostępnych w sieci Web << O. Etzioni, The World-Wide Web: Quagmire or gold mine? Communications of ACM, 39(11):65-68, 1996
Web Mining jako dyscyplina naukowa leży na przecięciu badań baz danych wyszukiwania informacji (Information Retrieval IR) sztucznej inteligencji (w AI w szczególności czerpie z uczenia maszynowego ML i przetwarzania języka naturalnego NLP, intelligent agents IA)
Główne problemy/zadania Web Mining dotarcie do adekwatnej informacji; niska precyzja (precision)/ kompletność (recall) głównie IR pozyskiwanie wiedzy z dostępnej informacji głównie DM personalizacja informacji (indywidualizacja zarówno co do treści jak i formy) pozyskiwanie informacji o klientach i użytkownikach
3 kategorie w ramach Web Mining: eksploracja zawartości (treści) Content mining eksploracja struktury Structure mining eksploracja wykorzystania Usage mining Web Mining Web Content Mining Web Structure Mining Web Usage Mining Web Page Content Mining Search Result Mining General Access Pattern Tracking Customized Usage Tracking Za: Jiawei Han, 1998
Information Rertrieval >> IR is the automatic retrieval of ALL relevant documents while retrieving as FEW of the irrelevant as possible << van Rijsbergen C.J. (1979) Information Retrieval. Butterworths, London >> IR deals with the representation, storage, organization of, and access to information items << Baeza-Yates R., Ribeiro-Neto B. (1999) Modern Information Retrieval. Addison-Wesley, ACM Press, New York
Badania IR dotyczą: indeksowania dokumentów szukania informacji w kolekcjach tekstów modelowania klasyfikacji dokumentów analizy skupień architektury systemów interfejsów użytkownika wizualizacji filtrowania...
Information Retrieval vs. Data Retrieval słaba strukturalizacja lub brak dobrze zdefiniowana struktura i semantyka
efektywność dostępu do adekwatnej informacji działanie użytkownika reprezentacja dokumentów
Działanie użytkownika searching translates his information need into a query browsing Baeza-Yates & Ribeiro-Neto, 1999
Logiczna reprezentacja dokumentów document accents, spacing, etc. stopwords noun groups stemming automatic or manual indexing structure recognition structure full text index terms Baeza-Yates & Ribeiro-Neto, 1999