dokumentów w internetowych przyczyny, skala zjawiska, sposoby przeciwdziałania



Podobne dokumenty
WSKAZÓWKI DLA AUTORÓW Optymalizacja publikacji naukowych dla wyników wyszukiwarek ASEO 1

INSTRUKCJA UŻYTKOWNIKA SYSTEMU BIP

Mapa witryny - Poradnik od A do Z

Informacja w świecie cyfrowym. Cyfrowy zasób dla nauki Dąbrowa Górnicza, 23 kwietnia 2012 r.

Pomoc. BIP strona portalu

BIBLIOGRAFICZNA BAZA DANYCH -

Instrukcja dostępu do usługi Google Scholar

REFERAT PRACY DYPLOMOWEJ Temat pracy: Projekt i realizacja serwisu ogłoszeń z inteligentną wyszukiwarką

Internet, jako ocean informacji. Technologia Informacyjna Lekcja 2

Politechnika Łódzka Biblioteka. Dokumentowanie i rozpowszechniania informacji o publikacjach naukowych pracowników Politechniki Łódzkiej

Karol Gałka. Numer albumu: Inżynieria mechatroniczna

Sieciowe usługi informacyjne dla nauk technicznych BazTech, BazTOL

Multiwyszukiwarka EBSCO Discovery Service - przewodnik

Tomasz Boiński: 1. Pozycjonowanie stron i zastosowanie mod_rewrite

OPTYMALIZACJA SERWISÓW INTERNETOWYCH >>>WIĘCEJ<<<

Jak korzystać z katalogu online Miejskiej Biblioteki Publicznej w Jaśle

Instrukcja obsługi statystyk pozycjonowania

World Wide Web? rkijanka

Odkryj potencjał swojej strony internetowej

Zagadnienia: Ścieżki do informacji - wpisywanej po znaku ukośnika / Nazwy dokumentu (w szczególności strony www, czyli strony internetowej).

#1 Wartościowa treść. #2 Słowa kluczowe. #3 Adresy URL

Jak pisać publikacje naukowe? Nie o naukowej, a technicznej stronie pisania artykułu

Akademia Górniczo-Hutnicza im. Stanisława Staszica

Projektowanie architektury informacji katalogu biblioteki w oparciu o badania użytkowników Analiza przypadku

Przewodnik po serwisie INFORLEX.PL BIZNES

KONFIGURACJA INTERFEJSU SIECIOWEGO

Baza danych AGRO 16 lat działalności na rzecz nauki i edukacji

Rok szkolny 2015/16 Sylwester Gieszczyk. Wymagania edukacyjne w technikum

Przygotowanie plików PDF do efektywnego udostępniania publikacji w Internecie

Miejski System Zarządzania - Katowicka Infrastruktura Informacji Przestrzennej

Wyszukiwanie pełnotekstowe w zasobach bibliotek cyfrowych

Ewa Lang Marzena Marcinek

Instrukcja pobrania i instalacji. certyfikatu Microsoft Code Signing. wersja 1.4

Audyt SEO. sklep-budowalny.pl Biuro obsługi: al. Grunwaldzka 2/ Gdańsk

WYNIKI ANKIETY Serwis internetowy Biblioteki PWSZ w Nysie

TECHNOLOGIA INFORMACYJNA

Konferencja Biblioteka Akademicka: Infrastruktura Uczelnia Otoczenie Gliwice, października 2013 r.

Omówienie normy PN-ISO Informacja i dokumentacja. Przypisy bibliograficzne. Dokumenty elektroniczne i ich części

System SINUS otwarte narzędzie do budowy bibliograficznych baz danych

Współpraca z platformą Emp@tia. dokumentacja techniczna

Konferencja POL-on. Moduły ORPD, PBN, POL-Index. Małgorzata Stefańczuk OPI PIB 18 maja 2015 r.

Rządowy Proces Legislacyjny

WYMAGANIA EDUKACYJNE. Witryny i Aplikacje Internetowe klasa I

PageRank i HITS. Mikołajczyk Grzegorz

Opracowanie wydawnictw ciągłych w NUKAT a czasopisma w bibliotekach cyfrowych

Szukaj igły w stogu siana..., czyli zagadnienie łatwego wyszukiwania w ogromnym zbiorze informacji

Polityka prywatności. Polityka prywatności POLITYKA PRYWATNOŚCI

Wyszukiwanie. Zakładki

DOKUMENTACJA INTERFEJSU API - HTTPS

Współpraca z platformą dokumentacja techniczna

Aplikacja testowej wersji tezaurusa w systemie komputerowym ALEPH w Bibliotece CIOP-PIB

Biblioteka Politechniki Krakowskiej

WPROWADZENIE WYSZUKIWANIE OGŁOSZEŃ

REJESTRACJA W KATALOGACH Zbuduj markę swojej firmy w Internecie...

Aneta Drabek Biblioteka Uniwersytetu Śląskiego. Polska Literatura Humanistyczna Arton" - baza bibliograficzna czy indeks cytowań?

Poziomy wymagań Konieczny K Podstawowy- P Rozszerzający- R Dopełniający- D Uczeń: - zna rodzaje sieci - zna topologie sieciowe sieci

Poziomy wymagań Konieczny K Podstawowy- P Rozszerzający- R Dopełniający- D Uczeń:

autor poradnika - KS Jak zamieszczać i edytować artykuły na szkolnej stronie internetowej

Odkrywanie niewidzialnych zasobów sieci

Kryteria oceniania z przedmiotu Informatyka

KRYTERIUM OCEN Z INFORMATYKI DLA KLASY 4 SZKOŁY PODSTAWOWEJ

POZYCJONOWANIE I OPTYMALIZACJA STRON WWW PDF >>>WIĘCEJ<<<

WYSZUKIWANIE INFORMACJI W INTERNECIE I ICH WYKORZYSTANIE. Filip Makowiecki filip.makowiecki@ceo.org.pl

Microsoft Exchange Server 2013

CZEGO OCZEKUJĄ OD BIBLIOTEKI

ŚLĄSKA WYŻSZA SZKOŁA MEDYCZNA BIBLIOTECZNE CZ. 2

ZAŁĄCZNIK NR 1 DO REGULAMINU SERWISU ZNANEEKSPERTKI.PL POLITYKA OCHRONY PRYWATNOŚCI

Wstęp 5 Rozdział 1. Przeglądarki 7

Zotero przydatny i wszechstronny program niekomercyjny do tworzenia archiwum stron internetowych, bibliografii i przypisów

ZASADY KORZYSTANIA Z PLIKÓW COOKIES ORAZ POLITYKA PRYWATNOŚCI W SERWISIE INTERNETOWYM PawłowskiSPORT.pl

Biblioteka Wirtualnej Nauki

Polityka prywatności serwisu zarabianieskuteczne.pl

POLITYKA PRYWATNOŚCI


POLITYKA PRYWATNOŚCI SERWIS:

Jak publikować na MiMamo.pl

PAŃSTWOWY INSTYTUT WETERYNARYJNY

OPI-TPP - Wprowadzenie do części warsztatowej

Wdrożenie modułu płatności eservice dla systemu PrestaShop

Biblioteka Państwowej Wyższej Szkoły Informatyki i Przedsiębiorczości w Łomży

Polityka prywatności serwisu

Bibliometria i więcej: kilka uwag nie na temat

Serwis realizuje funkcje pozyskiwania informacji o użytkownikach i ich zachowaniach w następujący sposób:

Polityka Prywatności i Cookies

Ogólnopolskie Repozytorium Prac Dyplomowych

Instrukcja obsługi platformy B2B ARA Pneumatik

Współczesne technologie i narzędzia informatyczne a wypożyczanie międzybiblioteczne. Anna Gogiel-Kuźmicka Biblioteka Politechniki Białostockiej

Multiwyszukiwarka EBSCO Discovery Service przewodnik

PROGRAM NAUCZANIA DLA ZAWODU TECHNIK INFORMATYK, O STRUKTURZE PRZEDMIOTOWEJ

Czytelnik w bibliotece cyfrowej

POLITYKA PRYWATNOŚCI

Cookie Policy. 1. Informacje ogólne.

Technologie Internetowe Raport z wykonanego projektu Temat: Internetowy sklep elektroniczny

Bibliograficzne bazy danych Dolnośląskiej Biblioteki Pedagogicznej we Wrocławiu:

3.3 Używanie logo Kindii przez osoby trzecie bez zgody Zarządu Harper Hygienics S.A. jest zabronione.

Podręcznik użytkownika serwisu internetowego

Biblioteka Wirtualnej Nauki

Zmiana sposobu logowania do systemu Bazy Wiedzy PW edycja danych

Aneta Drabek. Informacja w świecie cyfrowym, Dąbrowa Górnicza, 7-8 marca 2013 r.

Rejestracja wstępna - procedura

Transkrypt:

Efemeryczność dokumentów w internetowych przyczyny, skala zjawiska, sposoby przeciwdziałania ania Arkadiusz Pulikowski Instytut Bibliotekoznawstwa i Informacji Naukowej Uniwersytet Śląski IX KRAJOWE FORUM INFORMACJI NAUKOWEJ I TECHNICZNEJ ZAKOPANE 2007

Plan wystąpienia określenie przyczyn znikania dokumentów internetowych, zbadanie skali zjawiska, na podstawie analizy odsyłaczy hipertekstowych z biuletynu EBIB i kwartalnika PTINT, wskazanie obecnie dostępnych metod odzyskiwania nieaktywnych dokumentów, przedstawienie koncepcji systemu, który mógłby w przyszłości definitywnie rozwiąza zać omawiany problem.

Najczęstsze przyczyny braku dostępu do cytowanego dokumentu internetowego Permanentne zaprzestanie działalności serwera, usunięcie dokumentu z serwera, zmiana ścieżki dostępu do pliku, błędne przepisanie adresu dokumentu. Przejściowe czasowe wyłączenie serwera (aktualizacja oprogramowania, awaria sprzętowa), awaria sieci lokalnej, w której funkcjonuje serwer przechowujący interesujące nas dokumenty.

Założenia przyjęte dla badania odsyłaczy hipertekstowych z biuletynu EBIB i kwartalnika PTINT przedział czasu: 2001-2006, analizowane odsyłacze pochodziły y z treści artykułu, u, bibliografii i przypisów, dla danego artykułu u każdy odnośnik nik liczony był raz, niezależnie od tego ile razy pojawił się w dokumencie, przekierowania wykonywane przez oprogramowanie serwera prowadzące do właściwego dokumentu były y traktowane jako poprawnie działaj ający odsyłacz.

Założenia przyjęte dla badania odsyłaczy hipertekstowych z biuletynu EBIB i kwartalnika PTINT c.d. nie były y rozróżniane dokumenty chwilowo niedziałajace ajace od tych trwale niedostępnych, dla EBIB-u artykuły y pochodziły y z działów: Artykuły, y, Badania, teorie wizje, oraz rzadko pojawiających się Opinii, Polemik i Technologii, dla PTINT-u były y to wszystkie działy y z wyjątkiem: Wydarzeń krajowych i zagranicznych oraz recenzji, łączna liczba artykułów w objętych badaniem dla EBIB-u wyniosła a 455, a dla PTINT-u 131.

Wyniki badania czasopisma EBIB w ujęciu tabelarycznym Rok liczba numerów rocznika Liczba badanych artykułów łączna liczba odsyłaczy śr. liczba odsyłaczy w art. Liczba odsyłaczy niedział. procent odsyłaczy niedział. 2001 11 46 147 3,2 70 48 2002 11 71 279 3,9 95 34 2003 11 78 302 3,9 95 31 2004 10 94 344 3,7 103 30 2005 9 81 522 6,4 99 19 2006 11 85 590 6,9 90 15

Wyniki badania czasopisma PTINT w ujęciu tabelarycznym Rok liczba numerów rocznika Liczba badanych artykułów łączna liczba odsyłaczy śr. liczba odsyłaczy w art. Liczba odsyłaczy niedział. procent odsyłaczy niedział. 2001 3 23 24 1,0 16 66 2002 3 20 25 1,2 14 56 2003 3 24 28 1,2 7 25 2004 3 20 108 5,4 47 43 2005 4 21 91 4,6 20 22 2006 4 23 70 3,0 10 14

Odsyłacze niedziałaj ające w procentach 70 66 60 56 EBIB PTINT 50 48 43 40 30 34 31 25 30 20 19 22 15 14 10 0 2001 2002 2003 2004 2005 2006

Średnia liczba odsyłaczy w artykule 7 6 EBIB PTINT 5,4 6,4 6,9 5 4,6 4 3 3,2 3,9 3,9 3,7 3 2 1 1 1,2 1,2 0 2001 2002 2003 2004 2005 2006

Metody odzyskiwania dokumentów internetowych analiza adresu URL, wykorzystanie kopii przechowywanej przez wyszukiwarki, wyszukiwanie w serwisie Wayback Machine - web.archive.org.

Analiza adresu URL sprawdzenie poprawności zapisu adresu URL dokumentu, skracanie adresu URL dokumentu do domeny serwera, a następnie przeglądanie zawartości witryny (o ile adres ten działa), a), skracanie adresu URL dokumentu do domeny i wyszukiwanie z wykorzystaniem wyszukiwarki dostępnej na tym serwerze lub użycie polecenia site: google a, host: Szukacza itp. wyszukiwanie w adresach URL za pomocą Google a lub innej wyszukiwarki z wykorzystaniem operatora allinurl: : lub formularza zaawansowanego.

Wykorzystanie kopii przechowywanej przez wyszukiwarki większo kszość wyszukiwarek w trakcie indeksowania tworzy kopię dokumentu, każda wyszukiwarka robi to w innym czasie, dzięki czemu jeśli w jednej nie znajdziemy kopii poszukiwanego dokumentu można próbowa bować w kolejnej, metoda daje najlepsze rezultaty dla poszukiwań dokumentów w zaginionych w ostatnich miesiącach znajdujących się jeszcze w indeksach wyszukiwarek.

Kopie dokumentów w na listach trafień Google, wybranych wyszukiwarek Szukacz, Live.

Wyszukiwanie w archiwum web.archive.org Wayback Machine działa a od 1996 r., gromadzi w chwili obecnej około o 85 miliardów w dokumentów w internetowych, pliki sąs dodawane z kilkumiesięcznym opóźnieniem (nowsze można znaleźć korzystając c z kopii wyszukiwarek), odnośniki niki wewnątrz kopii odsyłaj ają do kolejnych kopii utworzonych w podobnym czasie, do dokumentów w przechowywanych w archiwum można tworzyć odsyłacze np.: http://web.archive.org web.archive.org/web/20031225004248/http:// ibin.us.edu.pl/

Wayback Machine na 70 niedziałaj ających odsyłaczy z rocznika 2001 EBIB-u Wayback Machine znalazł aż 51 73%

Przykład wyszukiwania z Wayback Machine oprócz kopii poszukiwanego dokumentu możemy również zobaczyć czy i jak zmieniała a się jego zawartość w czasie oraz kiedy mniej więcej został utworzony i do kiedy był dostępny online.

Wady wymienionych metod walki ze znikającymi dokumentami są czasochłonne, onne, nie do końca rozwiązuj zują problem, ponieważ wielu dokumentów w i tak nie odnajdziemy, nawet gdy odnośnik nik działa a to nie możemy mieć pewności, że e dokument jest w takiej samej postaci w jakiej widział go autor odsyłaj ający do niego.

Koncepcja nowego systemu powinien tworzyć kopie na życzenie użytkownika (osoby tworzącej opis bibliograficzny), każda kopia otrzymywałaby aby unikalny identyfikator, na kształt t obecnie funkcjonującego cego DOI Digital Object Identifier, identyfikator byłby dodawany do opisu bibliogra- ficznego obok adresu URL, na jego podstawie ze strony WWW projektu można by szybko dotrzeć do kopii dokumentu, niezależnie od tego czy jest on jeszcze dostępny, przed utworzeniem identyfikatora dla dokumentu, system sprawdzałby, czy zgłaszany adres URL nie ma już przypisanego jednego lub kilku numerów, zgłaszaj aszający mógłby m skorzystać z istniejącego już identyfikatora do tworzenia własnego w opisu gdyby uznał, że e kopia do której odsyła a jest taka sama lub prawie identyczna ze zgłaszanym dokumentem.

Dziękuję za uwagę