Przygotowanie plików PDF do efektywnego udostępniania publikacji w Internecie Ewa A. Rozkosz Dolnośląska Szkoła Wyższa Centrum Promocji Informatyki, 23 czerwca 2015 r.
Plan wystąpienia 1. W jakim celu autor powinien zoptymalizować plik przed udostępnieniem go w Internecie? 2. Wybór wersji tekstu do udostępnienia 3. Format pliku 4. Budowa strony informacyjnej 5. Narzędzia wspierające autora w optymalizacji pliku 6. Podsumowanie
W jakim celu autor powinien zoptymalizować plik przed udostępnieniem go w Internecie?
Optymalizacja pliku ze względu na czytelników (human readable) informacja o wersji tekstu informacja o źródle tekstu informacja o prawach do tekstu ze względu na roboty indeksujące (machine readable) struktura tekstu format i wielkość pliku metadane pliku
Czytelnicy Znajdując tekst umieszczony na stronie bez żadnych danych bibliograficznych mogą mieć trudności z identyfikacją miejsca publikacji (tytułu książki/czasopisma, nazwiska redaktora, roku publikacji etc.) i niepoprawnie go zacytować. http://scholar.harvard.edu/files/martinwhyte/files/suboptimalinstitutions2014.pdf
Brak czytelnej informacji o źródle to: W efekcie: błędne cytowania, brak cytowań dla czasopisma (artykuł jest cytowany jako tekst znaleziony w internecie), brak narzędzia uwierzytelniającego (tytuł czasopisma może mieć znaczenie przy ocenie wiarygodności nieznanego autora), w przypadku preprintu brak informacji o miejscu publikacji finalnej wersji tekstu.
Roboty indeksujące Źle przygotowane pliki mogą być ignorowane przez roboty indeksujące i niewidoczne w wyszukiwarkach i/lub indeksowane błędnie (np. widoczne jako teksty innego autora). Academic SEO = optymalizacja tekstu naukowego (pliku) pod kątem wyszukiwarek naukowych.
Academic SEO podstawowe zalecenia Google Scholar 1. Udostępniany plik zapisany w formacie PDF (rozszerzenie.pdf). 2. Wielkość pliku max. 5 MB. 3. Tytuł zapisany na górze pierwszej strony większym stopniem pisma. 4. Dane autorów zamieszczone pod tytułem w osobnych wierszach. 5. Bibliografia załącznikowa poprzedzona śródtytułem, np. Bibliografia, References, Bibliography. https://scholar.google.com/intl/en/scholar/inclusion.html
Academic SEO inne zalecenia 1. Tytuł o odpowiedniej długości (20-70 znaków ze spacjami). 2. Tytuł i abstrakt zawierają słowa kluczowe, które są również podane odrębnie. 3. Tekst ustrukturyzowany (np. struktura IMRAD) wydzielone śródtytuły / nagłówki. 4. Zachowany porządek: tytuł, dane autora, abstrakt, słowa kluczowe, tekst zasadniczy itd. 5. We właściwościach pliku PDF dodane metadane, w szczególności dane autora oraz tytuł tekstu. 6. Nazwa pliku (najlepiej tytuł) bez spacji i polskich znaków: tytul_publikacji.pdf https://scholar.google.com/intl/en/scholar/inclusion.html
Academic SEO inne zalecenia Academic SEO a miejsce publikacji: czasopismo wydawane on-line, zawartość indeksowana poprawnie przez Google Scholar. Autor ma wpływ na widoczność, może (o ile pozwala na to umowa z wydawcą) udostępnić plik: na stronie domowej, w repozytorium, w bibliotece cyfrowej, w serwisie społecznościowym dla naukowców: ResearchGate, Academia.Edu, serwisach do zarządzania bibliografią (np. Mendeley, CiteULike).
Obszary Academic SEO treść (tytuł, słowa kluczowe, struktura) cechy pliku PDF sposób udostępnienia pliku
Wybór wersji tekstu do udostępnienia
Co musi wiedzieć autor? kto ma prawa do tekstu? Autor Wydawca w jakie wersji może udostępnić tekst? preprint postprint
Od preprintu do postprintu (uproszczony schemat cyklu wydawniczego) Zgłoszenie tekstu Recenzja Rewizja Redakcja techniczna Skład i publikacja preprint postprint eprints
manuskrypt Preprint jest najczęściej utożsamiany z manuskryptem. Zgłoszenie tekstu Recenzja Rewizja Redakcja techniczna Skład i publikacja preprint postprint
Preprint vs. postprint wg Sherpa zgłoszony tekst preprint R E C E N Z J A postprint wersja zrecenzowana wersja zrewidowana wersja opublikowana http://www.sherpa.ac.uk/romeoinfo.html
Preprint vs. postprint wg Elsevier Preprint (pre-print) tekst autorski, nie poddany procesowi recenzyjnemu ani obróbce redakcyjnej (np. korekcie językowej) RECENZJA Autorski manuskrypt zaakceptowany do publikacji (Accepted Author Manuscript) tekst zaakceptowany do publikacji, zawierający zmiany zasugerowane po zgłoszeniu, recenzji lub podczas prac redakcyjnych. Wersja sprzed składu. Opublikowany artykuł (Published Journal Article) finalna wersja artykułu. http://www.elsevier.com/about/open-access/open-access-policies/article-posting-policy
W otwartych czasopismach zamiast definicji preprintów / postprintów polityka open access http://www.hexisjournal.eu/ojs/index.php/hexis/about/editorialpolicies#openaccesspolicy
Którą wersję artykułu pozwala udostępnić wydawca? stosunek wydawcy do udostępniania tekstu w internecie (np. samoarchiwizacji w repozytorium) Umowa Strona internetowa wydawcy / czasopisma http://www.sherpa.ac.uk/romeo
Serwis SHERPA/RoMEO pozwala na sprawdzenie polityki wydawcy w zakresie udostępniania (archiwizacji) artykułów w internecie, np. w repozytoriach instytucjonalnych i na stronach domowych autorów.
Przykład: Forum Oświatowe w serwisie SHERPA/RoMEO http://www.sherpa.ac.uk/romeo/issn/0867-0323
Przykład: Journal for the Theory of Social Behaviour w serwisie SHERPA/RoMEO http://www.sherpa.ac.uk/romeo/issn/0021-8308
Format pliku
Formaty PDF DOC, RTF DjVu HTML, XML PS Tex ZIP, TAR
Zalecanym formatem jest PDF komunikatywność preferowany przez użytkowników nienaruszalność układu poprawne odczytywanie liter ze znakami diakrytycznymi oraz pisma niełacińskiego powszechnie stosowany w repozytoriach optymalizacja pod kątem wyszukiwarek naukowych = ASEO (Academic Search Engine Optimization)
najbardziej pożądane rozwiązanie brak możliwości uzyskania pliku brak uprawnień do udostępniania końcowej wersji tekstu plik PDF od wydawcy (digital born) zeskanowana publikacja zapisana w formacie PDF, dodana warstwa tekstowa (OCR) manuskrypt (np. DOC, DOCX) zapisany w formacie PDF
1 plik PDF 1 publikacja https://scholar.google.pl/intl/pl/scholar/publishers.html#faq1
Metadane pliku PDF pełny tytuł publikacji (może zawierać polskie znaki) Nazwisko Imię; Nazwisko Imię (oddzielone średnikami) słowa kluczowe (oddzielone przecinkami lub średnikami)
Budowa strony informacyjnej
Kiedy strona informacyjna nie jest potrzebna? Tytuł / Autorzy Pełny opis bibliograficzny Prawa autorskie
Kiedy strona informacyjna jest niezbędna? https://depot.ceon.pl/handle/123456789/2366
Zawartość strony informacyjnej Dodawana do tekstu strona powinna zawierać co najmniej: tytuł publikacji dane o autorach pozostałe informacje bibliograficzne informację o wersji tekstu ( przed czy po recenzji) informację o prawach do dzieła identyfikator tekstu (np. DOI)
tytuł opis bibliograficzny (pełne dane) preprint warunki licencji właściciel praw https://dspace.lboro.ac.uk/dspace-jspui/handle/2134/2016
tytuł autor opis bibliograficzny (pełne dane) wersja właściciel praw http://hdl.handle.net/11479/33
Elementy strony informacyjnej Użytkownik powinien otrzymać czytelną informację, o charakterze wersji umieszczonej w internecie. Zakaz cytowania jest kłopotliwy, ogranicza dozwolony użytek.
Narzędzia wspierające autora w optymalizacji pliku
OCR Dodawanie warstwy tekstowej do pliku PDF (po zeskanowaniu publikacji). Polecam: FineReader (komercyjny) Darmowa alternatywa: FreeOCR
Dzielenie plików Do wyodrębniania z pliku PDF zawierającego kilka publikacji, jednego tekstu. Polecam: Adobe Acrobat Darmowa alternatywa: PDF Split and Merge Automator (Mac OS)
Dodawanie metadanych Do dodawania metadanych do właściwości pliku PDF. Polecam: Adobe Acrobat Darmowa alternatywa: BeCyPDFMetaEdit Automator (Mac OS)
Podsumowanie
Podsumowanie 1. Podstawy AcademicSEO są niezbędne przy udostępnianiu publikacji w internecie. 2. AcademicSEO to wiedza dla wydawców i autorów. 3. Autor zawsze może wybrać sposób udostępniania swojej pracy, ale musi się liczyć ze skutkami (np. brakiem informacji o publikacji w wynikach wyszukiwania).
Wykorzystane zdjęcia Advertising / Quinn Dombrowski. flickr.com (licencja: CC BY SA) Existential visibility / Quinn Dombrowski. flickr.com (licencja: CC BY SA)
CC BY 3.0 Polska ewa@rozkosz.info edukacjainformacyjna.pl