Instrukcja opracowania przypisów z bazy BazEkon w bazie CYTOWANIA

Biblioteka Główna Uniwersytetu Ekonomicznego w Krakowie Instrukcja opracowania przypisów z bazy BazEkon w bazie CYTOWANIA zgłaszanie problemów: Anna Osiewalska osiewa@uek.krakow.pl Urszula Cieraszewska cieraszu@uek.krakow.pl Kraków, styczeń 2012 1

Ramka 1 Co jest a co nie jest przypisem literaturowym Przyjmujemy, że przypisy literaturowe (odniesienia do literatury przedmiotu) pracy naukowej to (za Wikipedią hasło: literatura przedmiotu) opisy publikacji lub ich części, w których przedstawione są wyniki badań naukowych analogicznych, ogólniejszych lub bardziej szczegółowych w stosunku do tematu podejmowanego przedsięwzięcia badawczego. Przypisem literaturowym nie będzie zatem opis: aktu prawnego (dziennika ustaw, rozporządzenia, dyrektywy), informatora (rocznik statystyczny, słownik językowy, encyklopedia) dokumentu należącego do tzw. szarej literatury (instytucjonalne źródła informacji) dokumentu technicznego lub techniczno-prawnego (normy). Indeksowana w BazEkon praca może zawierać w swojej bibliografii załącznikowej opisy w/w prac i w BazEkon można nie dokonywać ich selekcji. Jednak w bazie CYTOWANIA, gdzie z założenia gromadzone są już tylko przypisy literaturowe ich obecność generuje szum. Trzeba je więc usunąć (patrz Krok 2 Instrukcji) Ramka 2 Automatyczne wypełnianie indeksów zasady ogólne Przypis ma strukturę identyczną ze strukturą opisu bibliograficznego ale inny jest jego układ: np. na pierwszym miejscu podawany jest autor a nie tytuł pracy. Tę strukturę przypisu widzi człowiek. Dla programu przypis jest po prostu ciągiem tekstowym. Rozpoznanie przez program stref określonego znaczenia jest podstawą automatyzacji wypełniania indeksów w bazie. Są to indeksy: autorski, roku, tytułowy, czasopisma, serii Każdy z tych indeksów składa się z dowolnie zwielokrotnianych pól. Działanie programu kończy się złożeniem zawartości indeksów z zachowaniem kolejności wypełnienia pól (ta sekwencyjność składania pól w indeksach pozwala np. utrzymać kolejność autorów w pracy wieloautorskiej). Autorzy jednego poziomu zostaną rozdzieleni średnikami. Tytuły jednego poziomu (tytuł czałości i tytuł części lub tomu) rozdzielone zostaną znacznikiem Przy składaniu przypisów z zawartości indeksów indeksy rozdzielane są przez program ukośnikami. Indeksy: autorski, roku i tytułu rozdzielają pojedyncze ukośniki. Indeks czasopisma poprzedza znacznik // dwa ukośniki. Indeks serii poprzedza znacznik // () dwa ukośniki i nazwa serii w nawiasie okrągłym. Dodatkową funkcję pełnią znaczniki: tytułu pracy zbiorowej [W:] oraz cytowania za inną pracą [za:], które wprowadzają poziomy złożoności (zob. Ramka 4). Przypis składany z zawartości indeksów powinien maksymalnie przypominać oryginalny przypis tak, aby jednym rzutem oka można było ocenić czy program zadziałał prawidłowo. Zasada ta obowiązuje na wszystkich ekranach roboczych kolejnych kroków programu. Przypis składany z zawartości indeksów nie będzie zawierał elementów nieindeksowanych, którymi są: numeracja przypisu, strony, numery woluminów, nazwa wydawnictwa, miejsce wydania, oznaczenie wydania, oznaczenie tomu lub części itp. Jeżeli te elementy występują jednak w złożeniu znaczy to, że błędnie tkwią w jakimś indeksie (np. autora) i trzeba taki indeks koniecznie wyczyścić. 2

Przypisy literaturowe (zob. Ramka 1) od samego początku są w bazie BazEkon wyszukiwalne w polu Literatura. Jednak dopiero ich zindeksowanie umożliwiło wprowadzenie w bazie BazEkon funkcjonalności Cytowane przez co przekształciło ją w indeks cytowań. Masowość przypisów wymaga automatycznego wypełniania indeksów (zob. Ramka 2) w bazie CYTOWANIA. Przebieg programu wymaga jednak kontroli i wspomagania przez człowieka. Sposób wspomagania programu opisuje Instrukcja Zawartość Instrukcji: Etapy kontroli przebiegu programu (strony nieparzyste) Krok 1 : Wybór rekordów do opracowania Krok 2a : Przygotowanie do analizy składni : sprawdzenie tekstu Krok 2b : Przygotowanie do analizy składni : sprawdzenie poziomów złożoności Krok 3 : Wynik analizy składni, jego korekta i wysłanie do bazy CYTOWANIA Krok 4 : Zatwierdzenie wyniku Teksty objaśniające (strony parzyste) Ramka 1. Co jest a co nie jest przypisem literaturowym Ramka 2. Automatyczne wypełnianie indeksów zasady ogólne Ramka 3. Zasady działania algorytmów analizy składni Ramka 4. Poziomy złożoności przypisu literaturowego Ramka 5. Kolejność indeksów okna edycji kroku 3 Instrukcji Ramka 6. Podstawowy poziom złożoności przypisu literaturowego Krok 1 : Wybór rekordów do opracowania Wybór cytowań wg terminu lub wg nazwy pliku. Bezpieczniej jest ograniczyć liczbę wyświetlonych rekordów; skraca to także czas oczekiwania na pierwszy ekran roboczy. Wybór cytowań poprzez termin daje możliwość opracowania cytowań dla autora (terminem jest jego nazwisko) lub czasopisma (terminem jest tytuł czasopisma). http://kangur.uek.krakow.pl/bazy_ae/cytowania/cytowania_robocze/index_termin.cgi Jeżeli wywołamy cytowania poprzez nazwę pliku z ograniczeniem liczby rekordów, program będzie sugerował powrót do tego pliku dotąd, dokąd będą w nim cytowania nieopracowane. Sugestie programu można pominąć. http://kangur.uek.krakow.pl/bazy_ae/cytowania/cytowania_robocze/index.cgi 3

Ramka 1 Co jest a co nie jest przypisem literaturowym Przyjmujemy, że przypisy literaturowe (odniesienia do literatury przedmiotu) pracy naukowej to (za Wikipedią hasło: literatura przedmiotu) opisy publikacji lub ich części, w których przedstawione są wyniki badań naukowych analogicznych, ogólniejszych lub bardziej szczegółowych w stosunku do tematu podejmowanego przedsięwzięcia badawczego. Przypisem literaturowym nie będzie zatem opis: aktu prawnego (dziennika ustaw, rozporządzenia, dyrektywy), informatora (rocznik statystyczny, słownik językowy, encyklopedia) dokumentu należącego do tzw. szarej literatury (instytucjonalne źródła informacji) dokumentu technicznego lub techniczno-prawnego (normy). Indeksowana w BazEkon praca może zawierać w swojej bibliografii załącznikowej opisy w/w prac i w BazEkon można nie dokonywać ich selekcji. Jednak w bazie CYTOWANIA, gdzie z założenia gromadzone są już tylko przypisy literaturowe ich obecność generuje szum. Trzeba je więc usunąć (patrz Krok 2) Ramka 3. Zasady działania algorytmów analizy składni Indeksowanie autora program szuka autora jako wyrazu i sąsiadującego z nim inicjału z kropką. [Problemy: pełne imię, za inicjałem nie ma kropki, nazwy typu Wydawnictwo C.H.Beck] Indeksowanie roku wydania program szuka czterech występujących obok siebie cyfr. [Problemy: rok w tytule pracy, litera alfabetu za rokiem, czterocyfrowe liczby stron dokumentu (np. czasopisma)] Indeksowanie tytułu czasopisma program rozpoznaje tytuł czasopisma jako ciąg znaków pomiędzy dwoma cudzysłowami. [Problemy: cudzysłów występuje w tytule pracy, tytuł czasopisma nie ujęty w cudzysłów] Indeksowanie tytułu serii program rozpoznaje tytuł serii porównując ciąg znaków z wzorcem jakim jest już istniejący zasób indeksu serii w bazie. [Problemy: nazwa serii dokumentu, który opisujemy dotąd nie wystąpiła w bazie, lub wystąpiła w innej formie. Część nazwy serii występuje w nazwie innej serii] Indeksowanie tytułu Jako tytuł chcemy indeksować tytuł pracy, tytuł pracy zbiorowej, tytuł tomu, tytuł części. Niestety jako tytuł algorytmy przyjmują praktycznie wszystko to, co nie zostało jeszcze włożone do innych pól. Dlatego jeśli coś idzie źle, można albo powrócić do rekordu zaraz po pierwszym rozpoznaniu i raczej uciąć na pierwszym ekranie występujące na końcu cytowania oznaczenia wydawcy, wydań, strony, numery woluminów itp. otaczając całą tę końcówkę cytowania kursorem i uruchamiając klawisz "wyłącz z obróbki". W przypadku pola tytułu czasem najprościej jest po prostu skierować tekst do pola tytułu klawiszem "do_tytułu". 4

Krok 2a : Przygotowanie do analizy składni : sprawdzenie tekstu Na ekranie tego etapu działania programu z lewej strony mamy tekst cytowania z bazy CYTOWANIA (z pola Całość). Z prawej strony mamy modyfikowalny ekran roboczy. W pierwszej kolejności przyglądamy się tekstowi. Na tym etapie możemy usunąć rekord, który nie jest przypisem literaturowym (klawisz "usuń rek."). Usunięte rekordy przechodzą kontrolę zasadności usunięcia podczas korekty Uwaga: informację o tym co jest a co nie jest przypisem literaturowym podaje Ramka 1 próbować zwiększyć skuteczność programu. Przy każdym cytowaniu dostępne są klawisze ułatwiające tę pracę. Są to klawisze, powstrzymujące program w niewłaściwej interpretacji ciągu znaków stanowiących podstawę rozpoznawania jakiegoś indeksu (np. indeksu roku) a występujące w polu o innym znaczeniu (np. w tytule) jak w załączonym wyżej przykładzie. Klawisze te mają nazwy rozpoczynające się od słów "nie do". Uwaga: zasady i problemy działania automatycznego wypełniania indeksów podaje Ramka 3. Możemy także poprawić literówki, usunąć oznaczenia kolejności cytowania przeszkadzające w jego rozpoznaniu (np. litery alfabetu bezpośrednio występujące za rokiem np. [2007a]), ująć w cudzysłów tytuł czasopisma (klawisz " ") itp. Sprawdzenie tekstu nie kończy się zatwierdzeniem rekordu do obróbki. Zatwierdzenie to nastąpi po sprawdzeniu poziomów złożoności (krok 2b). 5

Ramka 4. Poziomy złożoności przypisu literaturowego Automatyczne wypełnienie indeksów dla nawet prostego przypisu literaturowego nie jest zadaniem łatwym, zaś dla przypisów skomplikowanych - praktycznie niewykonalnym. Aby program mógł jednak coś zdziałać wprowadzamy poziomy złożoności cytowania, umożliwiające jego rozłożenie na czynniki pierwsze. Złożenie całości przebiega ze znacznikami poziomów złożoności, opisanymi w Ramce 2 Dla każdego przypisu literaturowego wprowadzono maksymalnie 4 poziomy złożoności: poziom a dla pracy, na którą autor powołuje się samodzielnie poziom z dla pracy, za którą (czy też w kontekście której) autor cytuje inną pracę; poziom sygnalizowany znacznikiem [za:] gdzie każdy z tych poziomów uwzględnia poziom 1 dane pracy bezpośrednio cytowanej poziom 2 (jeśli jest to praca wydana w ramach większej całości) dane większej całości; poziom sygnalizowany jest znacznikiem [W:] Poziom 1 (a1 lub z1) jest wystarczający do opisu pracy samodzielnej wydawniczo lub prac niesamodzielnych, które ukazały się w ramach ciągów (czasopism lub serii) nie będących częścią większej całości o oddzielnym tytule. Pełny schemat poziomów wraz ze znacznikami ich połączeń to: a1 [W:] a2 [za:] z1 [W:] z2 Pozwala to rozpoznać następujące, bardzo złożone cytowanie, wykorzystujące ten schemat w pełni Przyjmujemy, że a1 to poziom podstawowy, zawsze występujący choć może być on poziomem istotnie niepełnym. Jeśli tylko mamy autora poziomu a1, to zawsze z nim wiążemy rok publikacji. Więcej o poziomie a1 zobacz Ramka 6. 6

Krok 2b : Przygotowanie do analizy składni : sprawdzenie poziomów złożoności Wyjaśnienie poziomów złożoności zob. Ramka 4 Program wprowadza poziomy złożoności na podstawie występowania w tekście przypisu znaczników typu w: oraz znaczników typu za:. Rozpoznanie powyższego tekstu było dla programu proste, bo znacznik w: wystąpił w najbardziej klasycznej formie. Częste są jednak przypadki gdy tytuł większej całości poprzedzony jest tylko znakiem przestankowym. W takim przypadku trzeba ręcznie wprowadzić dodatkowe poziomy złożoności przypisu literaturowego. Ponieważ przyjmujemy, że a1 to poziom podstawowy, zawsze występujący (choć może być on poziomem istotnie niepełnym) rozszerzenie struktury przebiega poprzez dołożenie za tym poziomem jednego, dwóch lub wszystkich trzech dalszych poziomów, którymi mogą być: poziom a2 poprzedzony znacznikiem [W:]; dokładamy go klawiszem "[w:]@" w oknie edycyjnym pojawia się znacznik @@@ a w kolumnie POZIOMY pojawia się #a2 poziom z1 poprzedzony znacznikiem [za:]; dokładamy go klawiszem "[za:]*" w oknie edycyjnym pojawia się znacznik *** a w kolumnie POZIOMY pojawia się #z1 ostatni poziom z2 poprzedzony znacznikiem [W:]; dokładamy go klawiszem "[w:]@" w oknie edycyjnym pojawia się znacznik @@@ a w kolumnie POZIOMY pojawia się #z2 Poziomy złożoności wprowdzają tylko znaczniki typu w: i typu za:. Nie wprowadzają ich żadne inne okoliczności wynikające np. ze spiętrzenia tytułów. Tytuł monografii i tytuł jej części lub tomu pozostają na jednym poziomie (zob. Ramka 2). Cytowanie gotowe do analizy składni zaznaczamy (okienko w kolumnie Zazn.) i kierujemy do obróbki klawiszem "zatwierdź". Nie musimy bardzo drobiazgowo analizować możliwych trudności. Jeśli ich nie wychwycimy i program zwróci zły wynik, będziemy mogli jeszcze powrócić do tego ekranu. Cytowania nie zaznaczone odpadają z zestawu cytowań podlegającemu opracowaniu. Powrócą jako pierwsze przy wyborze następnych cytowań wybranych według tego samego terminu lub pliku. 7

Ramka 3. Zasady działania algorytmów analizy składni Indeksowanie autora program szuka autora jako wyrazu i sąsiadującego z nim inicjału z kropką. W złożeniach przedstawia autora zawsze zaczynając od nazwiska, nastepnie podaje inicjał imienia z kropką. [Problemy: pełne imię, za inicjałem nie ma kropki, wydawnictwo typu C.H.Beck] Indeksowanie roku wydania program szuka czterech występujących obok siebie cyfr. [Problemy: rok w tytule pracy, litera alfabetu za rokiem, czterocyfrowe liczby stron dokumentu (np. czasopisma)] Indeksowanie czasopisma program rozpoznaje tytuł czasopisma jako ciąg znaków pomiędzy dwoma cudzysłowami. [Problemy: cudzysłów występuje w tytule pracy, tytuł czasopisma nie ujęty w cudzysłów] Indeksowanie serii program rozpoznaje tytuł serii porównując ciąg znaków z wzorcem jakim jest już istniejący zasób indeksu serii w bazie. [Problemy: nazwa serii dokumentu, który opisujemy dotąd nie wystąpiła w bazie, lub wystąpiła w innej formie. Nazwa serii może zawierać ciąg będący nazwą innej serii] Indeksowanie tytułu Jako tytuł algorytmy przyjmują praktycznie wszystko to, co nie zostało jeszcze włożone do innych pól. Dlatego jeśli coś idzie źle, można albo powrócić do rekordu zaraz po pierwszym rozpoznaniu i raczej uciąć na pierwszym ekranie występujące na końcu cytowania oznaczenia wydawcy, wydań, strony, numery woluminów itp. otaczając całą tę końcówkę cytowania kursorem i uruchamiając klawisz "wyłącz z obróbki". W przypadku pola tytułu czasem najprościej jest po prostu skierować tekst do pola tytułu klawiszem "do_tytułu". W złożeniach tytuł pisany jest wyłącznie z użyciem małych liter. Jeśli na początku tytułu występuje rodziajnik program go pomija a pierwsza litera tytułu staje się automatycznie literą wielką. Ramka 5 Kolejność pól okna edycji w kroku 3 instrukcji Kolejność pól okna edycji w kroku 3 instrukcji: autor; rok; tytuł; źródło; seria; język Kolejność poziomów złożoności w każdym z tych pól (w całym programie) pierwszy poziom złożoności drugi poziom złożoności "a" "1" "z" "2" W każdym z pól i poziomów złożoności zachowujemy kolejność wystąpienia tekstów zgodną z kolejnością ich wystąpienia w polu Całość. 8

Krok 3 : Wynik analizy składni, jego korekta i wysłanie do bazy Cytowania Pracę na tym etapie dizałania programu zaczynamy od analizy prawej części ekranu roboczego (kolumna POZOST edycja) sprawdzając poprawność złożenia rozpoznanego tekstu z oryginałem z pola Całość. Sprawdzamy też znaczenie tekstów usuniętych (reszta). Teksty usunięte, które są elementem jakiegoś indeksu trzeba wstawić do odpowiedniego pola. Zły wynik, wynikający z łatwej do usunięcia w poprzednim kroku okoliczności utrudniającej działanie programu warto odrzucić, uruchamiając "powrót" do poprzedniego ekranu, tam trzeba wnieść i zatwierdzić poprawkę. Korektę przeprowadzamy w prostokącie z białym tłem - jedynym gdzie aktywny jest kursor. Możliwe jest działanie: bez użycia klawiszy program zadziałał dobrze ale potrzebna jest jeszcze korekta językowa, np. nazwisko redaktora występuje w odmianie (np. pod red. J. Żabińskiej). Trzeba to zmienić na mianownik (AUTOR:=Żabińska=J. red#a2) z klawiszami pomocniczymi negujemy wynik działania programu w poszczególnych polach. Wtedy: - usuwamy całą linie źle rozpoznanego tekstu razem z nazwą indeksu, - przygotowujemy pustą linię zachowując kolejność indeksów, poziomów i pól (zob. Ramka 5) - w polu pod po oknem edycyjnym zaznaczamy tekst, który chcemy umieścić w przypisie - wklejamy ten tekst do pola klawiszem "do..." Poprawki przełożą się na zmianę tekstu rozpoznanego (po stronie prawej) po uruchomieniu klawisza "odśwież". Trzeba pamiętać, że nie zobaczymy zmiany w zakresie pola reszta. Wszystko co do tej pory robiliśmy wykonywało się poza bazą. Prawidłowy wynik wysyłamy do bazy dopiero na tym etapie. Rekordy możemy "wysłać pojedynczo do bazy" na poziomie pojedynczych opisów (opcja bezpieczniejsza ze względu na możliwość powrotu do poprzedniego ekranu bez utraty opracowanych wcześniej rekordów) lub dla wszystkich rekordów jednocześnie klawiszem "wyślij do bazy". 9

Ramka 6. a1 - podstawowy poziom złożoności przypisu literaturowego W programie przyjęto, że poziom a1 zawsze występuje w przypisie, choć może być poziomem istotnie niepełnym (jak w poniższym przykładzie gdzie nie ma na tym poziomie osobnego tytułu) Poziom a1 jest wystarczający do opisu pracy samodzielnej wydawniczo lub prac niesamodzielnych, które ukazały się w ramach ciągów (czasopism lub serii). Tytuł czasopisma lub serii musi jednak znaleźć się na poziomie a2 jeśli odwołanie ma miejsce do pracy, która ukazała się w pracy zbiorowej wydanej w ramach czasopisma i/lub serii. Licznych przykładów dostarczają wydawnictwa uczelniane: Dążąc do maksymalnego uproszczenia struktury i jednakowego opracowywania rekordów w bazie wprowadzono do programu warunek, że jeśli w przypisie na poziomie a lub na poziomie z występuje tylko jeden rok wydania, to program wiąże ten rok z poziomem 1. Może to jednak być problem, jak w poniższym przykładzie cytowania jednej z prac autora w wydaniu pośmiertnym jego dzieł: Ominięcie tego ustawienia i wyprowadzenie roku na poziom 2 możliwe jest przez wprowadzenie do indeksu roku dla poziomu 1 słowa brak, którego program nie wyświetla w złożeniu. 10

Krok 4 : Zatwierdzenie wyniku Porównanie, w którym po raz ostatni powracają: tekst oryginalny z klawiszem wejścia do bazy z numerem rekordu w bazie złożenie rozpoznanego tekstu z klawiszem odśwież Opuszczenie tego ekranu oznacza rozstanie z pobranym do obróbki rekordem / pobranymi rekordami. ************************************************** Ekran bazy Cytowania po uruchomieniu klawisza z numerem rekordu w bazie przypomina ekran BazEkonu i ma praktycznie podobne funkcjonalności. Kontrastowane we wszystkich wcześniejszych krokach ciągi tekstowe to ciągi z pól Całość i Bibliogr. 11