Integracja ORPD z systemami antyplagiatowymi Spotkanie techniczne OPI PIB, 2015-05-27
Plan spotkania Częśd pierwsza: 11:30 13:00 1. Schemat integracji. 2. Harmonogram i umowa. 3. Zasilanie ORPD w imieniu uczelni. Przerwa (lunch): 13:00 13:30 Częśd druga: 13:30 15:00 4. Proces indeksujący. 5. Raport i dostęp do ORPD dla promotora. 6. Wirtualne maszyny i sied.
1. Schemat integracji Podstawowe założenia 1. Prace dyplomowe nie są udostępniane poza serwerownię ORPD za wyjątkiem promotorów i Polskiej Komisji Akredytacyjnej. 2. Każdy dostawca systemu antyplagiatowego otrzyma wirtualne maszyny, na których umieści oprogramowanie współpracujące z ORPD (nie cały system, lecz moduł działający w zakresie ORPD). 3. System antylagiatowy (jego częśd zlokalizowana poza OPI PIB) będzie miał dostęp wyłącznie do indeksów/ reprezentacji prac. 4. Każdy dostawca będzie miał zagwarantowane takie same parametry techniczne (pamięd, procesor, sied) w ORPD. 5. Każdy dostawca zapewnia w swoim zakresie wszystkie niezbędne licencje do działania swojego oprogramowania.
1. Schemat integracji deployment Integracja z systemami antyplagiatowymi Serwerowania ORPD «executionenvironment» Dostawca Y - Wirtualne maszyny «service» Algorytm Algorytm indeksowania indeksowania Y Indeksy prac i metadane Prace dyplomowe «interface» API dostępu do prac (systemy) System::Baza ORPD Dane System::Aplikacja ORPD «interface» API dostępu do prac (promotor) Indeks prac Y System Antyplagiatowy Dostawcy Y «Raport» Raport z ORPD Dostawcy Y «service» Algorytm porówywnia Y «Raport» Inne raporty Raport Praca dyplomowa Promotor (from Role)
1. Schemat integracji Podstawowe procesy 1. Moduł dostawcy komunikuje się z ORPD przez odpowiednie API. 2. W maszynie wirtualnej dostawcy działa jeden proces: indeksowanie/ przetwarzanie prac. 3. Pośrednie indeksy i metadane prac są przekazywane poza ORPD do serwerowni dostawcy systemu antyplagiatowego. 4. System antyplagiatowy dostawcy (poza ORPD) realizuje: porównywanie prac, generuje raport. 5. Promotor ma dostęp do pełnych treści prac w ORPD za pomocą API dostępu do prac.
1. Schemat integracji Dyskusja i podjęte ustalenia: 1. Wnioskowano o dodanie interfejsu dostępu do pełnych treści prac dla systemów anty-plagiatowych (wniosek OSA) w celu dokładniejszej weryfikacji wskazao plagiatów. OPI PIB zawiązało się do ponownej analizy stanu prawnego. Odpowiedź OPI PIB: ORPD musi byd zgodne z obowiązującym prawem. Dostęp do pełnych treści prac jest możliwy tylko dla promotorów oraz Polskiej Komisji Akredytacyjnej. Nie ma innych możliwości w obowiązującym porządku prawnym. 2. Poza powyższym wszystkie założenia dotyczące pkt 1. Schemat integracji przyjęto bez zastrzeżeo.
2. Harmonogram i umowy 1. Dostęp testowy od czerwca 2015 umowy na testowy dostęp; dostęp do bazy demo; udostepnienie algorytmu indeksowania; przedstawienie danych zaindeksowanych i czasów wykonania; przedstawienie wyników anty-plagiatu. 2. Dostęp produkcyjny po zaakceptowaniu wyników dostęp do bazy produkcyjnej; umowy na dostęp produkcyjny; zmiana serwerowni na docelową; zapasowe centrum danych. 3. Zakooczenie procesu do czerwca 2016
2. Harmonogram i umowy 1. Umowa na dostęp testowy minimalne parametry anty-plagiatu (wydajnośd, wiarygodnośd) : jak to mierzyd? kto ocenia? dowód na brak możliwości odtworzenia pracy z indeksu: udostępnienie algorytmu, wygenerowanie danych. 2. Dostęp produkcyjny minimalne parametry anty-plagiatu; dowód na brak możliwości odtworzenia pracy z indeksu; przetwarzanie danych osobowych; zachowanie poufności danych i kary za ich wyciek ; okres wypowiedzenia.
2. Harmonogram i umowy Dyskusja i podjęte ustalenia: 1. Podczas dyskusji zaproponowano powołanie zespołu ekspertów ds. oceny systemów anty-plagiatowych (proponowany skład: eksperci z Polskiej Komisji Akredytacyjnej, eksperci z przedsiębiorstw) w zakresie parametrów technicznych (wydajnośd indeksacji, jakośd wykrywania plagiatów). Odpowiedź OPI PIB: OPI PIB przygotowuje obecnie ramowe umowy na dostęp do ORPD i rozważy tę inicjatywę. Dalsze jej losy zależą od kształtu umów. 2. Przyjęto, że firmy anty-plagiatowe udostępnią OPI PIB opisy formalny algorytmów indeksacji oraz przedstawią dowody (statystyczne) na brak możliwości odtworzenia pracy z indeksu. 3. Pozostałe założenia pkt 2. przyjęto bez zastrzeżeo.
3. Zasilanie ORPD w imieniu uczelni deployment Zasilanie danymi Serwerowania ORPD System::Baza ORPD Dane System:: Aplikacja ORPD «interface» OAI-PMH APD uczelni (from Role) «interface» REST Firma antyplagiatowa reprezetująca uczelnię (from Role)
3. Zasilanie ORPD w imieniu uczelni Podstawowe założenia: 1. Uczelnia musi założyd konto w systemie POL-on dla przedsiębiorstwa. Konto musi mied uprawnienie INST_ORPD_IMPORTER_ADM 2. Przedsiębiorstwo musi użyd interfejsu Representational State Transfer (REST). 3. Wykonywana jest operacja PUT do ORPD; 4. Pomoc: https://polon.nauka.gov.pl/repozytorium-orpd, https://polon.nauka.gov.pl/pomoc-orpd.
3. Zasilanie ORPD w imieniu uczelni Dostęp do API: 1. Adres: https://polon.nauka.gov.pl/orpd/institutions/{institutionco de}/theses/{thesisexternalnumber} institutioncode - kod jednostki podstawowej, do której należy praca dyplomowa thesisexternalnumber - unikalny numer pracy dyplomowej w systemie APD 2. Metoda: PUT
3. Zasilanie ORPD w imieniu uczelni Dostęp do API: 1. Uwierzytelnianie/ Autoryzacja: HTTP Basic w nagłówku http Authorization należy wysład: username kod instytucji; password hasło dla instytucji, do której przypisana jest praca albo nadrzędnej. 2. Request body: zip plik thesismetadata.xml - z metadanymi pracy; plik z treścią pracy (np. pdf, png).
3. Zasilanie ORPD w imieniu uczelni Przebieg procesu zasilania: 1. AP: Przygotowanie pliku thesismetadata.xml z metadanymi pracy i plików z treścią pracy. 2. AP: Utworzenie pliku zip. 3. AP: Wysłanie zip do ORPD. 4. ORPD: Sprawdzenie przez ORPD poprawności przesłanych danych. 5. ORPD: Zapisanie danych w bazie danych.
3. Zasilanie ORPD w imieniu uczelni Walidacje: 1. Sprawdzenie poprawności: username (kod instytucji) i password (z ORPD). 2. Sprawdzenie czy plik zip zawiera plik o nazwie thesismetadata.xml, pliki z pracą, zip nie zawiera podkatalogów. 3. Sprawdzenie kompletności metadanych w pliku thesismetadata.xml : tytuł pracy dyplomowej <title>; autor pracy <author> co najmniej jeden; promotor pracy <supervisor> co najmniej jeden; recenzent pracy <reviewer> co najmniej jeden; forma studiów <formofstudy>, Id kierunku studiów <courseid> lub Nazwa kierunku studiów <coursename> (brak id dopuszczalny jeżeli <startdate> wcześniejsza od 01.10.2011 r; dla każdego autora: Imę <Imie>, Nazwisko <nazwisko>, Data rozpoczęcia studiów <startdate>, Data obrony <defencedate>
3. Zasilanie ORPD w imieniu uczelni Metadane: Atrybut Typ Opis basicorgunit SimpleInstitution Jednostka podstawowa university SimpleInstitution Uczelnia title String Tytuł pracy dyplomowej formofstudy String Forma studiów courseid String Kierunek studiów Id coursename String Nazwa kierunku studiów authors List<Author> Autorzy pracy supervisors List<Person> Promotorzy pracy reviewers List<Person> Recenzenci pracy
3. Zasilanie ORPD w imieniu uczelni Dane osoby: Atrybut Typ Opis firstnames String Imiona lastname String Nazwisko Dane autora: Atrybut Typ Opis firstnames String Imiona lastname String Nazwisko defencedate LocalDate Data obrony pracy startdate LocalDate Data rozpoczęcia studiów
3. Zasilanie ORPD w imieniu uczelni Dyskusja i podjęte ustalenia: 1. Uzgodniono, że firma anty-plagiatowa może także używad interfejsu OAI-PMH 2. Limit na rozmiar pracy obecnie wynosi 300MB, limit ten może byd zwiększony jeżeli będzie taka koniecznośd. 3. OPI PIB doda funkcję usuwania prac z ORPD. 4. OPI PIB obecnie rozszerza zakres metadanych o informacje o kierunku studiów. 5. Pozostałe założenia pkt 3. Zasilanie ORPD w imieniu uczelni zostały przyjęte bez zastrzeżeo.
4. Proces indeksujący Podstawowe założenia: 1. Proces indeksujący ma dostęp do bazy danych ORPD dostęp do oryginalnych plików prac dyplomowych. 2. Docelowo zostaną zapewnione identyczne parametry techniczne dla wszystkich dostawców: wydajnośd bazy danych, operacje wejścia wyjścia, liczba jednoczesnych połączeo. 3. Indeksy prac mogą byd zapisywane lokalnie na dyskach danej maszyny wirtualnej. 4. Indeks nie może pozwalad na odtworzenie treści pracy. 5. Indeks i metadane pracy muszą byd przesyłane do centralnego systemu danego anty-plagiatowego.
4. Proces indeksujący Proces pobierania prac z ORPD: Warunek: Rejestracja systemu antyplagiatowego w ORPD (z IP). 1. AP: Wysłanie zapytania do ORPD o dane prac. 2. ORPD: Uwierzytelnienie systemu antyplagiatowego: sprawdzenie czy system antyplagiatowy został zdefiniowany w ORPD i posiada wymagane uprawnienia do pobierania danych prac. 3. ORPD: Odczytanie i przesłanie danych prac. 4. AP: Odebranie danych prac. 5. AP: Przetworzenie danych pracy Indeksowanie.
4. Proces indeksujący Interfejs: <adres_serwera>/data/rs/capabilitylist.xml <urlset> <rs:md capability="capabilitylist"/> <rs:ln rel="up" href="<adres_serwera>/crpd-webapp/data/rs/description.xml"/> <url> <loc><adres_serwera>/data/rs/resourcelist.xml</loc> <rs:md capability="resourcelist"/> </url> <url> <loc><adres_serwera>/data/rs/changelist.xml</loc> <rs:md capability="changelist"/> </url> </urlset> Lista wszystkich prac Lista zmienionych prac
4. Proces indeksujący Przykładowa odpowiedź: <url> <loc> <adres_serwera>/data/files/5537428a74d273785109b8c1/5537428a74d27378510 9b8c4-iLMGRbfn.txt </loc> <university>politechnika Warszawska</<university> <basicorgunit>wydział Inżynierii Produkcji</basicOrgUnit> <coursename>europeistyka</coursename> <lastmod> 2015-04-22T06:41:14.302Z </lastmod> <rs:md hash="md5:2c98bc23c28317b5928815ecb6f7ba70" length="322"/> </url>
4. Proces indeksujący Metadane Atrybut Typ Opis basicorgunit SimpleInstitution Jednostka podstawowa university SimpleInstitution Uczelnia title String Tytuł pracy dyplomowej formofstudy String Forma studiów courseid String Kierunek studiów Id coursename String Nazwa kierunku studiów authors List<Author> Autorzy pracy supervisors List<Person> Promotorzy pracy reviewers List<Person> Recenzenci pracy
4. Proces indeksujący Dyskusja i podjęte ustalenia: 1. Firmy anty-plagiatowe chcą otrzymywad wszystkie metadane razem z indeksami prac. Odpowiedź OPI PIB: Ta kwestia podlega analizie prawnej. 2. Wraz z metadanymi będą przekazywane: identyfikator pracy w ORPD; identyfikator pracy w APD (o ile istnieje); skrót pracy z metadanych (firma Plagiat.pl przedstawi informacje z których metadanych należy wykonad skrót). 3. Pozostałe założenia pkt 4. Proces indeksujący przyjęto bez zastrzeżeo.
5. Raport i dostęp dla promotora Podstawowe założenia: 1. ORPD zapewnia promotorowi dostęp do oryginalnego pliku pracy dyplomowej: format pliku jest w takim formacie, w jakim został on przekazany do ORPD; dwie formy dostępu: przeglądarka internetowa oraz API dla innych systemów np. uczelnianych; autoryzację promotora zapewnia unikalny token; 2. ORPD zapewnia Komisji dostęp do wszystkich prac poprzez przeglądarkę internetową aplikacja ORPD.
5. Raport i dostęp dla promotora Zakres dostępu promotora: 1. Promotor ma dostęp tylko tych prac, wobec których zachodzi podejrzenie plagiatu. 2. Lista tytułów prac z kierunkami będzie mogła byd dostępna dla wszystkich promotorów, lista będzie udostępniania jako metadane z ORPD.
5. Raport i dostęp dla promotora Raport i dostęp do treści pracy: 1. Struktura raportu zależy wyłącznie do dostawcy anty-plagiatu. 2. Raport będzie zawierał linki do prac z podejrzeniem plagiatu, link będzie zawierał unikalny token pozwalający na dostęp do pełnej treści pracy. 3. System anty-plagiatowy odpowiada za autentykację i autoryzację promotora i dostarczenie mu raportu. 4. System anty-plagiatowy odpowiada za to, aby linki do prac z tokenami były dostępne tylko dla promotora.
5. Raport i dostęp dla promotora Procedura generacji tokenu 1. System anty-plagiatowy zgłasza do ORPD listę ID prac wobec których jest podejrzenie plagiatu. 2. System ORPD wysyła listę ID prac i token, zatem jeden token może byd ważny dla wielu prac. 3. Jedna praca może mied przyporządkowanych wiele tokenów tzn. jeżeli w tym samym czasie do danej pracy wystąpi podejrzenie plagiatu z różnych systemów. 4. Token jest ważny przez określony czas np. 30 dni.
5. Raport i dostęp dla promotora API do prac: 1. Dostęp do listy prac ze stronny WWW z wykorzystaniem wygenerowanego linku tymczasowego. 2. Dostęp do prac z wykorzystaniem programowego API dla systemów antyplagiatowych: Interfejs udostępni listę z treściami prac (potencjalnie splagiatowanych); Metadane tych prac; Jednostkę, promotora, który posiada prawo dostępu do tych prac.
5. Raport i dostęp dla promotora Dyskusja i podjęte ustalenia: 1. Przedsiębiorstwa zgłosiły zastrzeżenie do ich odpowiedzialności za dostarczenie dostępów do prac dla promotorów, stąd przyjęto następujące rozwiązanie: jeżeli przedsiębiorstwo przyjmie na siebie powyższą odpowiedzialnośd (będzie to zwarte w umowie z OPI PIB), to będzie mogło wykorzystad API programowe do pracy i wtedy dostęp ro prac będzie możliwy bezpośrednio z raportu; W przeciwnym wypadku dostęp do pełnych treści prac będzie możliwy przez interfejs www, odpowiedzialnośd za dystrybucję dostępów leży na styku OPI PIB uczelnia, w raporcie będą mogły znaleźd się wyłącznie ID prac z ORPD.
5. Raport i dostęp dla promotora Dyskusja i podjęte ustalenia: 2. W przypadku korzystanie z programowego API dostępu do pełnych treści prac nie mogą byd one zapisywane na stałych nośnikach, czyli program anty-plagiatowy musi je przetwarzad w pamięci tymczasowej i udostępniad bezpośrednio promotorowi i natychmiast je usuwad z pamięci tymczasowej po wylogowaniu promotora z systemu. 3. Pozostałe założenia pkt 5. Raport i dostęp dla promotora przyjęto bez zastrzeżeo.
6. Wirtualne maszyny i sied Podstawowe założenia: 1. Maszyny wirtualne służą wyłącznie pracy z ORPD. 2. Elementem konkurencji jest tworzenie wydajnych i optymalnych programów. 3. Nie przewidujemy udostępniania maszyn fizycznych. 4. Wirtualizacja na platformie VMware vsphere 5.5 (w przyszłości 6.0) 5. Zostaną zapewnione kontakty z administratorami w godzinach pracy OPI PIB. 6. Docelowo każdy z podmiotów otrzyma takie same parametry techniczne, które powinny wystarczyd na obsłużenie 100% rynku. 7. Inne (lepsze) parametry w okresach szczytowych obciążeo.
6. Wirtualne maszyny i sied Podział obowiązków: 1. OPI PIB: zapewnia identyczne parametry (łącze, procesory, pamięd operacyjna, przestrzeo dyskowa) dla wszystkich dostawców; administruje infrastrukturą fizyczną (serwery, macierze, sied, SAN), platformą wirtualizacji i maszynami wirtualnymi. 2. Dostawca odpowiada za: instalację, konfigurację, utrzymanie swojego systemu; zapewnienie wszystkich niezbędnych licencji; wykonywanie kopii bezpieczeostwa.
6. Wirtualne maszyny i sied Parametry maszyn wirtualnych wersja testowa na 06.2015 CPU: 8 rdzeni vcpu 64bit, RAM: 32 GB vram, HDD: 1 TB (macierz, RAID5, dyski NL-SAS). Na tę chwilę, ze względu na ograniczone zasoby i ich współdzielenie, OPI PIB nie jest w stanie zagwarantowad następujących parametrów: wydajnośd operacji I/O; przepustowośd łącza WAN.
6. Wirtualne maszyny i sied Parametry maszyn wirtualnych wersja produkcyjna dedykowana infrastruktura wyłącznie dla maszyn antyplagiatowych; osobne serwery, macierze oraz sied i SAN; parametry sprzętu zostaną określone na podstawie rekomendowanych wymagao dostarczonych przez firmy antyplagiatowe; infrastruktura pamięci masowej zostanie zaprojektowana w ten sposób, aby każda maszyna miała wymaganą liczbę iops i nie występowało współdzielenie zasobów; łącze WAN QoS: pasmo zostanie podzielone tak, aby gwarantowad każdej maszynie odpowiednią przepustowośd.
6. Wirtualne maszyny i sied Maszyny wirtualne - dostęp zdalny dostęp do maszyn zostanie zrealizowany przy pomocy dedykowanego VPN-a; technologia: OpenVPN; separacja maszyn: każda firma otrzyma unikalny klucz (lub zestaw kluczy) zapewniający jej dostęp jedynie do należącej do niej maszyny oraz ewentualnie innych obszarów infrastruktury, do których dostęp będzie konieczny.
6. Wirtualne maszyny i sied Maszyny wirtualne - backup wersje testowe nie będą backupowane Wersje produkcyjne: OPI PIB zapewni backup maszyn wirtualnych w następującym schemacie: 1x w tygodniu pełen backup maszyny codziennie backup przyrostowy maszyny czas przechowywania backupów min 1 tydzieo backupy przechowywane będą na osobnym, dedykowanym urządzeniu (macierzy)
6. Wirtualne maszyny i sied Dyskusja i podjęte ustalenia: 1. Systemy anty-plagiatowe muszą działad zgodnie z zapisami w aktualnie obowiązującym prawem m.in. z: Rozporządzenie Rady Ministrów z dnia 12 kwietnia 2012 r. w sprawie Krajowych Ram Interoperacyjności, minimalnych wymagao dla rejestrów publicznych i wymiany informacji w postaci elektronicznej oraz minimalnych wymagao dla systemów teleinformatycznych U S T A W A z dnia 29 sierpnia 1997 r. o ochronie danych osobowych. 2. Pozostałe założenia pkt 6. Wirtualne maszyny i sied przyjęto bez zastrzeżeo.
Ośrodek Przetwarzania Informacji Paostwowy Instytut Badawczy al. Niepodległości 188 b 00-608 Warszawa e-mail: jaroslaw.protasiewicz@opi.org.pl