Witajcie! Wyobraźmy sobie, że mamy przepisać książkę, która liczy sobie 600 lat, ma 1000 stron do LibreOffice Writer. KATORGA! Jednak żyjemy w XXI wieku, w którym komputery pomagają nam na każdym kroku. Dziś zainteresuję was technologią OCR - Optical Character Recognition. Zapraszam W skrócie dla laika Oprogramowanie wykorzystujące OCR ma za zadanie wyciągać tekst z obrazka (zazwyczaj z zeskanowanej książki). Program komputerowy skanuje grafikę rozpoznając litery i przepisuje. Jako, że jesteśmy Linuksowcami będziemy używać OCR dla Linuksa 1) Pobieranie i instalacja tesseract'a (wymagane) Aby pobrać Tesseract'a (silnik OCR) możemy wpisać w konsoli: sudo apt-get -y install tesseract-ocr tesseract-ocr-pol Ja polecam to zrobić bezpośrednio z konsoli mimo że odstrasza nowych użytkowników; pozwala w łatwy sposób zainstalować (i nie tylko) to co potrzebujemy. Właśnie zainstalowałeś silnik OCR ze słownikiem (by nie robił błędów) 2) Pobieranie i instalacja OCRFeeder (zalecane) OCRFeeder to nakładka graficzna na silniki OCR (jest ich parę, my zajmujemy się tessaract'em). Można w łatwy sposób obrobić dokument Aby go zainstalować, wystarczy wpisać w konsoli: sudo apt-get -y install ocrfeeder Po skończonym procesie instalacji w Menu Biuro OCRFeeder możemy go uruchomić. Pojawia się oto takie okienko:
Teraz musimy skonfigurować (zasadniczo dopisać) kawałek kodu w OCRFeeder, by Tesseract używał Języka Polskiego (inaczej będzie używał języka Angielskiego, co sprawi, że program nie rozpozna Polskich liter). Aby tego dokonać klikamy w Narzędzia Mechanizmy OCR I na liście wybieramy Tesseract i klikamy przycisk Edytuj. Jeśli na liście nie ma silnika Tesseract, naciskamy przycisk Wykryj. Wyskoczyło nam takie okienko, teraz w parametry silnika: na początku dopisujemy -l pol Czyli w 5 wierszu ma być: -l pol $IMAGE $FILE > /dev/null 2> /dev/null; cat $FILE.txt; rm $FILE $FILE.txt I naciskamy przycisk OK Wspaniale, OCR został skonfigurowany, teraz wystarczy przetestować go w praktyce. Do tego posłużę się Linux+ z Grudnia 2004 roku (Taki wpadł mi w ręce)
OCRFeeder może robić też jako narzędzie do skanowania Skanujemy go za pomocą Prostego Skanowania (OCRFeeder u mnie skanuje w monochromatycznych barwach, więc odpada)
Rezultat skanowania Teraz ładujemy grafikę Plik Dodaj Obraz Wskazujemy plik graficzny A następnie: Dokument Rozpoznaj dokument W tym momencie domyślny silnik OCR rozszyfrowuje nam okładkę Rezultat nie jest powalający, ale cóż :P Crystal Space, OGRE, Irrlldlł najlepsze silniki gier 3D w Open Source linux 2.6.9 - Openüfflcemrg l.l.3 Pl Firefox 1.0 PR Pl - VMware 4.5.2 LiNUX+ LiNUX+ NAJWIĘKSZY W POLSCE MAGAZYN O LINUKSIE Nr 12 (92) Grudzień 2004 Cena 24 zł Stawka VAT 0% INDEX 322679 Naklad 10 000 691.' URUCHAMIAMY #gry z Windows NA LIN KSIE bez W i i A? i i i i i umilamy Crystal Spass. OGRE i Alrrlichł. Torque i Unreal 2 i Skan z okładki słabo wyszedł A z tekstu? Zeskanujemy (mam nadzieję, że legalnie) kawałek artykułu o Fedora Core
No to testujemy :-) - Dodatkowo porównanie 3 silników OCR* * Nie wiem jak w pozostałych dwóch ustawić Polskie kodowanie, przez to test nie jest wiarygodny Tesseract GOCR OCRAD Wymagania systemowe: Wymagania minimalne Fedory Core 3 dla pracy w trybie tekstowym: - procesor zgodny z Pentium, zalecany 200 MHz lub lepszy pamięć 64 MB Do pracy w trybie grañcznym są potrzebne: - procesor: zalecany 400 MHz Pentium ll lub lepszy - pamięć: minimum 192 MB, zalecane 256 MB Niezbędne wolne miejsce na dysku: ~ instalacja minimalna: 620 MB - serwer: minimum 1.1 GB =t t ; E Wymagania systemowe: b n_ b _ Wymagan ia Wymagania minimalne Fedory systemowe: _ Wyma9ania Core 3 dla pracy w trybie minimalne Fedory Core 3 dla tekstowym: pracy w trybie tekstowym:. procesor zgodny z Pentium, _ procesor zgodny z Pentium, zalecany 200 MHz lub lepszy. 2alecany 200 MHz lub lepszy _ pamie_ 64 MB pamieċ64mb : D0 P'aCY Do pracy w trybie grafianym s4 w {Y " 9'a 4nYm q P0t"' n'' pot_ebne: t,, _ procesor: zalecany 400. procesor: 2alecany 400 MHz MHz Pentium _ Illuble_szy =, Pentium II lub lepszy pamie_: _ pamieć: minimum 192 MB, minimum 192 MB, zalecane zaleca',, ne2_6mb _ '_; 256 MB NleZbedne WOlne mlejsce na Niezbedne wolne miejsce na dysku= :; _' _ instalacja dysku: minimalna: 620 MB,, _. instalacja minimalna: 620 serwer: minimum 1.1 GB! _ MB. serwer: minimum 1.1 biuro, szkota i dom: 2,3 GB,. _ GB. biuro, szkota i dom: 2,3 stacja robocza: 3 GB t _ GB. stacja robocza: 3 GB szyst_i_p i_ty,'6,9, wszys_kie pdkie_y..ó,_ GB _odatkowo _magane jest Dodatkowo wymagane jest miejsce na miejsce na Najlepiej sprawdził się Tesseract przede wszystkim, że wiem jak przestawić go na Polskie Pismo.Zrobił 2 błędy Tesseract Poprawna forma grañcznym graficznym 11 II (Pentium II, a nie Pentium 11) OCRFeeder ma też funkcję łatwego poprawiania błędów za pomocą słownika najeżdżamy na błędny napis i Prawym Przyciskiem Myszy klikamy na owy napis. Wyskoczy nam propozycja poprawnego słowa (o ile słownik rozpoznaje).