ELO – OCR inny niż wszystkie

W niniejszej części naszego blogu zajmiemy się automatycznym rozpoznawaniem tekstu. Przyjrzymy się mechanizmom zaszytym w ELO oraz możliwością, które one nam dają.

Skrót OCR pochodzi od angielskich słów – Optical Character Recognition. Pod tym pojęciem w kontekście systemu ELO należy rozumieć oprogramowanie mające za zadanie rozpoznanie znaków i całych tekstów z plików graficznych o postaci rastrowej (graficznej). System ELO wyposażony jest w rozwiązanie OCR bazujące na silniku firmy ABBYY, która jest najbardziej rozpoznawalną marką oprogramowania OCR na naszym rynku (na przykład znany i lubiany ABBYY FineReader).


ELO – dwa systemy OCR

ELO działa w technologii klient-serwer. Oznacza to, że sam silnik, dane oraz zarządzanie dokumentami odbywa się na serwerze, natomiast na terminalach dostępowych klientów instalowane są aplikacje dostępowe. Zarówno po stronie klienta jak i po stronie serwera znajdują się serwisy odpowiedzialne za rozpoznawanie tekstu. Poniżej zostaną przedstawione oba mechanizmy – jeden nazwany ClickOCR, oraz drugi – FullText.


ELO – system rozpoznawania tekstu ClickOCR

W systemie ELO zintegrowana została wyjątkowa funkcjonalność, którą ciężko znaleźć w rozwiązaniach konkurencji. Jest to tzw. ClickOCR. Funkcja ta polega na tym, iż tekst z obrazu zostaje rozpoznany i zamieniony na tekst możliwy do wykorzystania w dalszym procesie analizy i opisu dowolnych dokumentów.
Mając przykładowy plik przedstawiony poniżej mechanizm rozpoznaje miejsca, w których znajduje się jakikolwiek tekst. Tekst ten jest zamieniany z postaci graficznej na formę cyfrową.

Mechanizmy wewnętrzne ELO dokonują korelacji między obrazem a zapisem cyfrowym treści, dzięki czemu mamy dostęp do poszczególnych elementów całego tekstu. Na poniższym rysunku widać, że fragment obrazu (tutaj AIRLINES) został zapisany i określony jako tekst.


Mechanizm powyższy jest bardzo użyteczny i umożliwia ekspresowy opis dokumentów wrzucanych do ELO. Jako przykład wykorzystamy fakturę. Mając dany dokument, możemy – korzystając z technologii ClickOCR dokonać szybkiego opisu tego dokumentu. Przedstawione to zostało na poniższym rysunku.


Po lewej stronie widać okno z opisem dokumentu (metadane) natomiast po prawej stronie pokazana jest przykładowa faktura, która została opisana w programie. Wszystkie dane wpisane w polach opisu dokumentu zostały pozyskane z obrazu zeskanowanej faktury. Odpowiednie numery odpowiadają pozycją na fakturze. Jak widać można wybierać pojedyncze pola (np. wartości) jak i dłuższe fragmenty tekstu (na przykład opis pozycji z faktury oznaczony nr 1). Ponadto możliwe jest wpisanie w jedno pole różnych pozycji z różnych obszarów faktury – tutaj w przypadku nazwy kontrahenta pozyskanego z pól faktury oznaczonych od 5a do 5d. W ten sposób mechanizm ten jest bardzo użyteczny i wygodny do opisywania zeskanowanych dokumentów znacznie przyspieszając cały proces opisu dokumentacji jak i eliminując ewentualne błędy, które mogłyby się pojawić w przypadku ręcznego uzupełniania wpisów.


ELO – system rozpoznawania całego dokumentu FullText

Kolejną bardzo użyteczną funkcją systemu jest możliwość przetwarzania obrazów na tekst i zapis pełnej informacji pozyskanej z dokumentu. Jest to tzw. FullText. Przetwarzaniu mogą podlegać pojedyncze dokumenty lub określone ich rodzaje (definiowane jest to na etapie wdrożenia systemu). Plik umieszczony w archiwum podlega analizie po stronie serwera – system ten nie obciąża systemu użytkownika.
W przykładzie faktury zaprezentowanej powyżej rozpoznany tekst w programie prezentowany jest w sposób następujący.
Zaletą tak rozpoznanego dokumentu jest możliwość wyszukania fragmentów treści, które nie stanowią opisu dokumentu a znajdują się na nim. Dla przykładu, jeżeli nie pamiętamy żadnych informacji o fakturze, ale wiemy, że zamówienie było realizowane na stronie www.balloon.de możemy wykorzystać tę informację do szybkiego odnalezienia faktury.


Zalety wbudowanego w ELO systemu OCR

  • Automatyzacja uzupełniania informacji o dokumencie
  • Możliwość wyszukiwania dokumentów po zawartości dokumentów
  • Możliwość swobodnego wykorzystywania zawartości dokumentów między programami
  • Możliwość wykorzystywania zaawansowanych algorytmów do atuomatyzacji procesu opisu dokumentów

Ostatnia z powyższych możliwości zasługuje na osobny artykuł, który pojawi się niebawem. Jest to niebywale użyteczna funkcja, która umożliwia zdefiniowanie pewnych obszarów, procedur i zależności w treści dokumentu aby umożliwić automatyczne pozyskanie zawartości ponadto umożliwiając, bez udziału człowieka, rozpoznanie typu dokumentu i odpowiednie jego sklasyfikowanie w systemie.