LXF133:Review5

Материал из Linuxformat.

FineReader 8 CLI

Самое главное
OCR-пакет, распознающий тексты на многих языках, с выводом в различные форматы.
См. также	Tesseract
В целом качество распознавания превосходное, а вывод в различные форматы весьма полезен, особенно для HTML и PDF.
Разработчик	Abbyy
Сайт	http://www.ocr4linux.com
Цена	€149 за 12 000 страниц в год
Вердикт Linux Format
Функциональность	7/10
Производительность	9/10
Простота использования	6/10
Опривданность цены	8/10
Быстрая работа, точные результаты распознавания текста на многих языках. Документация и удобство использования радуют меньше.
Рейтинг	8/10

Одолели бумаги? Оцифруйте архивы при содействии Ника Вейча, посредством OCR-инструмента командной строки от Abbyy.

Некогда вся цивилизация держалась на бумаге. Все человеческие знания хранились в виде записей. Но ныне всё больше документов существует исключительно в компьютерах. Сложности возникают, когда мы пробуем совместить два этих мира. Хранение отсканированных документов неэффективно. И не только потому, что сканы занимают много места, но и потому, что слова внутри таких документов мертвеют, становятся недоступными для мощных поисковых алгоритмов.

ПО для оптического распознавания символов (OCR) существует со времени появления первых сканеров, и можно надеяться, что прогресс всё это время не стоял на месте. Уж коли британская полиция в состоянии автоматически считывать номера миллионов движущихся автомобилей, неужели так трудно распознать чёткие типографские строчки? Компания Abbyy занимается этим вопросом давно, накопила изрядный опыт, а её продукция славится высокой производительностью.

Установка вполне проста, хотя понадобится некоторое знакомство с командной строкой. Но раз уж это приложение командной строки, инсталляция может быть не самой главной сложностью. На нашей тестовой машине единственной неувязкой был конфликт с SELinux – ну, с кем не бывает...

Кроме простого текста, вывод возможен и в другие форматы, включая PDF и HTML. В последнем случае делается попытка имитировать оригинал: колонки текста и даже изображения сохраняются на местах. Хотя самое важное – это все же распознать слова, структура документа – вещь тоже полезная. Для одного только HTML имеется 16 различных параметров настройки, включая табуляцию, размещение изображений и соответствие различным стандартам. Поддержка PDF «упакована» аналогично. Несмотря даже на то, что в наших тестах были распознаны не все символы, компоновка полностью сохранилась.

Полиглот

Точность распознавания в целом очень хорошая. Как и у всех OCR-приложений, осложнение создают тексты, перекрытые графикой, и многоколоночные страницы. Похоже, что программа стремится искать правильные, прямоугольные блоки текста; но, по счастью, не сильно обижается на перекос документа в сканере. Тестировали мы и иностранные документы, коль скоро заявлена поддержка аж 190 языков. Немецкий и французский прошли на ура, а надписей на суахили у нас под рукой не было. На бонус предлагается чтение языков программирования, включая C/C++ и Java, а также неувядающего Fortran.

Более всего удивила документация: HTML-страницы скудны примерами, зато пестрят орфографическими ошибками. Это простительно для бесплатного ПО, но не для коммерческой программы. HTML-страницы представлены в man-стиле и содержат уйму подробностей, но неприятно мало полезных примеров. Нет и объяснений, как использовать командную строку для пакетной обработки материалов.

Чтобы оправдать стоимость годовой лицензии – 149 евро – нужно перелопатить немало страниц, хотя в промышленных масштабах это до смешного недорого.

Свойства навскидку

Штрих-коды

Вместе с текстом можно расшифровывать и штрих-коды распространённых типов.

PDF

Выводите отсканированные документы из FineReader в формате PDF.

Получено с http://wiki2.linuxformat.ru/index.php/LXF133:Review5

LXF133:Review5

Материал из Linuxformat.

FineReader 8 CLI

Полиглот

Свойства навскидку

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты

LXF133:Review5

Материал из Linuxformat.

FineReader 8 CLI

По­ли­глот

Свойства навскидку

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты

Полиглот