- Подписка на печатную версию:
- Подписка на электронную версию:
- Подшивки старых номеров журнала (печатные версии)
LXF133:Review5
Материал из Linuxformat.
FineReader 8 CLI
Самое главное | |
OCR-пакет, распознающий тексты на многих языках, с выводом в различные форматы. | |
См. также | Tesseract |
Разработчик | Abbyy |
Сайт | http://www.ocr4linux.com |
Цена | €149 за 12 000 страниц в год |
Вердикт Linux Format | |
Функциональность | 7/10 |
Производительность | 9/10 |
Простота использования | 6/10 |
Опривданность цены | 8/10 |
Быстрая работа, точные результаты распознавания текста на многих языках. Документация и удобство использования радуют меньше. | |
Рейтинг | 8/10 |
- Одолели бумаги? Оцифруйте архивы при содействии Ника Вейча, посредством OCR-инструмента командной строки от Abbyy.
Некогда вся цивилизация держалась на бумаге. Все человеческие знания хранились в виде записей. Но ныне всё больше документов существует исключительно в компьютерах. Сложности возникают, когда мы пробуем совместить два этих мира. Хранение отсканированных документов неэффективно. И не только потому, что сканы занимают много места, но и потому, что слова внутри таких документов мертвеют, становятся недоступными для мощных поисковых алгоритмов.
ПО для оптического распознавания символов (OCR) существует со времени появления первых сканеров, и можно надеяться, что прогресс всё это время не стоял на месте. Уж коли британская полиция в состоянии автоматически считывать номера миллионов движущихся автомобилей, неужели так трудно распознать чёткие типографские строчки? Компания Abbyy занимается этим вопросом давно, накопила изрядный опыт, а её продукция славится высокой производительностью.
Установка вполне проста, хотя понадобится некоторое знакомство с командной строкой. Но раз уж это приложение командной строки, инсталляция может быть не самой главной сложностью. На нашей тестовой машине единственной неувязкой был конфликт с SELinux – ну, с кем не бывает...
Кроме простого текста, вывод возможен и в другие форматы, включая PDF и HTML. В последнем случае делается попытка имитировать оригинал: колонки текста и даже изображения сохраняются на местах. Хотя самое важное – это все же распознать слова, структура документа – вещь тоже полезная. Для одного только HTML имеется 16 различных параметров настройки, включая табуляцию, размещение изображений и соответствие различным стандартам. Поддержка PDF «упакована» аналогично. Несмотря даже на то, что в наших тестах были распознаны не все символы, компоновка полностью сохранилась.
Полиглот
Точность распознавания в целом очень хорошая. Как и у всех OCR-приложений, осложнение создают тексты, перекрытые графикой, и многоколоночные страницы. Похоже, что программа стремится искать правильные, прямоугольные блоки текста; но, по счастью, не сильно обижается на перекос документа в сканере. Тестировали мы и иностранные документы, коль скоро заявлена поддержка аж 190 языков. Немецкий и французский прошли на ура, а надписей на суахили у нас под рукой не было. На бонус предлагается чтение языков программирования, включая C/C++ и Java, а также неувядающего Fortran.
Более всего удивила документация: HTML-страницы скудны примерами, зато пестрят орфографическими ошибками. Это простительно для бесплатного ПО, но не для коммерческой программы. HTML-страницы представлены в man-стиле и содержат уйму подробностей, но неприятно мало полезных примеров. Нет и объяснений, как использовать командную строку для пакетной обработки материалов.
Чтобы оправдать стоимость годовой лицензии – 149 евро – нужно перелопатить немало страниц, хотя в промышленных масштабах это до смешного недорого.
Свойства навскидку
- Штрих-коды
- Вместе с текстом можно расшифровывать и штрих-коды распространённых типов.
- Выводите отсканированные документы из FineReader в формате PDF.