- Подписка на печатную версию:
- Подписка на электронную версию:
- Подшивки старых номеров журнала (печатные версии)
LXF138:Cats
Материал из Linuxformat.
- Инструментарий переводчика
Содержание |
Кошки: OmegaT vs Anaphraseus
- Да – вы по-прежнему читаете LXF; и нет – мы не собираемся устраивать кошачьи бои. Ольга Кокорева объяснит остальное.
Современный мир просто невозможно представить себе без международного общения. Отлично, если вы владеете многими языками, можете свободно говорить на них и читать интересующие вас материалы. Однако большинству из нас все же не обойтись без помощи переводчиков. Но кто же поможет самим переводчикам! Конечно же, кошки!
«Кто?» – удивленно спросите вы. На самом деле все просто: «Кошка» – это шутливое переосмысление английской аббревиатуры CAT (Computer-Aided Translation) – программного обеспечения для автоматизированного перевода.
Автоматизированный перевод? Многие люди относятся к нему скептически, потому что путают его с машинным, качество которого пока еще далеко от совершенства. И о машинном переводе мы говорить не будем, по крайней мере, здесь. А вот автоматизированный перевод – и, соответственно, «кошки» – действительно могут облегчить жизнь переводчика. При использовании этих средств весь процесс перевода выполняется человеком, а компьютерные технологии лишь помогают создать готовый текст – либо быстрее, чем обычно, либо с лучшим качеством. Сама идея CAT родилась, фактически, в момент появления компьютеров. Сначала переводчики стали применять текстовые редакторы для ввода и редактирования текстов, затем появились электронные словари, и, наконец, начали создаваться терминологические базы данных. Тут и появились первые «кошки».
Как это работает?
CAT-программы постоянно (в течение всего времени работы над переводом) сохраняют «пары» из исходного и переведенного текста в базах данных «памяти переводов» (Translation Memory, TM). Инструменты CAT подразделяют текст (исходный и переводимый) на сегменты, устанавливают между ними соответствия в виде «пар» и сохраняют их как в базе данных TM, так и в переводимом документе. Переводчик имеет возможность определять, что должно считаться разделителем сегментов (это может быть точка, запятая, символ многоточия и т. д.), но по умолчанию большинство таких программ использует точку.
При переходе к очередному предложению CAT-программа находит похожие предложения и их переводы, которые можно принять, отклонить или отредактировать. Многие программы автоматически подставляют перевод при полном совпадении переводимого предложения с уже однажды переведенным. Это позволяет не переводить одно и то же предложение дважды, что ускоряет процесс в целом.
Некоторые CAT-средства не ограничиваются «разбиением на предложения» и могут работать с отдельными словосочетаниями, находя их в переводимом тексте и показывая переводчику уже известный эквивалент (если он имеется). Естественно, прежде чем программа начнет предлагать переводчику варианты, нужно поработать с ней в течение определенного (иногда – довольно длительного) времени, чтобы накопить соответствующую базу данных памяти переводов. Наличие готовых баз данных ускоряет перевод и позволяет «выровнять» терминологию по всему тексту или группе текстов, исключив «чересполосицу» в виде непоследовательного применения одних и тех же терминов. Если CAT-программы использовать грамотно, то перевод будет выполнен более качественно и в более короткие сроки. Вся логика инструментов CAT направлена на экономию времени.
Таким образом, программы CAT не являются средствами машинного (автоматического) перевода текста. Напротив, это – совершенно отдельный класс программ, которые призваны помочь переводчикам в их работе.
Кошки и Linux
На сегодняшний день существуют надежные и добротные коммерческие CAT-инструменты, причем в наилучшем положении находятся переводчики, работающие в Windows, в распоряжении которых есть и такие решения, как SDL Trados и Star Transit, и такие минималистские программы, как Wordfast или Metatexis. Trados – это независимая система автоматизации переводов, а Wordfast или Metatexis реализованы в виде макросов для MS Word. Но все перечисленные программы представляют собой коммерческие приложения.
А как же быть, если вы работаете в Linux? Неужели это помешает вам завести кошку? Конечно, нет. Во-первых, SDL Trados можно запустить в Wine, а Wordfast и Metatexis тоже будут отлично работать в MS Word, запущенном в Wine. Но для Linux существуют и открытые CAT-решения. И хотя они находятся еще на ранних этапах своего развития, и пока еще не настолько функционально богаты и надежны, как большинство коммерческих аналогов, в этой статье мы познакомимся с двумя наиболее популярными представителями семейства «свободных кошек», которые отлично чувствуют себя в Linux, не обязательно при этом «гуляя сами по себе». Подружитесь с этими кошками!
Знакомьтесь — OmegaT
OmegaT представляет собой отличную «стартовую площадку» для знакомства с «кошками», поскольку программа бесплатна (в т. ч. и для коммерческого использования) и при этом достаточно проста в освоении. Наконец, как особое преимущество следует отметить поддержку различных платформ – она работает и в Windows, и в Mac OS X, и в Linux. Скачать и установить OmegaT можно с сайта программы (http://www.omegat.org). В Ubuntu 10.10 проще всего это сделать через Центр приложений Ubuntu (рис. 1).
Функционал OmegaT составляет «джентльменский набор» CAT-программ:
- использование любого корректного TMX-файла для справочной базы переводов;
- гибкая сегментация по предложениям;
- поиск в проекте и в справочных базах памяти переводов;
- поиск в любом каталоге, содержащем поддерживаемые OmegaT файлы;
- нечеткие совпадения;
- интеллектуальное ведение проектов, включая сложные иерархии каталогов;
- поддержка глоссариев;
- простая и понятная документация в переводе на большое количество языков, в том числе и на русский.
После запуска OmegaT на экране появится главное окно, состоящее из трех панелей: редактирования (Editing), нечетких совпадений (Fuzzy Matches) и глоссария (Glossary). Если вы не видите все три панели, перетащите мышью границы окна и панели по экрану до тех пор, пока они все не появятся. Изначально панели нечетких совпадений и глоссария будут пустыми, а в панели редактирования будет отображаться инструкция по быстрому началу работы с системой. Она называется «Начните работать с OmegaT за 5 минут! – Быстрый старт», и действительно поможет вам быстро войти в курс дела.
Большинство приложений CAT используют термин «проект». Под проектом понимается набор файлов и папок, ассоциированных с вашим переводом.
Чтобы начать работу с OmegaT, создайте новый пустой проект (см. Шаг за шагом). Теперь найдите его с помощью своего файлового менеджера – это должна быть папка, названная по имени проекта, в которой будут вложенные пустые подкаталоги: /source, /target, /omegat, /tm и /glossary. Документы, подлежащие переводу, нужно поместить в /source; /target будет по ходу работы заполняться переведенным текстом; /omegat пока не содержит ничего интересного; а папки /tm и /glossary останутся пустыми до тех пор, пока вы не создадите файлы базы данных памяти переводов (.tmx) и глоссария (текстовый файл с расширением .utf8) и не поместите их в эти папки.
После того, как вы скопируете подлежащие переводу файлы в папку исходных файлов переводческого проекта, вы сможете открыть этот проект в OmegaT (рис. 2).
Начинайте переводить сегменты последовательно, один за другим. Переход к следующему непереведенному сегменту осуществляется клавиатурной комбинацией Ctrl+U, к предыдущему – Ctrl+P, а переход к следующему сегменту – комбинацией Ctrl+N. По мере того, как в памяти переводов будут накапливаться данные, при переходах к следующим непереведенным сегментам в панели Нечеткие совпадения [Fuzzy matches] будут появляться похожие фрагменты текста (рис. 3). Если активный (переводимый на текущий момент сегмент) содержит термины, внесенные в глоссарий, они будут появляться в панели глоссария.
По мере продвижения вашей работы, вы, в конце концов, достигнете конца своего документа. Если ваш проект состоит из нескольких файлов, то подтверждение последнего сегмента первого файла автоматически переместит вас к первому сегменту второго. Выполнив черновой перевод, вы с легкостью сможете проверить свою работу, параллельно просматривая исходный и переведенный тексты. В случае с OmegaT, исходный текст отображается над переведенным, что упрощает проверку.
Завершив работу над переводом, вы сможете создать целевые документы, выбрав из меню команды Проект [Project] > Создать переведенные документы [Create Translated Documents]. Переведенные документы будут сгенерированы автоматически и сохранены в исходном формате в папке /target. Если в состав вашего проекта входит множество файлов, то в /target будет создано множество итоговых файлов и, возможно, даже сложная структура вложенных папок, содержащих графические файлы (как, например, в случае с документами HTML). Структура /target будет воспроизводить исходную структуру /source.
На сайте OmegaT по адресу http://www.omegat.org/training/materials/legacy.zip разработчики предоставляют краткие инструкции и примеры переводов, выполненных с помощью OmegaT, включая файлы баз данных .tmx и файлы глоссариев. На начальном этапе воспользуйтесь этими материалами, и вы очень быстро сможете приручить кошечку OmegaT!
OmegaT: Несколько советов
Для форматирования текста OmegaT использует тэги, и работа с ними требует некоторого навыка. После проверки вашего перевода необходимо удостовериться, что вы не повредили тэги в процессе работы. Для этого выберите из меню команды Сервис > Проверка Тэгов [Tools > Validate Tags]. Поврежденные или отсутствующие тэги в форматах XML, таких как OpenDocument, могут привести к тому, что документы вообще не будут открываться.
Если вы будете использовать OmegaT в течение длительного времени, вам захочется выполнить индивидуальную настройку правил сегментации. На начальном этапе возиться с этим не стоит, потому что общие правила сегментации работают адекватно, даже для различных исходных языков, при условии общего совпадения правил пунктуации (иначе говоря, менять общие правила стоит, если только вы переводите, скажем, с японского на русский).
Если вы предпочитаете вычитывать окончательный вариант перевода на бумаге, распечатайте полученный документ для проверки. Но не следует вносить исправления в итоговые документы OpenOffice.org Writer или файлы MS Word: вместо этого следует найти соответствующие сегменты в OmegaT (с помощью имеющейся в этой программе функции поиска по тексту) и внести необходимые исправления там. Почему именно так? Во-первых, после этого вы без труда сможете сгенерировать исправленные документы с переводом, а исправленная база данных «памяти переводов» пригодится вам и в дальнейшем – вы ведь не хотите «клонировать» допущенные ошибки!
Про форматы
Среди поддерживаемых OmegaT форматов файлов: DocBook, DokuWiki, JavaHelp, Java Properties, OpenDocument (ODF), OpenOffice, HTML, Help And Manual, HTML Help Compiler (HCC), INI, Mozilla DTD, Gettext PO, ResX, StarOffice, Text, Typo3, Windows RC, WiX, XHTML, XLIFF. Обратите особое внимание на то, что OmegaT не обеспечивает прямой поддержки форматов файлов MS Office. Пользователям, которые хотят работать с файлами MS Office, понадобится преобразовать их в формат OpenOffice.org; впоследствии, после завершения перевода, файлы, при желании, можно будет сохранить в формате Microsoft.
Шаг за шагом: Новый проект в OmegaT
- 1 Создайте проект
- Выберите из меню команду Проект [Project], затем опцию Создать [New]. В окне Создать новый проект [Create a New Project] задайте имя для вашего нового проекта и сохраните его в подходящую папку (например, ту, в которой вы обычно работаете над переводами).
- 2 Выберите язык
- В следующем диалоговом окне выберите желаемые языки – для переводимого текста и для языка, на который вы выполняете перевод.
- 3 Настройте сегментирование
- Щелчком по кнопке Сегментирование [Segmentation] откройте окно Настройка сегментирования [Segmentation Setup]. OmegaT имеет минимально необходимый набор шаблонов сегментирования. Выберите шаблон для языка, с которого вы собираетесь выполнять перевод (например, “RU.*” – для русского языка или “EN.*” – для английского); нажатием кнопки Вверх [Move Up] выведите этот шаблон в начало списка. Подтвердите правила сегментации и создайте проект, нажав кнопку OK.
Кошка по имени Anaphraseus
Поскольку исторически сложилось так, что наиболее широкое распространение среди текстовых редакторов получил MS Word, многие переводчики используют именно его. И если перед вами остро стоит вопрос перевода файлов MS Word без серьезных затруднений с тэгами форматирования, как это реализовано в OmegaT, на помощь вам придет другая кошечка – ее зовут Anaphraseus ,и она представляет собой расширение для OpenOffice.org, совместимое с ранее упоминавшимся коммерческим приложением Wordfast.
Anaphraseus устанавливается непосредственно через меню OpenOffice.org: Сервис > Управление расширениями [Tools > Extension Manager], после чего вам потребуется всего лишь щелкнуть мышью по кнопке Добавить [Add]. В OpenOffice.org 3.0 щелкните по ссылке Расширения в Интернете... [Get more extensions here…], которая находится в нижней части окна Управление расширениями [Extension Manager]. Запустится браузер по умолчанию, и в нем будет открыт URL, по которому следует искать Anaphraseus – просто введите ключевое слово в строку поиска и загрузите нужное расширение (рис. 4).
Вы получите файл с расширением .OXT (некоторые более старые версии использовали формат Zip); после этого щелкните по кнопке Добавить [Add] в окне Управление расширениями [Extension Manager] и найдите нужный вам .OXT-файл на вашем ПК. Затем прочтите текст лицензионного соглашения и примите его условия. После того, как вы сделаете это, расширение Anaphraseus будет установлено на постоянной основе.
Если панель Anaphraseus не появилась, это может быть связано с параметрами безопасности макросов. В этом случае установите средний уровень безопасности макросов через меню Сервис > Параметры [Service > Parameters].
Anaphraseus не зависит от платформы, но зависит от OpenOffice.org (требуется версия 2.1 или старше). Это расширение предоставит вам следующие возможности:
- распознавание терминов (Term Recognition);
- нечеткий поиск (Fuzzy Search);
- экспорт/импорт баз данных памяти переводов в формате Unicode UTF-16 TMX;
- ведение пользовательских глоссариев (User Glossary);
- локализацию на русский язык.
После инсталляции вам потребуется перезапустить OpenOffice.org, чтобы внесенные изменения вошли в силу. Затем в OpenOffice.org вы увидите новую панель со значками Anaphraseus (рис. 5).
Чтобы начать работу над новым переводом, вам потребуется: создать (или импортировать) новую базу данных TM (рис. 6); открыть документ на исходном языке, с которого вы собираетесь начать перевод; и начать переводить текст, нажимая клавиатурную комбинацию Alt + или выполняя щелчки мышью по крайней слева кнопке на инструментальной панели Anaphraseus (рис. 7).
На первом шаге вам необходимо либо создать «с нуля», либо (по возможности) импортировать базу данных памяти переводов. Чтобы сделать это, щелкните по значку Anaphraseus Setup, выберите команду Создать [New], а затем введите подходящие коды TMX, которые пригодятся вам в случае, если потребуется экспортировать вашу базу данных TM. Для каждой языковой комбинации вам потребуется отдельная база данных TM – например, если вы переводите с английского на русский, то эта комбинация не подойдет для перевода с русского на английский. Anaphraseus дает возможность работать с большим количеством баз данных TM, которые вы можете создавать для множества различных языков под разнообразные задачи.
Хотя цена на Wordfast продолжает расти, Anaphraseus, ее аналог, остается бесплатным. Anaphraseus может работать с базами данных TM, созданными в Wordfast, что очень помогает в тех случаях, когда у вас уже есть лицензия на Wordfast, а также в ситуациях, когда вы работаете над общим проектом совместно с пе реводчиками, применяющими в своей работе Wordfast. Те, кто работает только с Wordfast, испытывают сложности, если они начали работать над переводческим проектом на одном компью-тере, а затем должны продолжить выполнение задачи на компьютере, принадлежащем кому-то другому. Anaphraseus упрощает эту задачу.
Хотя Anaphraseus и не предоставляет всех функциональных возможностей, предлагаемых коммерческими приложениями, но и не всем переводчикам ежедневно и ежечасно нужен такой широкий набор опций. Иногда мои коллеги-переводчики критикуют Anaphraseus за не всегда стабильную работу и ограничения по объему баз данных TM. Но на самом деле в базе данных TM Anaphraseus можно хранить до 500 000 единиц перевода, и этого более чем достаточно для перевода, например, средних размеров книги. Таким образом, OpenOffice.org представляет собой не только очень удобное решение для переводчиков, но и путеводную звезду на пути к настоящей свободе.
Вердикт
Так какая же программа лучше – Anaphraseus или OmegaT? Тут все зависит от вашего стиля работы. Anaphraseus позволяет комбинировать всю мощь текстового процессора с инструментарием CAT. Кроме того, Anaphraseus по сравнению с OmegaT лучше работает с глоссариями, поскольку позволяет добавлять в них новые термины по ходу работы над переводом. Наконец, Anaphraseus может использовать базы данных памяти переводов Wordfast (хотя и с некоторыми ограничениями). Но я рекомендую использовать обе эти программы – тем более, что они отлично ладят между собой.