<?xml version="1.0" encoding="utf-8"?>
<?xml-stylesheet type="text/css" href="http://wiki2.linuxformat.ru/skins/common/feed.css?97"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ru">
		<id>http://wiki2.linuxformat.ru/index.php?action=history&amp;feed=atom&amp;title=LXF116%3A%D0%9A%D0%BE%D0%BC%D0%BF%D1%8C%D1%8E%D1%82%D0%B5%D1%80_%D1%81%D0%BB%D1%83%D1%88%D0%B0%D0%B5%D1%82%21</id>
		<title>LXF116:Компьютер слушает! - История изменений</title>
		<link rel="self" type="application/atom+xml" href="http://wiki2.linuxformat.ru/index.php?action=history&amp;feed=atom&amp;title=LXF116%3A%D0%9A%D0%BE%D0%BC%D0%BF%D1%8C%D1%8E%D1%82%D0%B5%D1%80_%D1%81%D0%BB%D1%83%D1%88%D0%B0%D0%B5%D1%82%21"/>
		<link rel="alternate" type="text/html" href="http://wiki2.linuxformat.ru/index.php?title=LXF116:%D0%9A%D0%BE%D0%BC%D0%BF%D1%8C%D1%8E%D1%82%D0%B5%D1%80_%D1%81%D0%BB%D1%83%D1%88%D0%B0%D0%B5%D1%82%21&amp;action=history"/>
		<updated>2026-05-14T00:37:29Z</updated>
		<subtitle>История изменений этой страницы в вики</subtitle>
		<generator>MediaWiki 1.11.1</generator>

	<entry>
		<id>http://wiki2.linuxformat.ru/index.php?title=LXF116:%D0%9A%D0%BE%D0%BC%D0%BF%D1%8C%D1%8E%D1%82%D0%B5%D1%80_%D1%81%D0%BB%D1%83%D1%88%D0%B0%D0%B5%D1%82%21&amp;diff=10160&amp;oldid=prev</id>
		<title>Crazy Rebel: викификация, оформление, иллюстрация</title>
		<link rel="alternate" type="text/html" href="http://wiki2.linuxformat.ru/index.php?title=LXF116:%D0%9A%D0%BE%D0%BC%D0%BF%D1%8C%D1%8E%D1%82%D0%B5%D1%80_%D1%81%D0%BB%D1%83%D1%88%D0%B0%D0%B5%D1%82%21&amp;diff=10160&amp;oldid=prev"/>
				<updated>2010-05-07T09:37:22Z</updated>
		
		<summary type="html">&lt;p&gt;викификация, оформление, иллюстрация&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Новая статья&lt;/b&gt;&lt;/p&gt;&lt;div&gt;==Научи компьютер слышать!==&lt;br /&gt;
&lt;br /&gt;
: Как известно, hardware в случае неисправности можно обругать или пнуть, а software – только обругать, но поймет ли оно вас? Усилиями сообщества свободного ПО и '''Андрея Боровского''' – всенепременно.&lt;br /&gt;
&lt;br /&gt;
Человек может без труда научить компьютер тому, что он сам придумал. Математические расчеты, обработка информации, представленной в виде потока символов – со всем этим компьютеры справляются гораздо лучше&lt;br /&gt;
нас. Однако существует множество видов деятельности, в которых компьютеры и управляемые ими системы уступают живым&lt;br /&gt;
существам. В решении таких задач, как перевод с одного языка&lt;br /&gt;
на другой, ходьба по пересеченной местности, распознавание лиц&lt;br /&gt;
и речи, машины до сих пор не могут сравниться с живыми организмами. Одна из причин, конечно же, заключается в том, что&lt;br /&gt;
не мы изобрели лингвистическую компетентность (способность&lt;br /&gt;
выражать свои мысли на неформальном языке), ходьбу, зрение&lt;br /&gt;
и слух. Формализация этих действий так же трудна, как и вообще&lt;br /&gt;
любое описание явлений окружающего мира формальными средствами. Впрочем, как и другие науки, имитация человеческой&lt;br /&gt;
деятельности не стоит на месте, и сегодня компьютеры уже могут&lt;br /&gt;
делать то, что казалось невозможным еще вчера.&lt;br /&gt;
&lt;br /&gt;
Термин «машинное распознавание речи» используется для&lt;br /&gt;
обозначения самых разных приложений, начиная с систем ввода голосовых команд и поиска аудиоконтента по фрагментам&lt;br /&gt;
и заканчивая системами электронной диктовки. В мире коммерческого ПО ситуация с разработкой систем распознавания речи стабильная: компания Nuance, разработчик пакета ''Dragon Naturally Speeking'', твердо занимает лидирующие позиции. На втором месте&lt;br /&gt;
расположилась, конечно, Microsoft с ее ''Speech API''. Во многих&lt;br /&gt;
отношениях эти компании похожи друг на друга: агрессивный&lt;br /&gt;
маркетинг, скупка конкурентов, почти монопольное положение&lt;br /&gt;
в своей области. Уместно провести аналогию с разработкой операционных систем. Ни один коммерческий разработчик не смог&lt;br /&gt;
создать ОС, способную конкурировать с Windows, и для того, чтобы бросить вызов империи Microsoft, понадобилась совершенно&lt;br /&gt;
иная модель разработки. Точно так же ни одна закрытая компания не сможет в обозримом будущем конкурировать с лидерами&lt;br /&gt;
отрасли распознавания речи. Альтернативный продукт может&lt;br /&gt;
придти только из мира открытого ПО.&lt;br /&gt;
&lt;br /&gt;
===Камень преткновения===&lt;br /&gt;
&lt;br /&gt;
Почему же Open Source отстает от коммерческих программ в области распознавания текста и речи? Давайте взглянем на проблему&lt;br /&gt;
шире. Может ли классический коллектив разработчиков открытого ПО (то есть тот, который состоит исключительно из добровольцев) самостоятельно создать «высокоинтеллектуальноемкий»&lt;br /&gt;
и конкурентоспособный продукт? К сожалению, ответ, скорее всего, будет отрицательным. Наиболее интеллектуальные и успешные открытые и полуоткрытые проекты на разных этапах получали (и получают) серьезную поддержку со стороны коммерческих&lt;br /&gt;
разработчиков. Почему группа свободных энтузиастов не может&lt;br /&gt;
создать нечто подобное? Проблемы, вероятно, лежат в организационной плоскости.&lt;br /&gt;
&lt;br /&gt;
* '''Квалификация''' Разработка таких проектов, как оптимизирующий компилятор или система распознавания речи, требуют некоторых специальных знаний, которыми владеет далеко не каждый профессиональный программист. В силу одного этого факта собрать команду добровольцев для работы над подобным проектом труднее, чем собрать команду разработчиков классического офисного приложения. Коммерческая компания обладает большими возможностями в плане найма программистов-специалистов, равно как и в плане повышения квалификации уже имеющихся сотрудников.&lt;br /&gt;
* '''Мотивация''' Вспомним основные принципы открытой модели разработки: «делайте ранние и частые релизы», «превращайте своих пользователей в участников проекта». Если вдуматься в эти тезисы, становится очевидно, что они подходят не всем проектам, а в основном таким, которые могут быть работоспособны (хотя бы частично) на самых ранних стадиях разработки. Бессмысленно делать ранние релизы, если ты не можешь показать что-то хотя бы схематично работоспособное. В то же время при работе над сложными проектами требуется затратить очень много труда, прежде чем появится хоть какой-то результат. Модель, где сторонние люди начинают использовать и исправлять проект на самых ранних стадиях его существования, тут просто не сработает.&lt;br /&gt;
&lt;br /&gt;
Все это, конечно, не означает, что сложные проекты, в том&lt;br /&gt;
числе проекты распознавания, не могут быть открытыми. Один&lt;br /&gt;
из источников высокоинтеллектуального открытого кода уже&lt;br /&gt;
упоминался – коммерческие предприятия, поддерживающие&lt;br /&gt;
открытое ПО. Такая поддержка может принимать разные формы: коммерческий разработчик может включиться в работу&lt;br /&gt;
над уже существующим открытым проектом, а может и просто&lt;br /&gt;
«подарить» сообществу исходные тексты. Так, например, компания Hewlett-Packard открыла исходные тексты программы&lt;br /&gt;
''tesseract'' – по-видимому, лучшего на сегодняшний день открытого&lt;br /&gt;
движка для распознавания текстов (http://code.google.com/p/tesseract-ocr/). Еще один источник наукоемкого открытого кода – университетские исследовательские группы. Они, как правило, не предполагают извлекать прибыль непосредственно из своей разработки. При этом исследовательские группы свободны от некоторых недостатков, присущих группам разработчиков-добровольцев:&lt;br /&gt;
в них сконцентрированы программисты, обладающие специальными знаниями, и они могут работать длительное время, даже&lt;br /&gt;
не имея наглядных результатов.&lt;br /&gt;
&lt;br /&gt;
{{Врезка|Заголовок=Кнопки вечны!|Содержание=Может ли система распознавания речи заменить клавиатуру? Очевидно, нет. Она хорошо подходит для ввода текста, не содержащего формул и сложного форматирования, но непригодна для ввода текстов на формальных языках (попробуйте, например, в качестве эксперимента, прочитать текст программы, написанной на ''C++''). Практически невозможно управлять с помощью голоса такими операциями, как&lt;br /&gt;
редактирование текста (включающее множество удалений, копирований и вставок).|Ширина=200px}}&lt;br /&gt;
&lt;br /&gt;
В этой статье мы сосредоточимся на двух применениях технологий распознавания речи, которые чаще всего используются&lt;br /&gt;
на компьютерах общего назначения: системах голосовых команд&lt;br /&gt;
и электронной диктовки. Хотя они во многом схожи между собой,&lt;br /&gt;
сложность задач, которые им приходится решать, различается&lt;br /&gt;
на порядки. Как следствие, различаются и распространенность,&lt;br /&gt;
и практическая пригодность приложений, предназначенных для&lt;br /&gt;
решения этих задач. Системы распознавания голосовых команд&lt;br /&gt;
ошибаются сравнительно редко и способны «расслышать» оператора даже в очень неблагоприятных условиях. Системы электронной диктовки требуют индивидуальной настройки и высококачественного аудиосигнала, и ошибаются порой настолько часто, что&lt;br /&gt;
по производительности уступают даже человеку, не имеющему&lt;br /&gt;
опыта работы на клавиатуре. История развития смежных областей (распознавание символов, например) позволяет надеяться,&lt;br /&gt;
что ситуация эта временная, и с развитием технологий различия&lt;br /&gt;
между электронной диктовкой и голосовыми командами сойдут&lt;br /&gt;
на нет; однако нельзя сказать заранее, сколько на это потребуется времени.&lt;br /&gt;
&lt;br /&gt;
Процесс диктовки текста системе распознавания речи тоже&lt;br /&gt;
оказывается гораздо более трудоемким, чем кажется на первый&lt;br /&gt;
взгляд. Основная проблема заключается, конечно, в том, что компьютер, в отличие от человека, не понимает того, что ему диктуют.&lt;br /&gt;
&lt;br /&gt;
===Данные===&lt;br /&gt;
&lt;br /&gt;
Как оценить надежность системы распознавания речи? Самую&lt;br /&gt;
простую и очевидную оценку надежности можно выразить как&lt;br /&gt;
отношение количества ошибочно распознанных слов к их общему числу. Такая оценка, однако, недостаточно информативна,&lt;br /&gt;
поскольку разные виды ошибок (неправильно распознанные&lt;br /&gt;
слова, пропущенные слова, лишние слова, которые появляются в результате ошибочной интерпретации звукового шума как&lt;br /&gt;
речи) встречаются с разной частотой. Более точную характеристику системы можно получить, учитывая каждый тип ошибок&lt;br /&gt;
в отдельности. Проблема осложняется тем, что естественная&lt;br /&gt;
слитная речь (в отличие от письменного текста) не разбивается на отдельные слова. В обычной речи (патологические&lt;br /&gt;
случаи мы не рассматриваем) паузы делаются между группами слов, а не между отдельными словами, причем разбиение&lt;br /&gt;
на группы определяется как смыслом, так и простотой произношения (сравните, например, звучание фрагментов «открыть&lt;br /&gt;
окно» и «словообразование», произносимых в обычном темпе).&lt;br /&gt;
По этой причине базовой единицей при распознавании речи&lt;br /&gt;
является не слово, а речевой фрагмент (в англоязычных источниках – utterance). Важную роль в выделении речевых фрагментов играет обнаружение пауз (silence detection). Без правильного&lt;br /&gt;
обнаружения пауз невозможно корректное разбиение речевого&lt;br /&gt;
сигнала на речевые фрагменты, а значит, и корректное распознавание. Из сказанного следует, что системы распознавания&lt;br /&gt;
речи весьма чувствительны к шумам, особенно к таким, которые&lt;br /&gt;
система может «перепутать» с речевым сигналом.&lt;br /&gt;
&lt;br /&gt;
Речевые фрагменты объединяются в речевой корпус – собрание вариантов произношения различных речевых фрагментов.&lt;br /&gt;
При составлении речевого корпуса необходимо учитывать, что&lt;br /&gt;
произношение зависит от множества параметров, самыми важными из которых являются пол, возраст и особенности диалекта.&lt;br /&gt;
Все системы распознавания речи весьма чувствительны к произношению (что особенно заметно при работе с иноязычными&lt;br /&gt;
вариантами). Составители речевых корпусов в первую очередь&lt;br /&gt;
учитывают особенности произношения различных групп оригинальных носителей языка. Впрочем, создаются и специализированные речевые корпусы для иностранных носителей. На основе речевого корпуса строится акустическая модель, которая статистически описывает речевые фрагменты и соответствующие&lt;br /&gt;
им текстовые переводы. Акустическую модель можно рассматривать как «словарь», с помощью которого система переводит&lt;br /&gt;
аудиозапись в текстовую форму.&lt;br /&gt;
&lt;br /&gt;
Если бы распознавание речи зависело исключительно от распознавания отдельных слов, надежность такой системы была&lt;br /&gt;
бы невелика (даже человек не всегда способен распознать&lt;br /&gt;
речевые фрагменты вне контекста). Для правильного распознавания речи система должна располагать данными о семантической структуре вводимого текста. Такие данные предоставляет грамматика распознавания речи. По своей структуре грамматики распознавания речи более всего похожи на грамматики&lt;br /&gt;
формальных языков и, соответственно, лучше всего проявляют&lt;br /&gt;
себя в тех областях, где вводимые речевые данные подчиняются&lt;br /&gt;
формальным правилам. Акустическая модель и речевая грамматика – это тот набор сведений, с которым работают конечные&lt;br /&gt;
системы распознавания речи.&lt;br /&gt;
&lt;br /&gt;
Теперь нам нетрудно понять, почему системы распознавания команд более просты в реализации и более устойчивы в работе, чем системы диктовки. Во-первых, объем речевого корпуса,&lt;br /&gt;
требуемый для распознавания команд, гораздо меньше объема, необходимого для распознавания произвольного текста,&lt;br /&gt;
а во-вторых, произнося команды и последовательности чисел,&lt;br /&gt;
мы очень четко разбиваем их на речевые фрагменты.&lt;br /&gt;
&lt;br /&gt;
===Алгоритмы===&lt;br /&gt;
&lt;br /&gt;
В основе алгоритмов распознавания речи лежат скрытые марковские модели (а сам речевой сигнал рассматривается как марковский процесс). Представим себе систему, которая в каждый&lt;br /&gt;
момент времени находится в одном из возможных состояний&lt;br /&gt;
(общее число которых конечно). С течением времени система&lt;br /&gt;
либо остается в том же состоянии, либо переходит в другое; при&lt;br /&gt;
этом каждый переход между двумя состояниями, в том числе&lt;br /&gt;
«переход» из данного состояния в него же, имеет определенную&lt;br /&gt;
вероятность. Последняя зависит только от текущего состояния&lt;br /&gt;
системы, но не от предыдущих состояний.&lt;br /&gt;
&lt;br /&gt;
Состояния, в которых находится система, скрыты от нас,&lt;br /&gt;
но мы можем наблюдать изменение значений некоторого параметра, который зависит от состояния системы. Каждое значение&lt;br /&gt;
скрытого состояния соответствует, в общем случае, нескольким&lt;br /&gt;
значениям наблюдаемого параметра (каждой паре «скрытый&lt;br /&gt;
параметр – наблюдаемый параметр» присвоена определенная&lt;br /&gt;
вероятность), и одно и то же значение наблюдаемого параметра&lt;br /&gt;
может соответствовать нескольким скрытым параметрам. Задача,&lt;br /&gt;
которую при распознавании речи решают с помощью скрытых&lt;br /&gt;
марковских моделей, заключается в том, чтобы, имея описание системы и зная последовательность значений наблюдаемого параметра, найти наиболее вероятную из соответствующих&lt;br /&gt;
ей последовательностей значений скрытого параметра. Данные,&lt;br /&gt;
которые обрабатывает скрытая модель Маркова при распознавании речи, представляют собой результат кепстрального преобразования, примененного к входным аудиоотсчетам.&lt;br /&gt;
&lt;br /&gt;
Кепстральное преобразование (русский термин происходит&lt;br /&gt;
от английского cepstral transform и, судя по всему, стал уже общеупотребительным в соответствующих кругах) можно получить,&lt;br /&gt;
применяя преобразование Фурье к результатам преобразования&lt;br /&gt;
Фурье исходных данных. Компоненты результирующего вектора&lt;br /&gt;
позволяют судить о том, как меняется спектр частот исходного сигнала (при распознавании речи нас интересуют не сами&lt;br /&gt;
значения частот речевого сигнала, которые у каждого человека&lt;br /&gt;
свои, а изменения этих частот во времени). Таким образом можно достаточно уверенно идентифицировать речевые фрагменты&lt;br /&gt;
и даже отдельные фонемы. Важным преимуществом алгоритмов,&lt;br /&gt;
основанных на скрытых марковских моделях, является возможность сделать системы распознавания речи обучаемыми.&lt;br /&gt;
&lt;br /&gt;
Как это обычно бывает, сравнительные качества конкретных&lt;br /&gt;
систем распознавания, работающих в реальном мире, определяются не фундаментальными алгоритмами, которые у всех систем&lt;br /&gt;
одинаковые, а различными остроумными «придумками», призванными повысить надежность распознавания. В различных&lt;br /&gt;
системах используются различные варианты кепстральной нормализации (cepstral normalization), позволяющей устранить шумы&lt;br /&gt;
и искажения. Применяются и другие нормализации, цель которых&lt;br /&gt;
заключается в том, чтобы привести речевые фрагменты к единому&lt;br /&gt;
виду, не зависящему, насколько это возможно, от индивидуальных особенностей говорящего. Широко применяются различные&lt;br /&gt;
системы «догадок», основанные на общем контексте.&lt;br /&gt;
&lt;br /&gt;
===Распознавание речи и Linux===&lt;br /&gt;
&lt;br /&gt;
{{Врезка|Содержание=[[Изображение:LXF116_44_1.jpg|300px]] Рис. 1. OS/2 Warp 4 – потерянное сокровище? |Ширина=300px}}&lt;br /&gt;
&lt;br /&gt;
Историю разработки систем распознавания речи для Linux следует начать с другой операционной системы – OS/2. В сентябре 1996 года IBM выпустила OS/2 Warp 4 (Merlin) – последний аргумент в борьбе с триумфальным шествием ОС Windows.&lt;br /&gt;
OS/2 Warp 4 была весьма продвинутой системой: например, механизм «перетащить и бросить» был поднят на невиданную для&lt;br /&gt;
тех времен высоту. Если вы хотели изменить цвет одного из элементов рабочего стола OS/2, все, что вам требовалось сделать –&lt;br /&gt;
выбрать нужный цвет в палитре и перетащить его на желаемый&lt;br /&gt;
элемент (точно так же можно было изменять шрифты). Помимо&lt;br /&gt;
прочего, OS/2 была снабжена системой распознавания речи –&lt;br /&gt;
неплохой результат для ОС, способной работать на процессоре 80486 (однако по собственному опыту могу сказать, что на 486м OS/2 работала очень медленно, тогда как Windows 95 «бегала» вполне сносно [''не совсем так - дело в том что для нормальной работы OS/2 надо было минимум 8Мб оперативной памяти, а для Windows95 достаточно было 4х, но при установке 8Гб и более системы показывали одинаковую производительность нп одном и том же оборудовании, а стабильность OS/2 была ни в пример выше'']). Вскоре OS/2 сошла со сцены (хотя формально&lt;br /&gt;
IBM поддерживала ее до 2006 года), но многие ее компоненты&lt;br /&gt;
продолжили независимое существование. Одним из них был движок распознавания речи, который превратился в самостоятельный продукт под именем ''IBM Viavoice''. Поскольку благосклонность IBM обратилась на Linux, нет ничего удивительного в том, что ''Viavoice'' был портирован на эту ОС. Так Linux одним махом обзавелась передовой для своего времени технологией распознавания речи.&lt;br /&gt;
&lt;br /&gt;
Впрочем, судьба нового движка складывалась не так, как хотелось бы сторонникам Linux. ''IBM Viavoice'' для Linux распространялся бесплатно, но исходные тексты так и не были открыты&lt;br /&gt;
(хотя одно время IBM распускала слухи о том, что сделает это).&lt;br /&gt;
Позднее права на технологию ''Viavoice'' были проданы компании&lt;br /&gt;
Nuance – разработчику самого успешного пакета распознавания речи ''Dragon Dictate'' (в настоящее время – ''Dragon Naturally Speeking''). Официальное распространение ''Viavoice'' для Linux прекращено, однако за то недолгое время, в течение которого&lt;br /&gt;
''Viavoice'' был доступен линуксоидам, к этому движку было создано немало программ-интерфейсов, самым известным из которых&lt;br /&gt;
был, пожалуй, ''XVoice''. В принципе, вы можете найти и установить эту программу и сегодня, однако зависимость от двоичных&lt;br /&gt;
пакетов, собранных несколько лет назад, означает, что у нее нет будущего.&lt;br /&gt;
&lt;br /&gt;
{{Врезка|Содержание=[[Изображение:LXF116_45_1.jpg|200px]]  Рис. 2. ''XVoice'': душераздирающее зрелище, но не из-за угловатого интерфейса, а по причине отсутствия перспективы|Ширина=200px}}&lt;br /&gt;
&lt;br /&gt;
Чтобы ориентироваться в мире открытого ПО, предназначенного для распознавания речи, необходимо помнить один из основополагающих принципов архитектуры Linux – разделение движка и интерфейса. Наиболее интеллектуальную работу выполняет программа-движок, которая обычно представляет собой немногословное консольное приложение. Взаимодействие с пользователем обеспечивает программа-интерфейс. Создание программыинтерфейса не представляет особых проблем, основные усилия&lt;br /&gt;
должны быть направлены на разработку открытых движков,&lt;br /&gt;
выполняющих само преобразование речи в текст.&lt;br /&gt;
&lt;br /&gt;
===''VoxForge''===&lt;br /&gt;
&lt;br /&gt;
Построение хорошей акустической модели распознавания речи&lt;br /&gt;
требует наличия хорошего речевого корпуса. По понятным причинам, полностью открытая система распознавания речи должна&lt;br /&gt;
использовать открытый речевой корпус. Вместе с тем, речевой&lt;br /&gt;
корпус – это не то, что может создать отдельный разработчик&lt;br /&gt;
или даже небольшой коллектив: для этого необходимо собрать&lt;br /&gt;
и обработать записи множества людей. На первый взгляд может&lt;br /&gt;
показаться, что решение подобной задачи группе разработчиков&lt;br /&gt;
открытого ПО не по плечу, но это не так. На помощь приходит&lt;br /&gt;
Интернет, а точнее – то, что сейчас модно называть Web 2.0. При&lt;br /&gt;
нынешнем распространении сетей организовать сбор записей&lt;br /&gt;
среди потенциальных пользователей систем распознавания речи&lt;br /&gt;
совсем не сложно.&lt;br /&gt;
&lt;br /&gt;
Именно этим и занимается проект ''VoxForge'' (http://www.voxforge.org). Он позволит вам приобщиться к созданию открытых систем&lt;br /&gt;
распознавания речи даже в том случае, если вы ничего не знаете&lt;br /&gt;
об автоматическом распознавании и вообще не умеете программировать. Все, что требуется от рядовых участников проекта –&lt;br /&gt;
записать и отправить на сайт проекта небольшой фрагмент речи.&lt;br /&gt;
Фактически, для того, чтобы участвовать в составлении базы&lt;br /&gt;
данных ''VoxForge'', вам не обязателен даже компьютер – запись&lt;br /&gt;
можно передать по телефону, хотя удобнее, конечно, воспользоваться ПК. Для создания аудиозаписи можно использовать любую&lt;br /&gt;
звукозаписывающую программу или специальный апплет ''Java'',&lt;br /&gt;
доступный на сайте проекта. Подключаем микрофон, убеждаемся, что никакие посторонние шумы не препятствуют качественной&lt;br /&gt;
записи, и произносим в микрофон требуемую фразу. Разумеется,&lt;br /&gt;
помимо собственно аудиозаписей, речевой корпус должен включать дополнительную информацию – прежде всего, фонетическую транскрипцию, без которой речевая запись буквально не имеет смысла для системы распознавания.&lt;br /&gt;
&lt;br /&gt;
Впрочем, механизм построения речевого корпуса, основанный на усилиях добровольцев, тоже не идеален. Как отмечалось выше,&lt;br /&gt;
для построения хорошего речевого корпуса важна репрезентативность выборки, а в проекте, где аудиозаписи добавляются добровольцами, сформировать репрезентативную выборку трудно.&lt;br /&gt;
&lt;br /&gt;
{{Врезка|Содержание=[[Изображение:LXF116_45_2.jpg|300px]] Рис. 3. Менеджер ''Simon'' – лицо ''Julius''. |Ширина=300px}}&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
Помимо самих речевых корпусов и программных моделей, на сайте ''VoxForge'' есть пакет ''QuickStart'', позволяющий оценить&lt;br /&gt;
технологию в деле. В него входит открытый движок распознавания речи ''Julius'', а также необходимые файлы акустической модели и грамматики. Функциональность пакета ''QuickStart'' ограничена распознаванием отдельных команд, причем качество распознавания не очень высокое (если сравнивать с демонстрационными программами ''Sphinx 4'', о которых мы поговорим в следующем месяце). Сами разработчики объясняют невысокое качество&lt;br /&gt;
небольшим [пока что] объемом собранного речевого корпуса, так что дальнейший прогресс технологии зависит от нас.&lt;br /&gt;
&lt;br /&gt;
Сам по себе сервер ''Julius'' выполняет только перевод речи в текст, и если вы хотите, чтобы ваши команды выполнялись, вам&lt;br /&gt;
придется установить один из менеджеров окон (не путать с менед- жером окон ''X Window''!), например, ''Simon'', о котором мы также&lt;br /&gt;
поговорим в следующий раз. LXF&lt;/div&gt;</summary>
		<author><name>Crazy Rebel</name></author>	</entry>

	</feed>