бесплатно рефераты
 
Главная | Карта сайта
бесплатно рефераты
РАЗДЕЛЫ

бесплатно рефераты
ПАРТНЕРЫ

бесплатно рефераты
АЛФАВИТ
... А Б В Г Д Е Ж З И К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Э Ю Я

бесплатно рефераты
ПОИСК
Введите фамилию автора:


Машины, которые говорят и слушают

методы распознавания, то для ее решения и привлекаются высшие уровни

знания о языке (синтаксис, сематика и прагматика), а также другие

способы, обеспечивающие сужение числа альтернатив на каждом шаге

принятия решения о слове, используемые обычно в задачах искусственного

интеллекта (ИИ). В связи с этим в системах понимания говорят о

семантической точности распознавания смысла фразы, когда не все

составляющие (слова) могут быть распознаны правильно.

Перейдем к рассмотрению систем распознавания слитной речи. Как

правило, такие системы работают по принципу фонемного распознавания, от

точности которого зависит общая надежность работы системы. Одной из

наиболее интересных отечественных систем с обучением на конкретного

диктора и словарь является система, построенная в Институте кибернетики

АН УССР им. В.М.Гяуи-кова [l9,20] , развитием которой стала кооперативная

система распознавания рвчи[213.

В основу этой системы положена математическая модель речевого сигнала,

в которой каждой фонеме соответствует полученный алгоритмически (на

основе анализа текущей автокорреляции сигнала, параметров линейного

предсказания и текущего энергетического спектра) определенный набор

бинарных признаков ( двоичный код). Модель учитывает коартикуляционныв

эффекты, изменение длительности фонем и динамику интенсивности сигнала.

Модель автоматического распознавания Института кибернетики АН СССР

использует анализ сигнала посредством синтеза.

Некоторый процеср порождает из элементарных эталонных сигналов по

определенным правилам эталонную слитную речь (общий для всех слов алфавит

эталонных элементов содержит около 80 элементов кодов). Распознавание

слитной рччи сводится к необходимости нахождения наиболее правдоподобного

эталонного сигнала слитной речи.

21

В этой модели автоматически находятся границы отдельных фонем, паузы,

тип и общее количество фонем в распознаваемой последовательности о

учетом априорной вероятности частоты встречаемости фонем. Эталонный сигнал

слитной речи формируется из эталонных сигналов отдельных слов путем

нелинейного преобразования исходных словесных эталонов. При этом

эталонные сигналы слов складывались в эталонную слитную речь так, что

паузы между словами имели различную длительность (в том чис/ie и

нулевую),а длительность элементов фразы изменялась плавно. Параметрами

грамматики, порождающей эталонные фразы, являлись: алфавит эталонных

элементов, акустике-фонетические транскрипции слов, правила стыковки слов

во фразе, правила нелинейной деформации сигналов вдоль оси времени и

некоторые другие параметры.

Для экспериментов по распознаванию слитной речи ( словарь включал 200

слов) были получены 1000 реализации этих слов, произнесенных одним

диктором (обучающая выборка). При испытаниях система дала 0,5% ошибок и 3%

отказов при распознавании слов в слитном потоке. Расширение словаря до 300

слов увеличило количество ошибок до 1%, причем отказов было 3,5%. При

экспериментах со словарем из 100 слов удалось получить время

распознавания (на ЭВМ БЭСМ-6), равное I с на I слово [193 • Отметим,

что близкий к этому метод используется в системах распознавания слитной

речи (СРСР), разработанных в Отделе вычислительной науки

исследовательского центра фирмы 1УЫ. В связи с тем, что данная фирна

(так же, как и фирма Sperry Univac ) активно занимается

исследованиями по распознаванию слитной речи после завершения проекта

arpa , рассмотрим эти работы более подробно.

В С39] описана СРСР, в основе которой лежит модель акустического

канала, обеспечивающая автоматическое порождение всех возможных

поверхностных форм предполагаемого высказывания совместно с

вероятностями их порождения. Это порождение осуществляется с помощью

акустико-фонологических правил (АФП).приложенных к базовой цепочке

высказывания. АФП учитывают в слитной речи такие фонологические явления,

как пропуски, вставки и замены отдельных фонем внутри слов, повышенный тон

речи, диалектные особенности, изменения на стыках слов и т.д.

Удобной структурой для выражения поверхностных форд высказывания

явился направленный граф, дуги которого помечены возможными звуками.

Каждому узлу графа соответствует распределение вероятностей, указанных на

выходящих дугах. Дуги на концах графа, соответствующего совокупности всех

поверхностных форм произнесен-

22

ного слова, имеют связанные с начальными и конечными состояни-яни условия

соединения, определяемые фонологическими явлениями на стыках слов.

Язык системы определяется автоматной грамматикой, представленной графом

и включающей 250 слов. Для распознавания использовался лингвистический

декодер-алгоритм последовательного декодирования, обеспечивающий

нахождение предложения о максимальной апостериорной вероятностью по

последовательности цепочки фонем, поступающих с выхода специального

акустического процессора. Точность декодирования высказываний на

контрольной выборке составила (по данным на август 1977 г.) 95% при 6%

ошибочной интерпретации, которые были вызваны 0,6% ошибок неправильного

распознавания слов. Следует отметить, что рассматриваемая система

была сияьно модифицирована за последние три года: упрощен акустический

процессор, с которого быви сняты функции фонемной сегментации и

маркировки. Сказалось возможным, используя алфавит из 33 фонем,

маркировать ими десятимиллисвкундные отрезки речевого сигнала

непосредственно по акустическим данным.Преимущество такого представления

авторы работы [Ю5Д видят в том, что, во-первых, информация о

звуке,распределенная по длине фонем, оказывается более полезной для

распознавания, так как при этом возрастает количество информации,

поступающей от акустического процессора к лингвистическоу декодеру. Во-

вторых, сегментация и маркировка (принятие решения о звуке) разнесены

во времени, и лингвистический декодер может, основываясь на структуре

отдельных слов, во время сравнения решить, представляет ли короткая

маркированная цепочка десятимиллисекунцных сегментов истинный звук или

же это - ошибочная ложная ставка.

Дальнейшее совершенствование сантисенундного акустического процессора (

asAJ ) за счет использования 45 эталонных фонетических меток вместо 33

позволило повысить точность классификации (на языке со словарем из 250

слов) до 98,8% на контрольном материале 100 предложений [l07] . Следует

отметить, что еще более совершенный процессор ( wbap ), на котором

получены наилучшие результаты распознавания (0% ошибок), использует лишь

пять параметров, один из котррых - кратковременные изменения общей

энергии сигнала, а четыре - отражают параметры гласных и описаны ранее

в [l4l] . Этот процессор осуществляет акустическое сравнение

непосредственно, используч величины акустических параметров, а не

фонетические метки, связанные с сантисекундными отрезками. Для каждого

слова используется модель с конечным числом состояний, которая

порождается алгоритмически из отображенного

23

произношения. Число состояний модели равно длине этого произнесения в

сантисекундах. В модели обеспечиваются переходы из состояния к этому же

состоянию, к соседнему и через одно.С каждым переходом связано пятимерное

гауссовское распределение в пространстве первичных параметров. Средние

значения и дисперсии выходных распределений, а также переходные

вероятности формируются автоматически при обучении на дополнительных

реализациях слов при формировании обобщенных эталонов с помощью алгоритма

Вктер-би [39].

В процессоре wbap используемая статистика основана скорее на

особенности слов, чем на особенности звуков.

Следует отметить, что за I976-I978 гг. предпринимались попытки

увеличить объем используемого в СРСР фирмы IBh словаря до 1000 слов

(тезаурус лазерных патентов). Предварительные результаты испытаний этой

системы описаны в [106} . На тестовом множестве фраз, куда входило

486 слов, ошибка распознавания слов составила 33,1%, причем ни одна из

й0 контрольных фраз не была определена правильно - программа распознавания

делала ошибку хотя бы в одном слове каждой фразы. Развитие этой системы

[107] позволило за счет увеличения числа фонетических меток до 52

снизить ошибки в распознавании слов до 20%.

В [108,109] рассмотрены дальнейшие улучшения этой системы, позволившие

уменьшить число ошибок при распознавании слов за счет использования

более совершенного сантисекундного акустического процессора сзар-зоо,

в котором число эталонных фонетических меток было расширено до двухсот.

При распознавании 50 п"едл°жений, включающих 980 слов, неверно распознано

87 слов, в числе которых 34 слова, составившие односложные слова типа

"of", " а ", " are ","as" и др. Переход к работе этой системы с

множеством дикторов описан в [l59]. Работа с новыми дикторами

реализована за счет использования автоматической селекции акустических

эталонов, выполняющейся двумя различными способами.Один из методов, в

основе которого лежит процедура Витерби С 39], реализован с помощью

сантисекундного акустического процессора TPIVIAI [l07], а другой,

основанный на алгоритме кластеризации, использует акустический

процессор autociust. (В первом методе использовалось 85 эталонов, во втором

- 20D.) Точность распознавания слов составила при использовании первого

алгоритма 65%, а второго - 90%. В 1983 г. была публикация одной фирмы

о распознавании словаря деловой переписки общим объемом 5000 слов.

Над проблемами распознавания слитной речи продолжает работать фирма

Sperry Univas, участвовавшая в проекте АЙРА. Эта

24

фирма разработала с"стему автоматического распозньвания слов,словосочетаний

и естественных предложений {l74] . На основе спектрального анализа и

линейного предсказания в спектральной об-дасти звуки классифицировались

по способу и месту образования. Система была испытана на словаре из 31

слова двумя дикторами. Точность распознавания изолированных слов при

использовании синтаксиса задачи составила 95%. Предварительные результаты

по распознаванию слитной последовательности слов, произносимые тремя

дикторами, составили от 54 до 74% для задачи с ограничечным порядком

следования слов. Предполагалось, что в дальнейшем будут использованы

акустико-фонетичзские и фонологические правила, нормализация дикторских

произношений, просодические характеристики речи. Предполагалось также, что

будут использованы более сложные процедуры для синтаксического и

семантического анализа. В 1977 г. система работала с двумя словарями -

из 36 (алфавит-но-цифровой словарь) и 64 слов (словарь речевого

управления) [123, 153] . Для обоих словарей точность распознавания

составила 95^, а средней точности распознавания слитялс словосочетаний -

88%.Дальнейшие разработки включали расширение словарного состава системы,

числа типов предложений, использование правил фонетической и словесной

верификации.

В [l54] сообщается, что система Sperry Univac. была модернизирована

для поиска и верификации ключевых слов в потоке слитной речи. В этой

системе использовались измеряемые на деся-тимиллисекундных интервалах

параметры речевого сигнала, проведшего через телефонный канал.

Исследователями был выбран достаточно мощный набор параметров-

Непосредственно по речевой волне определилась частота основного тона.

Спектральный анализ с помощью быстрого преобраэозания Фурье (БПД) позволял

получить следующие признаки речевых отрезков: общую энергию в полосе

100 -8600 Гц, энергию сонорных (100 - 3000 Гц), высокочастотную энергию

сонорных (650 - 3000 Гц), низкочастотную энергию (JOO - 600 Гц), разность

энергий низких и высоких частот 1

кГц) диапазонах. Эти параметры выделяются в реальном масштабе времени из

сигнале, поступающего с АЦП в мини-ЭВМ, которая обладает средним

быстродействием 600 тыс. операций в I с. Параметры (число нулевых

пересечений и амплитудное значение сигнала на интервале анализа для каждого

из диапазонов) формируются программно, и их значения дают возможность грубо

классифицировать сегменты на 10 различных типов - пауэы (глухая смычка),

наличие звонкой смычки, характеризующие звонкие взрывные б, д,г, сонорный

согласный, глухой фрикативный (переднеязычный или заднеязычный), носовой,

свистящий, гласный высокого иди низкого подъема. В дальнейшем

производится пере классификация сегментов на 59 классов, некоторые из них

пересекаются в пространстве признаков.

На второй стадии к среднему участку сегментов применяют сравнение с

эталонами (этих эталонов для каждого класса сегментов может быть до 100).

При сравнении средний участок сегмента по-ступившей на вход реализации

сравнивается с множеством эталонов, которые подучены от специально

обученных дикторов. Использование сегментации I уровня позволяет, как

отмечается в [l79], ускорить общую сегментацию в пять раз по сравнению

с унифицированной, основанной .исключительно на коэффициентах линейного

предсказания.

Как уже отмечалось, ключевой проблемой систем понимания Речи является

верификация сдоврсиьк гипотез.подожданных различ-иыми источниками знаний.

Блок словесной верификации должен оце-нвдь, насколько акустические данные

входной реализации соответствуют фонетической транскрипции

гипотезируеного слова.

2S

В соответствии с оценкой, словесный верификатор отбрасывает

большее числе гипотезированных слов, сохраняя возможные пра~ вильные, чтобы

впоследствии отобрать единственное с помощью инфор~ мации высших уровней.

В Hearsay -П слова порождаются либо словесным гипотезато-ром снизу

вверх (блоком POMOW), либо преде называются сверху вниз семантико-

синтаксическим блоком sass . Блок словесной верификации wizard

обрабатывает гипотезы о словах снизу вверх, используя акустическую

информацию и результаты автоматической сегментации. Каждый сегмент

высказывания представлен вектором фонемных вероятностей (т.е. с каждым

отрезком высказывания связываются определенные звуки, которым

присваиваются некие веса), Каждое слово словаря записывается эталонным

графом возможных фонетических произнесений, учитывающим все

альтернативные варианты произнесений. Однородная модель, используемая

блоком словесной верификации, дает возможность найти оптимальное совпадение

одного из эталонов (соответствующее пути на одном из эталонных графов) и

участка входной реализации, соответствующего слову.

В системе Hearsay-П при словесной верификации стыки между словами не

рассматриваются, делается лишь их внутренняя обработка. wizard пытается

верифицировать слова, как будто они находятся в изоляции.

При верификации слова обрабатываются снизу вверх следующим образом:

предсказанные моменты начала и конца слова связываются с

соответствующими сегментами высказывания bseg и eseg. Исследуются все пути

в эталонных графах возможных слов, которые совпадают с отрезками и

входной реализацией. Сравниваются с эталонами отрезки, которые начинаются

в (baeg-I: beeg +I ) и заканчиваются в jeseg -I I eeeg +I(, т.е.

параллельно рассматриваются девять возможных участков высказывания,

что приводит к девяти оптимальным путям на эталонных графах, из

которых выбирается тот. оценки которого наибольшие, или наиболее

соответствуют рассматриваемому участку. Сдвиг на один сегмент вправо

или влево позволяет избегать ошибок при представлении входного,

высказывания (акустических данных) различными источниками знаний. В

результате блок словесной верификации может изменять время словесных

гипотез, а также их оценки. Следует отметить, что если в проектах ВШ

(Speechlis и HWIM) идет непосредственный переход от фонетического

описания к словесному, то в Hearsay-П используется еще промежуточный,

слоговый уровень между словами и звуковыми сегментами. Для поддержки

словесных гипотез используются так называемые типовые слоги, слоготипы

(syltypes).

Ццея слоготипов сводится к тому, что слоги, имеющие похожие сегменты

(например "та", " па"), относятся к одному типу. Никаких попыток различать

слова с одинаковыми слогами в Нвагвау-П не делается. Каждый слоготип

характеризуется слоговым ядром, определяемым эвристически присвоенными

сегментными метками и положением максимума энергии на отрезке. Для каждого

слоготипа гипотези-руются слова, в которых встречается данный слог;

многосложные слова отбрасываются, если плохо согласовываются о

последовательностью слоготипов. Подробное описание слогового гипотезатора

pokow содержится в С 1783.

В Неагаау-П содержится еще один гипотезатор - гипотеза-тор словесных

последовательностей wozeq. В сравнении со стратегией однословных "островков

надежности" многословная последовательность желательна по двум причинам:

1) доверие к гипотезе о последовательности сдов более высоко, чем в

однословной гипотезе;

TOPIG S, 6 : CACTIOH : PASS,

LEVEL : 40)

и определяет класс возможных предметов разговора (.Topice) в терминах их

семантических подклассов.

Как уже упоминалось, sass имеет набор сильных и слабых средств,

представляющих различные виды обработки информации на синтаксическом и

семантическом уровнях.

1.Правило распознавания порождает гипотезу о фразе по достаточно

надежным гипотезам о составляющих фразы. sass рассматривает слова

распознанными, если их оценки (в очках), определенные другими источниками

знанчй, превышают некий порог. Составляющие фразы должны также

удовлетворять некоторым структурным требованиям - например, таким, как

временная смежность между составляющими. Правила распознавания ведут

обработку снизу вверх, двигаясь от частичного грамматического разбора к

полному. Они представляют собой сильные средства обработки (сила

оценивается вероятностью того, что последовательность распознанных

составгчющих может как-то осмысленно интерпретироваться) .

2. Правила предсказания гипотезируют сио-во или фразу в зависимости от

вероятности контекста, определенного на предыдущих этапах распознавания

высказывания. Правила предсказания выполняют обработку, перекрывая

временной ин-Тврвая "островками надежности". Эти правила необходимы

потому, что не все слова в произнесенном высказывании могут быть рас-

чознаны снизу вверх, т.е. источниками знаний нижних уровней. ^ияа правила

предсказания определяется условной вероятностью того, что предсказанные

составляющие могут быть в высказывании при

Денном (распознанном ранее) контексте, ата сила обратно пропор-'тонаяьна

числу составляющих,которые могут появиться в этом контексте.

Зак.480

3. Правила повторного разбора ( res-pelling rules ) производят

обработка7 сверху вниз и численно оценивают составляющие предскапанной

фразы, разбивая гипотезируемое предложение на гипотезы для последовательных

составляющих или же "расщепляя" гипотезируемый класс на альтернативные

гипотезы для различных составляющих высказывания. Правила повторного

разбора (прочтения) проводят обработку, возвращаясь к словесному уров. ню,

так что предсказание (о фразе) верхнего уровня может быть подвергнуто

испытанию (слово за словом) источниками знаний нижнего уровня, если на

верхнем уровне что-то не сходится.

4. Правила постдикции несЭходимы для того, чтобы уже после сформирования

понятия подтвердить его большим числом "очков доверия", дать ему более

высокую оценку, подтвердив существующую гипотезу о фразе другими

гипотезами. Правила постдикции как более сильные включают правила

предсказания и повторного прочтения, которуе слишком слабы, чтобы

подтвердить создание гипотезы, но могут внести полезный вклад, когда

гипотеза уже существует. Правила постдикц^и выполняют три функции:

а) позволяют объединять выводы, поддерживающие оцениваемую гипотезу на

основе различных источников знаний;

б) дают воамсвность гилотеэирсвать слова и фразы с низкими

первоначальными оценками за счет их распознавания на основе контекста»

в) способствуют фокусированию внимания на главных направлениях,

определяемых возрастанием очков гипотез тех слов, которые контекстуально

возможны (и таким ооразом могут считаться правильными), так что

обработка высказывания в этих направлениях происходит по списку

приоритетов в первую очередь.

Автоматическое превращение описательной информации о грамматике языка

-Hearsay- П , заданной параметрическими структурными представлениями (

psr), в процедурную форму осуществляет ком-пиллятор суытет , который

транслирует эти представления в правила распознавания, предсказания,

повторного прочтения и постдикции. cvshet разбивает последовательности

слов, составляющих высказывания и представленных PSR, на пары

последовательных эталонов, формируя новые подпоследовательности и порождая

для них соответствующие правила [ 13Й 3 .

Одна из самых интересных систем автоматического распознавания слитной

речи - система harfy, разработанная по проекту arpa (США, Питсбург). Эта

система по сравнению с другими разработками, проводившимися по этому

проекту [l5lj,наиболее близка к практическому использованию. Словарь

Страницы: 1, 2, 3


бесплатно рефераты
НОВОСТИ бесплатно рефераты
бесплатно рефераты
ВХОД бесплатно рефераты
Логин:
Пароль:
регистрация
забыли пароль?

бесплатно рефераты    
бесплатно рефераты
ТЕГИ бесплатно рефераты

Рефераты бесплатно, реферат бесплатно, сочинения, курсовые работы, реферат, доклады, рефераты, рефераты скачать, рефераты на тему, курсовые, дипломы, научные работы и многое другое.


Copyright © 2012 г.
При использовании материалов - ссылка на сайт обязательна.