Выпускная работа па «Асновам інфармацыйных тэхналогій»




старонка1/2
Дата канвертавання17.03.2016
Памер388.71 Kb.
  1   2


БЕЛаРУСКІ ДЗЯРЖАЎНЫ ЎНІВЕРСІТЭТ

На правах рукапісу

УДК [004.522+004.934+004.91]:004.89

Скопінава

Алена Мікалаеўна

Сінтэз маўлення па тэксце і ІТ

Выпускная работа па


«Асновам інфармацыйных тэхналогій»

Магістранта кафедры прыкладной і матэматычнай лінгвістыкі спецыяльнасці

Спецыяльнасць: 1-21 80 07 – прыкладная і матэматычная лінгвістыка

Навуковы кіраўнік:


кандыдат тэхнічных навук Елісеева В.Я.

Навуковыя кансультант:


кандыдат тэхнічных навук Гецэвіч Ю.С.
Мінск 2012

ЗМЕСТ


ЗМЕСТ 2

УВОДЗІНЫ 3

Глава 1
АГУЛЬНЫ АГЛЯД ТЭХНАЛОГІІ СІНТЭЗУ МАЎЛЕННЯ ПА ТЭКСЦЕ 5

1.1 Экскурс у гісторыю сінтэзу маўлення па тэксце 5

Глава 2
ВЫКАРЫСТАННЕ СІНТЭЗАТАРАЎ МАЎЛЕННЯ ПА ТЭКСЦЕ 21

2.1 Прымяненне тэхналогій СМТ увогуле 21

ЗаключЭННЕ 23

БІблІЯграфІчНЫ спІС 24

дадатак А 26

Прадметны паказальнік да рэферата 26

дадатак Б 27

Інтэрнэт рэсурсы ў прадметнай вобласці даследавання 27

ДАДАТАК В 28

Дзейсны асабісты сайт 28

дадатак Г 29

дадатак E 31

Прэзентацыя магістарскай дысертацыі 31




УВОДЗІНЫ


Звычайная камунікацыя паміж людзьмі адбываецца праз голас і слых. Гэты спосаб узаемадзеяння пажаданы і для чалавека-машынных адносінаў. Добра, калі камп’ютар выканае нейкую каманду, зададзеную чалавекам, а ў канцы выканання паведаміць пра вынікі яе выканання. Таксама для шырокага кола карыстальнікаў будзе вельмі зручным, калі камп’ютар агучыць нейкі загадзя падрыхтаваны тэкст (літаратурны твор, паведамленне пра стан надвор’я з інтэрнэту, sms, e-mail і інш.). Рашэнне задач сінтэзу маўлення па тэксце дазваляе пабудаваць падобныя класы прыстасаванняў.

У апошні час сістэмы сінтэзу маўлення дасягнулі пэўнай дасканаласці і ўжо шырока выкарыстоўваюцца: камп’ютар спявае па тэкстах і нотах [1], чытае электронныя кнігі і субтытры да фільмаў [2], агучвае праграмы для інвалідаў па зроку [3]. Ужо існуюць сінтэзатары англійскага, нямецкага, французскага, рускага, польскага, украінскага і інш. маўлення па тэксце [2].

Сёння вельмі часта можна пачуць, што праблема сінтэзу маўлення ўжо вырашана або што яна амаль вырашана. Але калі справа даходзіць да сапраўднага прымянення сінтэзатараў маўлення да адвольных тэкстаў шырокай тэматыкі і сфер прымянення (навуковая, тэхнічная, юрыдычная і інш.), то паўстаюць праблемы расшыфроўкі тэкстаў у арфаграфічны выгляд і іх правільнага інтанацыйнага афармлення ў агульным выпадку [4].

Для любой мовы, у тым ліку для беларускай і рускай, вельмі неабходны добра распрацаваны блок лінгвістычнай апрацоўкі тэкстаў, паколькі любы карыстальнік хоча падаваць на ўваход сінтэзатара маўлення адвольны звязаны тэкст, а не асобныя словы. На дадзены момант патрабаванні да гэтага блоку вельмі высокія. Ставяцца задачы апрацоўкі як асобных арфаграфічных слоў з выбарам правільнага варыянту прамаўлення, так і карэктнай апрацоўкі лікаў, абрэвіятур, словазлучэнняў і інш. літарна-сімвальных канструкцый, якія часта выкарыстоўваюцца ў тэкстах для скарачэння або ўмоўнага пазначэння інфармацыі [5].

Цяперашнія падыходы лінгвістычнай апрацоўкі тэкстаў базуюцца галоўным чынам на вырашэнні дзвюх складаных задач: 1) правільнае выдзяленне моўных адзінак з тэксту; 2) інтэрпрэтацыя моўных адзінак для вызначэння пастаноўкі націска і інтанацыі ў раскадаваных арфаграфічных паслядоўнасцях [6]. Гэтыя задачы блізкія да задач распазнавання сэнсу тэксту, а значыць – блізкія да задачы пабудовы штучнага інтэлекту [7].

Напрыклад, як запраграмаваць камп’ютар, каб ён правільна расставіў націскі ў сказе «Казачка распавяла казачку адважнаму казачку.»? Як правільна вызначыць, напрыклад, сапраўдны канец і пачатак сказа, калі сімвал кропкі /./ выкарыстоўваецца то як знак раздзялення разрадаў у даце (20.12.2011), то як раздзяляльнік разрадаў у ліках (1.000.456), то як сімвал скарочанасці слова (і інш.) і як сімвал завяршэння сказа? Як інтанацыйна правільна прачытаць сказ (ці яго частку) з вялікай колькасцю слоў без знакаў прыпынку «Хуткім крокам Агееў прайшоў уздоўж па вуліцы і ў трэцім дамку ад рога пад шаляванай сцяной убачыў сіні «жыгуль» з насцеж расчыненымі дзверцамі і паднятым капотам.» (з твору «Кар’ер» В. Быкава)? Важна зазначыць, што праблемы лінгвістычнай апрацоўкі тэкстаў мовазалежныя. У кожнай мове мусяць прымяняцца ўласцівыя толькі ёй апрацоўкі тэксту. Бо кожная мова на тэкставым узроўні адрозніваецца не толькі лексічна (слоўнікавым складам), але і спецыфічным выкарыстаннем сімвалаў для ўтварэння слоў, сваёй пунктуацыяй у сказах. Гэта далёка не поўны спіс праблем, якія паўстаюць на шляху атрымання якаснага сінтэзаванага маўлення па тэксце.

Актуальнай навуковай і практычнай задачай у цяперашні час з’яўляецца распрацоўка алгарытмаў, рэсурсаў і праграмных сродкаў лінгвістычнай апрацоўкі тэкстаў для сінтэзу маўлення на беларускай і рускай мовах, якія б мелі высокі паказчык правільнай апрацоўкі адвольных карыстальніцкіх тэкстаў у арфаграфічныя і інтанацыйна правільна размечаныя тэксты.

Глава 1
АГУЛЬНЫ АГЛЯД ТЭХНАЛОГІІ СІНТЭЗУ МАЎЛЕННЯ ПА ТЭКСЦЕ

1.1 Экскурс у гісторыю сінтэзу маўлення па тэксце


У канцы XVIII ст. дацкі навуковец Хрысціян Карцэнштайн стварыў мадэль маўленчага тракту чалавека, якая магла прамаўляць некалькі галосных гукаў. Далей з кц. XVIII – пач. XIX cтагодздзяў шэраг прац В. Кампелена, Ч. Уітсоўна і А. Бэла дазволілі атрымаць сінтэзаванне галосных і амаль усіх зычных гукаў, а Д. Фабер рэалізаваў спробу сінтэзавання спеваў. Развіццё ў XX ст. электронікі і вылічальнай тэхнікі дазволіла атрымаць якасныя прыклады сінтэзаванага маўлення [8]. У 1930-х гг. супрацоўнікі лабараторый Бэла (Bell Labs) распрацавалі вакодэр – электронны сінтэзатар маўлення для тэлефоннай сеткі [9]. У 1960-х гг. Г. Фант распрацаваў фармантны сінтэзатар, з дапамогай якога ў будучым былі ўпершыню атрыманыя прыклады сінтэзу рускага маўлення высокай якасці Б.М. Лабанавым і іншымі [10]. На працягу 70-90-х гадоў ХХ ст. усталяваліся асноўныя метады сінтэзу маўлення: фармантны, мікрахвалевы і кампіляцыйны. У 1990-х гг. былі пабудаваныя першыя мадэлі даступных для шэраговага карыстальніка камерцыйных сінтэзатараў па тэксце, напрыклад DIGALO (www.digalo.com). У 1999 г. у Інстытуце тэхнічнай кібернетыкі (зараз АІПІ НАН Беларусі) у Мінску, быў рэалізаваны шматгаласавы сінтэз рускага маўлення па тэксце, а таксама сінтэз беларускага, польскага і ўкраінскага маўлення, а на працягу 2000-2007 гг. удакладняліся навуковыя алгарытмы распрацоўкі сінтэзатараў маўлення па тэксце для славянскіх моў [11].

У нашай краіне практычная рэалізацыя сістэмы сінтэза маўлення звязаная з распрацоўкай прыстасавання «Фанемафон-1» у 1971 годзе (малюнак 1.1). З кожнай новай версіяй якасць сінтэзаваных тэкстаў паляпшалася. Так, у 1975 годзе з’явіўся «Фанемафон-2», а «Фанемафон-3» быў прадстаўлены на выставе Telecom у Жэневе. Ён атрымаў вельмі высокія водгукі з боку іншых краін-удзельніц: Германіі, Францыі, Італіі, ЗША і г.д..



Малюнак 1.1 – Прыстасаванне «Фанемафон-1»

На Сусветным кангрэсе фанетычных навук у 1987 годзе свет пабачыў «Фанемафон-4», праца якога заснаваная на фанемна-алафомным метадзе. Таксама ў ім прадугледжвалася сінтэзаванне не толькі мужчынскім, але і жаночым голасам.

Разгледзім убудаванне сінтэзатара маўлення па тэксце.



1.2 Асноўныя паняцці, звязаныя з сінтэзам маўлення па тэксце

Сінтэзатар маўлення па тэксце (СМТ) – гэта сістэма, здольная генераваць маўленне па тэксце. На працягу апошніх дзесяцігоддзяў яна замацавалася як сістэма, якая складаецца з двух блокаў (малюнак 1.2). Гэта блок лінгвістычнай апрацоўкі тэксту да фанемнага выгляду з пазнакамі націску слоў, інтанацый (прасодыі) і рытма, а таксама блок апрацоўкі маўленчага сігналу, які пераўтварае раней атрыманы фанемны выгляд ў гукавы сігнал маўлення [6]. Схема атрымання маўлення ў сінтэзатарах па тэксце паслядоўная, таму кожны блок павінны якасна рашаць пастаўленыя перад ім задачы, каб выніковае маўленне было правільным. Разам з тым, кожны блок аперуе толькі сваімі ўваходнымі дадзенымі, алгарытмамі і ўнутранымі рэсурсамі.



Малюнак 1.1 – Агульная схема сінтэзу маўлення па тэксце


Таму кожны з блокаў можа быць разгледжаны паасобку для іх ўдакладнення і перапрацоўкі, а ўзгадняць патрэбна толькі выхад першага блоку з уваходам другога. Гэта дазваляе распрацоўшчыкам сінтэзатараў па тэксце будаваць іх «з канца»: спачатку распрацаваць блок атрымання маўлення па фанетычным кодзе, уласцівым для абранай мовы, а пасля распрацоўваць алгарытмы лінгвістычнай апрацоўкі тэкстаў абранай мовы ў фанемны выгляд. Такі падыход з’яўляецца зручным, бо падчас стварэння спачатку другога блоку распрацоўшчык вывучае асаблівасці абранай мовы, што з’яўляецца фундаментальнай апорай для фармавання неабходных апрацовак тэксту ў першым блоку.

Разам з тым, тэксты – гэта вельмі складаныя ўваходныя дадзеныя, бо хоць яны і складаюцца з канчатковага набору электронных сімвалаў, але з іх фармуюцца самыя разнастайныя сэнсавазалежныя (семіятычныя) тэкставыя паслядоўнасці.

Тэкст (па-лацінску: textus — «тканіна, сувязь, пабудова») — паведамленне, якое напісана, надрукавана (выказванне, абзац, раздзел твору і інш.) або выказана вусна, і характарызуецца сэнсавай і структурнай завершанасцю, якое можна ўзнавіць, паўтарыць у тым самым выглядзе, якое можа выступаць у якасці матэрыяла для назіранняў фактаў дадзенай мовы [12].

Натуральная мова — у лінгвістыцы мова, якая выкарыстоўваецца для камунікацыі паміж людзьмі, у адрозненне ад сканструяваных моў, напрыклад, у праграмаванні ці матэматычнай логіцы, і іншых знакавых сістэм, якія называюцца мовамі ў семіётыцы [13]. Да складанасці гэтага азначэння дадаецца таксама тое, што набор слоў і граматычныя правілы натуральнай мовы вызначаюцца практыкай прымянення і не заўсёды могуць быць зафіксаваныя на дадзены момант выкарыстання. Таму тое, што зразумела ў адным асяродку людзей, можа патрабаваць шмат удакладненняў для іншага асяродку.

Тэкстам натуральнай мовы лінгвісты называюць тэкст, які запісаны знакамі пісьма як вынік маўленчых актаў носьбітаў мовы, напрыклад, словамі з граматычнага слоўніка [5]. З азначэння бачна, што не кожны тэкст з’яўляецца тэкстам натуральнай мовы. Напрыклад, выраз «10.12.2011 г.» у звычайнай практыцы напісання ў тэксце мае значэнне выразу даты. Але ў звычайным жыцці людзі не размаўляюць паміж сабой такімі канструкцыямі (ці робяць гэта вельмі рэдка), таму гэта выраз ненатуральнай мовы [7]. Па гэтай прычыне задача лінгвістычнай апрацоўкі адвольнага тэксту ў тэкст натуральнай мовы для сферы сінтэзу маўлення з’яўляецца падобнай па складанасці да задач пабудовы штучнага інтэлекту [6, c. 57], матэматычнай ці прыкладной лінгвістыкі [14, c. 218].

Заўважым, што праблемная сфера мае некаторыя хуткія рашэнні, бо камп’ютар мае дакладна акрэслены набор сімвалаў з іх назвамі і нумарамі (кадыроўкай). Прыведзены вышэй прыклад («10.12.2011 г.») можа быць прачытаны простым алгарытмам «як ёсць», а менавіта такім чынам: «лічба адзін лічба нуль кропка лічба адзін лічба два кропка лічба два лічба нуль лічба адзін лічба адзін прабел сімвал малой літары гэ кропка». З аднаго боку, такое рашэнне дае надзею на поўную нармалізацыю тэксту да арфаграфічнага ў любым выпадку. Але такое рашэнне з’яўляецца не самым зручным, бо, па-першае, разуменне сэнсу прачытанага ўскладаецца для слухача, а, па-другое, гэтае ж рашэнне пяройдзе і на іншыя сімвалы ў тэксце, якія могуць быць арфаграфічнымі словамі, – тады такое сінтэзаванне будзе вельмі не зручным для карыстальніка.

Лінгвістычная апрацоўка тэксту – такая апрацоўка тэксту, якая рэалізуецца з дапамогай моўных сродкаў, да якіх адносяцца правілы пабудовы мовы і лінгвістычныя рэсурсы (граматычныя слоўнікі, спецыялізаваныя спісы і інш.) [11].

У літаратуры сустракаецца шмат розных апісанняў убудаванняў ЛП пры дапамозе тэкставага (ТП), фанетычнага (ФП) і прасадычнага (ПП) працэсараў, у тым ліку для беларускай і рускай моў [16]. Прывядзем агульны спіс задач лінгвістычнай апрацоўкі тэксту для СМТ:


1. Папярэдняя апрацоўка – атрыманне тэкста з файла (txt, doc, pdf, html), вырашэнне праблем кадыроўкі знакаў, шматмоўных уставак, ачыстка тэксту ад неінфарматыўных сімвалаў, пераўтварэнні тэксту, якія закранаюць значную частку сімвалаў тэксту, магчымая ідэнтыфікацыя жанру і мовы тэксту.

2. Раскладванне і фільтрацыя тэксту –



  • сегментацыя дакумента на тэкставыя фрагменты (абзацы, сказы і інш. па патрэбе мовы);

  • ачыстка кожнага тэкставага фрагмента ад неінфарматыўных сімвалаў для наступных апрацовак.

3. Такенізацыя – сегментацыя кожнага сказу на некалькі токенаў (словападобных выразаў), магчымая апрацоўка XML.

4. Аналіз токенаў, які складаецца з падзадач:



  • семіятычная класіфікацыя – класіфікацыя кожнага токена паводле аднаго з класаў натуральнай ці не-натуральнай мовы (знак прыпынку, слова, слова з дэфісам, скарачэнне, колькасць, дата, час, нумар тэлефона, грашовыя адзінкі і г.д.);

  • расшыфроўка/разбор – знаходжанне асноўных рысаў токенаў з дапамогай расшыфроўшчыка (дэкодэра) або сінтаксічнага аналізатара, характэрнага для пэўнага семіятычнага класа;

  • вербалізацыя – канвертацыя семіятычных класаў не-натуральнай мовы ў арфаграфічныя словы (дэшыфроўка лікаў і лікавых выразаў, абрэвіятур, замежных слоў, спецыяльных сімвалаў і інш.).

5. Марфалагічны аналіз – абазначэнне слоў усімі варыянтамі лексіка-граматычнай інфармацыяй, націскамі і дадатковымі пазнакамі з дапамогай лінгвістычных рэсурсаў, у тым ліку карэктыроўка літары «ё».

6. Вырашэнне праблемы амографаў – вызначэнне аднаго правільнага варыянта ЛГК і націску для слова.

7. Сінтаксічны аналіз (парсінг) – прыпісванне сказу сінтаксічнай структуры, вызначэнне словазлучэнняў.

8. Прадказанне прасодыі – спроба прадказаць прасадычную (інтанацыйную) форму для кожнага выказвання тэксту, а менавіта:



  • прадказанне прасадычнага разбіцця фразы на сінтагмы;

  • прадказанне акцэнтаванай часткі;

  • прадказанне інтанацыйнай мелодыкі.

9. Фанетызацыя:

  • пераўтварэнне «літара-фанема»;

  • пераўтварэнне «фанема-алафон».

Тэкставы працэсар вырашае задачы 1-7. Часам задачы 3 і 4 аб’ядноўваюць і называюць нармалізацыяй тэксту [6]. Яны дазваляюць атрымліваць паслядоўнасці сімвалаў, якія выкарыстоўваюцца толькі ў арфаграфічных словах ці для пунктуацыі ў сказах. Задачы 5 называюць марфалагічным, а 7 – сінтаксічным аналізам [17]. Задачы тэкставага працэсара падобныя для самых розных аўтаматызаваных ці аўтаматычных моўных сістэмаў: перакладчыкаў [17], лематызатараў, сінтаксічных аналізатараў [18]. Гэта дазваляе меркаваць, што магчыма выкарыстоўваць марфалагічныя і сінтаксічныя аналізатары з іншых сістэм пры пабудове ТП.

Прасадычны працэсар тэксту вырашае задачу 8. Ён вызначае сінтагмы, акцэнтныя адзінкі і іх тып інтанацыйнага прамаўлення кожнага сказа. Варта адзначыць, што пры дзяленні сказаў на сінтагмы асабліва важна не паставіць яе мяжу там, дзе яна можа парушыць сэнсавае ўспрыманне маўлення, напрыклад, паміж прадметам і яго прыкметай.

Фанетычны працэсар вырашае задачу 9. Ён пераўтварае фанетычны тэкст з націскамі ў фанемны, а таксама генеруе тэкставыя назвы пазіцыйных і камбінаторных алафонаў [8].

Агульная схема ўзаемадзеяння працэсараў у сучасных сінтэзатарах для ЛП базуецца на ўзаемадзеянні між сабой і з лінгвістычнымі рэсурсамі (ЛР) (малюнак 1.3) [19, с. 63].

М
алюнак 1.3 – Агульная схема блока лінгвістычнай апрацоўкі тэкстаў

Блок лінгвістычнай апрацоўкі тэкстаў прымае на ўваход файл, пераўтварае яго ў паслядоўнасць электронных сімвалаў і паступова, з дапамогай лінгвістычных алгарытмаў, выдзяляе ў іх лексічныя, граматычныя і лагічныя сувязі. У выдзеленых тэкставых адзінках абазначаюцца літары, фанемы, алафоны і інтанацыйныя контуры.

Шматмоўная сістэма сінтэзу маўлення па тэксце – сістэма, якая выкарыстоўвае агульныя алгарытмы для сінтэзу маўлення шматлікіх моў па тэкстах, а іх мовазалежныя часткі рэалізаваныя праз розныя лінгвістычныя алгарытмы і рэсурсы [5, c. 2]. Напрыклад, калі ўзяць некалькі паралельных сінтэзатараў і аб’яднаць іх у адну сістэму, то гэта яшчэ не будзе шматмоўнай сістэмай сінтэзу маўлення. Важна, каб пэўная колькасць лінгвістычных алгарытмаў (праграмных модуляў) была агульнай для аб’яднаных сінтэзатараў. Такія патрабаванні накладваюцца на сістэмы, па-першае, з-за патрэбаў спрашчэння распрацоўкі сінтэзатараў для розных моў, па-другое, для памяншэння займаемага аб’ёму файлаў сінтэзатараў на камп’ютары ў дырэкторыях устаноўкі, па-трэцяе, для памяншэння загружанасці працэсара пры выкананні сінтэзу маўлення па тэксце, які напісаны з выкарыстаннем некалькіх натуральных моў [7].

У падобных моў існуе падабенства прамаўлення слоў, сінтаксічнай будовы сказаў, блізкасць літарна-сімвальных мностваў для пабудовы тэкстаў і інш. [16]. У той жа час калі ёсць хоць невялікае разыходжанне ў любым лінгвістычным аспекце любой мовы адносна іншай мовы (табліца 1.1), то адразу ж ўскладняецца магчымасць пабудаваць комплекс ўніверсальных лінгвістычных алгарытмаў апрацоўкі тэкстаў для гэтых моў.

Табліца 1.1 – Галоўныя раздзелы лінгвістычнай структуры мовы

Узровень

Адзінка вывучэння

Прагматыка

значэнне ў кантэксце дыялога

Семантыка

наўпростае значэнне словазлучэнняў і сказаў

Сінтаксіс

словазлучэнні і сказы

Марфалогія

словы

Фаналогія

фанемы

Фанетыка

гукі

Варта адзначыць, што для розных моў ступень важнасці тых ці іншых задач у ЛП для СМТ розная. Для правільнай апрацоўкі рускага тэксту інтанацыйным працэсарам неабходна мець дадзеныя пра словы, становішча ў сказе і ўзаемадзеянне з інш. словамі сказа, таму марфалагічная апрацоўка прысутнічае і ў прасадычным працэсары [8]. Для кітайскай мовы ў нармалізацыі дадаецца яшчэ адзін блок па замене іерогліфаў у спецыяльныя сімвалы, прычым далей шматварыянтнасць замен здымаецца з дапамогай сінтаксічна-марфалагічнага аналізу [14]. Задачы вызначэння націскаў проста рашаюцца для моў з фіксаванай пазіцыяй націску (казахская, французская, арабская, якуцкая) [6, c 80], а для моў з вольнай пазіцыяй націска (руская, украінская, беларуская) патрэбна распрацоўваць спецыялізаваныя лінгвістычныя алгарытмы і рэсурсы для расстаноўкі націскаў у словах і для вызначэння правільнага націску ў словах-амографах [11]. Заўважым, што не для ўсіх славянскіх моў уласцівая вольная пазіцыя націску, напрыклад, для польскай гэта не так [14].

Такім чынам, калі сінтэзуемых моў некалькі, то колькасць задачаў для сінтэзатара маўлення павялічваецца адпаведна колькасці моў, да таго ж дадаюцца задачы па ідэнтыфікацыі мовы ўсяго тэксту ці яго асобных частак [5]. Але нягледзячы на вышэй абазначаныя складанасці, навукоўцы пастаянна імкнуцца да пабудовы ўніверсальных сістэм сінтэзу маўлення, якія б падыходзілі да розных моў, і якія не былі б заснаваныя толькі на інтэгральным складванні падобных сістэм [5]. Увядзем азначэнне шматмоўнай сістэмы маўлення па тэксце.

Адразу распрацаваць шматмоўную сістэму сінтэзу маўлення складана. Патрэбна пастаянна абагульняць лінгвістычную тэорыю на практыцы ў межах некалькіх моў. Гэта кладзе шмат высілкаў на камунікацыю між лінгвістамі і праграмістамі. Таму сталі вядомымі адкрытыя бясплатныя праекты-фрэймворкі па праектаванні сінтэзатараў для розных моў [8]. У іх кожны мае магчымасць распрацаваць СМТ для сваёй мовы, абапіраючыся на досвед іншых распрацовак, а пазней апублікаваць усю ці нейкую частку атрыманага сінтэзатара [7]. У будучым распрацоўшчыкі асноўнага фрэймворка абагульняюць выкарыстаныя прыёмы для пабудовы новага сінтэзатара. У выпадку складанасцяў пабудовы новага СМТ з-за непадыходзячай структуры ці няправільнай працы асноўнага фрэймворка, ёсць магчымасць хадайнічаць пра змены агульных прынцыпаў апрацоўкі для прыватнай мовы праз камунікацыю з уладальнікамі асноўнага фрэймворка [8].



1.3 Параўнальны агляд сістэмаў сінтэзу маўлення па тэксце

Да цяперашняга часу сістэмы сінтэзу маўлення дасягнулі пэўнага ўзроўню развіцця і ўжо выкарыстоўваюцца ў шэрагу практычных прыстасаванняў. Аднак камфортнасць успрымання сінтэзаванага маўлення ў рэальных умовах сістэм масавага абслугоўвання застаецца яшчэ не цалкам задавальняючай.

Адным з галоўных кампанентаў гукавой рэалізацыі выразнасці вуснага маўлення з’яўляецца прасодыка маўлення і, у прыватнасці, пры сінтэзе маўлення – правільнасць і якасць прасадычнай разметкі. Прасадычная разметка тэксту пры сінтэзе маўлення заключаецца ў дзяленні сказаў на сінтагмы, у маркіроўцы прасадычна вылучаных слоў у сінтагме і ва ўстаноўцы інтанацыйнага тыпу сінтагмы [16]. Устаноўка межаў сінтагмаў уплывае на правільнасць перадачы інтанацыйных характарыстык, а таксама на перадачу сэнсавага зместу тэксту. Варта адзначыць, што пры дзяленні сказаў на сінтагмы асабліва важна не паставіць яе мяжу там, дзе яна можа парушыць сэнсавае ўспрыманне маўлення, напрыклад, паміж прадметам і яго прыкметай.

Падрабязны агляд і аналіз праблем, звязаных з лакалізацыяй сінтагматычных межаў у натуральным маўленні і магчымых падыходаў да ўстанаўлення межаў сінтагмаў пры сінтэзе маўлення па тэксце дадзены ў працы О.Ф. Крыўновай і І.С. Чардзіна [14]. Пры гэтым разгледжаны наступныя магчымыя класы сістэм сінтагматычнага дзялення сказаў:

1. Сістэмы, якія абыходзяцца аналізам структуры тэксту з дапамогай выяўленых эўрыстык (экспертныя сістэмы).

2. Сістэмы, у якіх праводзіцца сінтаксічны аналіз з выкарыстаннем фармальных граматык.

3. Сістэмы, дзе выкарыстоўваецца імавернасны аналіз тэксту, заснаваны на статыстычнай мадэлі, параметры якой атрыманыя праз навучанне па анатаванай тэкста-маўленчай базе дадзеных.

Для чацвёртай версіі сінтэзатараў англійскага маўлення кампаніі ScanSoft у дакументацыях для карыстальнікаў апісваюцца магчымыя ўваходы, выхады і алгарытмы працы лінгвістычных апрацовак уваходных тэкстаў [19]. Акрэсліваюцца магчымыя кадыроўкі для сімвалаў уваходных тэкстаў, магчымасці пашырэння слоўнікаў прамаўленняў слоў, магчымасці пісаць патрабаванні да сістэмы прамаўляць спецыяльна затранскрыбіраваныя сімвальныя паслядоўнасці. Прыводзяцца прыклады лінгвістычных апрацовак:



  • лікаў (парадкавых, колькасных, рымскіх, дзесятковых, дробаў);

  • камбінаваных лікавых выразаў (тэлефонныя і банкаўскія нумары, даты, час, грашовыя адзінкі);

  • скарачэнняў (з кропкай, без кропкі, ініцыяльныя, акронімы);

  • асаблівых карыстальніцкіх сімвалаў для абазначэнняў націскаў (першаснага, другаснага) у словах і сказах, для раздзялення слова на склады, для пастаноўкі паўзы ў сказах.

Асаблівая ўвага надаецца спецыяльнаму папярэдняму тэкставаму працэсару арыгінальных паведамленняў электроннай пошты, які здольны:

  • ідэнтыфікаваць загалоўкі (ад каго, каму, калі, тэма і інш.) і змест паведамлення;

  • праводзіць спецыфічную нармалізацыю тэксту (падтрымка шматлікіх фарматаў электронных адрасоў і інтэрнэт-спасылак, падтрымка чытання назваў файлаў, апрацоўка смайлікаў, зняцце шматразовага выкарыстання знакаў пунктуацыі і выпадковых сімвалаў з US-ASCII).

Рымскія лікі акрамя ізаляваных I, V, X у СМТ брытанскай англійскай мовы апрацоўваюцца ў колькасныя лікі. А ў СМТ для амерыканскай англійскай мовы рымскія лікі апрацоўваюцца:

  • у парадкавыя лічэбнікі, калі перад імі стаіць імя ўласнае;

  • у колькасныя лічэбнікі, калі няма перад імі імя ўласнага;

  • распазнаюцца як літары, калі яны складаюцца толькі з аднаго сімвала і не маюць вышэй згаданага кантэксту.

Колькасныя лікі прамаўляюцца асобнымі лічбамі, калі маюць больш за 15 лічбаў у сваім складзе. Коскі могуць быць выкарыстаныя для раздзялення групаў лічбаў. Калі ў запісе ліка прысутнічае кропка, то ён лічыцца за дзесятковы, у гэтым выпадку дзесятковая частка чытаецца асобнымі лічбамі.

Лікі апрацоўваюцца як парадкавыя лічэбнікі, калі за імі ідзе адпаведны суфікс (st, nd, rd, th).

Дробамі лічацца выразы, у складзе якіх ёсць да трох уключна лічбаў, раздзеленых зваротным слэшам “/”, з наступнай паслядоўнасцю да 5 лічбаў.

Тэлефонныя нумары чытаюцца па лічбах, калі паслядоўнасці лічбаў раздзяляюцца прабеламі, слэшам ці дэфісам.

Даты распазнаюцца ў выпадках: калі аргументы даты (дзень, месяц, год) раздзяляюцца дэфісам або слэшам; калі аргументы даты напісаныя разгорнута. Напрыклад, выраз “18 Jan 1934” апрацоўваецца ў “the eighteenth of January nineteen thirty-four”. Для амерыканскай англійскай мовы апісваецца большы набор фарматаў датаў, чым для іншых сінтэзатараў англійскай мовы гэтай кампаніі.

За выраз часу прызнаецца выраз, у якім разрады гадзін, хвілін і секунд раздзеленыя двухкроп’ямі, напрыклад, «12:15:20». Калі значэнне секундаў адсутнічае (разам з раздзяляльнікам), то час кажацца, як раздзеленыя паўзай два колькасныя лічэбнікі. Калі значэнне секундаў прысутнічае, то час кажацца, як тры колькасныя лічэбнікі раздзеленыя адпаведнымі словамі: «гадзін», «хвілін» і «секунд». Выразы часу распазнаюцца з мадыфікатарамі часткі дню да ці пасля поўдня (AM, PM). Хвіліны і секунды могуць быць раздзеленыя адзінарным коссем, тады ў канцы секунд павінна быць два адзінарных коссі, выраз будзе чытацца як паслядоўнасць колькасных лічэбнікаў раздзеленых словамі «гадзін» (калі ў гэтым выразе ёсць значэнне гадзін з канцавым двухкроп’ем «01:14’00»), «хвілін», «секунд».

Да выразаў грашовых адзінак адносяцца такія сімвальныя паслядоўнасці, якія складаюцца з любога пачатковага знаку валюты (долар /$/, фунт /£/, ена /¥/), максімум 12 лічбаў, магчымай кропкі, да 2 лічбаў пасля кропкі, прычым, толькі для цэнтаў і пеняў.

Для апрацоўкі скарачэнняў распрацаваны карыстальніцкія слоўнікі, з якіх выбіраюцца прамаўленні скарачэнняў запісаныя разгорнута ў спецыяльным літарна-фанетычным фармаце.

Кампанія NeoSpeech прапаноўвае два сінтэзатары для брытанскай і амерыканскай англійскай мовы [20]. Адносна лінгвістычнага працэсара адзначаецца мажлівасць карыстацца «сотнямі тысяч прамаўленняў» слоў слоўніка, а таксама магчымасцю яго наладкі на прамаўленне сімвалаў, скарачэнняў і новых тэрмінаў. Ён можа аўтаматычна і аўтаматызаваная апрацоўваць найбольш ужывальныя на тэрыторыі ЗША і Канады тэкставыя літарна-сімвальныя канструкцыі для англійскай мовы.

Гэтыя сінтэзатары аўтаматычна распазнаюць і апрацоўваюць наступныя тэкставыя выразы:



  • слова;

  • скарачэнне (шырокаўжывальнае);

  • некаторыя словы-амографы (record);

  • лік (колькасны, парадкавы, дзесятковы, дроб, лічба ў спалучэнні з тэхнічнымі назвамі);

  • дата (фарматы “yy-mm-dd”, “dd.mm.yyyy”);

  • час (фармат “hh:mm:ss”);

  • грашовыя адзінкі;

  • электронны адрас і інтэрнэт спасылкі;

  • тэлефонны нумар і нумары сацыяльнай бяспекі;

  • простыя матэматычна-арыфметычныя аперацыі (сума, здабытак, рознасць, дзяленне, параўнанне (больш, менш, роўна), інтэрвал (~);

  • адзінкі вымярэння (хуткасць, тэмпература па Цэльсію ці па Фарэнгейту, кілаграмы, метры);

  • адрасы (у фармаце ЗША і Канады – галоўная вуліца, другасная вуліца, поштавая станцыя, горад, штат, індэкс);

  • загалоўкі і асабістыя імёны.

У аўтаматызаваным рэжыме працы праз спецыяльныя тэгі-маркеры карыстальнік можа пазначаць для сінтэзатара наладкі хуткасці, гучнасці, паўзаў, тона, часціны мовы для зняцця шматзначнасці ў словах амографах, фарматы даты, часу, тэлефоннага нумару, адрасоў і інш., што апісаныя вышэй. Гэтыя тэгі-маркеры тэкставы працэсар адрознівае ад паслядоўнасцяў сімвалаў, якія могуць сустракацца ў тэкстах, а пасля адпаведна апрацоўвае паводле як лінгвістычных правілаў, так і прынятага пагаднення між людзьмі.

Заўважым, што некаторыя правілы могуць пазначацца на адносна мовы, а адносна той або іншай мясцовасці, бо там людзі маюць іншы погляд на тэкставыя выразы. Менавіта таму кампаніі робяць розныя лінгвістычныя працэсары для адной англійскай мовы. Магчымасць аўтаматызаванага рэжыму дазваляе карыстальніку самому здымаць рознага тыпу шматзначнасці для сінтэзатара, што змяншае колькасць памылак працы СМТ ў цэлым.

Кампанія Acapela Groupe у дакументацыі для карыстальніка мультымедыя сінтэзатара маўлення па тэксце апісвае, у адрозненне ад іншых кампаній, убудаванне шматмоўнага лінгвістычнага працэсару тэксту, а не толькі яго ўваходныя параметры [21]. У ім распрацаваныя агульныя лінгвістычныя алгарытмы і апрацоўкі для шматлікіх інда-еўрапейскіх моў (англійская, нямецкая, французская і інш.), а мовазалежныя часткі вынесены ў базы дадзеных. Лінгвістычны працэсар складаецца з трох модуляў:


  • папярэдняя апрацоўка тэксту (аналіз тэксту і выдзяленне ў ім тэкставых адзінак (слоў), лікаў, датаў, скарачэнняў);

  • фанетызацыя з дапамогай слоўнікаў (канвертацыя кожнай тэкставай адзінкі ў паслядоўнасць фанемаў);

  • генерацыя інтанацыі (накладванне рытму і інтанацыі на тэкст у фанетычным выглядзе).

Для таго, каб у гэтым СМТ карэктна апрацоўваліся спецыфічныя словы (імёны ўласныя, прафесійная тэрміналогія), скарачэнні (абрэвіятуры, ініцыяльныя выразы), новыя словы і інш., у адрозненне ад іншых сінтэзатараў, распрацаваная спецыяльная лінгвістычная праграма рэдагавання слоўніка-лексікона (Lexicon Editor). Калі слова-ключ ўведзена, то карыстальнік можа адкарэктаваць аўтаматычна прапанаваны яго варыянт агучвання, які запісваецца ў форме фанетычнага радка, а таксама абазначыць часціну мовы. Калі ў тэксце сустрэнецца слова-ключ са слоўніка-лексікона, то тэкставы працэсар падставіць замест яго захаваны варыянт гучання.

Кампанія Acapela Groupe выпусціла два галасы Roger і Kate брытанскай англійскай мовы [22]. Дакументацыя галасоў дазваляе азнаёміцца з асаблівасцямі апрацоўкі тэксту ў рэжыме чытання сказамі і па літарах. У рэжыме чытання па літарах любы электроны сімвал прамаўляецца як асобны, а ў рэжыме сказаў – правяраецца кантэкст сімвала, калі ёсць магчымасць, то фармуецца слова.

Адносна лінгвістычнага працэсара апісваюцца мноствы дапушчальных сімвалаў для ўтварэння англійскіх слоў (“A-Z”, “a-z”, сімвал апострафа /’/). Іншыя літары еўрапейскіх алфавітаў, якія не супадаюць з лацінскім, апрацоўваюцца асабліва. Калі ў рэжыме чытання сказамі ў тэксце сустракаюцца літары з дыякрытычнымі знакамі, якія не ўласцівыя для англійскай мовы, напрыклад, “/ñ/, /õ/, /å/, /ç/, /é/”, то паводле спецыяльнай табліцы адбываецца іх канвертацыя ў падобныя графічна англійскія літары без дыякрытычных знакаў (/ç/ –> /c/). У рэжыме чытання па літарах кожнай літары з дыякрытычным знакам ставіцца ў адпаведнасць літара і назва дыякрытычнага знака, напрыклад, /ú/ –> “u acute”.

Сімвалы, якія не адносяцца не да лічбаў і не да літараў, дзеляцца на групы для спецыяльных адпаведных апрацовак:



  • фіксавана-пунктуацыйныя, яны заўсёды аднолькава ўплываюць на інтанацыю і на паўзы (/,/, /:,/ /;/, /“/, /“/, /./, /?/, /!/, /(/, /)/, /[/, /]/, /{/, /}/, і прабел);

  • варыятыўна-пунктуацыйныя (/-/, /=/, /+/, /*/, /$/), напрыклад, сімвал дэфіс /–/ чытаецца як «мінус» перад лікамі, як «дэш» між лікамі, як паўза між прабеламі ці ніяк не абазначаецца сінтэзаваным маўленнем, калі ён сустрэўся між літарамі алфавіта, з мэтай ігнаравання знака пераносу;

  • тыя, што не ўплываюць на інтанацыю і заўсёды аднолькава прамаўляюцца цэлым словам незалежна ад кантэксту (/€/, /™/, /±/, /^/, /

  • кіруючыя (сімвалы табуляцыі, зварот карэткі і інш.), яны агучваюцца адным словам у рэжыме чытання па літарах (/^M/ -> “return”);

  • тыя, што паўтараюцца шмат разоў (// і інш. ), тады ўспрымаюцца толькі першыя тры сімвалы, замест кожнага сімвала чытаецца яго назва;

  • астатнія сімвалы, якія заўсёды ігнаруюцца.

З дапамогай кантэкстных маркераў ЛП асаблівым чынам выдзяляе лікавыя выразы:

  • цэлыя лікі (раздзяляльнік трыядаў – коскі ці прабелы);

  • лікі з пачатковым нулём;

  • дзесятковыя лікі (раздзяляльнік цэлай і дробнай часткі – коска /,/);

  • грашовыя колькасці (папярэднія ліку маркеры – /£/, /$/, /¥/, /F/, а таксама наступныя за лікам маркеры – мільёна /m/ ці більёна /bn/);

  • парадкавыя лікі (наступныя ліку маркеры st, nd, rd, ці th);

  • арыфметычныя аператары (маркеры папярэднія ліку – (/+/, /-/), кантэкстныя маркеры – (/*/, /-/, /), маркер пасля ліку– /%/);

  • змяшаныя лічбы і літары (маркер – мяжа змены літараў на лічбы і наадварот);

  • час дню (маркер /:/ раздзяляе адну ці дзве лічбы значэння гадзін і дакладна дзве лічбы значэння хвілін).

Разгледзім асаблівасці апрацоўкі абазначаных лікавых выразаў.

Між трыядамі любога ліку ставіцца паўза. Для апрацоўкі цэлых лікаў уведзеныя асаблівыя выключэнні для лікаў, якія могуць азначаць год ў інтэрвале 1100-1900. Калі лік ў такім інтэрвале не скончваецца на «00», то ён чытаецца парамі лічбаў, напрыклад, «1225» апрацоўваецца ў «12» і «25», што далей апрацоўваецца ў “tvelve and tventy five” (дванаццаць і дваццаць пяць). Лікі чытаюцца па лічбах, калі яны ўтрымліваюць 16 лічбаў ці пачынаюцца з нуля. Зразумела, што пры такой асаблівасці апрацоўкі лікаў могуць быць неадназначнасці ў распазнаванні году і ліку ў тэксце, бо ў англійскіх тэкстах адсутнічае іншы маркер году, як напрыклад, у беларускіх тэкстах – «г.», «гг.», «год» ці «гадоў». Дробныя грошы (цэнты, пенні) прамаўляюцца ў выпадку прысутнасці кропкі ў грашовай адзінцы (€1.45). У змяшаным выразе з лічбаў і літараў лічбы ўтвараюць лікі, якія чытаюцца па правілах для лікаў, літары ўтвараюць словы, якія чытаюцца па правілах для слоў.

Лінгвістычны працэсар настроены на тое, каб распазнаваць у тэксце фанетычныя паслядоўнасці, якія могуць быць запісаныя праз спецыяльны фанетычны алфавіт (Speech Assessment Methods Phonetic Alphabet), пачатак і завяршэнне фанетычнай паслядоўнасці абазначаюцца праз сімвал слэш “/”. З дапамогай гэтага алфавіта таксама можна ствараць карыстальніцкія слоўнікі-лексіконы. Карыстальнік можа спецыяльна абазначаць зычныя і галосныя гукі, націскі ў словах-амографах. Такім чынам, можна змяніць прамаўленне слова ў тэксце, калі аўтаматычнае прамаўленне не было карэктным.

Такім чынам, агляд сінтэзатараў паказаў, што лінгвістычныя працэсары розных СМТ для рамана-германскіх моў успрымаюць дакладна вызначаны набор сімвалаў для ідэнтыфікацыі канкрэтных тэкставых адзінак (слоў, лікаў, фанетычных паслядоўнасцяў і інш.). Варыятыўныя тэкставыя адзінкі (адрэсы, тэлефонныя нумары, тэхнічныя назвы, час і інш.) ідэнтыфікуюцца праз кантэксты лікаў і літараў. Не літарна-лікавыя сімвалы лінгвістычна апрацоўваюцца як знакі пунктуацыі, агучваюцца цалкам ці ігнаруюцца ў залежнасці ад кантэкстных маркераў. У некаторых СМТ рэалізаваная марфалагічная-сінтаксічная апрацоўка слоў-амографаў праз аналіз кантэксту слоў. Усе СМТ пастаўляюцца карыстальніку ў даволі закрытым стане: па-першае толькі некаторыя кампаніі дазваляюць карыстальніку самому папаўняць лінгвістычныя рэсурсы СМТ; па-другое, карыстальнік павінны сам на слых успрымаць памылкі агучвання тэкстаў; па-трэцяе, няма магчымасці апрацоўваць тэксты і бачыць невядомыя словы для лінгвістычных рэсурсаў ЛП.

Складана прымяніць для вырашэння ўсіх задач лінгвістычнай апрацоўкі тэкстаў у сінтэзатарах беларускага і рускага маўлення вядомыя сучасныя замежныя распрацоўкі для сінтэзатараў. Напрыклад, СМТ англійскай і французскай мовы не маюць патрэбы ў складаных пераўтварэннях лікаў у лічэбнікі, бо для іх лічэбнікі не маюць розных канчаткаў для розных граматычных форм. Iснуючыя аналагі сінтэзатараў рускага маўлення часта робяцца на ўзор замежных, таму праблема пераўтварэння лікаў у лічэбнікі (асабліва склонавыя формы парадкавых лічэбнікаў) застаецца не вырашанай. Паводле замежных аналагай былі пабудаваныя СМТ для некаторых славянскіх моваў, такіх як руская, чэшская, польская, украінская. Для іх ужо ёсць практычна выкарыстаныя ці эксперыментальныя ўзоры сінтэзатараў маўлення па тэксце. У літаратуры не маецца, аднак, ніякіх звестак пра стварэнне сінтэзатараў маўлення па тэксце для беларускай мовы. Разам з тым кампанія Sakrament распрацавала СМТ беларускага маўлення для камерцыйных мэтаў на аснове рускага СМТ [23].

Камерцыйныя кампаніі Acapela Group і Nuance на сваіх сайтах дазваляюць выкарыстоўваць дэма-вокны для сінтэзавання любога тэксту [21]. З дапамогай іх можна падабраць неабходныя варыяцыі тэкстаў, каб пратэставаць апрацоўку тэксту. Таксама даступныя для часовага выкарыстання СМТ такіх вядомых фірмаў як Sakrament (голас Olga v. 3.0) [23], Loquendo (голас Olga v. 7.3.0), Acapela Group (голас Alyona v. 7.0.x) [21].

Кожны СМТ добра прамаўляе асобныя словы, сінтагмы, сказы, гэта значыць, што лінгвістычныя апрацоўкі выдзялення адпаведных моўных адзінак рэалізаваныя. Невядомыя словы для лінгвістычных рэсурсаў чытаюцца па складах. Словы, напісаныя ўсімі вялікімі літарамі чытаюцца карэктна. Правільна гучаць складаныя фанетычныя словы: «прыназоўнік+слова», «слова+часціца». У кожным СМТ добра распрацаваныя блокі апрацоўкі лікаў у колькасныя лічэбнікі. Выразы электронных адрасоў і інтэрнэт-сайтаў распазнаюцца ў тэкстах, для іх устанаўліваецца адна інтанацыя.

Вызначым некаторыя агульныя заўважаныя недапрацоўкі ў СМТ. Парадкавыя лічэбнікі апрацоўваюцца толькі часткова. Рымскія лікі апрацоўваюцца не для ўсёй вобласці азначэння. Уводныя словы выдзяляюцца паўзамі спачатку і ў канцы, што не ўласціва для звычайнага чытання. Прасадычныя афармленні пабудаваныя малой колькасцю інтанацыйных контураў, якія прымяняюцца да сказаў выпадковым чынам. Прычым у доўгіх сказах без знакаў прыпынку назіраецца некаторае прапусканне гукаў у словах.

У кожным сінтэзатары ёсць ўласцівыя толькі ім распрацаваныя ці не распрацаваныя лінгвістычныя алгарытмы.

СМТ Sakrament (голас Olga v. 3.0) добра апрацоўвае лікі з дэфіснымі канчаткамі ў парадкавыя лічэбнікі. Але ён не ставіць інтанацыю незавершанага выказвання, калі ў канцы сказа стаіць шматкроп’е, значыць не ўсе завяршальная сімвалы сказа апрацоўваюцца. Літара /ё/ аднаўляецца ў слове «елка», але не ў словах «отдернуть», «отключен», значыць апрацоўка літары ‘ё’ рэалізаваная, але лінгвістычныя рэсурсы для словаформаў з /ё/ не запоўненыя. Апрацоўка слоў-амографаў зводзіцца да выбару адной пазіцыі націску з некалькіх мажлівых, таму ёсць цалкам няправільна прачытаныя сказы («Он замо́к под дождем. Князь приехал в свой замо́к.»). Чытанне рымскіх лікаў рэалізавана толькі часткова (да /L/, а далей яны чытаюцца як англійскія літары). Выразы часу чытаюцца як колькасныя лічэбнікі, якія адпаведна раздзеленыя двухкроп’ямі. Выразы атаў чытаюцца як колькасныя лічэбнікі, якія адпаведна раздзеленыя двухкроп’ямі і дэфісамі. Разуменне сэнсу такіх выразаў даволі складанае для слухача для агульнага выпадку. Няма апрацоўкі выразаў тэмпературы.

СМТ Loquendo (голас Olga v. 7.0.x) апрацоўвае літару /е/ у /ё/ у слове «отдернуть», але не ў слове «елка», значыць апрацоўка літары /ё/ прысутнічае, але лінгвістычныя рэсурсы для аднаўлення словаформаў з /ё/ не запоўненыя для частотных слоў мовы. Апрацоўка амографаў зводзіцца да выбару адной пазіцыі націску для розных лексем з рознай пазіцыяй націску, таму ёсць цалкам няправільна прачытаныя сказы («Он замо́к под дождем. Князь приехал в свой замо́к.»). Заўважаецца некаторая нестабільнасць у апрацоўцы слоў напісаных праз злучок, калі другая частка з’яўляецца часціцай, напрыклад, выраз «сказал-то» апрацоўваецца правільна, а «припомнил-таки» няправільна. У выразах даты СМТ правільна агучвае парадкавым лічэбнікам чысло і назву месяца, але няправільна апрацоўвае год у парадкавы лічэбнік назоўнага склону (калі патрэбна ставіць родны склон). У выразах часу прапускаецца двухкроп’е, а лікі чытаюцца як колькасныя лічэбнікі; калі нулі ў апошняй частцы часу, то яны не чытаюцца, тады слухач чуе колькасны лік. Такі спосаб чытання зручны толькі для кароткіх паведамленняў, а не для доўгіх і шматпланавых тэкстаў. Дадзены СМТ, у адрозненні ад астатніх, правільна агучвае выразы тэмпературы запісаныя ў градусах Цэльсія. Але выразы тэмпературы запісаныя па Фарэнгейту ці ў Кэльвінах, таксама, як і ў астатніх, апрацоўваюцца няправільна. Простыя матэматычныя выразы з абазначэннем выніку праз сімвал роўна /=/ апрацоўваюцца няправільна, напрыклад, «2+5=7» апрацоўваецца ў «два пять равно семь».

СМТ Acapela Groupe (голас Alyona v. 7.3.0) робіць памылкі пра апрацоўцы лікаў з дэфіснымі канчаткамі ў парадкавыя лічэбнікі для творнага склону жаночага роду, напрыклад, «25-ой» агучваецца як «дваццаць пяць ой». Прысутнічаюць памылкі апрацоўкі слоў напісаных праз злучок /-/, калі другім словам з’яўляецца часціца ці калі абодва тэкставыя выразы – лікі. Літара /ё/ аднаўляецца правільна. Гэта СМТ адрознівае кантэксты для некаторых слоў-амографаў. Напрыклад, тэкст «Он повесил замок на дверь. Он замок под дождем. Князь приехал в свой замок. Он построил замок.» , апрацоўваецца ў «Он повесил замо́к на дверь. Он замо́к под дождем. Князь приехал в свой за́мок. Он построил за́мок.». Выразы датаў апрацоўваюцца правільна, калі лікі раздзеленыя кропкамі ці дэфісамі. Выразы часу апрацоўваюцца з прамаўленнем значэнняў і назваў адзінак часу, хвілін і секунд, але прысутнічаюць памылкі скланення колькасных лічэбнікаў у множным ліку, напрыклад выраз «1:00:23», апрацоўваецца ў «один час двадцать три секунд». Выразы тэмпературы агучваюцца як колькасны лічэбнік са словам «градус», гэта правільна толькі для лікаў з апошняй лічбай 1. Дзесятковыя лікі чытаюцца, калі між лікаў прысутнічае коска ці кропка, з прамаўленнем цэлай і дробнай частак пасля коскі. Не апрацоўваюцца скарачэнні даўжыні. Да гэтага СМТ была дададзена вытворцам дакументацыя па сімвальных апрацоўках.

З беларускіх СМТ вядомая толькі распрацоўка кампаніі Sakrament [23] голас Ірына (Sakrament TTS Engine v3.0). СМТ правільна ставіць паўзы між словамі, рэагуе на коскі, кропкі, клічнікі і пытальнікі. Распазнае словы, якія напісаныя цалкам вялікімі літарамі. Скарачэнні, якія ўтвораныя вялікімі літарамі, чытаюцца па літарах, акрамя выключэнняў, якія можна абазначаць у карыстальніцкім слоўніку.

Лінгвістычныя рэсурсы прадстаўленыя ў выглядзе агульнага слоўніка націскаў, спісу слоў з націскамі для папаўнення карыстальнікам, спецыяльных лінгвістычных спісаў (уводныя словы, словазлучэнні, злучнікі, дзеясловы-звязкі, займеннікі, спісы назваў літараў для расшыфроўкі абрэвіятур, назвы краін і інш.). Фізічна ЛР рэалізаваныя ў выглядзе тэкставых файлаў, што спрашчае іх мадыфікацыю і папаўненне. ЛР добра распрацаваныя для правільнага фармавання інтанацый і паўзаў, бо паводле іх утвараюцца фанетычныя словы, сінтагмы і акцэнтныя адзінкі ў апрацоўваемым тэксце. Разам з тым складана папаўняць лінгвістычныя рэсурсы толькі «на слых» і «па інтуіцыі», бо няма дакументацыі да СМТ як гэта рабіць. Таксама гэты СМТ не мае дадатковых інтэрфейсаў для карыстальніка, каб ідэнтыфікаваць новыя словы ў тэксце і інш. складанараспазнавальныя тэкставыя адзінкі.

Выяўлены шэраг памылак расстаноўкі націскаў. Прыназоўнікі і часціцы ўтвараюць складаныя фанетычныя словы ў большасці выпадкаў правільна, але ў выпадку напісання часціц праз дэфіс назіраюцца памылкі, напрыклад, у выразе «дамовіліся-такі» часціца «такі» чытаецца з поўным націскам, а не з частковым. Аналагічна для часціцы «то». У выпадку тэкставага выразу, які складаецца з прыназоўніка з двума галоснымі, дэфіса і любога наступнага слова, поўны націск памылкова ставіцца ў прыназоўніку, а не ў слове, напрыклад, выраз «было ў-ва мне пачуццё» апрацоўваецца ў «было ў-ва́ мне пачуццё». У словах-амографах абазначаецца пастаянна адзін націск, напрыклад, «парты́», «ска́заў», што прыводзіць да памылак у сказах. У некаторых словах з літарай /о/ няправільна выстаўляецца націск, гэтая літара памылкова чытаецца як /а/. Напрыклад, «верталёт Сікорскага» агучваецца як «верталёт Сікарскага». Складаныя словы прамаўляюцца са скажонымі літарамі, напрыклад, «аўтамотастанцыя» апрацоўваецца ў «аўтаматаста́нцыя». Словы з літарай ‘я’ перад націскным складам няправільна апрацоўваюцца ў літару ‘а’, напрыклад, «зуброва дзяржа́ва» агучваецца як «зуброва дзаржа́ва».

Уводныя словы апрацоўваюцца правільна: паўза ставіцца толькі пасля іх, а не папярэдняй ім косцы паўзы няма.

Лікі ў тэкстах апрацоўваюцца як колькасныя лічэбнікі, а парадкавыя лічэбнікі немагчыма згенераваць праз дэфісныя канчаткі (‘1-га’, ‘2-я’, ‘234000-ы’). Колькасныя лічэбнікі не скланяюцца паводле папярэдніх ім лічэбнікаў, напрыклад, «з 534 неабходных» агучваецца ў «з пяцьсот трыццаць чатыры неабходных», а патрэбна, каб было «з пяцісот трыццаці чатырох неабходных». Лічэбнік «тысяча» няправільна скланяецца ў ліках, напрыклад, у «1002», «1991-1995». Апрацоўка рымскіх лікаў рэалізаваная не для ўсіх выпадкаў. Рымскія лікі апрацоўваюцца як колькасныя лічэбнікі, напрыклад для выразаў «III», «VIII», «XXXI». Рымскія лікі, якія абазначаюцца адным сімвалам, (‘I’, ‘V’, ‘L’), агучваюцца як лацінскія літары, а рымская лічба ‘X’ апрацоўваецца ў колькасны лічэбнік «дзесяць». Гэта прыводзіць да памылак у выразах, напрыклад, «нумар V». Складана ўтвораныя рымскія лікі («CCLXXIII», «DCCCLXXXVIII») агучваюцца не як лічэбнікі, а як паслядоўнасць вялікіх лацінскіх літараў.

Даты ідэнтыфікуюцца ў тэксце толькі для фармата «дзень.месяц.год». Пры гэтым карэктна агучваецца назва месяца, слова «год» правільна ставіцца ў родны склон, але чысло дню памылкова прамаўляецца колькасным лічэбнікам, калі трэба парадкавым. Напрыклад, «23.05.2011» агучваецца як «дваццаць тры мая дзве тысячы адзінаццатага года», а патрэбна «дваццаць трэцяга мая дзве тысячы адзінаццатага года». Выразы часу ўспрымаюцца толькі ў фарматах «гадзіны:хвіліны», «гадзіны:хвіліны:секунды». Яны чытаецца колькаснымі лічэбнікамі без прамаўлення аргументаў адзінак часу (гадзіны, хвіліны, секунды, частка дню), што недакладна для агульнага выпадку. Выразы тэмпературы не апрацоўваюцца.

Прасадычнае афармленне чытанага тэксту адбываецца не вялікай колькасцю інтанацыйных контураў. Чутны задоўгія паўзы на знаках прыпынку. Сінтагмы фармуюцца толькі з аднаго-двух асноўных слоў, што робіць маўленне манатонна-рытмізаваным амаль на кожным слове.

Такім чынам, у СМТ для рускай мовы лінгвістычны працэсар настроены, каб праводзіць апрацоўкі па выдзяленню слоў і сказаў з тэксту, пераводзіць у выгляд арфаграфічных слоў закадаваныя сімвальныя выразы (скарачэнні, час, даты, лікі, інтэрнэт адрэсы і інш.), апрацоўваць ё-словы, словы-амографы і інш. Разам з тым сінтэзатары робяць шмат памылак ў тэкстах у акрэсленых задачах, таму развязваць задачы па ідэнтыфікацыі тэкставых выразаў прапануецца карыстальніку праз стандартныя каманды (ставіць націскі, часціны мовы і інш.) SAPI 4.x ці SAPI 5.x. З СМТ для беларускай мовы для агляду быў даступны толькі адзін. Лінгвістычны працэсар для яго быў зроблены па падабенству на лінгвістычнага працэсара сінтэзатара рускай мовы гэтай жа фірмы. У яго спіс лінгвістычных апрацовак такі ж, як і для рускай мовы. Большасць з іх рэалізавана. Але рэшта памылак сур’ёзна перашкаджае слухачу прыемна ўспрымаць агучаны тэкст. Прасадычнае афармленне для ўсіх СМТ на БМ ці РМ характарызуецца малой колькасцю разнастайных інтанацыйных контураў, якія выклікаюцца выпадкова, гэта моцна ўскладняе камфортна праслухоўваць, асабліва доўгія, тэксты.



  1   2


База данных защищена авторским правом ©shkola.of.by 2016
звярнуцца да адміністрацыі

    Галоўная старонка