В этой статье я попытаюсь систематизировать фонетические правила, которые нужны программисту, пишущему программу синтеза или распознавания речи.
Конкретно эти правила используются в программе Книгодел.
Для этого были перерыты кучи учебников по фонетике и проведено множество экспериментов. Здесь описаны основные фонетические правила, даны в алгоритмизированном виде. Эта статья будет дополняться, по мере обнаружения новых правил.
1)У слов есть ударение и предударение. Предударение ставится на слог перед ударным. Ударная гласная обычно определяется большей длительностью и/или частой и/или громкостью (конкретно, видимо, зависит от голоса). Предударная гласная занимает промежуточное (по параметрам) положение между ударной и обычной.
Ударение в русском языке подвижное, конкретное его место не фиксировано. Более того, даже в разных формах одного слова оно может прыгать.
В простейшем случае можно использовать готовый словарь ударений со всеми словоформами. В более сложном - нужно писать программу словоизменения.
2)Оглушение звонких согласных на конце слов, изменение окончаний ого/его/тся/ться.
Алгоритм:
Кончается на "тся", меняем на "ца"
Кончается на "ться", меняем на "ца"
Кончается на "ого", меняем на "ово"
Кончается на "его", меняем на "ево"
Кончается на "жь",меняем на "шь
Кончается на "вь",меняем на "фь"
Кончается на "зь",меняем на "сь"
Кончается на "бь",меняем на "пь"
Кончается на "гь",меняем на "кь"
Кончается на "дь",меняем на "ть"
Последние з, б, в, г, д, ж меняем на с, п, ф, к, т, ш соответственно
3)Изменение в предударном слоге "я" на "и" (если он не первый)
4)"о" безударное читается между "о" и "а" (намного ближе к а), "е" безударное между "и" и "е" (ближе к е)
5)Уподобление согласных (здание, книжка)
Алгоритм:
Если буква з, б, г и за ней следует з, б, г меняем первую из них по правилу з=>с, б=>п, г=>к
Если буква з, б, г, д, в, ж и за ней следует с, п, к,т, ф, ш то первая заменяется по правилу з=>с, б=>п, г=>к, д=>т, в=>ф, ж=>ш.
6)Чтение отдельных слов (звукосочетаний в них) не соответствующих стандартным правилам (солнце, что, двоечник, темп, компьютер...)
Алгоритм (+ - ударная гласная):
"нн"=>"н"
"лл"=>"л"
"лнц"=>"нц"
"рдц"=>"рц"
"рдч"=>"рч"
Начинается на "что" меняем начало на "што".
"мужчи+н"=>"мущи+н"
"гру+зчик"=>"гру+щик"
"действи+тельн"=>"дестви+тельн"
"здра+вствуй"=>"здра+ствуй");
"че+стн"=>"че+сн"
"чу+вств"=>"чу+ств");
"по+здно"=>"по+зно");
"сумасше+"=>"сумаше+");
"помо+щни"=>"помо+шни"
"дво+ечн"=>"дво+ешн"
"коне+чн"=>"коне+шно"
"сего+дн"=>"сево+дн"
"специа+л"=>"спеца+л"
"вообще+"=>"воопще+"
"о+бще"=>"о+пще"
Меняется е на э (по началу слова): "партер", "депо", "термос", "делл" (фирма Dell и имя Делла), "модем", "декольте", "компьютер", "кодекс", "свитер", "шоссе", "бифштекс", "ромштекс", "картер", "тест", "синтез", "интернет".
Меняется е на э если в слове "темп...", но в слове "температур..." не меняется.
7)Некоторые предлоги (по, от... ) произнесятся слитно со словами. При этом изменение звучания полностью соответствует как если бы слово произносилось вместе.
8)Интонации Упрощенный алгоритм: Повествовательное предложение - постепенное уменьшение частоты. Вопросительное предложение - увеличение частоты в конце предложения. Восклицательное предложение - увеличение частоты и громкости в конце предложения.
На запятых и тире делается пауза. Фразы тоже разделяются паузой.
Более сложные алгоритмы требуют выделения акцентируемого слова (если читается обычный текст то оно не известно).
9)Все (почти, кроме ц, ч, щ, две последние из которых бывают только мягкие, а первая - только твердой) согласные бывают твердые и мягкие. Согласная читается мягко если после нее стоит и, е, я, ю, ё, ь и жестко в противном случае.
10)е, ю, я, ё читаются как э, у, а, о (возможны варианты в зависимости от произношения, обычно о в ё читается более мягко и с примесью э) если стоят после согласной, и как "j" (звук вроде "й") плюс соответствующая гласная, если находятся в начале слова или после гласной.
11)Частицы же, бы, ка - сливаются с предыдущим словом, оставаясь безударными.
Публикация этих статей в интернете возможна при наличии активной ссылки на сайт и имени автора.