讯飞语音电子书

讯飞语音电子书

中文名 讯飞语音电子书
开发公司 安徽科大讯飞信息科技股份有限公司
目录导航

讯飞语音电子书

讯飞语音电子书是安徽科大讯飞信息科技股份有限公司基于其全球领先的中文语音合成技术开发的,适用于Pocket PC、Smartphone、Symbian S60掌上电脑的语音电子书软件,让用户不仅可以通过屏幕阅读书籍,更可以语音的形式“阅读”小说等文本内容。
  • 语音自然度唯一达到4.0分以上的中文语音合成技术:能流利朗读小说、新闻、故事等文字内容,接近普通人朗读效果,代表当前最高水平;
  • 可自动识别多种文本内码,目前可识别的内码包括:GBK、Big5、Unicode、Unicode big endian、UTF-8;
  • 友好的软件界面,可调节字体、字号、字体颜色以及背景颜色;
  • 具有男女声及粤语朗读音库可供选择,并可以自由调整朗读语速和朗读语调;
  • 可使用方向键控制朗读进程,操作简便;
  • 任意段落,语句的朗读,充分享受朗读带来的自由;
  • 独有背景音乐功能,可以在舒缓的音乐中享受听书的乐趣;
  • 独有混响效果,一定程度上降低听书疲劳度;
  • 可自动保存当前阅读位置并且在下次打开时自动转到关闭时的位置;
  • 还有更多等您去发现...
适用操作系统:

Pocket PC 2002/2003、Windows Mobile 5.0、Smartphone 、Symbian S60

 
支持文件格式:

Pocket PC 2002/2003、Smartphone版本 支持文本文件(.txt)、标准pdb文件;

Symbian版本 支持文本文件(.txt)

语音合成技术介绍
  在讯飞语音电子书产品中,使用的是语音合成技术。 语音合成,又称文语转换(Text to Speech)技术,它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。语音合成与传统的声音回放设备(系统)有着本质的区别。传统的声音回放设备(系统),如磁带录音机,是通过预先录制声音然后回放来实现“让机器说话”的。这种方式无论是在内容、存储、传输或者方便性、及时性等方面都存在很大的限制。而通过语音合成则可以在任何时候将任意文本转换成具有高自然度的语音,从而真正实现让机器“像人一样开口说话”。

  文语转换系统实际上可以看作是一个人工智能系统。为了合成出高质量的语言,除了依赖于各种规则,包括语义学规则、词汇规则、语音学规则外,还必须对文字的内容有很好的理解,这也涉及到自然语言理解的问题。下图显示了一个完整的文语转换系统示意图。文语转换过程是先将文字序列转换成音韵序列,再由系统根据音韵序列生成语音波形。其中第一步涉及语言学处理,例如分词、多音字处理、字音转换等,以及一整套有效的韵律控制规则;第二步需要先进的语音合成技术,能将第一步得到的音韵序列实时合成出高质量的语音流。因此一般说来,文语转换系统都需要一套复杂的文字序列到音素序列的转换程序,也就是说,文语转换系统不仅要应用语音数字信号处理技术,而且必须有大量的语言学知识的支持。

  科大讯飞在语音技术方面积累已有20年之久,其语音合成技术已经经历了几代的发展,目前正处于第三代技术阶段。
2.语音合成技术发展历程
第一代嵌入式语音合成引擎(2000年):单音节波形拼接技术
  
  单音节波形拼接技术是第一代语音合成技术。简单地说,单音节波形拼接技术就是预先将汉语发音中需要用到的1400多个音节全部录制下来,制作成一个音库。当合成文本时,根据每一个汉字的拼音从从音库中找到合适音节,然后拼接起来,这样就可以实现最简单的语音合成系统。 但是采取这种技术合成出来的效果很难令人满意,是一字一顿的机械效果,语句连贯性很差,无法进行大规模应用。
第二代嵌入式语音合成引擎(2004年):大语料库裁减技术
  
  为了改进第一代语音合成技术,人们想到了大语料库的合成方法。在第一代合成技术中,人们没有考虑到每一个音节在不同语句环境下其实发音表现是有区别的,每个音节只有一个候选单元,拼接起来很生硬,因此造成了语句的不连贯性。

而在大语料库的合成方法中,为了解决不同情况下汉字的发音不同的问题,人们就将语料库进一步完善,将汉语音节在不同情况下的发音候选单元尽量多地保存在音库中,在合成时先进行韵律环境分析,然后从音库中挑选出最合适当前语境的音节候选单元进行拼接。因此音库尺寸越大,其包含的不同情况下的不同发音就越多,也就越贴近自然人的发音。目前,专业级的语音合成系统,如讯飞的电信级、服务级语音合成系统,均采用了大语料库甚至超大语料库的算法,每个音库的尺寸可以达到几个G的规模,理论上可以逼近原发音人的效果。

  但在嵌入式环境,显然不可能容纳这么大的音库,必须进行裁减。这一代的嵌入式语音技术就是基于各种统计决策算法,从大语料库系统中挑选出最有代表性的若干音节并保存,裁减掉其他候选音节。从而一方面降低了系统尺寸,另一方面在一定程度上保证了较好的合成效果。

  大语料库技术的缺陷在于,如果要不断提升合成效果,就只有不断增加语料库中音节候选单元的个数,相应地系统尺寸就不断增大。

第三代嵌入式语音合成引擎(2005年):尺寸缩减,效果提升

  为了进一步改善合成效果,并且不受系统尺寸的限制,科大讯飞不断投入研发,进而发展到第三代语音合成技术。

这一代技术相比第二代又有了很大改进。主要体现如下:

首先,自然度得到提升,合成效果更好,更加具有实用性;

其次,合成时可调节范围更广,例如语速调节和语调调节等等;

第三,系统尺寸更小,处理器资源占用更少,更加适应嵌入式环境的应用。

  第三代技术的发展,使得嵌入式语音合成效果得到大幅度提升,给嵌入式语音技术的大规模商业应用带来了契机,并且向人们昭示出了语音合成技术发展更加光明的前景。大家可以在讯飞语音电子书产品中,感受到第三代语音合成技术的效果,它也代表着目前世界最高水平的嵌入式中文语音合成技术的效果。

更新历史:

讯飞语音电子书 V2.6 for Pocket PC [2007-3-22]

*针对Pocket PC2003及更高版本增加背光控制功能;

*调高软件默认音量;

*解决部分文本不根据屏幕自动换行的问题;

*解决遇到分隔符-------时,连续读“减“及其他类似问题;

讯飞语音电子书 V2.5 for Pocket PC [2007-1-8]

*增加粤语发音;

粤语作为全国七大方言之一,是一种很有特色且强势的方言,语音电子书2.5版本新增的粤语发音可满足粤语通行地区,如广东、港澳等地区用户的需求,同时可作为粤语用户学习普通话以及非粤语用户学习粤语的一种便捷途径。 2.5版本的讯飞语音电子书含有男女声普通话及粤语女声发音音库,同一文本既可选择用普通话阅读亦可选择用粤语朗读,可满足不同用户的需求。

*增加对pdb电子书格式的支持;

PDB格式是目前电子书最常采用的格式之一,讯飞语音电子书2.5版本支持纯文本的标准pdb格式电子书。

*提升英文单词合成效果;

讯飞语音电子书2.5版本采用了新的英文发音人,提升了英文单词的合成效果,可满足用户阅读中英文混合文本及学习英文单词的个性需求。

*解决VGA机型下字体发虚的问题;

*修正语速调整滑块进度过大的问题。

讯飞语音电子书 V2.1 for Pocket PC

*修正帮助在简体和繁体PPC2003系统下显示乱码的问题;

*修正繁体版安装后默认的背景音乐加载不上的问题;

*修正工具栏闪烁的问题;

*修正VGA机型字体显示模糊的问题;

*修正big5文件行首有空格,则在此行添加书签时书签名空格位置有一个方框的问题;

*修改默认显示字体为系统默认字体;

*背景音乐按钮在打开背景音乐和关闭背景音乐的时候区别显示;

*增加上下键调节总音量的功能;

*根据用户机器的默认语言,自动选择程序所使用的界面语言。

讯飞语音电子书 v2.0 for Pocket PC [2006-09-28]

*多界面语言支持:简体中文、繁体中文、英文

*多平台支持:Pocket PC 2000/2002/2003, Windows Mobile 5.0, Smartphone

*书签功能:能保存当前进度为书签,能对书签进行“删除”、“重命名”、“跳转到”

*最近打开文件,保存最近打开的30个文件(适用PPC版)

*可调整字体大小,字体颜色,背景颜色,可以设定配色方案

*加入背景音乐音量设置,可以调节背景音乐与朗读音的混音系数

*加入定时关机功能

*加入朗读时关闭背光的功能

*加入智能接力功能,即当前文件结束时自动打开下一个文件

*加入全屏显示功能

*加入更多的音效支持

*使用户可使用自定义的MP3文件作为背景音乐,并提供最近使用文件列表

讯飞语音电子书 v1.2.0.182 for Pocket PC [2006-08-03]

* 增加背景音乐功能

* 增加混响效果

* 打开文件时,对话框中的文件按顺序排列

* 修正了一些文字的读音错误问题,如“著”读为“着 zhe”音的问题

* 在文件浏览中,增加返回上一级的目录项

* 在打开文件窗口显示各文件大小

* 在保存新建文件的界面添加“确定”按钮,点击可保存文件

讯飞语音电子书 v1.1.0.162 for Pocket PC [2006-07-17]

* 解决只能读取My Document目录下文件的问题。新的版本中,用户可以打开任意目录下的文件

* 修正部分发音不准确的问题,解决男声音库破音的问题

* 解决朗读过程中设备自动待机的问题

* 提供绿色安装包,解决在Windows Mobile 5.0下的安装问题

* 将软件启动时,直接打开上次文件修改为在打开对话框中定位到上次打开的文件

讯飞语音电子书 v1.0.0.148 for Pocket PC [2006-06-30]

* 第一个正式发布版本

常见问题:

关于换行和空格的断句处理的问题

  在当前版本中,对于单个回车,不作断句处理,两个以上回车才作断句处理。对于一些由于换行造成合成不连贯的地方,我们会不断改进。

  有些用户提到将空格和换行都作断句处理,经过我们统计分析,大部分情况下换行或空格并不代表断句,如果都作断句处理,听书时就会引起歧义。

关于其他少数断句不准、多音字朗读错误以及个别字音调不对的问题

   科大讯飞的语音技术目前在某些方面处于领先的地位,但是由于嵌入式对于运算量和系统尺寸等的苛刻要求,在文本的前端分析上还做不到非常完善,因此在合成效果上还有不少不尽人意之处。科大讯飞会坚持对语音合成技术的不断研发,持续改进语音合成效果。

关于英文合成的问题

  目前软件中只支持英文单词级的合成,因此大家才会感觉像在念单词表。我们会在后续版本中加入英文篇章级合成,提升英文合成效果。

关于科大讯飞公司网站上的演示效果与讯飞语音电子书软件效果不一致的问题

  您在讯飞公司网站上看到的在线演示是科大讯飞服务级语音合成引擎的演示系统,而讯飞语音电子书采用的是面向嵌入式应用的轻量级语音合成引擎,两者的效果是有差别的,原因如下:

  1. 讯飞服务级语音合成系统是面向行业级应用的专业系统,音库可能有几个G的大小,算法复杂,需要较强的运算服务器支持。而轻量级系统主要面向终端设备应用,尺寸一般只有几M大小。
  2. Pocket PC的播音电路较PC声卡要差,因此PPC上语音系统的播放效果也会稍差一些。

    另外,语音电子书的发音人音库也不完全和网站上的一样,目前服务级的音库还没有完全在嵌入式引擎上实现,比如粤语音库,目前就还没有嵌入式的版本,但讯飞将会不断完善嵌入式上的语音解决方案,为大家带来更好的效果体验。

相关百科
返回顶部
产品求购 求购