张有为,1937年7月生,北京市人,男,1962年毕业于北京航空学院。40余年来一直从事高等教育和信号与信息处理的科学研究,撰写《维纳与卡尔曼滤波理论导论》、《雷达系统分析》、《预测的数学方法》、《动态规划》等6部著作,发表论文80余篇,其中30余篇为Sci,EI,ISTP收录。现为五邑大学教授,北京航空航天大学博士生导师,《电子学报》、《信号处理》编委,CIE信号处理委员会委员,IEEE终身会员。
第1章 导论
1.1 从人机交互到人机自然交互
1.2 自然信源与人造信息的接口界面
1.3 识别交互对象
1.4 识别交互内容
1.5 听觉-视觉双模态融合
1.6 对人类情态的感知
1.7 多模态网络环境、定位跟踪和数据库
1.8 人机自然交互带来的生活方式、工作方式和生活方式的变革
第2章 视觉——说话人识别与人脸识别
2.1 说话人识别问题
2.2 人脸图像的预处理
2.3 人脸图像的特征提取与识别
2.4 人脸特征自适应主元提取法
2.5 人脸图像奇异值特征提取法
2.6 最佳鉴别向量特征提取法
2.7 人脸识图像分层算法及应用实例
第3章 听觉——说话人识别、语音识别与理解
3.1 语音识别问题
3.2 语音信号的特征
3.3 语音识别的参量
3.4 特定人小词表语音识别的动态规划算法
3.5非特定人语音识别的隐马尔柯夫算法
3.6 说话人自适应
3.7 大词表边续语音识别
3.8 说话人识别
3.9 语音识别的其他算法
3.10 嵌入式系统中的语音识别
3.11 应用系统实例
第4章 视觉——唇读与识别
4.1 唇读问题
4.2 图像的预处理
4.3 唇动特征的提取
4.4 唇读识别
第5章 听觉-视觉——双模态语音识别与融合
5.1 双模态语音识别问题
5.2 双模态语音识别中的视觉语音特征区域定位
5.3 视觉语音序列特征提取
5.4 基于隐马尔柯夫模型的双模态早期融合
5.5 基于隐马尔柯夫模型的双模态晚期融合
第6章 听觉-视觉——双模态语音识别数据库
6.1 多模态人机自然交互技术与数据库
6.2 双模态语音识别数据库的现状与发展前景
6.3 双模态数据库数据采集
6.4 双模态数据库管理系统设计
6.5 CAVBSR-WUIIS数据库的使用与操作设计
6.6 双模态数据库在人机自然交互及身认证中的应用
6.7 数据库的扩展
参考文献