搜狗分身技术

搜狗分身技术

中文名 搜狗分身技术
目录导航

基本介绍

发布现场发布现场搜狗分身技术,是搜狗人工智能的核心技术之一,诞生于搜狗“自然交互+知识计算”这一人工智能理念之下,希望让机器以更逼真自然的形象呈现在用户面前,而不是冷冰冰的“机器人”。这项技术让机器首次做到逼真模拟人类说话的声音、嘴唇动作和表情,并且将三者自然匹配,做到惟妙惟肖,这是人工智能技术在模仿人类领域的一个新突破。[1]

技术原理

搜狗分身技术,包含语音合成和图像生成两大引擎,在语音合成引擎中,基于用户少量音频数据,使用搜狗个性化语音合成技术,快速学习用户音色、韵律、情感等多维度特征,建立输入文本与输出音频信息的关联;在图像生成引擎中,使用业界领先的搜狗人脸识别、三维人脸重建、表情建模等技术对人脸表情动作进行特征学习和建模,建立输入文本、输出音频与输出视觉信息的关联映射,最终生成输出分身视频。搜狗分身能够逼真模拟人类说话的声音、嘴唇动作和表情,并将三者自然匹配,让机器以更逼真自然的形象呈现在用户面前。

这项技术还可以批量复制无数个风格各异的人类形象,满足用户的各种个性需求,从而提升不同行业和职业的信息生产传播效率。[2]

所用AI技术

语音合成技术

行业领先的语音合成技术:Blizzard Challenge 2018两项全球第一

高表现力音色:支持数十种音色

个性化合成:使用少量数据即可生成说话人的合成音色

风格迁移:可实现说话人多种风格迁移

唇形合成技术

业界首创基于文本驱动的唇形合成模型

输入文本 → 唇形合成 → 输出唇形序列

表情合成技术

计算机视觉:MegaFace 2018人脸识别任务第一,Pascal VOC挑战赛第一

自然语言处理技术

人机对话:NTCIR 2017短文本对话第一,NLPCC 2018语义理解第一[3]

使用方法

运行原理运行原理第一步:本尊面对镜头录制一小段音视频数据;

第二步:搜狗“分身”提取本尊的个人特征(如声音、唇形、表情动作等);

第三步:利用(语音合成+唇形合成+表情合成)*深度学习技术合成“AI分身”。

已有应用

AI合成主播AI合成主播AI合成主播

2018年11月7日,在第五届世界互联网大会,搜狗公司与新华社联合发布的全球首个合成新闻主播——“AI合成主播”,是搜狗分身技术的一次重要实践。[4]

未来应用

媒体:AI合成主播,提升新闻报道的时效和质量

医疗:电话随访

教育:AI合成教师,辅导教学

法律:AI合成法律顾问,法律咨询

家庭:陪护孩子、亲人

获奖荣誉

2019年12月6日至8日,由国家新媒体产业基地和钛媒体集团联合主办的“2019 T-EDGE全球创新大会”在北京隆重举办,期间,大会发布了“年度前沿科技产品”榜单,凭借创新性、领先性和实用性,搜狗分身技术与华为欺凌990 5G芯片、银河一号卫星等产品共同上榜,而以搜狗分身技术为基础和核心的搜狗自由AI合成主播“雅妮”则在大会举办工程中协助主持工作并获得一致好评。

相关百科
返回顶部
产品求购 求购