tencent cloud

腾讯云智能数智人

产品简介
产品概述
产品功能
产品优势
购买指南
价格指南
购买指引
使用代金券购买流程
退费说明
数智人形象介绍
形象类别介绍
基础形象库
形象和声音复刻指引
数智人平台操作指引
访问平台
形象生产与资产管理
数智人会话互动应用与管理
播报数智人视频生成与管理
运营管理与分析
服务端 API 接入
数智人 API 接入模式概述
数智人 aPaas 接口调用方式
2D真人小样本形象、声音定制 API 文档
视频生成服务 API 文档
交互数智人服务 API 文档
个人资产管理 API 文档
客户端 SDK 接入
整体介绍
3D 端渲染 SDK 接入
2D 端渲染 SDK 接入
数智人 SSML 标记语言规范
相关协议
隐私协议
DSA(Data Sharing Agreement)
常见问题

文本、形象及声音设置

PDF
聚焦模式
字号
最后更新时间: 2025-11-05 10:10:10
数智人可用于制作视频(包含音频),本文指导您创建音视频项目,并在项目中对文本、形象及声音进行编辑。

创建项目

在进行文本、形象及声音设置前,您需要先创建项目,并选择形象类别。
1. 登录 数智人平台
2. 场景应用 > 音视频制作中,单击新建音视频播报项目,即可创建一个新项目。
3. 选择一个形象类别,作为项目关联的形象。
注意:
如果您的视图中没有可选类别或者类别比较少,主要原因是:您的账号下没有对应形象类别的形象。您需要先拥有对应的形象,才可以看到对应关联的入口。
每个形象类别的背后调用模型不同,所以要在一开始就先选定形象类别,我们为您提供了多种形象类别,如下图。



编辑操作

创建好项目后,有5个地方可以进行编辑操作,如下图。



更换形象或声音

点击后可以进入自己账号下的形象库,查询合适的形象来替换当前默认提供的形象;点击旁边的音色,可以更换别的音色。
调整形象
调整音色


选择需要的形象,即可完成更换。形象支持按照“最早”
和“最新”的时间进行排序。
有多种形象分类的标签,可以帮助用户快速筛选出所选音色,支持试听。
公共音色:数智人提供的公有音色库
我的音色:用户在数智人平台自己定制的音色
三方音色:支持用户导入第三方音色,目前支持:微软Azure和Google TTS两家。点击“导入TTS”输入相关ID,即可完成导入。

通过文本驱动或音频驱动生成视频

文本驱动即通过输入一段文字,最终生成的视频按照输入的文字播放出来;音频驱动则是上传一段音频,最终生成的视频将会播放这段音频。两种模式下,均支持编辑形象素材,调整输出的形象动作效果。
文本驱动
语音驱动




文本驱动模式下,提供了多种工具方便对文本进行编辑,目的是匹配形象动作和声音播报。某些工具跟当前选择的形象有关系,特定形象下才可使用。
音频驱动模式下,制作的视频输出音频即上传的音频。

支持更多的编辑功能

例如:播报内容是指在文本驱动模式下,支持插入停顿、插入动作、语速设置、连续词汇、多音字检测、替换文本等多种功能,有些功能跟形象类别有关联,更换其他类别会处于置灰不可用状态。
造型:根据当前形象具备的服饰、发型等进行随意搭配(前提是这个形象要具备多套服饰配件)。

输出设置
支持多种参数配置,包括:输出类型(横屏或者竖屏)、输出分辨率、字幕设置、站位调整、增加片头/片尾、更换背景、增加等多种能力。
输出类型:支持横屏或竖屏输出

调整分辨率:若形象有多个分辨率,可以进行切换

字幕设置:可以选择生成视频时,是否附带字幕

片头或片尾:支持导入一段视频作为片头或片尾

背景更换:点击即可更换背景。支持新增背景图。

添加 LOGO:可以在视频中增加 LOGO,LOGO 图片需要您自行添加。



调整形象比例大小

您可以通过选择指定比例,可以快速调整形象的大小。
0.5倍
0.75倍
1.0倍
1.25倍
1.5倍











选择生成结果

支持输出视频或者仅输出音频。生成视频时,支持输出不同的格式,可以根据实际情况进行选择。
生成视频
生成音频









帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈