tencent cloud

腾讯云智能数智人

文本、形象及声音设置

PDF
聚焦模式
字号
最后更新时间: 2025-11-05 10:10:10
数智人可用于制作视频(包含音频),本文指导您创建音视频项目,并在项目中对文本、形象及声音进行编辑。

创建项目

在进行文本、形象及声音设置前,您需要先创建项目,并选择形象类别。
1. 登录 数智人平台
2. 场景应用 > 音视频制作中,单击新建音视频播报项目,即可创建一个新项目。
3. 选择一个形象类别,作为项目关联的形象。
注意:
如果您的视图中没有可选类别或者类别比较少,主要原因是:您的账号下没有对应形象类别的形象。您需要先拥有对应的形象,才可以看到对应关联的入口。
每个形象类别的背后调用模型不同,所以要在一开始就先选定形象类别,我们为您提供了多种形象类别,如下图。



编辑操作

创建好项目后,有5个地方可以进行编辑操作,如下图。



更换形象或声音

点击后可以进入自己账号下的形象库,查询合适的形象来替换当前默认提供的形象;点击旁边的音色,可以更换别的音色。
调整形象
调整音色


选择需要的形象,即可完成更换。形象支持按照“最早”
和“最新”的时间进行排序。
有多种形象分类的标签,可以帮助用户快速筛选出所选音色,支持试听。
公共音色:数智人提供的公有音色库
我的音色:用户在数智人平台自己定制的音色
三方音色:支持用户导入第三方音色,目前支持:微软Azure和Google TTS两家。点击“导入TTS”输入相关ID,即可完成导入。

通过文本驱动或音频驱动生成视频

文本驱动即通过输入一段文字,最终生成的视频按照输入的文字播放出来;音频驱动则是上传一段音频,最终生成的视频将会播放这段音频。两种模式下,均支持编辑形象素材,调整输出的形象动作效果。
文本驱动
语音驱动




文本驱动模式下,提供了多种工具方便对文本进行编辑,目的是匹配形象动作和声音播报。某些工具跟当前选择的形象有关系,特定形象下才可使用。
音频驱动模式下,制作的视频输出音频即上传的音频。

支持更多的编辑功能

例如:播报内容是指在文本驱动模式下,支持插入停顿、插入动作、语速设置、连续词汇、多音字检测、替换文本等多种功能,有些功能跟形象类别有关联,更换其他类别会处于置灰不可用状态。
造型:根据当前形象具备的服饰、发型等进行随意搭配(前提是这个形象要具备多套服饰配件)。

输出设置
支持多种参数配置,包括:输出类型(横屏或者竖屏)、输出分辨率、字幕设置、站位调整、增加片头/片尾、更换背景、增加等多种能力。
输出类型:支持横屏或竖屏输出

调整分辨率:若形象有多个分辨率,可以进行切换

字幕设置:可以选择生成视频时,是否附带字幕

片头或片尾:支持导入一段视频作为片头或片尾

背景更换:点击即可更换背景。支持新增背景图。

添加 LOGO:可以在视频中增加 LOGO,LOGO 图片需要您自行添加。



调整形象比例大小

您可以通过选择指定比例,可以快速调整形象的大小。
0.5倍
0.75倍
1.0倍
1.25倍
1.5倍











选择生成结果

支持输出视频或者仅输出音频。生成视频时,支持输出不同的格式,可以根据实际情况进行选择。
生成视频
生成音频









帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈