产品简介
购买指南
数智人形象介绍
- 形象类别介绍
- 基础形象库
- 形象和声音复刻指引
数智人平台操作指引
- 访问平台
- 形象生产与资产管理
- 数智人会话互动应用与管理
- 播报数智人视频生成与管理
- 运营管理与分析
播报服务
- 视频生成服务 API 文档
交互服务
- API（云渲染、端渲染）
- SDK（端渲染）
- 交互数智人实践教程（云渲染）
定制服务
- 2D真人小样本形象、声音定制 API 文档
- 2D 端渲染形象定制及下载、使用流程
其他配套
- 数智人 aPaas 接口调用方式
- 个人资产管理 API 文档
数智人 SSML 标记语言规范
相关协议
- 隐私协议
- DSA（Data Sharing Agreement）
常见问题

文本、形象及声音设置

Download

聚焦模式

字号

最后更新时间： 2025-11-05 10:10:10

数智人可用于制作视频（包含音频），本文指导您创建音视频项目，并在项目中对文本、形象及声音进行编辑。
创建项目
在进行文本、形象及声音设置前，您需要先创建项目，并选择形象类别。
1. 登录 数智人平台。
2. 在场景应用 > 音视频制作中，单击新建音视频播报项目，即可创建一个新项目。
3. 选择一个形象类别，作为项目关联的形象。
注意：
如果您的视图中没有可选类别或者类别比较少，主要原因是：您的账号下没有对应形象类别的形象。您需要先拥有对应的形象，才可以看到对应关联的入口。
每个形象类别的背后调用模型不同，所以要在一开始就先选定形象类别，我们为您提供了多种形象类别，如下图。
﻿
﻿
编辑操作
创建好项目后，有5个地方可以进行编辑操作，如下图。
﻿
﻿
更换形象或声音
点击后可以进入自己账号下的形象库，查询合适的形象来替换当前默认提供的形象；点击旁边的音色，可以更换别的音色。
调整形象
调整音色
﻿
﻿
选择需要的形象，即可完成更换。形象支持按照“最早”
和“最新”的时间进行排序。
有多种形象分类的标签，可以帮助用户快速筛选出所选音色，支持试听。
公共音色：数智人提供的公有音色库
我的音色：用户在数智人平台自己定制的音色
三方音色：支持用户导入第三方音色，目前支持：微软Azure和Google TTS两家。点击“导入TTS”输入相关ID，即可完成导入。
通过文本驱动或音频驱动生成视频
文本驱动即通过输入一段文字，最终生成的视频按照输入的文字播放出来；音频驱动则是上传一段音频，最终生成的视频将会播放这段音频。两种模式下，均支持编辑形象素材，调整输出的形象动作效果。
文本驱动
语音驱动
﻿
﻿
﻿
﻿
文本驱动模式下，提供了多种工具方便对文本进行编辑，目的是匹配形象动作和声音播报。某些工具跟当前选择的形象有关系，特定形象下才可使用。
音频驱动模式下，制作的视频输出音频即上传的音频。
支持更多的编辑功能
例如：播报内容是指在文本驱动模式下，支持插入停顿、插入动作、语速设置、连续词汇、多音字检测、替换文本等多种功能，有些功能跟形象类别有关联，更换其他类别会处于置灰不可用状态。
造型：根据当前形象具备的服饰、发型等进行随意搭配（前提是这个形象要具备多套服饰配件）。
﻿
输出设置
支持多种参数配置，包括：输出类型（横屏或者竖屏）、输出分辨率、字幕设置、站位调整、增加片头/片尾、更换背景、增加等多种能力。
输出类型：支持横屏或竖屏输出
﻿
调整分辨率：若形象有多个分辨率，可以进行切换
﻿
字幕设置：可以选择生成视频时，是否附带字幕
﻿
片头或片尾：支持导入一段视频作为片头或片尾
﻿
背景更换：点击即可更换背景。支持新增背景图。
﻿
添加 LOGO：可以在视频中增加 LOGO，LOGO 图片需要您自行添加。
﻿
﻿
调整形象比例大小
您可以通过选择指定比例，可以快速调整形象的大小。
0.5倍
0.75倍
1.0倍
1.25倍
1.5倍
﻿
﻿
﻿
﻿
﻿
﻿
﻿
﻿
﻿
﻿
选择生成结果
支持输出视频或者仅输出音频。生成视频时，支持输出不同的格式，可以根据实际情况进行选择。
生成视频
生成音频
﻿
﻿
﻿
﻿
﻿
﻿
﻿
﻿

帮助和支持

本页内容是否解决了您的问题？

您也可以联系销售或提交工单以寻求帮助。

填写满意度调查问卷，共创更好文档体验。

文档反馈

tencent cloud

腾讯云智能数智人

文本、形象及声音设置

创建项目

编辑操作

更换形象或声音

通过文本驱动或音频驱动生成视频

支持更多的编辑功能

调整形象比例大小

选择生成结果

帮助和支持

调整形象	调整音色

选择需要的形象，即可完成更换。形象支持按照“最早” 和“最新”的时间进行排序。	有多种形象分类的标签，可以帮助用户快速筛选出所选音色，支持试听。公共音色：数智人提供的公有音色库我的音色：用户在数智人平台自己定制的音色三方音色：支持用户导入第三方音色，目前支持：微软Azure和Google TTS两家。点击“导入TTS”输入相关ID，即可完成导入。

文本驱动	语音驱动

文本驱动模式下，提供了多种工具方便对文本进行编辑，目的是匹配形象动作和声音播报。某些工具跟当前选择的形象有关系，特定形象下才可使用。	音频驱动模式下，制作的视频输出音频即上传的音频。

输出类型：支持横屏或竖屏输出	调整分辨率：若形象有多个分辨率，可以进行切换	字幕设置：可以选择生成视频时，是否附带字幕
片头或片尾：支持导入一段视频作为片头或片尾	背景更换：点击即可更换背景。支持新增背景图。	添加 LOGO：可以在视频中增加 LOGO，LOGO 图片需要您自行添加。