数智人可用于制作视频(包含音频),本文指导您创建音视频项目,并在项目中对文本、形象及声音进行编辑。
创建项目
在进行文本、形象及声音设置前,您需要先创建项目,并选择形象类别。
2. 在场景应用 > 音视频制作中,单击新建音视频播报项目,即可创建一个新项目。
3. 选择一个形象类别,作为项目关联的形象。
注意:
如果您的视图中没有可选类别或者类别比较少,主要原因是:您的账号下没有对应形象类别的形象。您需要先拥有对应的形象,才可以看到对应关联的入口。
每个形象类别的背后调用模型不同,所以要在一开始就先选定形象类别,我们为您提供了多种形象类别,如下图。
编辑操作
创建好项目后,有5个地方可以进行编辑操作,如下图。
更换形象或声音
点击后可以进入自己账号下的形象库,查询合适的形象来替换当前默认提供的形象;点击旁边的音色,可以更换别的音色。
|
| |
选择需要的形象,即可完成更换。形象支持按照“最早” 和“最新”的时间进行排序。 | 有多种形象分类的标签,可以帮助用户快速筛选出所选音色,支持试听。 公共音色:数智人提供的公有音色库 我的音色:用户在数智人平台自己定制的音色 三方音色:支持用户导入第三方音色,目前支持:微软Azure和Google TTS两家。点击“导入TTS”输入相关ID,即可完成导入。 |
通过文本驱动或音频驱动生成视频
文本驱动即通过输入一段文字,最终生成的视频按照输入的文字播放出来;音频驱动则是上传一段音频,最终生成的视频将会播放这段音频。两种模式下,均支持编辑形象素材,调整输出的形象动作效果。
|
|
|
文本驱动模式下,提供了多种工具方便对文本进行编辑,目的是匹配形象动作和声音播报。某些工具跟当前选择的形象有关系,特定形象下才可使用。 | 音频驱动模式下,制作的视频输出音频即上传的音频。 |
支持更多的编辑功能
例如:播报内容是指在文本驱动模式下,支持插入停顿、插入动作、语速设置、连续词汇、多音字检测、替换文本等多种功能,有些功能跟形象类别有关联,更换其他类别会处于置灰不可用状态。
造型:根据当前形象具备的服饰、发型等进行随意搭配(前提是这个形象要具备多套服饰配件)。
输出设置
支持多种参数配置,包括:输出类型(横屏或者竖屏)、输出分辨率、字幕设置、站位调整、增加片头/片尾、更换背景、增加等多种能力。
输出类型:支持横屏或竖屏输出 | 调整分辨率:若形象有多个分辨率,可以进行切换 | 字幕设置:可以选择生成视频时,是否附带字幕 |
片头或片尾:支持导入一段视频作为片头或片尾 | 背景更换:点击即可更换背景。支持新增背景图。 | 添加 LOGO:可以在视频中增加 LOGO,LOGO 图片需要您自行添加。 |
调整形象比例大小
您可以通过选择指定比例,可以快速调整形象的大小。
选择生成结果
支持输出视频或者仅输出音频。生成视频时,支持输出不同的格式,可以根据实际情况进行选择。