动态与公告
- 产品动态
- 公告
产品简介
- 产品概述
- 产品特性
- 产品功能
- 产品优势
- 应用场景
- 解决方案
专业版
- 云点播专业版简介
- 快速入门
- 控制台指南
- 开发指南
购买指南
- 计费概述
- 计费方式
- 购买指引
- 账单查询
- 续费说明
- 欠费说明
- 退费说明
快速入门
控制台指南
- 控制台介绍
- 服务概览
- 应用管理
- 媒体管理
- 资源包管理
- License 管理
- 实时日志分析
实践教程
- 媒体上传
- 如何将点播的媒体文件进行智能降冷
- 媒体处理
- 分发播放
- 如何接收事件通知
- 如何进行源站迁移
- 直播录制
- 如何进行自定义源站回源
- 直播精彩剪辑固化至云点播 VOD 指引
开发指南
- 媒体上传
- 媒体处理
- 事件通知
- 媒体分发播放
- 媒体加密与版权保护
- 播放频道
- 访问管理
- 下载媒体文件
- 应用体系
- 错误码
播放器 SDK 文档
- 概述
- 基本概念
- 产品功能
- Demo 体验
- 免费测试
- 购买指南
- SDK 下载
- License 指引
- 播放器教程
- AI Coding
- 含 UI 集成方案
- 无 UI 集成方案
- 高级功能
- API 文档
- 第三方播放器插件
- Player SDK Policy
服务端 API 文档
- History
- Introduction
- API Category
- Other APIs
- Media Processing APIs
- Parameter Template APIs
- Task Management APIs
- Media Upload APIs
- Media Management APIs
- Event Notification APIs
- Media Categorization APIs
- Domain Name Management APIs
- Distribution APIs
- AI-based Sample Management APIs
- Region Management APIs
- Data Statistics APIs
- Carousel-Related APIs
- Just In Time Transcode APIs
- Real-time Log APIs
- Deprecated APIs
- AI Generation APIs
- Making API Requests
- AI-based image processing APIs
- Task Flow APIs
- Data Types
- Error Codes
- Video on Demand API 2024-07-18
常见问题
相关协议
- Service Level Agreement
VOD 政策
- 隐私政策
- 数据处理和安全协议
联系我们
词汇表

音视频内容识别

下载

聚焦模式

字号

最后更新时间： 2024-11-04 10:11:28

腾讯云点播（VOD）服务于2022年08月01日新增音视频内容识别计费项并对用户发起的音视频内容识别任务将进行正式计费，具体详情请参见 关于音视频内容识别正式商业计费的公告 。
音视频内容识别，即借助 AI 对音视频内容进行智能识别，是一种离线任务。使用音视频内容识别，可以识别出视频画面中的人脸、文字、片头片尾以及语音中的文字。根据音视频内容识别的结果，您可以准确高效地管理视频。音视频内容识别包括以下功能：
功能名称
功能说明
用途举例
人脸识别
识别画面中出现的人脸
标注明星在画面中出现的位置。
排查画面中出现的相关人物。
语音全文识别
识别语音中出现的全部文字
为演讲内容生成字幕。
对视频的语音内容做数据分析。
文本全文识别
识别画面中出现的全部文字
对画面中的文字做数据分析。
语音关键词识别
识别语音中存在的关键词
排查语音中的敏感词。
检索语音中提到的特定关键词。
文本关键词识别
识别画面中存在的关键词
排查画面中的敏感词。
检索画面中出现的特定关键词。
视频片头片尾识别
识别视频的片头和片尾
进度条中标注片头、片尾和正片的位置。
批量对视频掐头去尾。
语音翻译识别
识别语音中出现的全部文字，同时翻译为指定语言
为短剧生成翻译字幕。
对跨国音视频会议录制文件生成多语言字幕。
部分内容识别功能需要依赖素材库，有公共库和自定义库两种：
公共库：点播预置好的素材库。
自定义库：用户自行创建和管理的素材库。
识别类型
公共库
自定义库
人脸识别
支持，素材人物主要涉及娱乐明星、体育明星和相关人物。
支持，调用 服务端 API 管理自定义人脸库。
语音单词识别
暂不支持。
支持，调用 服务端 API 管理关键词库。
文字单词识别
暂不支持。
支持，调用 服务端 API 管理关键词库。
音视频内容识别模板
音视频内容识别集成了多项识别功能，需要通过参数进行精细化控制，控制的目标如：
启用的识别类型：启用内容识别中的哪几项功能。
使用的素材库：对于人脸识别，使用公共库还是自定义库。
指定过滤分数：人脸识别的置信度达到多少分的结果才返回。
指定过滤标签：人脸的标签在什么范围内的结果才返回。
针对常见的操作组合，云点播提供了 预置音视频内容识别模板。另外，您还可以调用 服务端 API 创建和管理自定义音视频内容识别模板。
任务发起
发起音视频内识别任务，有“通过服务端 API 直接发起”、“通过控制台直接发起”和“上传时指定要执行的任务”三种方式。具体请参照视频处理的 任务发起。
以下是各种方式发起音视频内容识别任务的说明：
调用服务端 API ProcessMedia 发起任务：在请求中的AiRecognitionTask参数指定 音视频内容识别模板 的模板 ID。
通过控制台对视频发起任务：调用 服务端 API 创建任务流，任务流中配置音视频内容识别任务（MediaProcessTask.AiRecognitionTask中指定）；在控制台使用该任务流 发起视频处理。
服务端上传时指定任务：调用 服务端 API 创建任务流，任务流中配置音视频内容识别任务（MediaProcessTask.AiRecognitionTask中指定）； 申请上传 中的procedure参数指定为该任务流。
客户端上传时指定任务：调用 服务端 API 创建任务流，任务流中配置音视频内容识别任务（MediaProcessTask.AiRecognitionTask中指定）；在 客户端上传签名 中的procedure指定该任务流。
控制台上传：调用 服务端 API 创建任务流，任务流中配置音视频内容识别任务（MediaProcessTask.AiRecognitionTask中指定）；通过控制台上传视频，选择 上传的同时对视频进行处理操作 并指定视频上传后执行该任务流。
结果获取
发起音视频内容识别任务后，您可以通过异步等待 结果通知 和同步进行 任务查询 两种方式获取视频内识别任务的执行结果。下面是发起内容识别任务后，普通回调方式下结果通知的示例（省略了值为 null 的字段）：
{
    "EventType":"ProcedureStateChanged",
    "ProcedureStateChangeEvent":{
        "TaskId":"1400155958-Procedure-2e1af2456351812be963e309cc133403t0",
        "Status":"FINISH",
        "FileId":"5285890784363430543",
        "FileName":"集锦",
        "FileUrl":"http://1400155958.vod2.myqcloud.com/xxx/xxx/aHjWUx5Xo1EA.mp4",
        "MetaData":{
            "AudioDuration":243,
            "AudioStreamSet":[
                {
                    "Bitrate":125599,
                    "Codec":"aac",
                    "SamplingRate":48000
                }
            ],
            "Bitrate":1459299,
            "Container":"mov,mp4,m4a,3gp,3g2,mj2",
            "Duration":243,
            "Height":1080,
            "Rotate":0,
            "Size":44583593,
            "VideoDuration":243,
            "VideoStreamSet":[
                {
                    "Bitrate":1333700,
                    "Codec":"h264",
                    "Fps":29,
                    "Height":1080,
                    "Width":1920
                }
            ],
            "Width":1920
        },
        "AiRecognitionResultSet":[
            {
                "Type":"FaceRecognition",
                "FaceRecognitionTask":{
                    "Status":"SUCCESS",
                    "ErrCode":0,
                    "Message":"",
                    "Input":{
                        "Definition":10
                    },
                    "Output":{
                        "ResultSet":[
                            {
                                "Id":183213,
                                "Type":"Default",
                                "Name":"张三",
                                "SegmentSet":[
                                    {
                                        "StartTimeOffset":10,
                                        "EndTimeOffset":12,
                                        "Confidence":97,
                                        "AreaCoordSet":[
                                            830,
                                            783,
                                            1030,
                                            599
                                        ]
                                    },
                                    {
                                        "StartTimeOffset":12,
                                        "EndTimeOffset":14,
                                        "Confidence":97,
                                        "AreaCoordSet":[
                                            844,
                                            791,
                                            1040,
                                            614
                                        ]
                                    }
                                ]
                            },
                            {
                                "Id":236099,
                                "Type":"Default",
                                "Name":"lisi",
                                "SegmentSet":[
                                    {
                                        "StartTimeOffset":120,
                                        "EndTimeOffset":122,
                                        "Confidence":96,
                                        "AreaCoordSet":[
                                            579,
                                            903,
                                            812,
                                            730
                                        ]
                                    }
                                ]
                            }
                        ]
                    }
                }
            }
        ],
        "TasksPriority":0,
        "TasksNotifyMode":""
    }
}
﻿
回调结果中，ProcedureStateChangeEvent.AiRecognitionResultSet有Type为FaceRecognition的识别结果，代表人脸识别。
Type为FaceRecognition的结果显示，Output.ResultSet中包含了两个识别出的人物，分别是张三和lisi。SegmentSet表示人脸出现在视频中的时间段（由StartTimeOffset和EndTimeOffset确定）和在画面中的坐标（由AreaCoordSet确定）。

帮助和支持

本页内容是否解决了您的问题？

您也可以联系销售或提交工单以寻求帮助。

填写满意度调查问卷，共创更好文档体验。

文档反馈

功能名称	功能说明	用途举例
人脸识别	识别画面中出现的人脸	标注明星在画面中出现的位置。排查画面中出现的相关人物。
语音全文识别	识别语音中出现的全部文字	为演讲内容生成字幕。对视频的语音内容做数据分析。
文本全文识别	识别画面中出现的全部文字	对画面中的文字做数据分析。
语音关键词识别	识别语音中存在的关键词	排查语音中的敏感词。检索语音中提到的特定关键词。
文本关键词识别	识别画面中存在的关键词	排查画面中的敏感词。检索画面中出现的特定关键词。
视频片头片尾识别	识别视频的片头和片尾	进度条中标注片头、片尾和正片的位置。批量对视频掐头去尾。
语音翻译识别	识别语音中出现的全部文字，同时翻译为指定语言	为短剧生成翻译字幕。对跨国音视频会议录制文件生成多语言字幕。

识别类型	公共库	自定义库
人脸识别	支持，素材人物主要涉及娱乐明星、体育明星和相关人物。	支持，调用服务端 API 管理自定义人脸库。
语音单词识别	暂不支持。	支持，调用服务端 API 管理关键词库。
文字单词识别	暂不支持。	支持，调用服务端 API 管理关键词库。

tencent cloud

云点播

音视频内容识别

音视频内容识别模板

任务发起

结果获取

帮助和支持