视频内容详细理解接口（Video Detail）

这个接口不是简单地“识别视频里有什么”，而是把一段视频转成可直接用于创作、复盘和生产的结构化文字理解结果。
你可以把它理解成一个会看镜头语言的“视频内容分析师”：
它会调用多模态模型，从视觉分镜、人物动作、空间关系、字幕/对白、风格气质多个维度输出细节描述。

适用场景

1) 短视频运营复盘

当你需要分析一条爆款视频为什么有效，这个接口可以帮你提炼：

开场钩子画面是什么，人物/产品在画面中的位置关系如何；

镜头节奏如何推进（切换频率、动作变化、信息密度）；

屏幕文字、口播、字幕与画面的配合方式；

画面风格（色调、质感、节奏感）是否匹配目标受众。

2) 电商与品牌素材整理

当素材库里视频很多、命名混乱时，可用输出结果做“可检索描述”：

识别每条视频的主场景、人物动作和产品露出方式；

提取可复用文案片段和字幕信息；

建立“风格标签”用于二次筛选（冷色/暖色、生活化/广告感、快节奏/慢节奏）。

3) AI 剪辑与脚本前置理解

在自动剪辑或脚本生成前，先拿到视频语义明细：

明确视频叙事顺序与关键镜头段落；

识别可做 B-roll 替换或字幕重写的位置；

降低后续脚本生成与剪辑编排的试错成本。

输出内容特点

接口返回的是一段高密度视频描述文本（output.video_detail），重点覆盖：

整体信息：时长感知、主题概述、内容主线；

分镜级细节：场景、主体、动作、前后左右与远近关系、大小对比；

文案信息：字幕、对白、屏幕标题、产品标签文字；

风格信息：色彩倾向、氛围感、镜头语言特征。

这类输出可以直接用于：

二次创作提示词；

素材库注释与检索；

复盘报告与团队沟通文档。

做不到什么

目前不要依赖这个接口视频做音频、文案的提取，更合理且准确的方案是采用（https://docs.vectcut.com/442852943e0）这个接口去提取准确的字幕

curl --location 'https://open.vectcut.com/llm/video_detail' \ --header 'Authorization: Bearer <token>' \ --header 'Content-Type: application/json' \ --data '{ "video_url": "https://player.install-ai-guider.top/example/VID_20260120_211842.mp4" }'

{ "error": "", "output": { "video_detail": "基于您提供的视频截图序列，以下是该视频的详细信息分析：\n\n### 1. 视频的整体信息\n* **时长**：约 22 秒。\n* **整体介绍**：这是一段典型的个人自拍视角的视频片段。视频主要内容为一名年轻男性坐在室内，面对镜头进行讲述或交流。视频开头和结尾有明显的调整设备或身体姿态的动作，中间部分为稳定的坐姿对话，看起来像是直播切片、视频日志（Vlog）的开头部分，或者是正在进行视频通话的录屏。\n\n### 2. 视频的详细介绍（视觉分镜角度）\n* **镜头与构图**：\n * 视频采用**固定机位**，视角为**平视略带俯视**的自拍角度。\n * 人物主体位于画面的**左侧至中间区域**，占据了画面约 2/3 的宽度。\n * 画面的**右侧**留有大面积的白色墙壁空白，形成了不对称构图。\n* **场景与空间关系**：\n * **背景**：人物身后是一面干净的**白色墙壁**。\n * **左后方**：在人物的左肩后方（画面左侧），立着一个**深色（黑色或深棕色）的高柜或置物架**。柜子的高度超出了画面顶部，里面隐约可见摆放着一些杂物（如盒子、瓶罐等），由于景深原因，这些物品略显模糊，位于人物的后景层。\n * **下方**：在画面底部边缘，可以看到**白色椅子靠背**的弧形线条，位于人物腰部后方。\n* **人物与动作细节**：\n * **人物特征**：一名亚洲男性，留着黑色的短寸发，面部干净。身穿一件**深灰色（或褐灰色）的圆领卫衣**，左胸口处有一个小型的深色Logo。左手手腕上佩戴着一个**白色的手环或手表**。\n * **动作流**：\n * **00:00 - 00:01**：人物身体前倾，右臂伸出画面外（推测正在调整手机位置或点击录制），此时面部距离镜头较近，占据了画面的大部分。\n * **00:02 - 00:20**：人物向后坐直，身体稳定在画面中央偏左的位置。他正对镜头，眼神直视前方，嘴巴开合，正在进行连续的讲话。期间头部有轻微的晃动和表情变化，左手自然垂放或搭在腿上（仅露出手腕部分）。\n * **00:21 - 00:22**：人物再次身体前倾，面部靠近镜头，动作与开头呼应，推测是准备停止录制或再次调整设备。\n\n### 3. 描述视频里的文案信息\n* **字幕/标签**：视频画面中**没有任何可见的字幕、贴纸、标题或产品标签**。\n* **对话/讲话**：虽然无法听到声音，但从人物嘴型的连续开合（特别是在 00:05 到 00:15 之间）来看，他正在输出连续的语音内容，语速中等，神态自然，像是在解释某事或与观众互动。\n\n### 4. 视频的风格信息\n* **色彩风格**：\n * 整体色调偏**冷色和低饱和度**。\n * 主色调由背景的**白色**、人物衣服的**深灰色**以及左侧柜子的**黑色**组成，色彩对比度较低，给人一种朴素、日常的感觉。\n* **光影与画质**：\n * **光线**：室内顶光照明，光线比较均匀，人物面部没有强烈的阴影，但缺乏立体感，属于典型的室内居家光线。\n * **画质**：画质略显粗糙，带有一定的噪点，清晰度一般，具有明显的**手机前置摄像头**拍摄特征，风格非常写实、生活化，没有经过后期滤镜美化。" }, "success": true }

描述视频内容

视频内容详细理解接口（Video Detail）

适用场景

1) 短视频运营复盘

2) 电商与品牌素材整理

3) AI 剪辑与脚本前置理解

输出内容特点

做不到什么

请求参数

返回响应

描述视频内容

视频内容详细理解接口（Video Detail）#

适用场景#

1) 短视频运营复盘#

2) 电商与品牌素材整理#

3) AI 剪辑与脚本前置理解#

输出内容特点#

做不到什么#

请求参数

返回响应

视频内容详细理解接口（Video Detail）

适用场景

1) 短视频运营复盘

2) 电商与品牌素材整理

3) AI 剪辑与脚本前置理解

输出内容特点

做不到什么