1. 视频理解
流光剪辑
main
  • main
  • afanti
  • 一分钟,了解 流光剪辑!
  • 如何下载草稿
  • 在线预览草稿
  • 获取API Key
  • 价格表
  • 文本
    • 使用花字
    • 使用文字模版
    • 如何上传文字模板
    • add_text
      POST
    • remove_text
      POST
    • modify_text
      POST
    • add_subtitle
      POST
    • add_text_template
      POST
    • get_text_intro_types
      GET
    • get_text_outro_types
      GET
    • get_text_loop_anim_types
      GET
    • get_font_types
      GET
    • search_artist
      POST
  • 图片
    • get_intro_animation_types
    • get_outro_animation_types
    • get_combo_animation_types
    • add_image
    • modify_image
    • remove_image
  • 视频
    • add_video
    • modify_video
    • remove_video
  • 转场
    • get_transition_types
  • 蒙版
    • get_mask_types
  • 音频
    • get_audio_effect_types
    • add_audio
    • modify_audio
    • remove_audio
  • 关键帧
    • add_video_keyframe
  • 特效
    • get_video_character_effect_types
    • get_video_scene_effect_types
    • add_effect
    • modify_effect
    • remove_effect
  • 贴纸
    • search_sticker
    • add_sticker
  • 云渲染
    • 可使用字体
    • export_video
    • task_status
  • 工作流
    • 工作流脚本技术文档
    • 工作流 AI Prompt 提示词
    • 使用工作流功能
    • execute_workflow
  • 预设
    • 如何使用模版/预设功能
    • 如何上传模版
    • 快速体验预设
    • add_preset
    • presets
    • groups
  • 滤镜
    • add_filter
    • get_filter_types
    • modify_filter
    • remove_filter
  • 技能广场skills
    • 技能广场 Skills
    • 字幕
      • 识别字幕
      • 文稿匹配
      • generate_smart_subtitle
      • sta_subtitle
      • smart_subtitle_task_status
      • asr_basic
      • asr_nlp
      • AI识别字幕
      • AI识别字幕(去气口)
    • AI对话
      • 对话模型介绍
      • chat
      • model_list
    • 语音合成
      • 微软语音合成音色列表
      • MiniMax语音合成音色列表
      • MiniMax音色克隆
      • 豆包语音合成音色列表
      • Fish语音合成音色列表
      • Fish音色克隆
      • generate_speech
      • minimax_clone
      • fish_clone
      • voice_assets
    • AI生图
      • 图片生成聚合接口说明
      • generate_image
    • AI生视频
      • 视频生成聚合接口说明
      • ai_video_task_status
      • generate_ai_video
    • 数字人
      • create_digital_human
      • digital_human_task_status
    • 智能裁剪
      • smart_video_clip
    • 智能截图
      • smart_video_capture
    • 人物抠像
      • remove_background
    • 获取时长
      • get_duration
    • 提取音频
      • extract_audio
    • 分割视频
      • split_video
    • 视频理解
      • 获取视频详细描述
        POST
    • 获取分辨率
      • get_resolution
    • 网页数据获取
      • 解析小红书链接
      • 解析抖音链接
      • 解析快手链接
      • 解析B站链接
      • 解析TikTok链接
      • 解析YouTube链接
  • 口播模版
    • submit_agent_task
    • task_status
  • create_draft
    POST
  • 数据模型
    • Keyword
    • Word
    • Segment
    • AsrLlmVadRequest
    • AsrLlmVadResponse
  1. 视频理解

获取视频详细描述

POST
/llm/video_detail

视频内容详细理解接口(Video Detail)#

这个接口不是简单地“识别视频里有什么”,而是把一段视频转成可直接用于创作、复盘和生产的结构化文字理解结果。
你可以把它理解成一个会看镜头语言的“视频内容分析师”:
它会调用多模态模型,从视觉分镜、人物动作、空间关系、字幕/对白、风格气质多个维度输出细节描述。

适用场景#

1) 短视频运营复盘#

当你需要分析一条爆款视频为什么有效,这个接口可以帮你提炼:
开场钩子画面是什么,人物/产品在画面中的位置关系如何;
镜头节奏如何推进(切换频率、动作变化、信息密度);
屏幕文字、口播、字幕与画面的配合方式;
画面风格(色调、质感、节奏感)是否匹配目标受众。

2) 电商与品牌素材整理#

当素材库里视频很多、命名混乱时,可用输出结果做“可检索描述”:
识别每条视频的主场景、人物动作和产品露出方式;
提取可复用文案片段和字幕信息;
建立“风格标签”用于二次筛选(冷色/暖色、生活化/广告感、快节奏/慢节奏)。

3) AI 剪辑与脚本前置理解#

在自动剪辑或脚本生成前,先拿到视频语义明细:
明确视频叙事顺序与关键镜头段落;
识别可做 B-roll 替换或字幕重写的位置;
降低后续脚本生成与剪辑编排的试错成本。

输出内容特点#

接口返回的是一段高密度视频描述文本(output.video_detail),重点覆盖:
整体信息:时长感知、主题概述、内容主线;
分镜级细节:场景、主体、动作、前后左右与远近关系、大小对比;
文案信息:字幕、对白、屏幕标题、产品标签文字;
风格信息:色彩倾向、氛围感、镜头语言特征。
这类输出可以直接用于:
二次创作提示词;
素材库注释与检索;
复盘报告与团队沟通文档。

请求参数

Authorization
在 Header 添加参数
Authorization
,其值为在 Bearer 之后拼接 Token
示例:
Authorization: Bearer ********************
Header 参数

Body 参数application/json必填

示例

返回响应

🟢200
application/json
分析成功
Body

🟠402
🔴500
🔴502
请求示例请求示例
Shell
JavaScript
Java
Swift
cURL
curl --location --request POST 'https://open.vectcut.com/llm/video_detail' \
--header 'Authorization: Bearer  <token>' \
--header 'Content-Type: application/json' \
--data-raw '{
    "video_url": "https://player.install-ai-guider.top/example/VID_20260120_211842.mp4"
}'
响应示例响应示例
200 - 成功示例
{
    "error": "",
    "output": {
        "video_detail": "基于您提供的视频截图序列,以下是该视频的详细信息分析:\n\n### 1. 视频的整体信息\n*   **时长**:约 22 秒。\n*   **整体介绍**:这是一段典型的个人自拍视角的视频片段。视频主要内容为一名年轻男性坐在室内,面对镜头进行讲述或交流。视频开头和结尾有明显的调整设备或身体姿态的动作,中间部分为稳定的坐姿对话,看起来像是直播切片、视频日志(Vlog)的开头部分,或者是正在进行视频通话的录屏。\n\n### 2. 视频的详细介绍(视觉分镜角度)\n*   **镜头与构图**:\n    *   视频采用**固定机位**,视角为**平视略带俯视**的自拍角度。\n    *   人物主体位于画面的**左侧至中间区域**,占据了画面约 2/3 的宽度。\n    *   画面的**右侧**留有大面积的白色墙壁空白,形成了不对称构图。\n*   **场景与空间关系**:\n    *   **背景**:人物身后是一面干净的**白色墙壁**。\n    *   **左后方**:在人物的左肩后方(画面左侧),立着一个**深色(黑色或深棕色)的高柜或置物架**。柜子的高度超出了画面顶部,里面隐约可见摆放着一些杂物(如盒子、瓶罐等),由于景深原因,这些物品略显模糊,位于人物的后景层。\n    *   **下方**:在画面底部边缘,可以看到**白色椅子靠背**的弧形线条,位于人物腰部后方。\n*   **人物与动作细节**:\n    *   **人物特征**:一名亚洲男性,留着黑色的短寸发,面部干净。身穿一件**深灰色(或褐灰色)的圆领卫衣**,左胸口处有一个小型的深色Logo。左手手腕上佩戴着一个**白色的手环或手表**。\n    *   **动作流**:\n        *   **00:00 - 00:01**:人物身体前倾,右臂伸出画面外(推测正在调整手机位置或点击录制),此时面部距离镜头较近,占据了画面的大部分。\n        *   **00:02 - 00:20**:人物向后坐直,身体稳定在画面中央偏左的位置。他正对镜头,眼神直视前方,嘴巴开合,正在进行连续的讲话。期间头部有轻微的晃动和表情变化,左手自然垂放或搭在腿上(仅露出手腕部分)。\n        *   **00:21 - 00:22**:人物再次身体前倾,面部靠近镜头,动作与开头呼应,推测是准备停止录制或再次调整设备。\n\n### 3. 描述视频里的文案信息\n*   **字幕/标签**:视频画面中**没有任何可见的字幕、贴纸、标题或产品标签**。\n*   **对话/讲话**:虽然无法听到声音,但从人物嘴型的连续开合(特别是在 00:05 到 00:15 之间)来看,他正在输出连续的语音内容,语速中等,神态自然,像是在解释某事或与观众互动。\n\n### 4. 视频的风格信息\n*   **色彩风格**:\n    *   整体色调偏**冷色和低饱和度**。\n    *   主色调由背景的**白色**、人物衣服的**深灰色**以及左侧柜子的**黑色**组成,色彩对比度较低,给人一种朴素、日常的感觉。\n*   **光影与画质**:\n    *   **光线**:室内顶光照明,光线比较均匀,人物面部没有强烈的阴影,但缺乏立体感,属于典型的室内居家光线。\n    *   **画质**:画质略显粗糙,带有一定的噪点,清晰度一般,具有明显的**手机前置摄像头**拍摄特征,风格非常写实、生活化,没有经过后期滤镜美化。"
    },
    "success": true
}
修改于 2026-04-05 08:00:54
上一页
split_video
下一页
get_resolution
Built with