effect_mode,它决定处理效果。basic:只做基础识别,速度快,适合长视频转文字、先看大意。nlp:在基础识别上做分词分句,返回结构化时间轴,适合直接做短视频字幕。llm:在基础识别上做 AI 分句、翻译、关键词,适合做关键词检索、补镜、画中画文案驱动。llm_vad:在 llm 基础上进一步清理气口、重复、错句,适合真人口播成片。content:content:走 asr 模式(纯识别)。content:走 sta 模式(按你提供文案做对齐)。POST/llm/asr/asr_llm/submit_task/submit_asr_llm_taskurl:待处理音视频地址(服务端可访问)effect_mode:basic|nlp|llm|llm_vad,不填默认 llmcontent :目标文案(用于对齐)