豆包-音频生成-1.0 使用说明

和豆包语音合成不同，该接口并不是让AI念”文案“，而是你描述一段声音，AI生成音频。

1. 说明

字节推出的音频生成模型，支持上传多个参考音频或图片生成音频，并可通过自然语言描述生成所需音效、音色等，适用于有声书、配音、游戏等场景。

提前准备：

确保你已经拥有vectcut账户：前往注册

确保你的账户余额 >200: 前往充值

2. 基础用法

2.1 纯文本生成

输入：文本提示词	输出：音频
男子 1 是中青年男性，台湾口音，嗓音低沉，浑厚，富有磁性，气泡音，成熟。男子 2 是中年男性，台湾口音，嗓音沉稳，沙哑，成熟，稳重。先是一声手机震动的声音，环境中伴随着持续的鸟鸣声。音乐以马林巴为主奏乐器，加入 pad 铺底、弦乐组、合成器 lead、电贝斯、打击乐，整体情绪紧张悬疑。男子 1 用严肃且带有质问的语气说道：“钟 sir，你是什么时候被收买的？”男子 2 通过电话回应，声音经过处理，显得有些遥远和失真，他用一种平静而无奈的语气说：“既然你都知道了，我也没有什么好隐瞒的。阿标手上有些证据，搭配上李勋的人证，足够让青龙帮垮台。”男子 1 继续追问，语气中带着一丝怀疑和困惑：“你现在说这些，是要我继续相信你？”男子 2 在电话里以一种告诫的口吻说：“信不信都无所谓。我打来只是想提醒你，阿标已经失去耐心，最好待在男公馆别乱跑。在那里，青龙帮的人，不敢轻举妄动。”男子 1 简短地问道：“为什么？”男子 2 解释道：“据说跟青龙帮的帮规有关，细节我也不清楚。只知道男公馆对他们来说，是个不能动手的地方。”男子 1 的语气变得更加尖锐和不解，他说：“我就当你被阿标收买了，那你打这通电话的意图是什么？不是应该希望李峋落入他们手里吗？”男子 2 的声音听起来充满了无力感和宿命感，他缓缓说道：“有些事，不是我能选择的。宇川，这是我唯一能做的。保护好李峋，也保重自己。” 然后出现一阵轻微的汽车行驶声，接着是一声轻微的汽车刹车声，随后是两声高跟鞋走路脚步声。

输入：文本提示词

输出：音频

男子 1 是中青年男性，台湾口音，嗓音低沉，浑厚，富有磁性，气泡音，成熟。男子 2 是中年男性，台湾口音，嗓音沉稳，沙哑，成熟，稳重。先是一声手机震动的声音，环境中伴随着持续的鸟鸣声。音乐以马林巴为主奏乐器，加入 pad 铺底、弦乐组、合成器 lead、电贝斯、打击乐，整体情绪紧张悬疑。男子 1 用严肃且带有质问的语气说道：“钟 sir，你是什么时候被收买的？”男子 2 通过电话回应，声音经过处理，显得有些遥远和失真，他用一种平静而无奈的语气说：“既然你都知道了，我也没有什么好隐瞒的。阿标手上有些证据，搭配上李勋的人证，足够让青龙帮垮台。”男子 1 继续追问，语气中带着一丝怀疑和困惑：“你现在说这些，是要我继续相信你？”男子 2 在电话里以一种告诫的口吻说：“信不信都无所谓。我打来只是想提醒你，阿标已经失去耐心，最好待在男公馆别乱跑。在那里，青龙帮的人，不敢轻举妄动。”男子 1 简短地问道：“为什么？”男子 2 解释道：“据说跟青龙帮的帮规有关，细节我也不清楚。只知道男公馆对他们来说，是个不能动手的地方。”男子 1 的语气变得更加尖锐和不解，他说：“我就当你被阿标收买了，那你打这通电话的意图是什么？不是应该希望李峋落入他们手里吗？”男子 2 的声音听起来充满了无力感和宿命感，他缓缓说道：“有些事，不是我能选择的。宇川，这是我唯一能做的。保护好李峋，也保重自己。” 然后出现一阵轻微的汽车行驶声，接着是一声轻微的汽车刹车声，随后是两声高跟鞋走路脚步声。

2.2 参考音频生成

输入：文本提示词	输入：参考音频	输出：音频
女主是老年女子，普通话，音调偏低，有些沙哑，饰演者为 @音频1 。音乐开头由手碟演奏主旋律，合成弦乐铺底做和声，塑造出略带忧伤和怀旧的氛围。环境中伴随着公路上嘈杂的多辆车辆行驶声和不规律的鸣笛声，直到结束。女主用温柔且平静的声音，在一声轻笑后开始讲述，说："我们上中学的时候相爱，后来一直在一起。我们学习成绩都不好，都没考上大学。"此时音乐停止，女主继续说道："他爱看武侠，还有… 就是跟我谈恋爱。" 在说到最后一句时稍有停顿，随后发出了一声非常轻微的、充满怀念意味的笑声。女主用落寞和伤感的语气继续说道："我们都不起眼，没有人…… 在乎我们。" 中间有明显的停顿。女主语速变慢，有些磕巴地接着说："高考结束那天，我们都很沮丧。那天…… 我们也没…… 没见面。"女主吸了一口气，继续以平稳的叙事口吻讲述："他从考场出来，花了五块钱，买了一张游泳票，在游泳池里待了一个下午。"女主用更加轻柔和富有感情的口吻说："明晃晃的太阳下，他第一次哭了。"经过一段长时间的停顿后，女主稍微抬高自己的语调继续讲述："后来他就开始了…… 出租车司机的生活。"女主充满感情地回忆道："后来…… 他跟我说。"在短暂的停顿后，女主用略带哽咽和颤抖的声线继续说道："遇上我…… 是他那么大最开心的一件事。"结尾有一声长时间尖锐的汽车刹车声。

2.3 参考音色ID生成

仅支持豆包2.0音色

输入：文本提示词	输入：参考音色ID	输出：音频
带货主播 1 是青年男声，声音明亮，带有东北口音，热情饰演者是@音频1。带货主播 2 是青年女声，声线温柔甜美，饰演者是@音频2。背景音乐极其微弱，以东北风格为主，女声演唱，整体音乐氛围热闹积极。带货主播 1 状态积极、仔细且设身处地的为直播间观众介绍道："金黄色的，这一定是很好的这个品质榴莲，那我进来瞅一眼吧。"期间穿插着带货主播 2 认同的 "对" 的声音。带货主播 1 继续热情高亢的介绍道："A 加级别的树熟的当地国的这一个，金枕头榴莲肉儿。"这是带货主播 2 也补充说道："金枕"带货主播 1 接着说道："而且是带核榴莲肉朋友们，不是属于把那个里面的那个核给您抠出去的。其实人为干预越少，您可能吃着更安心一点儿点儿，并且呢它放得住，保质期是 18 个月呢。"还有碰触塑料包装袋发出的声音。同时带货主播 1 继续推销道："啊，所以就是看您家里冰箱冷冻层的地方了。要是真有地方，我建议大家能买两包儿，不买一包儿。"带货主播 1 接着说："因为买两包儿我们还有一个 10 块钱的小优惠，还有一个 10 块钱的小优惠。你看噼里啪啦已经在把 1 打在公屏上。"说到这时语气搞怪地说道："熟练地让人心疼。"期间不停地穿插着带货主播 2 的赞同附和声："对"" 嗯 "。带货主播 2 笑着赞同道："哎呦，是"带货主播 1 继续强调道："熟练地让人心疼。"	zh_male_baqiqingshu_uranus_bigtts, zh_female_qiaopinv_uranus_bigtts

2.4 参考图片生成

输入：文本提示词	输入：参考图片	输出：音频
女主是年轻女子，普通话，音调偏低，有些沙哑，饰演者为 @图片1 。音乐开头由手碟演奏主旋律，合成弦乐铺底做和声，塑造出略带忧伤和怀旧的氛围。环境中伴随着公路上嘈杂的多辆车辆行驶声和不规律的鸣笛声，直到结束。女主用温柔且平静的声音，在一声轻笑后开始讲述，说："我们上中学的时候相爱，后来一直在一起。我们学习成绩都不好，都没考上大学。"此时音乐停止，女主继续说道："他爱看武侠，还有… 就是跟我谈恋爱。" 在说到最后一句时稍有停顿，随后发出了一声非常轻微的、充满怀念意味的笑声。女主用落寞和伤感的语气继续说道："我们都不起眼，没有人…… 在乎我们。" 中间有明显的停顿。女主语速变慢，有些磕巴地接着说："高考结束那天，我们都很沮丧。那天…… 我们也没…… 没见面。"女主吸了一口气，继续以平稳的叙事口吻讲述："他从考场出来，花了五块钱，买了一张游泳票，在游泳池里待了一个下午。"女主用更加轻柔和富有感情的口吻说："明晃晃的太阳下，他第一次哭了。"经过一段长时间的停顿后，女主稍微抬高自己的语调继续讲述："后来他就开始了…… 出租车司机的生活。"女主充满感情地回忆道："后来…… 他跟我说。"在短暂的停顿后，女主用略带哽咽和颤抖的声线继续说道："遇上我…… 是他那么大最开心的一件事。"结尾有一声长时间尖锐的汽车刹车声。

3. 进一步使用

你可以通过speech_rate控制语速，取值范围[-50,100]，100代表2.0倍速，-50代表0.5倍速，默认为0，默认不调整语速。

你可以通过loudness_rate控制音量，取值范围[-50,100]，100代表2.0倍音量，-50代表0.5倍音量，默认为0，默认不调整音量。

你可以通过pitch_rate控制音调，取值范围是[-12,12]，默认为0，默认不调整音调。

你可以通过enable_subtitle控制是否开启字幕服务，开启后，返回字级别的时间戳

4. 限制

生成的时长不超过120秒，长内容请自行分段，可以用add_audio组合结果

并发不超过2

可能遇到算力不足而导致失败，失败不会扣费

5.价格

价格表

6. 扩展阅读

将生成的音频添加进草稿：add_audio

保持生成结果的情感，但是替换音色："柯南领结”变声接口使用说明

给生成的音频添加字幕：如何使用字幕模版

豆包-音频生成-1.0 使用说明

1. 说明#

2. 基础用法#

2.1 纯文本生成#

2.2 参考音频生成#

2.3 参考音色ID生成#

2.4 参考图片生成#

3. 进一步使用#

4. 限制#

5.价格#

6. 扩展阅读#

1. 说明

2. 基础用法

2.1 纯文本生成

2.2 参考音频生成

2.3 参考音色ID生成

2.4 参考图片生成

3. 进一步使用

4. 限制

5.价格

6. 扩展阅读