Files
meijiaka-zy/docs/kling-api-dev.md
T

4283 lines
182 KiB
Markdown
Raw Blame History

This file contains invisible Unicode characters
This file contains invisible Unicode characters that are indistinguishable to humans but may be processed differently by a computer. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 可灵AI (Kling) 新系统 API 开发规范及参照标准
> 本文档基于「可灵AI」新系统 API 接口文档整理
>
> 调用域名:`https://api-beijing.klingai.com`
>
> 最后更新:2026年4月
---
「可灵AI」新系统 API 接口文档
注意:
新系统调用域名已由 https://api.klingai.com 变更为 https://api-beijing.klingai.com。(更新于2025年6月30日)
| 更新时间 | 更新说明 |
|---|---|
| 2026.04.01 | 【视频生成:3.0-Omni】细化参考视频对视频角色主体、多图主体和参考图数量的影响 |
详见image_list参数和element_list参数的参数说明
本次更新仅细化说明,与原有逻辑一致
| 2026.03.23 | 【通用】多图主体也可绑定音色 |
|---|---|
此前仅视频角色主体支持绑定音色
多图主体绑定音色方式与视频角色主体一致,通过element_voice_id传参即可
| 2026.03.18 | 【视频生成-视频特效】新增特效 |
|---|---|
新增6款特效:“关门,挂挡!”、“闭嘴!我的梦”、“法式优雅”、“手指滑滑变装”、“花神驾到”、“丝滑转场”
特效内容详见:特效模版中心
| 2026.03.11 | 【视频生成:3.0-Omni】支持智能分镜 |
|---|---|
当shot_type参数值设为intelligence时,可实现智能分镜
【视频生成】细化部分业务逻辑说明
使用kling-video-o1模型生成首尾帧视频时,不支持引用主体
通过视频定制主体,仅支持定制写实风格、人形主体
创建主体 API 实例代码中 element_voice_id 参数格式为 string
多镜头不支持首尾帧
非首尾帧图片可不传type参数
音色控制功能支持模型范围说明
| 2026.03.04 | 【视频生成-动作控制】V3.0 全新上线 |
|---|---|
可通过绑定主体提升主体一致性,绑定主体时只能参考视频中的人物朝向
增加model_name参数区分模型版本,默认kling-v2-6
生成标准模式动作控制视频,每秒扣减0.9积分;生成高品质模式动作控制视频,每秒扣减1.2积分
| 2026.02.27 | 【视频生成-视频特效】新增特效 |
|---|---|
新增1款特效:被窝有“诈”
特效内容详见:特效模版中心
| 2026.02.25 | 【视频生成】3.0 Omni、V3模型上线 |
|---|---|
【图像生成】3.0 Omni、V3模型上线
【通用】主体相关功能全新升级
支持通过视频创建主体,同时创建主体时可绑定音色并用于生成视频时指定音色。
创建主体升级为异步服务,满足更多主体相关功能。
新主体服务采用全新APIadvanced-custom-elements),原有API可正常使用,但主体库相对独立,无法跨API查询。
| 2026.02.11 | 【视频生成-视频特效】新增特效 |
|---|---|
新增9款特效:“八方来财舞”、“弥渡山歌”、“上花轿”、“好运舞 2”、“来财舞”、“雪夜之吻”、“永恒之吻”、“马力全开舞”和“秧歌舞”
特效内容详见:特效模版中心
| 2026.02.04 | 【视频生成-视频特效】新增特效 |
|---|---|
新增8款特效:“你的专属烟花”、“掌心小人”、“手搓颜料变装”、“蹴鞠闹元宵”、“汤圆:我摊牌了”等
特效内容详见:特效模版中心
| 2026.02.03 | 【视频生成-视频特效】新增特效 |
|---|---|
新增9款特效:“嘻哈炫舞 2”、“鸽子舞”、“甜心舞 1”、“回村前后”等
特效内容详见:特效模版中心
| 2026.01.27 | 【视频生成-视频特效】新增特效 |
|---|---|
新增7款特效:“看看我家长龙宴”、“宠物出游、“冰雪奇迹”、“横移分身转场”、“马年烟花”、“辞旧迎新”等
特效内容详见:特效模版中心
| 2026.01.23 | 【通用】功能上新:支持智能补全主体不同角度图片 |
|---|---|
可通过主体正面图,自动推理出该主体其他角度图片,每次可生成3组结果供选择
按服务访问次数计费,每次扣减0.5积分
【通用】功能上新:查询任务结果时,可直接获取当前任务所消耗积分结果
对应参数key为:final_unit_deduction
【通用】功能上新:生成图片或视频时,可同时生成含水印结果
入参时将watermark_info中的enabled的参数设为true时,即可同时生成含水印结果
返回结果的watermark_url参数为含水印版本
目前仅部分API支持水印,详见当前API文档
| 2026.01.16 | 【视频生成-视频特效】新增特效 |
|---|---|
新增31款特效:“醉酒舞”、“刀马舞、“舞狮贺岁”、“咚咚咚,红包来了”、“怪盗珠宝”、“镜头拉远”等
特效内容详见:特效模版中心
| 2025.12.22 | 【视频生成】动作控制功能全新上线 |
|---|---|
请注意,为保障生成效果,当前动作控制功能对输入的参考图和参考视频有较为严格的检测机制,检测失败无法生成(API不扣费),请参考【使用指南】中对图像和视频的要求进行使用
*
基于新API路径实现,需同时上传参考图像和参考视频
支持标准模式和高品质模式,生成标准模式视频时每秒扣减0.5积分,生成高品质模式视频时每秒扣减0.8积分,秒数四舍五入取整
参考视频时长上限与所生成视频人物朝向相关:与参考视频一致时可达30秒,与参考图像一致时仅支持10秒
暂不支持动作库
| 2025.12.18 | 【视频生成-视频特效】新增特效 |
|---|---|
新增16款特效: “和他/她跨年”、“我的跨年分会场”、“下一秒圣诞”、“生日主角”等
通知:“亲吻”、“打架”、“拥抱”、“给你点赞”、“老虎拥抱”、“养只狮子”、“3D卡通1” 特效将于2026.1.30 日下线
特效内容详见:特效模版中心
| 2025.12.16 | 【视频生成】V2.6模型能力升级,支持指定音色 |
|---|---|
通过prompt和voice_list实现,指定音色生视频:5s扣减6积分,10s扣减12积分
支持音色定制,也可使用系统预置音色
| 2025.12.15 | 【视频生成】V2.6模型上线 |
|---|---|
支持“文生视频”和“图生视频”
通过sound参数控制生成视频时是否包含同时生成配音
【视频生成】Omni-Video模型上线
全新API,仅通过提示词即可实现多种能力
【图像生成】Omni-Image模型上线
全新API,仅通过提示词即可实现多种能力
| 2025.12.11 | 【视频生成-视频特效】新增特效 |
|---|---|
新增20款圣诞、新年、冬日主题特效: “2026 绽放时刻”、“圣诞惊喜礼盒”、“雪地童话”等
通知:“一起来庆生”和“C4D卡通”特效将于2025.12.30 日下线
特效内容详见:特效模版中心
| 2025.12.04 | 【数字人】能力升级,支持生成5分钟数字人视频 |
|---|---|
无感升级,无需修改接口参数
| 2025.11.25 | 【视频生成-视频特效】新增特效 |
|---|---|
新增10款单图特效: “感恩节气球游行”、“跳跳姜饼人”、“子弹时间”等
特效内容详见:特效模版中心
| 2025.11.19 | 【视频生成-视频特效】新增特效 |
|---|---|
新增7款单图特效: “光之精灵”、“测测你的守护神”、“单板滑雪”等
特效内容详见:特效模版中心
【多图参考生图】支持V2.1模型
生成1张图片扣减16积分
| 2025.11.17 | 【图生视频】V2.5-Turbo PRO支持首尾帧 |
|---|---|
同时传入image参数值和image_tail参数值即可实现
生成5s视频扣减2.5积分,生成10s视频扣减5积分
| 2025.11.11 | 【视频生成】V2.5-Turbo支持STD模式 |
|---|---|
“文生视频”和“图生视频”均已支持
生成5s视频扣减1.5积分,生成10s视频扣减3积分
| 2025.11.3 | 【数字人】视频生成效率提升,原小时级耗时压缩至10分钟+ |
|---|---|
无需修改任何代码
| 2025.10.27 | 【视频生成-视频特效】新增特效 |
|---|---|
新增10款万圣节特效: “南瓜人变身”、“可爱幽灵变身”、“门外是谁-万圣节”、“万圣大逃亡”等
特效内容详见:特效模版中心
| 2025.10.20 | 【视频生成】文生视频和图生视频支持V2.5-turbo模型 |
|---|---|
支持高品质版,生成5s视频低至2.5积分
【通用】能力上新:推出图片元素识别API,可用于多图参考生视频、多模态视频编辑功能
可识别主体、面部、服装等,一次请求可获得4组结果(如有)
| 2025.10.15 | 【视频生成-视频特效】新增特效 |
|---|---|
新增8款单图特效: “内心真实想法”、“蹦床”、“下一秒发生什么”等
特效内容详见:特效模版中心
【数字人】全新功能上线
基于图片与音频或文本生成动作表情自然、韵律与人声一致的视频
如果输入图片中有多个人脸,暂不支持对人脸做指定
| 2025.9.28 | 特别提醒:为保障信息安全,所有接口生成的图片/视频会在30天后被清理,为了避免影响使用,请您在生成后及时转存 |
|---|---|
| 2025.9.28 | 【视频生成-视频特效】新增 1 款特效 |
新增 1款单图特效: “万物皆可吃月饼”
特效内容详见:特效模版中心
| 2025.9.26 | 【视频生成-视频特效】新增 3 款特效 |
|---|---|
新增 3款单图特效: “狂暴金刚”、“一飞冲天”、“洗刷刷洗刷刷”
特效内容详见:特效模版中心
【语音合成】功能优化:支持合成1000长度内容的音频
| 2025.9.15 | 【对口型】能力更新:支持多人画面对口型、开始对口型时间 |
|---|---|
通过face_id指定说话人,通过sound_insert_time指定开始对口型时间
支持裁剪音频
【语音合成】全新上线:上线文本转播报音,可实现试听功能
可同时生成audio_id,可用于可灵任意API
| 2025.9.12 | 【视频生成-视频特效】新增 9 款特效 |
|---|---|
新增 9 款单图特效: “呼叫转移”、“捏一捏”等;
特效内容详见:特效模版中心
| 2025.9.11 | 【对口型】能力更新:支持多人画面对口型、开始对口型时间 |
|---|---|
通过face_id指定说话人,通过sound_insert_time指定开始对口型时间
支持裁剪音频
【语音合成】全新上线:上线文本转播报音,可实现试听功能
可同时生成audio_id,可用于可灵任意API
| 2025.9.5 | 【视频生成】能力更新:V2.1模型支持首尾帧 |
|---|---|
可生成5s或10s的视频,暂时仅支持高品质模式
【视频生成】功能优化:视频生音效
支持用户自行输入音效提示词、配乐提示词,以及开启ASMR模式
| 2025.9.1 | 【视频生成-视频特效】新增 5 款特效 |
|---|---|
新增 5 款单图特效: “萌宠京剧”、“肌肉觉醒”等;
特效内容详见:特效模版中心
| 2025.8.19 | 【视频生成-视频特效】新增 63 款特效 |
|---|---|
新增 62 款单图特效,1 款双人互动特效,累计 80 款特效可支持调用;
新增「特效模版中心」页面,支持查看特效详细信息与调用价格:特效模版中心
| 2025.8.15 | 【视频生成】功能优化:视频生音效 |
|---|---|
视频音效生成支持​​全分辨率​​视频上传
【多图参考生视频】功能优化:效果比上一版本提升 102%
主体一致性、动态质量、互动自然度等维度明显提升。
无感升级,不需修改代码。
【图像生成】模型更新:上线新V2.0模型,支持近300种风格
参数示例:"model_name": "kling-v2-new"
| 2025.8.12 | 【视频生成】能力更新:文生视频支持V1.6 PRO |
|---|---|
参数示例:"mode": "pro"
可生成5s和10s的视频
| 2025.8.1 | 【视频生成】新增能力:文生音效 |
|---|---|
支持通过输入文本描述(prompt)生成音效
【视频生成】新增能力:视频生音效
支持对所有可灵模型生成的视频,进行视频配音
支持对用户自行上传的视频,进行视频配音
| 2025.7.30 | 【图像生成】支持V2.1模型 |
|---|---|
文生图支持kling-v2-1模型
【多图参考生图】全新上线
支持主体参考subject_image_list、背景参考scene_image、风格参考style_image
单价0.4元,每生成1张图片从资源包总数里扣减16
仅支持kling-v2模型
| 2025.7.21 | 【视频生成-视频特效】新增单图特效 |
|---|---|
新增「单图特效」:7款,“果冻液压机jelly_press”、“果冻切一切jelly_slice”、“果冻捏一捏jelly_squish”、“果冻摇一摇jelly_jiggle”、“像素世界pixelpixel”、“美式证件照yearbook”、“一键拍立得instant_film”
包括创建任务、查询任务(单个)、查询任务(列表)接口
【多模态视频编辑】全新上线
支持对已有视频增加元素(addition)、替换元素(swap)、删除元素(removal
使用时,需先初始化视频并对视频进行标记,再执行创建任务等操作
| | |
|---|---|
| 2025.7.7 | 【视频生成-视频特效】新增单图特效 |
新增「单图特效」:2款,“一键变手办anime_figure”、“一飞冲天rocketrocket”
包括创建任务、查询任务(单个)、查询任务(列表)接口
| 2025.6.30 | 【对口型】功能升级 |
|---|---|
支持视频时长上限从10秒增加至60秒
生成视频耗时低至2分钟
无需改造代码
| 2025.6.19 | 【视频生成】支持V2.1模型 |
|---|---|
上线图生视频 V2.1 标准版,支持标准模式(STD)和高品质版(PRO)
上线图生视频 V2.1 大师版(Master
上线文生视频 V2.1 大师版(Master
| 2025.6.6 | 【图像生成】支持V2.0图生图模型,文生图模型支持选择分辨率(1K, 2K) |
|---|---|
【图像生成】支持扩图
| 2025.5.13 | 【图像生成】支持V2.0模型 |
|---|---|
支持V2.0文生图模型
【视频生成】支持V2.0模型
支持V2.0文生视频模型、图生视频模型
V2.0暂不支持mode参数
【多图参考生视频】全新上线
最多支持从4张图片中选取主体
支持自定义生成视频的长宽比:16:9,9:16,1:1
| 2025.4.25 | 【视频生成-视频特效】新增单图特效 |
|---|---|
新增「单图特效」:2款,“花花世界bloombloom”、“魔力转圈圈dizzydizzy”
包括创建任务、查询任务(单个)、查询任务(列表)接口
| 2025.3.31 | 【视频生成】V1.6模型支持仅尾帧生成视频 |
|---|---|
可通过V1.6 高品质模型基于图片生成图片前几秒的视频画面
【视频生成】V1.5模型、V1.6模型支持视频延长
可基于V1.5模型和V1.6模型生成的视频,续写之后4~5秒的内容
如果是用“仅尾帧”生成的视频,则续写之前4~5秒的内容
| 2025.3.25 | 【图像生成】V1.5模型支持角色特征参考和人物长相参考 |
|---|---|
角色特征参考:通过文本描述即可随意改变人物的服装、发型、配饰、场景等元素,且可保持人物长相与参考图高度相似,轻易实现单人物多场景的创作需求
人物长相参考:适用于人物和常见动物角色,可控信息由长相扩大到主体,同时支持用户分别调节长相和主体的相似强度,通过文本描述,可以将角色置于任何场景,为用户在创作阶段提供单角色多镜头多场景的稳定素材支持
| 2025.3.12 | 【视频生成-视频特效】新增单图特效 |
|---|---|
开放「单图特效」:3款,“快来惹毛我fuzzyfuzzy”、“捏捏乐squish”与“万物膨胀expansion”
包括创建任务、查询任务(单个)、查询任务(列表)接口
【视频生成】新模型支持首尾帧、仅尾帧、动态笔刷、运镜控制
V1.5支持首尾帧、仅尾帧、动态笔刷、运镜控制
V1.6支持首尾帧
【视频生成】对口型支持自定义视频,支持更多可用音色
支持为任意1080p或720p、10s内视频对口型
新增8个中、英文音色可直接用于给对口型视频配音
【图像生成】支持V1.5模型
画面美感提升:构图与光影更加协调,尤其是人像美观度大幅提升,呈现更高级的美学效果
画面质量提升:增强了画面细节表现,色彩还原更加自然,层次感更加丰富
长宽比支持支持21:9
| 2025.3.5 | 【视频生成】新增能力:视频创意特效 |
|---|---|
开放「双人互动特效」:3款,“拥抱hug”、亲吻kiss”、比心heart_gesture”
包括创建任务、查询任务(单个)、查询任务(列表)接口
相比通用的视频生成接口,视频特效接口开放了更灵活的调用参数、封装了特效场景所需的前后处理能力(例如双人特效,支持传入两张人像图、并完成两张人像图的自动拼接,用拼接后的整图进行视频生成),调用更方便快捷
| 2025.2.14 | 【图像生成】model字段变更 |
|---|---|
请您注意,为了保持命名统一,原 model字段变更为 model_name字段,未来请您使用该字段来指定需要调用的模型版本。
同时,我们保持了行为上的向前兼容,如您继续使用原 model字段,不会对接口调用有任何影响、不会有任何异常,等价于 model_name为空时的默认行为(即调用V1模型)
| 2025.1.7 | 【视频生成】V1.6模型正式上线 |
|---|---|
支持文生视频标准模式(STD),图生视频标准模式(STD)和高品质模式(PRO)
暂不支持尾帧和运动笔刷、运镜等控制类功能
请您注意,为了保持命名统一,原 model字段变更为 model_name字段,未来请您使用该字段来指定需要调用的模型版本。
同时,我们保持了行为上的向前兼容,如您继续使用原 model字段,不会对接口调用有任何影响、不会有任何异常,等价于 model_name为空时的默认行为(即调用V1模型)
| 2024.12.30 | 【虚拟试穿】新增V1.5模型 |
|---|---|
V1.5模型是V1.0模型的全面升级版本
V1.5模型支持单个服装(上装upper、下装lower、与连体装dress)试穿,以及“上装+下装”形式服装的组合试穿
| 2024.12.23 | 【视频生成】新增能力:对口型 |
|---|---|
可灵 1.0 模型、可灵 1.5 模型生成的视频,只要满足视频画面的人脸条件,均支持对口型
包括创建任务、查询任务(单个)、查询任务(列表)接口
| 2024.12.9 | 【视频生成】V1.5模型,正式开放标准模式(STD)调用,支持视频生成 - 图生视频,暂不支持文生视频 |
|---|---|
支持标准模式
不支持尾帧控制
其他参数均支持
请您注意,为了保持命名统一,原 model字段变更为 model_name字段,未来请您使用该字段来指定需要调用的模型版本。
同时,我们保持了行为上的向前兼容,如您继续使用原 model字段,不会对接口调用有任何影响、不会有任何异常,等价于 model_name为空时的默认行为(即调用V1模型)
| 2024.12.2 | 【视频生成】能力地图 |
|---|---|
由于视频生成模型有多个模型版本(V1,V1.5),且有多种插件能力(镜头控制/首尾帧/运动笔刷/续写...),为了方便大家更直观的查询不同版本、不同能力的开放情况,我们制作了“能力地图”方便大家查阅(详见“3-0能力地图”)
| 2024.11.29 | 【视频生成 - 图生视频】新增运动笔刷 |
|---|---|
仅支持V1.0模型的标准模式 5s 与高品质模式 5s,V1.5模型暂不支持
| 2024.11.15 | 【视频生成】V1.5模型,正式开放高品质模式(PRO)调用,支持视频生成 - 图生视频,暂不支持文生视频 |
|---|---|
仅支持高品质模式
不支持尾帧控制
其他参数均支持
【视频生成】新增能力:视频延长
支持对V1.0模型生成的视频直接进行延长,每次增加4-5s的视频时长
包括创建任务、查询任务(单个)、查询任务(列表)接口
【视频生成】其他
新增“external_task_id”字段,您可以在创建任务时自定义任务id,查询时也可以通过该自定义id查询视频
请您注意,为了保持命名统一,原 model字段变更为 model_name字段,未来请您使用该字段来指定需要调用的模型版本。
同时,我们保持了行为上的向前兼容,如您继续使用原 model字段,不会对接口调用有任何影响、不会有任何异常,等价于 model_name为空时的默认行为(即调用V1模型)
| 2024.10.30 | 新增“查询资源包列表及余量”接口,方便您自主查询,见“六、账号信息查询” |
|---|---|
| 2024.10.25 | 增加对于模型生成物(图片/视频)存储时长的说明 |
为保障信息安全,生成的图片/视频会在30天后被清理,辛苦大家及时转存
| 2024.10.15 | 增加生成鉴权信息的Java示例代码 |
|---|---|
| 2024.9.19 | 视频生成相关API |
创建任务时,请求参数里的正向提示词(prompt)和负向提示词(negative_prompt),字符数限制更新为:不超过2500个字符
| 2024.9.19 | 正式支持“AI虚拟试穿”相关APIkolors-virtual-try-on |
|---|---|
一、通用信息
调用域名
https://api-beijing.klingai.com
⚠️注意:新系统调用域名已由 https://api.klingai.com 变更为 https://api-beijing.klingai.com。此域名适用于服务器在中国地区的用户。
接口鉴权
Step-1:获取 AccessKey + SecretKey
Step-2:您每次请求API的时候,需要按照固定加密方法生成API Token
加密方法:遵循JWTJson Web Token, RFC 7519)标准
JWT由三个部分组成:Header、Payload、Signature
示例代码(Python):
示例代码(Java):
Step-3:用第二步生成的API Token组装成Authorization,填写到 Request Header 里
组装方式:Authorization = "Bearer XXX" 其中XXX填写第二步生成的API Token(注意Bearer跟XXX之间有空格)
错误码
| HTTP状态码 | 业务码 | 业务码定义 | 业务码解释 | 建议解决方案 |
|---|---|---|---|---|
| 200 | 0 | 请求成功 | - | - |
| 401 | 1000 | 身份验证失败 | 身份验证失败 | 检查Authorization是否正确 |
| 401 | 1001 | 身份验证失败 | Authorization为空 | 在Request Header中填写正确的Authorization |
| 401 | 1002 | 身份验证失败 | Authorization值非法 | 在Request Header中填写正确的Authorization |
| 401 | 1003 | 身份验证失败 | Authorization未到有效时间 | 检查token的开始生效时间,等待生效或重新签发 |
| 401 | 1004 | 身份验证失败 | Authorization已失效 | 检查token的有效期,重新签发 |
| 429 | 1100 | 账户异常 | 账户异常 | 检查账户配置信息 |
| 429 | 1101 | 账户异常 | 账户欠费(后付费场景) | 进行账户充值,确保余额充足 |
| 429 | 1102 | 账户异常 | 资源包已用完/已过期(预付费场景) | 购买额外的资源包,或开通后付费服务(如有) |
| 403 | 1103 | 账户异常 | 请求的资源无权限,如接口/模型 | 检查账户权限 |
| 400 | 1200 | 请求参数非法 | 请求参数非法 | 检查请求参数是否正确 |
| 400 | 1201 | 请求参数非法 | 参数非法,如key写错或value非法 | 参考返回体中message字段的具体信息,修改请求参数 |
| 404 | 1202 | 请求参数非法 | 请求的method无效 | 查看接口文档,使用正确的request method |
| 404 | 1203 | 请求参数非法 | 请求的资源不存在,如模型 | 参考返回体中message字段的具体信息,修改请求参数 |
| 400 | 1300 | 触发策略 | 触发平台策略 | 检查是否触发平台策略 |
| 400 | 1301 | 触发策略 | 触发平台的内容安全策略 | 检查输入内容,修改后重新发起请求 |
| 429 | 1302 | 触发策略 | API请求过快,超过平台速率限制 | 降低请求频率、稍后重试,或联系客服增加限额 |
| 429 | 1303 | 触发策略 | 并发或QPS超出预付费资源包限制 | 降低请求频率、稍后重试,或联系客服增加限额 |
| 429 | 1304 | 触发策略 | 触发平台的IP白名单策略 | 联系客服 |
| 500 | 5000 | 内部错误 | 服务器内部错误 | 稍后重试,或联系客服 |
| 503 | 5001 | 内部错误 | 服务器暂时不可用,通常是在维护 | 稍后重试,或联系客服 |
| 504 | 5002 | 内部错误 | 服务器内部超时,通常是发生积压 | 稍后重试,或联系客服 |
二、图像生成
2-0 能力地图
| kling-image-o1 | | 自定义长宽比(1K/2K) | 智能长宽比 |
|---|---|---|---|
| 文生图 | 单图生成 | ✅ | - |
| | 其他 | - | - |
| 图生图 | 单图生成 | ✅ | ✅ |
| | 主体控制 | | |
(仅多图主体)


| | 其他 | - | - | |
|---|---|---|---|---|
| | kling-v3-omni | | 自定义长宽比(1K/2K/4K) | 智能长宽比 |
| 文生图 | 单图生成 | ✅ | ✅ | |
| | 其他 | - | - | |
| 图生图 | 单图生成 | ✅ | ✅ | |
| | 组图生成 | ✅ | ✅ | |
| | 主体控制 | | | |
(仅多图主体)


| | 其他 | - | - | | | | | | | |
|---|---|---|---|---|---|---|---|---|---|---|
| | kling-v1 | | 1:1 | 16:9 | 4:3 | 3:2 | 2:3 | 3:4 | 9:16 | 21:9 |
| 文生图 | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | |
| 图生图 | 通用垫图 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | |
| | 其他能力 | - | - | - | - | - | - | - | - | |
| | kling-v1-5 | | 1:1 | 16:9 | 4:3 | 3:2 | 2:3 | 3:4 | 9:16 | 21:9 |
| 文生图 | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | |
| 图生图 | 角色特征 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | |
| | 人物长相 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | |
| | 其他能力 | - | - | - | - | - | - | - | - | |
| kling-v2 | | 1:1 | 16:9 | 4:3 | 3:2 | 2:3 | 3:4 | 9:16 | 21:9 |
|---|---|---|---|---|---|---|---|---|---|
| 文生图 | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| | | | | | | | | | |
图生图
多图参考生图








| | 风格转绘 | ✅(生成图片分辨率与入参图相同,不支持单独设置分辨率) | | | | | | | | |
|---|---|---|---|---|---|---|---|---|---|---|
| | 其他能力 | - | - | - | - | - | - | - | - | |
| | kling-v2-new | | 1:1 | 16:9 | 4:3 | 3:2 | 2:3 | 3:4 | 9:16 | 21:9 |
| 文生图 | - | - | - | - | - | - | - | - | - | |
| 图生图 | 风格转绘 | ✅(生成图片分辨率与入参图相同,不支持单独设置分辨率) | | | | | | | | |
| | 其他能力 | - | - | - | - | - | - | - | - | |
| | kling-v2-1 | | 1:1 | 16:9 | 4:3 | 3:2 | 2:3 | 3:4 | 9:16 | 21:9 |
| 文生图 | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | |
| 图生图 | 通用垫图 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | |
| | 角色特征 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | |
| | 人物长相 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | |
| | 多图参考生图 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | |
| | 风格转绘 | ✅(生成图片分辨率与入参图相同,不支持单独设置分辨率) | | | | | | | | |
| kling-v3 | | 自定义长宽比(1K/2K) | 智能长宽比 |
|---|---|---|---|
| 文生图 | 单图生成 | ✅ | - |
| | 其他 | - | - |
| 图生图 | 单图生成 | ✅ | - |
| | 主体控制 | | |
(仅多图主体)

-
| | 其他 | - | - | | | | |
|---|---|---|---|---|---|---|---|
| | 与模型版本无关的能力 | 是否支持 | 描述 | | | | |
| 扩图 | ✅ | 可基于已有图片扩展内容 | | | | | |
| 其他 | - | | | | | | |
| | 模型 | kling-v1 | | kling-v1-5 | | kling-2 | |
| 模式 | 文生图 | 图生图 | 文生图 | 图生图 | 文生图 | 图生图 | |
| 清晰度 | 1K | 1K | 1K | 1K | 1K/2K | 1K | |
2-1【Omni-Image】创建任务
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/images/omni-image |
| 请求方法 | POST |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求体
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| model_name | string | 可选 | kling-image-o1 | 模型名称 |
枚举值:kling-image-o1kling-v3-omni
| prompt | string | 必须 | 无 | 文本提示词,可包含正向描述和负向描述 |
|---|---|---|---|---|
可将提示词模板化来满足不同的图像生成需求
不能超过2500个字符
Omni模型可通过Prompt与图片等内容实现多种能力
通过<<<>>>的格式来指定某个图片,如:<<<image_1>>>
能力范围详见使用手册:可灵Omni模型使用指南
| image_list | array | 可选 | 空 | 参考图列表 |
|---|---|---|---|---|
用key:value承载,如下:
```json
[
{
"image_url": "https://example.com/image.jpg"
}
]
```
支持传入图片Base64编码或图片URL(确保可访问)
图片格式支持.jpg / .jpeg / .png
图片文件大小不能超过10MB,图片宽高尺寸不小于300px,图片宽高比要在1:2.5 ~ 2.5:1之间
参考主体数量与参考图片数量有关,参考主体数量和参考图片数量之和不得超过10
image_url参数值不得为空
| element_list | array | 可选 | 空 | 主体参考列表 |
|---|---|---|---|---|
基于主体库中主体的ID配置,用key:value承载,如下:
```json
[
{
"element_id": "your_element_id"
}
]
```
参考主体数量与参考图片数量有关,参考主体数量和参考图片数量之和不得超过10
不同模型版本支持范围不同,详见当前文档2-0能力地图
| resolution | string | 可选 | 1k | 生成图片的清晰度 |
|---|---|---|---|---|
枚举值:1k, 2k, 4k
1k1K标清
2k2K高清
4k4K高清
不同模型版本支持范围不同,详见当前文档2-0能力地图
| result_type | string | 可选 | single | 生成结果单图/组图切换开关 |
|---|---|---|---|---|
枚举值:singleseries
不同模型版本支持范围不同,详见当前文档2-0能力地图
| n | int | 可选 | 1 | 生成图片数量 |
|---|---|---|---|---|
取值范围:[1,9]
当result_type值为series时,当前参数无效
| series_amount | int | 可选 | 4 | 生成组图的图片数量 |
|---|---|---|---|---|
取值范围:[2, 9]
当result_type值为single时,当前参数无效
不同模型版本支持范围不同,详见当前文档2-0能力地图
| aspect_ratio | string | 可选 | auto | 生成图片的画面纵横比(宽:高) |
|---|---|---|---|---|
枚举值:16:9, 9:16, 1:1, 4:3, 3:4, 3:2, 2:3, 21:9, auto
其中:auto为根据传入内容智能生成图片宽高比
参考原图横纵比生成新图时,当前参数无效
不同模型版本支持范围不同,详见当前文档2-0能力地图
| watermark_info | array | 可选 | 空 | 是否同时生成含水印的结果 |
|---|---|---|---|---|
通过enabled参数定义,用key:value承载,如下::
```json
{
"enabled": true
}
```
暂不支持自定义水印
| callback_url | string | 可选 | 无 | 本次任务结果回调通知地址,如果配置,服务端会在任务状态发生变更时主动通知 |
|---|---|---|---|---|
具体通知的消息schema见“Callback协议”
| external_task_id | string | 可选 | 无 | 自定义任务ID |
|---|---|---|---|---|
用户自定义任务ID,传入不会覆盖系统生成的任务ID,但支持通过该ID进行任务查询
请注意,单用户下需要保证唯一性
响应体
调用示例
引入主体生成图像
2-2【Omni-Image】查询任务(单个)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/images/omni-image/{id} |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求路径参数
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| task_id | string | 必须 | 无 | 图片生成的任务ID |
请求路径参数,直接将值填写在请求路径中
| external_task_id | string | 可选 | 无 | 自定义任务ID |
|---|---|---|---|---|
创建任务时填写的external_task_id,与task_id两种查询方式二选一
请求体
响应体
2-3【Omni-Image】查询任务(列表)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/images/omni-image |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
查询参数
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| pageNum | int | 可选 | 1 | 页码 |
取值范围:[1,1000]
| pageSize | int | 可选 | 30 | 每页数据量 |
|---|---|---|---|---|
取值范围:[1,500]
请求体
响应体
2-4【图像生成】创建任务
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/images/generations |
| 请求方法 | POST |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求体
请您注意,为了保持命名统一,原 model字段变更为 model_name字段,未来请您使用该字段来指定需要调用的模型版本。
同时,我们保持了行为上的向前兼容,如您继续使用原 model字段,不会对接口调用有任何影响、不会有任何异常,等价于 model_name为空时的默认行为(即调用V1模型)
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| model_name | string | 可选 | kling-v1 | 模型名称 |
枚举值:kling-v1, kling-v1-5, kling-v2, kling-v2-new, kling-v2-1, kling-v3
| prompt | string | 必须 | 无 | 正向文本提示词 |
|---|---|---|---|---|
不能超过2500个字符
| negative_prompt | string | 可选 | 空 | 负向文本提示词 |
|---|---|---|---|---|
不能超过2500个字符
注:图生图(即image字段不为空时)场景下,不支持负向提示词
| image | string | 可选 | 空 | 参考图片 |
|---|---|---|---|---|
支持传入图片Base64编码或图片URL(确保可访问)
请注意,若您使用base64的方式,请确保您传递的所有图像数据参数均采用Base64编码格式。在提交数据时,请不要在Base64编码字符串前添加任何前缀,例如data:image/png;base64,。正确的参数格式应该直接是Base64编码后的字符串。
示例:
正确的Base64编码参数:
错误的Base64编码参数(包含data:前缀):
请仅提供Base64编码的字符串部分,以便系统能够正确处理和解析您的数据。
图片格式支持.jpg / .jpeg / .png
图片文件大小不能超过10MB,图片宽高尺寸不小于300px,图片宽高比介于1:2.5 ~ 2.5:1之间
image_reference参数不为空时,当前参数必填
| image_reference | string | 可选 | 无 | 图片参考类型 |
|---|---|---|---|---|
枚举值:subject(角色特征参考), face(人物长相参考)
使用face(人物长相参考)时,上传图片需仅含1张人脸。
使用kling-v1-5且image参数不为空时,当前参数必填
| image_fidelity | float | 可选 | 0.5 | 生成过程中对用户上传图片的参考强度 |
|---|---|---|---|---|
取值范围:[0,1],数值越大参考强度越大
仅 kling-v1, kling-v1-5 支持当前参数
| human_fidelity | float | 可选 | 0.45 | 面部参考强度,即参考图中人物五官相似度 |
|---|---|---|---|---|
取值范围:[0,1],数值越大参考强度越大
仅image_reference参数为subject时生效
仅 kling-v1-5 支持当前参数
| element_list | array | 可选 | 空 | 主体参考列表 |
|---|---|---|---|---|
基于主体库中主体的ID配置,用key:value承载,如下:
```json
[
{
"element_id": "your_element_id"
}
]
```
参考主体数量与参考图片数量有关,参考主体数量和参考图片数量之和不得超过10
| resolution | string | 可选 | 1k | 生成图片的清晰度 |
|---|---|---|---|---|
枚举值:1k, 2k
1k1K标清
2k2K高清
不同模型版本支持范围不同,详见当前文档2-0能力地图
| n | int | 可选 | 1 | 生成图片数量 |
|---|---|---|---|---|
取值范围:[1,9]
| aspect_ratio | string | 可选 | 16:9 | 生成图片的画面纵横比(宽:高) |
|---|---|---|---|---|
枚举值:16:9, 9:16, 1:1, 4:3, 3:4, 3:2, 2:3, 21:9
不同模型版本支持范围不同,详见当前文档2-0能力地图
| watermark_info | array | 可选 | 空 | 是否同时生成含水印的结果 |
|---|---|---|---|---|
通过enabled参数定义,具体array格式如下:
```json
{
"enabled": true
}
```
暂不支持自定义水印
| callback_url | string | 可选 | 无 | 本次任务结果回调通知地址,如果配置,服务端会在任务状态发生变更时主动通知 |
|---|---|---|---|---|
具体通知的消息schema见“Callback协议”
| external_task_id | string | 可选 | 无 | 自定义任务ID |
|---|---|---|---|---|
用户自定义任务ID,传入不会覆盖系统生成的任务ID,但支持通过该ID进行任务查询
请注意,单用户下需要保证唯一性
响应体
调用示例
引入主体生成图像
2-5【图像生成】查询任务(单个)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/images/generations/{id} |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求路径参数
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| task_id | string | 必须 | 无 | 图片生成的任务ID |
请求路径参数,直接将值填写在请求路径中
| external_task_id | string | 可选 | 无 | 自定义任务ID |
|---|---|---|---|---|
创建任务时填写的external_task_id,与task_id两种查询方式二选一
请求体
响应体
2-6【图像生成】查询任务(列表)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/images/generations |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
查询参数
/v1/images/generations?pageNum=1&pageSize=30
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| pageNum | int | 可选 | 1 | 页码 |
取值范围:[1,1000]
| pageSize | int | 可选 | 30 | 每页数据量 |
|---|---|---|---|---|
取值范围:[1,500]
请求体
响应体
2-7【多图参考生图】创建任务
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/images/multi-image2image |
| 请求方法 | POST |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求体
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| model_name | string | 可选 | kling-v2 | 模型名称 |
枚举值:kling-v2, kling-v2-1
| prompt | string | 可选 | 空 | 正向文本提示词 |
|---|---|---|---|---|
不能超过2500个字符
| subject_image_list | array | 必须 | 无 | 参考主体图片列表 |
|---|---|---|---|---|
最多支持4张图片,最少支持1张图片,用key:value承载,如下:
API端无裁剪逻辑,请直接上传已选主体后的片
支持传入图片Base64编码或图片URL(确保可访问)
请注意,若您使用base64的方式,请确保您传递的所有图像数据参数均采用Base64编码格式。在提交数据时,请不要在Base64编码字符串前添加任何前缀,例如data:image/png;base64,。正确的参数格式应该直接是Base64编码后的字符串。
示例:
正确的Base64编码参数:
错误的Base64编码参数(包含data:前缀):
请仅提供Base64编码的字符串部分,以便系统能够正确处理和解析您的数据。
图片格式支持.jpg / .jpeg / .png
图片文件大小不能超过10MB,图片宽高尺寸不小于300px,图片宽高比要在1:2.5 ~ 2.5:1之间
| scene_image | string | 可选 | 空 | 场景参考图 |
|---|---|---|---|---|
支持传入图片Base64编码或图片URL(确保可访问)
请注意,若您使用base64的方式,请确保您传递的所有图像数据参数均采用Base64编码格式。在提交数据时,请不要在Base64编码字符串前添加任何前缀,例如data:image/png;base64,。正确的参数格式应该直接是Base64编码后的字符串。
示例:
正确的Base64编码参数:
错误的Base64编码参数(包含data:前缀):
请仅提供Base64编码的字符串部分,以便系统能够正确处理和解析您的数据。
图片格式支持.jpg / .jpeg / .png
图片文件大小不能超过10MB,图片宽高尺寸不小于300px,图片宽高比介于1:2.5 ~ 2.5:1之间
| style_image | string | 可选 | 空 | 风格参考图 |
|---|---|---|---|---|
支持传入图片Base64编码或图片URL(确保可访问)
请注意,若您使用base64的方式,请确保您传递的所有图像数据参数均采用Base64编码格式。在提交数据时,请不要在Base64编码字符串前添加任何前缀,例如data:image/png;base64,。正确的参数格式应该直接是Base64编码后的字符串。
示例:
正确的Base64编码参数:
错误的Base64编码参数(包含data:前缀):
请仅提供Base64编码的字符串部分,以便系统能够正确处理和解析您的数据。
图片格式支持.jpg / .jpeg / .png
图片文件大小不能超过10MB,图片宽高尺寸不小于300px,图片宽高比介于1:2.5 ~ 2.5:1之间
| n | int | 可选 | 1 | 生成图片数量 |
|---|---|---|---|---|
取值范围:[1,9]
| aspect_ratio | string | 可选 | 16:9 | 生成图片的画面纵横比(宽:高) |
|---|---|---|---|---|
枚举值:16:9, 9:16, 1:1, 4:3, 3:4, 3:2, 2:3, 21:9
| watermark_info | array | 可选 | 空 | 是否同时生成含水印的结果 |
|---|---|---|---|---|
通过enabled参数定义,具体array格式如下:
```json
{
"enabled": true
}
```
暂不支持自定义水印
| callback_url | string | 可选 | 空 | 本次任务结果回调通知地址,如果配置,服务端会在任务状态发生变更时主动通知 |
|---|---|---|---|---|
具体通知的消息schema见“Callback协议”
| external_task_id | string | 可选 | 空 | 自定义任务ID |
|---|---|---|---|---|
用户自定义任务ID,传入不会覆盖系统生成的任务ID,但支持通过该ID进行任务查询
请注意,单用户下需要保证唯一性
响应体
2-8【多图参考生图】查询任务(单个)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/images/multi-image2image/{id} |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求路径参数
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| task_id | string | 必须 | 无 | 图片生成的任务ID |
请求路径参数,直接将值填写在请求路径中
| external_task_id | string | 可选 | 无 | 自定义任务ID |
|---|---|---|---|---|
创建任务时填写的external_task_id,与task_id两种查询方式二选一
请求体
响应体
2-9【多图参考生图】查询任务(列表)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/images/multi-image2image |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
查询参数
/v1/images/generations?pageNum=1&pageSize=30
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| pageNum | int | 可选 | 1 | 页码 |
取值范围:[1,1000]
| pageSize | int | 可选 | 30 | 每页数据量 |
|---|---|---|---|---|
取值范围:[1,500]
请求体
响应体
2-10【扩图】创建任务
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/images/editing/expand |
| 请求方法 | POST |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求体
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| image | string | 必须 | 空 | 参考图片 |
支持传入图片Base64编码或图片URL(确保可访问)
请注意,若您使用base64的方式,请确保您传递的所有图像数据参数均采用Base64编码格式。在提交数据时,请不要在Base64编码字符串前添加任何前缀,例如data:image/png;base64,。正确的参数格式应该直接是Base64编码后的字符串。
示例:
正确的Base64编码参数:
错误的Base64编码参数(包含data:前缀):
请仅提供Base64编码的字符串部分,以便系统能够正确处理和解析您的数据。
图片格式支持.jpg / .jpeg / .png
图片文件大小不能超过10MB,图片分辨率不小于300*300px,图片宽高比要在1:2.5 ~ 2.5:1之间
| up_expansion_ratio | float | 必须 | 0 | 向上扩充范围;基于原图高度的倍数而计算 |
|---|---|---|---|---|
取值范围:[0,2],新图片整体面积不得超过原图片3倍
如原图高20,当前参数值为0.1,则:
原图顶边距离新图顶边为20 x 0.1 = 2,区域内均为扩图范围
| down_expansion_ratio | float | 必须 | 0 | 向下扩充范围;基于原图高度的倍数而计算 |
|---|---|---|---|---|
取值范围:[0,2],新图片整体面积不得超过原图片3倍
如原图高20,当前参数值为0.2,则:
原图底边距离新图底边为20 x 0.2 = 4,区域内均为扩图范围
| left_expansion_ratio | float | 必须 | 0 | 向左扩充范围;基于原图宽度的倍数而计算 |
|---|---|---|---|---|
取值范围:[0,2],新图片整体面积不得超过原图片3倍
如原图宽30,当前参数值为0.3,则:
原图左边距离新图左边为30 x 0.3 = 9,区域内均为扩图范围
| right_expansion_ratio | float | 必须 | 0 | 向右扩充范围;基于原图宽度的倍数而计算 |
|---|---|---|---|---|
取值范围:[0,2],新图片整体面积不得超过原图片3倍
如原图宽30,当前参数值为0.4,则:
原图右边距离新图右边为30 x 0.4 = 12,区域内均为扩图范围
| prompt | string | 可选 | 无 | 正向文本提示词 |
|---|---|---|---|---|
不能超过2500个字符
| n | int | 可选 | 1 | 生成图片数量 |
|---|---|---|---|---|
取值范围:[1,9]
| watermark_info | array | 可选 | 空 | 是否同时生成含水印的结果 |
|---|---|---|---|---|
通过enabled参数定义,具体array格式如下:
```json
{
"enabled": true
}
```
暂不支持自定义水印
| callback_url | string | 可选 | 无 | 本次任务结果回调通知地址,如果配置,服务端会在任务状态发生变更时主动通知 |
|---|---|---|---|---|
具体通知的消息schema见“Callback协议”
| external_task_id | string | 可选 | 无 | 自定义任务ID |
|---|---|---|---|---|
用户自定义任务ID,传入不会覆盖系统生成的任务ID,但支持通过该ID进行任务查询
请注意,单用户下需要保证唯一性
响应体
示例代码
2-11【扩图】查询任务(单个)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/images/editing/expand/{id} |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求路径参数
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| task_id | string | 必须 | 无 | 图片生成的任务ID |
请求路径参数,直接将值填写在请求路径中
| external_task_id | string | 可选 | 无 | 自定义任务ID |
|---|---|---|---|---|
创建任务时填写的external_task_id,与task_id两种查询方式二选一
请求体
响应体
2-12【扩图】查询任务(列表)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/images/editing/expand |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
查询参数
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| pageNum | int | 可选 | 1 | 页码 |
取值范围:[1,1000]
| pageSize | int | 可选 | 30 | 每页数据量 |
|---|---|---|---|---|
取值范围:[1,500]
请求体
响应体
2-13【通用】智能补全主体图
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/general/ai-multi-shot |
| 请求方法 | POST |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求体
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| element_frontal_image | string | 必须 | 无 | 主体正面参考图 |
支持传入图片Base64编码或图片URL(确保可访问)
图片格式支持.jpg / .jpeg / .png
图片文件大小不能超过10MB,图片宽高尺寸不小于300px,图片宽高比要在1:2.5 ~ 2.5:1之间
| callback_url | string | 可选 | 空 | 本次任务结果回调通知地址,如果配置,服务端会在任务状态发生变更时主动通知 |
|---|---|---|---|---|
具体通知的消息schema见“Callback协议”
| external_task_id | string | 可选 | 空 | 自定义任务ID |
|---|---|---|---|---|
用户自定义任务ID,传入不会覆盖系统生成的任务ID,但支持通过该ID进行任务查询
请注意,单用户下需要保证唯一性
响应体
2-14【通用】查询智能补充主体图任务(单个)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/general/ai-multi-shot/{id} |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求路径参数
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| task_id | string | 必须 | 无 | 任务ID |
请求路径参数,直接将值填写在请求路径中
请求体
响应体
2-15【通用】查询智能补充主体图任务(列表)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/general/ai-multi-shot |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
查询参数
/v1/general/ai-multi-shot?pageNum=1&pageSize=30
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| pageNum | int | 可选 | 1 | 页码 |
取值范围:[1,1000]
| pageSize | int | 可选 | 30 | 每页数据量 |
|---|---|---|---|---|
取值范围:[1,500]
请求体
响应体
三、视频生成
3-0 能力地图
| kling-video-o1 | | std3s10s | pro3s10s |
|---|---|---|---|
| 文生视频 | 单镜头视频生成 | ✅(仅5s、10s) | ✅(仅5s、10s |
| | 声音控制(人声控制) | ❌ | ❌ |
| | 其他 | - | - |
| 图生视频 | 单镜头视频生成(仅首帧) | ✅(仅5s、10s) | ✅(仅5s、10s |
| | 首尾帧(一镜到底) | ✅ | ✅ |
| | 主体控制 | | |
(仅多图主体)


| | 视频参考(含视频编辑) | ✅ | ✅ | |
|---|---|---|---|---|
| | 声音控制(人声控制) | ❌ | ❌ | |
| | 其他 | - | - | |
| | kling-v3-omni | | std3s15s | pro3s15s |
| 文生视频 | 单镜头视频生成 | ✅ | ✅ | |
| | 多镜头视频生成 | ✅ | ✅ | |
| | 声音控制(人声控制) | ❌ | ❌ | |
| | 其他 | - | - | |
| 图生视频 | 单镜头视频生成 | ✅ | ✅ | |
| | 多镜头视频生成 | ✅ | ✅ | |
| | 首尾帧(一镜到底) | ✅ | ✅ | |
| | 主体控制 | | | |
(视频角色主体+多图主体)


| | 视频参考 | ✅(仅3s10s | ✅(仅3s10s |
|---|---|---|---|
| | 声音控制(人声控制) | ❌ | ❌ |
| | 其他 | - | - |
| kling-v1 | | std 5s | std 10s | pro 5s | pro10s |
|---|---|---|---|---|---|
| 文生视频 | 视频生成 | ✅ | ✅ | ✅ | ✅ |
| | 运镜控制 | ✅ | - | - | - |
| 图生视频 | 视频生成 | ✅ | ✅ | ✅ | ✅ |
| | 首尾帧 | ✅ | - | ✅ | - |
| | 运动笔刷 | ✅ | - | ✅ | - |
| | 其他能力 | - | - | - | - |
| 视频续写 | | | | | |
(不支持设置负向提示词和参考强度)





| 视频特效-双人特效 |
|---|
拥抱,亲吻,比心





| 其他 | | - | - | - | - | |
|---|---|---|---|---|---|---|
| | kling-v1-5 | | std 5s | std 10s | pro 5s | pro10s |
| 文生视频 | 视频生成 | - | - | - | - | |
| | 其他能力 | - | - | - | - | |
| 图生视频 | 视频生成 | ✅ | ✅ | ✅ | ✅ | |
| | 首尾帧 | - | - | ✅ | ✅ | |
| | 仅尾帧 | - | - | ✅ | ✅ | |
| | 运动笔刷 | - | - | ✅ | - | |
| | 运镜控制 | | | | | |
(仅simple
-
-

-
| | 其他能力 | - | - | - | - |
|---|---|---|---|---|---|
| 视频续写 | | ✅ | ✅ | ✅ | ✅ |
| 视频特效-双人特效 | | | | | |
拥抱,亲吻,比心





| 其他 | | - | - | - | - |
|---|---|---|---|---|---|
| kling-v1-6 | | std 5s | std 10s | pro 5s | pro10s |
|---|---|---|---|---|---|
| 文生视频 | 视频生成 | ✅ | ✅ | ✅ | ✅ |
| | 其他能力 | - | - | - | - |
| 图生视频 | 视频生成 | ✅ | ✅ | ✅ | ✅ |
| | 首尾帧 | - | - | ✅ | ✅ |
| | 仅尾帧 | - | - | ✅ | ✅ |
| | 其他能力 | - | - | - | - |
| 多图参考生视频 | | ✅ | ✅ | ✅ | ✅ |
| 多模态视频编辑 | | ✅ | ✅ | ✅ | ✅ |
| 视频续写 | | ✅ | ✅ | ✅ | ✅ |
| 视频特效-双人特效 | | | | | |
拥抱,亲吻,比心





| | kling-v2-master | | 5s | 10s | | |
|---|---|---|---|---|---|---|
| 文生视频 | 视频生成 | ✅ | ✅ | | | |
| | 其他能力 | - | - | | | |
| 图生视频 | 视频生成 | ✅ | ✅ | | | |
| | 其他能力 | - | - | | | |
| 其他 | | - | - | | | |
| | kling-v2-1 | | std 5s | std 10s | pro 5s | pro10s |
| 文生视频 | 全部能力 | - | - | - | - | |
| 图生视频 | 视频生成 | ✅ | ✅ | ✅ | ✅ | |
| | 首尾帧 | - | - | ✅ | ✅ | |
| | 其他 | - | - | - | - | |
| 其他 | | - | - | - | - | |
| kling-v2-1-master | | 5s | 10s | | | | | |
|---|---|---|---|---|---|---|---|---|
| 文生视频 | 视频生成 | ✅ | ✅ | | | | | |
| | 其他能力 | - | - | | | | | |
| 图生视频 | 视频生成 | ✅ | ✅ | | | | | |
| | 其他能力 | - | - | | | | | |
| 其他 | | - | - | | | | | |
| | kling-v2-5-turbo | | std 5s | std 10s | pro 5s | pro10s | | |
| 文生视频 | 视频生成 | ✅ | ✅ | ✅ | ✅ | | | |
| | 其他 | - | - | - | - | | | |
| 图生视频 | 视频生成 | ✅ | ✅ | ✅ | ✅ | | | |
| | 首尾帧 | - | - | ✅ | ✅ | | | |
| | 其他 | - | - | - | - | | | |
| 其他 | | - | - | - | - | | | |
| | kling-v2-6 | | std 5s | std 10s | std 其他时长 | pro 5s | pro10s | pro 其他时长 |
| 文生视频 | 视频生成 | ✅(仅无声视频) | ✅(仅无声视频) | - | ✅ | ✅ | - | |
| | 其他 | - | - | - | - | - | - | |
| 图生视频 | 视频生成 | ✅(仅无声视频) | ✅(仅无声视频) | - | ✅ | ✅ | - | |
| | 首尾帧 | - | - | - | ✅(仅无声视频) | ✅(仅无声视频) | - | |
| | 声音控制(人声控制) | - | - | - | ✅ | ✅ | - | |
| | 动作控制 | - | - | ✅ | - | - | ✅ | |
| | 其他 | - | - | - | - | - | - | |
| kling-v3 | | std315s | pro315s |
|---|---|---|---|
| 文生视频 | 单镜头视频生成 | ✅ | ✅ |
| | 多镜头视频生成 | ✅ | ✅ |
| | 声音控制(人声控制) | ❌ | ❌ |
| | 其他 | - | - |
| 图生视频 | 单镜头视频生成(仅首帧) | ✅ | ✅ |
| | 多镜头视频生成 | ✅ | ✅ |
| | 首尾帧(一镜到底) | ✅ | ✅ |
| | 主体控制 | | |
(视频角色主体+多图主体)


| | 动作控制 | ✅ | ✅ | | | | | | | |
|---|---|---|---|---|---|---|---|---|---|---|
| | 声音控制(人声控制) | ❌ | ❌ | | | | | | | |
| | 其他 | - | - | | | | | | | |
| | 与模型版本无关的能力 | 是否支持 | 描述 | | | | | | | |
| 数字人 | ✅ | 只需一张照片即可生成数字人播报类视频 | | | | | | | | |
| 对口型 | ✅ | 可结合文案或音频,驱动视频中角色的口型 | | | | | | | | |
| 视频生音效 | ✅ | 支持为所有可灵模型生成的视频和用户上传的符合视频格式要求的视频添加音效 | | | | | | | | |
| 文生音效 | - | 支持通过输入文本描述(prompt)生成音效 | | | | | | | | |
| 其他 | - | - | | | | | | | | |
| | 模型 | kling-v1 | | kling-v1-5 图生视频 | | kling-v1-6 图生视频 | | kling-v1-6 文生视频 | | kling-v2 Master |
| 模式 | STD | PRO | STD | PRO | STD | PRO | STD | PRO | - | |
| 分辨率 | 720p | 720p | 720p | 1080p | 720p | 1080p | 720p | 1080p | 720p | |
| 帧率 | 30fps | 30fps | 30fps | 30fps | 30fps | 30fps | 24fps | 24fps | 24fps | |
| 模型版本 | kling-v2-1 图生视频 | | kling-v2-1 Master | kling-v2-5 图生视频 | kling-v2-5 文生视频 |
|---|---|---|---|---|---|
| 模式 | STD | PRO | - | PRO | PRO |
| 分辨率 | 720p | 1080p | 1080p | 1080p | 1080p |
| 帧率 | 24fps | 24fps | 24fps | 24fps | 24fps |
3-1【Omni-Video】创建任务
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/omni-video |
| 请求方法 | POST |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求体
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| model_name | string | 可选 | kling-video-o1 | 模型名称 |
枚举值:kling-video-o1, kling-v3-omni
| multi_shot | boolean | 可选 | false | 是否生成多镜头视频 |
|---|---|---|---|---|
当前参数为true时,prompt参数无效,且不支持设定首尾帧生视频
当前参数为false时,shot_type参数及multi_prompt参数无效
| shot_type | string | 可选 | 空 | 分镜方式 |
|---|---|---|---|---|
枚举值:customize, intelligence
当multi_shot参数为true时,当前参数必填
| prompt | string | 可选 | 空 | 文本提示词,可包含正向描述和负向描述 |
|---|---|---|---|---|
可将提示词模板化来满足不同的视频生成需求
Omni模型可通过Prompt与主体、图片、视频等内容实现多种能力
通过<<<>>>的格式来指定某个主体、图片、视频,如:<<<element_1>>>、<<<image_1>>>、<<<video_1>>>
更多信息详见:可灵视频 3.0 Omni 使用指南
长度不能超过2500个字符
当“multi_shot参数为false”或“multi_shot参数为true且shot-type参数为intelligence”时,当前参数不得为空
不同模型版本、视频模式支持范围不同,详见当前文档3-0能力地图
| multi_prompt | array | 可选 | 空 | 各分镜信息,如提示词、时长等 |
|---|---|---|---|---|
通过index、prompt、duration参数定义分镜序号及相应提示词和时长,其中:
最多支持6个分镜,最小支持1个分镜
每个分镜相关内容的最大长度不超过512
每个分镜的时长不大于当前任务的总时长,不小于1
所有分镜的时长之和等于当前任务的总时长
用key:value承载,如下:
当mult_shot参数为true且shot_type参数为customize时,当前参数不得为空
| image_list | array | 可选 | 空 | 参考图列表 |
|---|---|---|---|---|
包括主体、场景、风格等参考图片,也可作为首帧或尾帧生成视频;当作为首帧或尾帧生成视频时:
通过type参数来定义图片是否为首尾帧:first_frame为首帧,end_frame为尾帧;其中:
如图片非首帧或尾帧,请勿配置type参数
暂时不支持仅尾帧,即有尾帧图时必须有首帧图
首帧或首尾帧生视频时,不能使用视频编辑功能
用key:value承载,如下:
```json
[
{
"image_url": "https://example.com/image.jpg"
}
]
```
支持传入图片Base64编码或图片URL(确保可访问)
图片格式支持.jpg / .jpeg / .png
图片文件大小不能超过10MB,图片宽高尺寸不小于300px,图片宽高比要在1:2.5 ~ 2.5:1之间
参考图片数量与参考主体数量和参考主体类型有关,其中:
无参考视频+仅有多图主体时,参考图片与多图主体数量之和不得超过7;
无参考视频+有视频主体时,参考图片与多图主体数量之和不得超过4;
有参考视频+仅有多图主体时,参考图片与多图主体数量之和不得超过4;
使用kling-video-o1模型时,数组中超过2张图片时,不支持设置首尾帧
image_url参数值不得为空
| element_list | array | 可选 | 空 | 参考主体列表 |
|---|---|---|---|---|
基于主体库中主体的ID配置,用key:value承载,如下:
主体分为视频定制主体(简称:视频角色主体)和图片定制主体(简称:多图主体),适用范围不同,请注意区分
参考主体数量与主体类型、有无参考视频、参考图片数量等因素有关,其中:
当使用首帧或首尾帧生成视频时,kling-v3-omni模型最多支持3个主体;
当使用首尾帧生成视频时,kling-video-o1模型不支持主体;
无参考视频+仅有多图主体时,参考图片与多图主体数量之和不得超过7;
无参考视频+仅有视频角色主体时,视频角色主体数量不得超过3;
无参考视频+同时有视频角色主体和多图主体时,视频角色主体数量不得超过3,参考图片与多图主体数量之和不得超过4;
有参考视频+仅有多图主体时,参考图片与多图主体数量之和不得超过4;
有参考视频时,不支持使用视频角色主体;
更多主体信息详见:可灵「主体库 3.0」使用指南
不同模型版本、视频模式支持范围不同,详见当前文档3-0能力地图
| video_list | array | 可选 | 空 | 参考视频,通过URL方式获取 |
|---|---|---|---|---|
可作为特征参考视频,也可作为待编辑视频,默认为待编辑视频;可选择性保留视频原声
通过refer_type参数区分参考视频类型:feature为特征参考视频,base为待编辑视频
参考视频为待编辑视频时,不能定义视频首尾帧
通过keep_original_sound参数选择是否保留视频原声,yes为保留,no为不保留;当前参数对特征参考视频(feature)也生效
有参考视频时,sound参数值只能为off
用key:value承载,如下:
```json
[
{
"video_url": "https://example.com/video.mp4",
"refer_type": "feature",
"keep_original_sound": "yes"
}
]
```
视频格式仅支持MP4/MOV
视频时长不少于3秒,上限与模型版本有关,详见能力地图
视频宽高尺寸需介于720px(含)和2160px(含)之间
视频帧率基于24fps~60fps,生成视频时会输出为24fps
至多仅支持上传1段视频,视频大小不超过200MB
video_url参数值不得为空
不同模型版本、视频模式支持范围不同,详见当前文档3-0能力地图
| sound | string | 可选 | off | 生成视频时是否同时生成声音 |
|---|---|---|---|---|
枚举值:onoff
不同模型版本、视频模式支持范围不同,详见当前文档3-0能力地图
| mode | string | 可选 | pro | 生成视频的模式 |
|---|---|---|---|---|
枚举值:stdpro
其中std:标准模式(标准),基础模式,性价比高
其中pro:专家模式(高品质),高表现模式,生成视频质量更佳
不同模型版本、视频模式支持范围不同,详见当前文档3-0能力地图
| aspect_ratio | string | 可选 | 空 | 生成视频的画面纵横比(宽:高) |
|---|---|---|---|---|
枚举值:16:9, 9:16, 1:1
未使用首帧参考或视频编辑功能时,当前参数必填
| duration | string | 可选 | 5 | 生成视频时长,单位s |
|---|---|---|---|---|
枚举值:3,4,5678910,1112131415,其中:
使用视频编辑功能("refer_type":"base")时,输出结果与传入视频时长相同,此时当前参数无效;此时,按输入视频时长四舍五入取整计量计费
不同模型版本、视频模式支持范围不同,详见当前文档3-0能力地图
| watermark_info | array | 可选 | 空 | 是否同时生成含水印的结果 |
|---|---|---|---|---|
通过enabled参数定义,具体array格式如下:
```json
{
"enabled": true
}
```
暂不支持自定义水印
| callback_url | string | 可选 | 空 | 本次任务结果回调通知地址,如果配置,服务端会在任务状态发生变更时主动通知 |
|---|---|---|---|---|
具体通知的消息schema见“Callback协议”
| external_task_id | string | 可选 | 空 | 自定义任务ID |
|---|---|---|---|---|
用户自定义任务ID,传入不会覆盖系统生成的任务ID,但支持通过该ID进行任务查询
请注意,单用户下需要保证唯一性
响应体
场景调用示例
图片/主体参考
参考图片/主体里的角色/道具/场景等多种元素,灵活生成视频
| 技能及 Prompt 撰写格式 | 输入视频/图片/主体 | C端Prompt | C端生成效果 | B端请求体 | B端生成效果 |
|---|---|---|---|---|---|
| 参考图片 | | | | | |
参考 【@图片1】 的【参考内容,如人物】和 【@图片2】的【参考内容,如背景】生成视频,保持图片特征一致。
**
@图片1】的女孩和【@图片2】的男孩挽手并肩在东京街头散步
*
*
*
| 参考主体 |
|---|
参考 【@主体1】 的【形象特征】与 【@主体2】的【场景特征】 生成视频,保持主体一致性。
*
@爆炸头的小男孩】走进【@温馨房间
*
*
*
| 参考图片和主体 |
|---|
参考 【@图片】 的【参考内容,如人物】和 【@主体】的【参考内容,如背景】生成视频。
*
**
*
*
*
*
指令变换
视频编辑,例如视频增加内容/删除内容/修改内容(主体/背景/局部/视频风格/物体颜色/天气/...)/切换景别/切换视角
| 技能及 Prompt 撰写格式 | 输入视频/图片/主体 | C端Prompt | C端生成效果 | B端请求体 | B端生成效果 |
|---|---|---|---|---|---|
| 在【@视频】中增加 [描述增加内容] | * | | | | |
在【@视频】中的主体身后远处增加【@图片1】中的怪物,怪物从远处慢慢朝着主体走来
*
*
*
| 视频删除内容 |
|---|
删除【@视频】中的 [描述要删除内容]
*
删除【@视频】中道路两侧的路人,保留马车
*
*
*
| 修改视频主体 |
|---|
把【@视频】中 [描述指定主体] 修改为【@图片】中 [目标主体]。
*
把【@视频】中的雕像改为【@图片】中的姜饼人
*
*

| 修改视频局部内容 |
|---|
把【@视频】中的【描述主体局部】修改为【描述目标内容】
*
@视频】中的长剑从剑鞘抽出时,只有露出的剑身逐渐变成【@图片1】中的8-bit像素风格的数字化剑身效果。剑鞘保持原样不变。随着剑刃滑出,像素块闪烁出现,剑身呈现复古像素光纹与数字方块跳动。
*
*
*
| 修改视频背景 |
|---|
把【@视频】中的背景修改为【描述目标背景】
*

Convert the ocean in [@视频1] into the city in [@图片1]
*
*
*
| 修改视频视角 |
|---|
把【@视频】修改为【目标视角】
*
@视频】生成这段视频的侧面极致特写,景深,晃动镜头
*
*
*
| 视频绿幕抠像 |
|---|
把【@视频】的背景改成绿幕,保留 [描述保留内容]
*
把【@视频】的背景改为绿幕,保留画面中的人物和水母
*
*
*
| 改风格 |
|---|
把【@视频】转变为【指定风格】
*
把【@视频】转变为美式卡通风格
*
*
*
| | | | | | |
|---|---|---|---|---|---|
| | | | | | |
| | | | | | |
| | | | | | |
| | | | | | |
| | | | | | |
| | | | | | |
视频参考
参考视频内容生成下一个镜头/上一个镜头,或者参考视频的风格/运镜方式进行视频生成
*
| 技能及 Prompt 撰写格式 | 输入视频/图片/主体 | C端Prompt | C端生成效果 | B端请求体 | B端生成效果 |
|---|---|---|---|---|---|
| 生成下一个镜头 | | | | | |
基于【@视频】生成下一个镜头:[描述镜头内容]
*
基于【@视频】,生成下一个镜头:镜头位于后座,以中景拍摄前排中老年男子和年轻男性。两人身体微背向,形成对立三角结构。并向各自的车窗玻璃扭头向外看去。背景虚化。氛围紧张、压抑但克制,像密闭空间里的情绪对抗。柔和的自然光洒入车内,营造出暗淡的橄榄绿和棕色调,并带有细微的胶片颗粒感
*
*
*
*
| 生成上一个镜头 |
|---|
基于【@视频】生成上一个镜头:[描述镜头内容]
*
基于【@视频】,生成前一个镜头:镜头向右移动跟拍身穿黑色西服的中老年男性,走向画面右侧的主驾驶门。然后中老年男性左手先拉开车门,然后坐进驾驶位,车轻微晃动。然后画面左侧前景的年轻男性一边开口说话一边看向中老年男性。
*
*
*
*
| 参考视频运镜 |
|---|
将【@视频】的运镜方式运用到【@图片】上
*
把【@图片1】作为首帧,并把【@视频】的运镜运用到【@图片1】上
*
*
*
| 参考视频动作 |
|---|
让【@图片】使用【@视频】中 [在动作的角色] 相同的动作,运动起来
*
参考使用【@视频】中女孩的动作,让【@图片1】的女孩动起来
*
*

首尾帧
图生视频首尾帧
| 技能及 Prompt 撰写格式 | 输入视频/图片/主体 | C端Prompt | C端生成效果 | B端请求体 | B端生成效果 |
|---|---|---|---|---|---|
| 首帧生视频 | | | | | |
固定【@图片】作为首帧,【描述变化内容】
*
@图片1】 固定为首帧,小男孩拿起牛奶用吸管喝了一口,露出微笑。
*
*
*
| 首尾帧 |
|---|
固定【@图片1】作为首帧,【@图片2】作为尾帧,【描述过渡方式】。
**
@图片1】固定为首帧,【@图片2】 固定为尾帧, 【@图片1 】中人物往前跑动变成 【@图片2 】。
*
*
*
多镜头和单镜头
多镜头效果的图生视频
多镜头效果的文生视频
单镜头文生视频
| C端Prompt | C端生成效果 | B端请求体 | B端生成效果 |
|---|---|---|---|
| 美式卡通风格的动画视频。在一个阳光明媚的夏日午后,广阔的绿色山坡上野花盛开,天空湛蓝,飘浮着白云。两个8到10岁的小男孩,身穿休闲的T恤、短裤,头戴棒球帽,在山坡上追逐蝴蝶。镜头首先是一个广角全景展示他们在起伏的草地上奔跑,随后切换到低机位特写,捕捉他们挥舞捕虫网时坚定而夸张的面部表情。其中一个男孩跳起捕捉蝴蝶,另一个兴奋地指着远方。此时,画面背景的道路上出现了一辆汽车。随着镜头跟随汽车从远处驶近,男孩们停下了动作,拿着捕虫网,好奇地注视着这辆车。汽车最终停在男孩们身边,扬起一阵轻微的尘土,男孩们依然保持着好奇张望的姿势。光影鲜明多彩,充满了夏日冒险的快乐氛围。 | * | | |
*
*
FAQ
生成视频时长(duration)什么情况支持、什么情况不支持?
文生,图生(不含首尾帧):可选5s/10s
有视频输入(video_list不为空)且 使用视频编辑功能(类型=base)时:不可指定时长,跟视频对齐
其他情况(不传视频+传图片+主体进行生视频,或者 传视频+视频类型=feature时),可选3-10s
怎么进行视频延长?
可以通过“视频参考”来实现,传入一段视频,通过prompt驱动模型“生成下一个镜头”或者“生成上一个镜头”
生成视频宽高比(aspect_ratio)什么情况支持、什么情况不支持?
不支持:指令变换(视频编辑),图生视频(包括首尾帧)
支持:文生视频,图片/主体参考,视频参考-其他,视频参考-生成下一个/上一个镜头
3-2【Omni-Video】查询任务(单个)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/omni-video/{id} |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求路径参数
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| task_id | string | 可选 | 无 | 文生视频的任务ID |
请求路径参数,直接将值填写在请求路径中,与external_task_id两种查询方式二选一
| external_task_id | string | 可选 | 无 | 文生视频的自定义任务ID |
|---|---|---|---|---|
创建任务时填写的external_task_id,与task_id两种查询方式二选一
请求体
响应体
3-3【Omni-Video】查询任务(列表)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/omni-video |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
查询参数
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| pageNum | int | 可选 | 1 | 页码 |
取值范围:[1,1000]
| pageSize | int | 可选 | 30 | 每页数据量 |
|---|---|---|---|---|
取值范围:[1,500]
请求体
响应体
3-4【文生视频】创建任务
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/text2video |
| 请求方法 | POST |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求体
请您注意,为了保持命名统一,原 model字段变更为 model_name字段,未来请您使用该字段来指定需要调用的模型版本。
同时,我们保持了行为上的向前兼容,如您继续使用原 model字段,不会对接口调用有任何影响、不会有任何异常,等价于 model_name为空时的默认行为(即调用V1模型)
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| model_name | string | 可选 | kling-v1 | 模型名称 |
枚举值:kling-v1, kling-v1-6, kling-v2-master, kling-v2-1-master, kling-v2-5-turbo, kling-v2-6, kling-v3
| multi_shot | boolean | 可选 | false | 是否生成多镜头视频 |
|---|---|---|---|---|
当前参数为true时,prompt参数无效
当前参数为false时,shot_type参数及multi_prompt参数无效
| shot_type | string | 可选 | 空 | 分镜方式 |
|---|---|---|---|---|
枚举值:customizeintelligence
当multi_shot参数为true时,当前参数必填
| prompt | string | 可选 | 空 | 文本提示词,可包含正向描述和负向描述 |
|---|---|---|---|---|
可将提示词模板化来满足不同的视频生成需求
Omni模型可通过Prompt与主体、图片、视频等内容实现多种能力
通过<<<>>>的格式来指定某个主体、图片、视频,如:<<<element_1>>>、<<<image_1>>>、<<<video_1>>>
更多信息详见:可灵视频 3.0 模型使用指南
不能超过2500个字符
用<<<voice_1>>>来指定音色,序号同voice_list参数所引用音色的排列顺序
一次视频生成任务至多引用2个音色;指定音色时,sound参数值必须为on
语法结构越简单越好,如:男人<<<voice_1>>>说:“你好”
当voice_list参数不为空且prompt参数中引用音色ID时,视频生成任务按“有指定音色”计量计费
当multi_shot参数为false或当shot_type参数为intelligence时,当前参数必填
不同模型版本、视频模式支持范围不同,详见当前文档3-0能力地图
| multi_prompt | array | 可选 | 空 | 各分镜提示词,可包含正向描述和负向描述 |
|---|---|---|---|---|
通过index、prompt、duration参数定义分镜序号及相应提示词和时长,其中:
最多支持6个分镜,最小支持1个分镜
每个分镜相关内容的最大长度不超过512
每个分镜的时长不大于当前任务的总时长,不小于1
所有分镜的时长之和等于当前任务的总时长
用key:value承载,如下:
当multi-shot参数为true且shot-type参数为customize时,当前参数不得为空
| negative_prompt | string | 可选 | 空 | 负向文本提示词 |
|---|---|---|---|---|
不能超过2500个字符
| voice_list | array | 可选 | 无 | 生成视频时所引用的音色的列表 |
|---|---|---|---|---|
一次视频生成任务至多引用2个音色
当voice_list参数不为空且prompt参数中引用音色ID时,视频生成任务按“有指定音色”计量计费
voice_id参数值通过音色定制接口返回,也可使用系统预置音色,详见音色定制相关API;非对口型API的voice_id
用key:value承载,如下:
| sound | string | 可选 | off | 生成视频时是否同时生成声音 |
|---|---|---|---|---|
枚举值:onoff
不同模型版本、视频模式支持范围不同,详见当前文档3-0能力地图
| cfg_scale | float | 可选 | 0.5 | 生成视频的自由度;值越大,模型自由度越小,与用户输入的提示词相关性越强 |
|---|---|---|---|---|
取值范围:[0, 1]
kling-v2.x模型不支持当前参数
| mode | string | 可选 | std | 生成视频的模式 |
|---|---|---|---|---|
枚举值:stdpro
其中std:标准模式(标准),基础模式,性价比高
其中pro:专家模式(高品质),高表现模式,生成视频质量更佳
不同模型版本、视频模式支持范围不同,详见当前文档3-0能力地图
| camera_control | object | 可选 | 空 | 控制摄像机运动的协议(如未指定,模型将根据输入的文本/图片进行智能匹配) |
|---|---|---|---|---|
不同模型版本、视频模式支持范围不同,详见当前文档3-0能力地图
| camera_control |
|---|
type
string
可选

预定义的运镜类型
枚举值:"simple", "down_back", "forward_up", "right_turn_forward", "left_turn_forward"
simple:简单运镜,此类型下可在"config"中六选一进行运镜
down_back:镜头下压并后退 ➡️ 下移拉远,此类型下config参数无需填写
forward_up:镜头前进并上仰 ➡️ 推进上移,此类型下config参数无需填写
right_turn_forward:先右旋转后前进 ➡️ 右旋推进,此类型下config参数无需填写
left_turn_forward:先左旋并前进 ➡️ 左旋推进,此类型下config参数无需填写
| camera_control |
|---|
config
object
可选

包含六个字段,用于指定摄像机在不同方向上的运动或变化
当运镜类型指定simple时必填,指定其他类型时不填
以下参数6选1,即只能有一个参数不为0,其余参数为0
| config |
|---|
horizontal
float
可选

水平运镜,控制摄像机在水平方向上的移动量(沿x轴平移)
取值范围:[-10, 10],负值表示向左平移,正值表示向右平移
| config |
|---|
vertical
float
可选

垂直运镜,控制摄像机在垂直方向上的移动量(沿y轴平移)
取值范围:[-10, 10],负值表示向下平移,正值表示向上平移
| config |
|---|
pan
float
可选

水平摇镜,控制摄像机在水平面上的旋转量(绕y轴旋转)
取值范围:[-10, 10],负值表示绕y轴向左旋转,正值表示绕y轴向右旋转
| config |
|---|
tilt
float
可选

垂直摇镜,控制摄像机在垂直面上的旋转量(沿x轴旋转)
取值范围:[-10, 10],负值表示绕x轴向下旋转,正值表示绕x轴向上旋转
| config |
|---|
roll
float
可选

旋转运镜,控制摄像机的滚动量(绕z轴旋转)
取值范围:[-10, 10],负值表示绕z轴逆时针旋转,正值表示绕z轴顺时针旋转
| config |
|---|
zoom
float
可选

变焦,控制摄像机的焦距变化,影响视野的远近
取值范围:[-10, 10],负值表示焦距变长、视野范围变小,正值表示焦距变短、视野范围变大
| aspect_ratio | string | 可选 | 16:9 | 生成视频的画面纵横比(宽:高) |
|---|---|---|---|---|
枚举值:16:9, 9:16, 1:1
| duration | string | 可选 | 5 | 生成视频时长,单位s |
|---|---|---|---|---|
枚举值:3,4,56789101112131415
不同模型版本、视频模式支持范围不同,详见当前文档3-0能力地图
| watermark_info | array | 可选 | 空 | 是否同时生成含水印的结果 |
|---|---|---|---|---|
通过enabled参数定义,具体array格式如下:
```json
{
"enabled": true
}
```
暂不支持自定义水印
| callback_url | string | 可选 | 无 | 本次任务结果回调通知地址,如果配置,服务端会在任务状态发生变更时主动通知 |
|---|---|---|---|---|
具体通知的消息schema见“Callback协议”
| external_task_id | string | 可选 | 无 | 自定义任务ID |
|---|---|---|---|---|
用户自定义任务ID,传入不会覆盖系统生成的任务ID,但支持通过该ID进行任务查询
请注意,单用户下需要保证唯一性
响应体
调用示例
多镜头效果的文生视频
3-5【文生视频】查询任务(单个)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/text2video/{id} |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求路径参数
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| task_id | string | 可选 | 无 | 文生视频的任务ID |
请求路径参数,直接将值填写在请求路径中,与external_task_id两种查询方式二选一
| external_task_id | string | 可选 | 无 | 文生视频的自定义任务ID |
|---|---|---|---|---|
创建任务时填写的external_task_id,与task_id两种查询方式二选一
请求体
响应体
3-6【文生视频】查询任务(列表)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/text2video |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
查询参数
/v1/videos/text2video?pageNum=1&pageSize=30
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| pageNum | int | 可选 | 1 | 页码 |
取值范围:[1,1000]
| pageSize | int | 可选 | 30 | 每页数据量 |
|---|---|---|---|---|
取值范围:[1,500]
请求体
响应体
3-7【图生视频】创建任务
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/image2video |
| 请求方法 | POST |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求体
请您注意,为了保持命名统一,原 model字段变更为 model_name字段,未来请您使用该字段来指定需要调用的模型版本。
同时,我们保持了行为上的向前兼容,如您继续使用原 model字段,不会对接口调用有任何影响、不会有任何异常,等价于 model_name为空时的默认行为(即调用V1模型)
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| model_name | string | 可选 | kling-v1 | 模型名称 |
枚举值:kling-v1, kling-v1-5, kling-v1-6, kling-v2-master, kling-v2-1, kling-v2-1-master, kling-v2-5-turbo, kling-v2-6, kling-v3
| image | string | 可选 | 空 | 参考图像 |
|---|---|---|---|---|
支持传入图片Base64编码或图片URL(确保可访问)
请注意,若您使用base64的方式,请确保您传递的所有图像数据参数均采用Base64编码格式。在提交数据时,请不要在Base64编码字符串前添加任何前缀,例如data:image/png;base64,。正确的参数格式应该直接是Base64编码后的字符串。
示例:
正确的Base64编码参数:
错误的Base64编码参数(包含data:前缀):
请仅提供Base64编码的字符串部分,以便系统能够正确处理和解析您的数据。
图片格式支持.jpg / .jpeg / .png
图片文件大小不能超过10MB,图片宽高尺寸不小于300px,图片宽高比介于1:2.5 ~ 2.5:1之间
image参数与image_tail参数至少二选一,二者不能同时为空
不同模型版本、视频模式支持范围不同,详见当前文档3-0能力地图
| image_tail | string | 可选 | 空 | 参考图像 - 尾帧控制 |
|---|---|---|---|---|
支持传入图片Base64编码或图片URL(确保可访问)
请注意,若您使用base64的方式,请确保您传递的所有图像数据参数均采用Base64编码格式。在提交数据时,请不要在Base64编码字符串前添加任何前缀,例如data:image/png;base64,。正确的参数格式应该直接是Base64编码后的字符串。
示例:
正确的Base64编码参数:
错误的Base64编码参数(包含data:前缀):
请仅提供Base64编码的字符串部分,以便系统能够正确处理和解析您的数据。
图片格式支持.jpg / .jpeg / .png
图片文件大小不能超过10MB,图片宽高尺寸不小于300px
image参数与image_tail参数至少二选一,二者不能同时为空
image_tail参数、dynamic_masks/static_mask参数、camera_control参数三选一,不能同时使用
不同模型版本、视频模式支持范围不同,详见当前文档3-0能力地图
| multi_shot | boolean | 可选 | false | 是否生成多镜头视频 |
|---|---|---|---|---|
当前参数为true时,prompt参数无效,且不支持设定首尾帧生视频
当前参数为false时,shot_type参数及multi_prompt参数无效
| shot_type | string | 可选 | 空 | 分镜方式 |
|---|---|---|---|---|
枚举值:customizeintelligence
当multi_shot参数为true时,当前参数必填
| prompt | string | 可选 | 空 | 文本提示词,可包含正向描述和负向描述 |
|---|---|---|---|---|
可将提示词模板化来满足不同的视频生成需求
Omni模型可通过Prompt与主体、图片、视频等内容实现多种能力
通过<<<>>>的格式来指定某个主体、图片、视频,如:<<<element_1>>>、<<<image_1>>>、<<<video_1>>>
更多信息详见:可灵视频 3.0 模型使用指南
不能超过2500个字符
用<<<voice_1>>>来指定音色,序号同voice_list参数所引用音色的排列顺序
一次视频生成任务至多引用2个音色;指定音色时,sound参数值必须为on
语法结构越简单越好,如:男人<<<voice_1>>>说:“你好”
当voice_list参数不为空且prompt参数中引用音色ID时,视频生成任务按“有指定音色”计量计费
当multi_shot参数为false或当shot_type参数为intelligence时,当前参数必填
不同模型版本、视频模式支持范围不同,详见当前文档3-0能力地图
| multi_prompt | array | 可选 | 空 | 各分镜信息,如提示词、时长等 |
|---|---|---|---|---|
通过index、prompt、duration参数定义分镜序号及相应提示词和时长,其中:
最多支持6个分镜,最小支持1个分镜
每个分镜相关内容的最大长度不超过512
每个分镜的时长不大于当前任务的总时长,不小于1
所有分镜的时长之和等于当前任务的总时长
用key:value承载,如下:
当mult_shot参数为true且shot_type参数为customize时,当前参数不得为空
| negative_prompt | string | 可选 | 空 | 负向文本提示词 |
|---|---|---|---|---|
不能超过2500个字符
| element_list | array | 可选 | 空 | 参考主体列表 |
|---|---|---|---|---|
基于主体库中主体的ID配置,用key:value承载,如下:
最多支持3个参考主体
主体分为视频定制主体(简称:视频角色主体)和图片定制主体(简称:多图主体),适用范围不同,请注意区分
更多主体信息详见:可灵「主体库 3.0」使用指南
element_list参数与voice_list参数互斥,不能共存
不同模型版本、视频模式支持范围不同,详见当前文档3-0能力地图
| voice_list | array | 可选 | 无 | 生成视频时所引用的音色的列表 |
|---|---|---|---|---|
一次视频生成任务至多引用2个音色
当voice_list参数不为空且prompt参数中引用音色ID时,视频生成任务按“有指定音色”计量计费
voice_id参数值通过音色定制接口返回,也可使用系统预置音色,详见音色定制相关API;非对口型API的voice_id
element_list参数与voice_list参数互斥,不能共存
用key:value承载,如下:
```json
[
{
"voice_id": "your_voice_id"
}
]
```
不同模型版本、视频模式支持范围不同,详见当前文档3-0能力地图
| sound | string | 可选 | off | 生成视频时是否同时生成声音 |
|---|---|---|---|---|
枚举值:onoff
不同模型版本、视频模式支持范围不同,详见当前文档3-0能力地图
| cfg_scale | float | 可选 | 0.5 | 生成视频的自由度;值越大,模型自由度越小,与用户输入的提示词相关性越强 |
|---|---|---|---|---|
取值范围:[0, 1]
kling-v2.x模型不支持当前参数
| mode | string | 可选 | std | 生成视频的模式 |
|---|---|---|---|---|
枚举值:stdpro
其中std:标准模式(标准),基础模式,性价比高
其中pro:专家模式(高品质),高表现模式,生成视频质量更佳
不同模型版本、视频模式支持范围不同,详见当前文档3-0能力地图
| static_mask | string | 可选 | 无 | 静态笔刷涂抹区域(用户通过运动笔刷涂抹的 mask 图片) |
|---|---|---|---|---|
“运动笔刷”能力包含“动态笔刷 dynamic_masks”和“静态笔刷 static_mask”两种
支持传入图片Base64编码或图片URL(确保可访问,格式要求同 image 字段)
图片格式支持.jpg / .jpeg / .png
图片长宽比必须与输入图片相同(即image字段),否则任务失败(failed)
static_mask 和 dynamic_masks.mask 这两张图片的分辨率必须一致,否则任务失败(failed)
不同模型版本、视频模式支持范围不同,详见当前文档3-0能力地图
| dynamic_masks | array | 可选 | 无 | 动态笔刷配置列表 |
|---|---|---|---|---|
可配置多组(最多6组),每组包含“涂抹区域 mask”与“运动轨迹 trajectories”序列
不同模型版本、视频模式支持范围不同,详见当前文档3-0能力地图
| dynamic_masks |
|---|
mask
string
可选

动态笔刷涂抹区域(用户通过运动笔刷涂抹的 mask 图片)
支持传入图片Base64编码或图片URL(确保可访问,格式要求同 image 字段)
图片格式支持.jpg / .jpeg / .png
图片长宽比必须与输入图片相同(即image字段),否则任务失败(failed)
static_mask 和 dynamic_masks.mask 这两张图片的分辨率必须一致,否则任务失败(failed)
| dynamic_masks |
|---|
trajectories
array
可选

运动轨迹坐标序列
生成5s的视频,轨迹长度不超过77,即坐标个数取值范围:[2, 77]
轨迹坐标系,以图片左下角为坐标原点
注1:坐标点个数越多轨迹刻画越准确,如只有2个轨迹点则为这两点连接的直线
注2:轨迹方向以传入顺序为指向,以最先传入的坐标为轨迹起点,依次链接后续坐标形成运动轨迹
| dynamic_masks |
|---|
trajectories
x
int
可选

轨迹点横坐标(在像素二维坐标系下,以输入图片image左下为原点的像素坐标)
| dynamic_masks |
|---|
trajectories
y
int
可选

轨迹点纵坐标(在像素二维坐标系下,以输入图片image左下为原点的像素坐标)
| camera_control | object | 可选 | 空 | 控制摄像机运动的协议(如未指定,模型将根据输入的文本/图片进行智能匹配) |
|---|---|---|---|---|
不同模型版本、视频模式支持范围不同,详见当前文档3-0能力地图
| camera_control |
|---|
type
string
可选

预定义的运镜类型
枚举值:"simple", "down_back", "forward_up", "right_turn_forward", "left_turn_forward"
simple:简单运镜,此类型下可在"config"中六选一进行运镜
down_back:镜头下压并后退 ➡️ 下移拉远,此类型下config参数无需填写
forward_up:镜头前进并上仰 ➡️ 推进上移,此类型下config参数无需填写
right_turn_forward:先右旋转后前进 ➡️ 右旋推进,此类型下config参数无需填写
left_turn_forward:先左旋并前进 ➡️ 左旋推进,此类型下config参数无需填写
| camera_control |
|---|
config
object
可选

包含六个字段,用于指定摄像机在不同方向上的运动或变化
当运镜类型指定simple时必填,指定其他类型时不填
以下参数6选1,即只能有一个参数不为0,其余参数为0
| config |
|---|
horizontal
float
可选

水平运镜,控制摄像机在水平方向上的移动量(沿x轴平移)
取值范围:[-10, 10],负值表示向左平移,正值表示向右平移
| config |
|---|
vertical
float
可选

垂直运镜,控制摄像机在垂直方向上的移动量(沿y轴平移)
取值范围:[-10, 10],负值表示向下平移,正值表示向上平移
| config |
|---|
pan
float
可选

水平摇镜,控制摄像机在水平面上的旋转量(绕y轴旋转)
取值范围:[-10, 10],负值表示绕y轴向左旋转,正值表示绕y轴向右旋转
| config |
|---|
tilt
float
可选

垂直摇镜,控制摄像机在垂直面上的旋转量(沿x轴旋转)
取值范围:[-10, 10],负值表示绕x轴向下旋转,正值表示绕x轴向上旋转
| config |
|---|
roll
float
可选

旋转运镜,控制摄像机的滚动量(绕z轴旋转)
取值范围:[-10, 10],负值表示绕z轴逆时针旋转,正值表示绕z轴顺时针旋转
| config |
|---|
zoom
float
可选

变焦,控制摄像机的焦距变化,影响视野的远近
取值范围:[-10, 10],负值表示焦距变长、视野范围变小,正值表示焦距变短、视野范围变大
| duration | string | 可选 | 5 | 生成视频时长,单位s |
|---|---|---|---|---|
枚举值:3,4,56789101112131415
不同模型版本、视频模式支持范围不同,详见当前文档3-0能力地图
| watermark_info | array | 可选 | 空 | 是否同时生成含水印的结果 |
|---|---|---|---|---|
通过enabled参数定义,具体array格式如下:
```json
{
"enabled": true
}
```
暂不支持自定义水印
| callback_url | string | 可选 | 无 | 本次任务结果回调通知地址,如果配置,服务端会在任务状态发生变更时主动通知 |
|---|---|---|---|---|
具体通知的消息schema见“Callback协议”
| external_task_id | string | 可选 | 无 | 自定义任务ID |
|---|---|---|---|---|
用户自定义任务ID,传入不会覆盖系统生成的任务ID,但支持通过该ID进行任务查询
请注意,单用户下需要保证唯一性
响应体
场景调用示例
多镜头效果的图生视频
引用主体及主体音色的图生视频
指定音色生成视频
音色定制
3-8【图生视频】查询任务(单个)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/image2video/{id} |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求路径参数
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| task_id | string | 可选 | 无 | 图生视频的任务ID |
请求路径参数,直接将值填写在请求路径中,与external_task_id两种查询方式二选一
| external_task_id | string | 可选 | 无 | 图生视频的自定义任务ID |
|---|---|---|---|---|
创建任务时填写的external_task_id,与task_id两种查询方式二选一
请求体
响应体
3-9【图生视频】查询任务(列表)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/image2video |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
查询参数
/v1/videos/image2video?pageNum=1&pageSize=30
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| pageNum | int | 可选 | 1 | 页码 |
取值范围:[1,1000]
| pageSize | int | 可选 | 30 | 每页数据量 |
|---|---|---|---|---|
取值范围:[1,500]
请求体
响应体
3-10【多图参考生视频】创建任务
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/multi-image2video |
| 请求方法 | POST |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求体
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| model_name | string | 可选 | kling-v1-6 | 模型名称 |
枚举值:kling-v1-6
| image_list | array | 必须 | 空 | 参考图像列表 |
|---|---|---|---|---|
最多支持4张图片,用key:value承载,如下:
API端无裁剪逻辑,请直接上传已选主体后的图片
支持传入图片Base64编码或图片URL(确保可访问)
请注意,若您使用base64的方式,请确保您传递的所有图像数据参数均采用Base64编码格式。在提交数据时,请不要在Base64编码字符串前添加任何前缀,例如data:image/png;base64,。正确的参数格式应该直接是Base64编码后的字符串。
示例:
正确的Base64编码参数:
错误的Base64编码参数(包含data:前缀):
请仅提供Base64编码的字符串部分,以便系统能够正确处理和解析您的数据。
图片格式支持.jpg / .jpeg / .png
图片文件大小不能超过10MB,图片宽高尺寸不小于200px,图片宽高比要在1:2.5 ~ 2.5:1之间
| prompt | string | 必须 | 无 | 正向文本提示词 |
|---|---|---|---|---|
不能超过2500个字符
| negative_prompt | string | 可选 | 空 | 负向文本提示词 |
|---|---|---|---|---|
不能超过2500个字符
| mode | string | 可选 | std | 生成视频的模式 |
|---|---|---|---|---|
枚举值:stdpro
其中std:标准模式(标准),基础模式,性价比高
其中pro:专家模式(高品质),高表现模式,生成视频质量更佳
不同模型版本、视频模式支持范围不同,详见当前文档3-0能力地图
| duration | string | 可选 | 5 | 生成视频时长,单位s |
|---|---|---|---|---|
枚举值:510
| aspect_ratio | string | 可选 | 16:9 | 生成图片的画面纵横比(宽:高) |
|---|---|---|---|---|
枚举值:16:9, 9:16, 1:1
| watermark_info | array | 可选 | 空 | 是否同时生成含水印的结果 |
|---|---|---|---|---|
通过enabled参数定义,具体array格式如下:
```json
{
"enabled": true
}
```
暂不支持自定义水印
| callback_url | string | 可选 | 无 | 本次任务结果回调通知地址,如果配置,服务端会在任务状态发生变更时主动通知 |
|---|---|---|---|---|
具体通知的消息schema见“Callback协议”
| external_task_id | string | 可选 | 无 | 自定义任务ID |
|---|---|---|---|---|
用户自定义任务ID,传入不会覆盖系统生成的任务ID,但支持通过该ID进行任务查询
请注意,单用户下需要保证唯一性
响应体
3-11【多图参考生视频】查询任务(单个)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/multi-image2video/{id} |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求路径参数
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| task_id | string | 可选 | 无 | 多图参考生视频的任务ID |
请求路径参数,直接将值填写在请求路径中,与external_task_id两种查询方式二选一
| external_task_id | string | 可选 | 无 | 多图参考生视频的自定义任务ID |
|---|---|---|---|---|
创建任务时填写的external_task_id,与task_id两种查询方式二选一
请求体
响应体
3-12【多图参考生视频】查询任务(列表)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/multi-image2video |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
查询参数
/v1/videos/multi-image2video?pageNum=1&pageSize=30
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| pageNum | int | 可选 | 1 | 页码 |
取值范围:[1,1000]
| pageSize | int | 可选 | 30 | 每页数据量 |
|---|---|---|---|---|
取值范围:[1,500]
请求体
响应体
3-13【动作控制】创建任务
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/motion-control |
| 请求方法 | POST |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求体
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| model_name | string | 可选 | kling-v2-6 | 模型名称 |
枚举值:kling-v2-6, kling-v3
| prompt | string | 可选 | 空 | 文本提示词,可包含正向描述和负向描述 |
|---|---|---|---|---|
可通过提示词为画面增加元素、实现运镜效果等,详见可灵「动作控制」使用指南
不能超过2500个字符
| image_url | string | 必须 | 无 | 参考图像,生成视频中的人物、背景等元素均已参考图为准 |
|---|---|---|---|---|
视频内容需满足以下要求:
人物比例尽量与参考动作比例一致,尽量避免全身动作驱动半身人物进行生成
人物需要漏出清晰的上半身或全身的肢体及头部,避免遮挡
画面中人物避免存在极端朝向,比如倒立、平卧等。人物占画面比例不得太低
支持真实/风格化的角色(包括人物/类人动物/部分纯动物/部分类人肢体比例的角色)通过
包含支持传入图片Base64编码或图片URL(确保可访问)
请注意,若您使用base64的方式,请确保您传递的所有图像数据参数均采用Base64编码格式。在提交数据时,请不要在Base64编码字符串前添加任何前缀,例如data:image/png;base64,。正确的参数格式应该直接是Base64编码后的字符串。
示例:
正确的Base64编码参数:
错误的Base64编码参数(包含data:前缀):
请仅提供Base64编码的字符串部分,以便系统能够正确处理和解析您的数据。
图片格式支持.jpg / .jpeg / .png
图片文件大小不能超过10MB,图片宽高尺寸介于300px~65536px,图片宽高比介于1:2.5 ~ 2.5:1之间
| video_url | string | 必须 | 无 | 参考视频的获取链接。生成视频中的人物动作与参考视频一致。 |
|---|---|---|---|---|
视频内容需满足以下要求:
人物需要漏出清晰的上半身或全身的全部肢体及头部,避免遮挡
建议上传1人动作视频,2人及以上会取画面占比最大的人物动作进行生成
推荐使用真人动作,部分风格化的人物/类人肢体比例可以通过
动作视频一镜到底,角色始终出现在画面中,避免切镜、运镜等。否则会被截取
动作避免过快,相对平稳的动作生成效果更佳
视频文件支持.mp4/.mov,文件大小不超过100MB,仅支持长宽的边长均位于340px~3850px之间,上述校验不通过会返回错误码等信息
视频时长下限不短于3秒,时长上限与人物朝向参考(character_orientation)有关:
当人物朝向与视频中人物一致时,视频时长最长可达30秒;
当人物朝向与图片中人物一致时,视频时长最长可达10秒;
如果您的动作难度比较高、速度比较快,有一定概率生成不足上传视频时长的结果,因为模型只能提取有效动作时长进行生成,最短提取出3s可用连续动作即可生成。请注意,因此消耗的积分将无法退还,建议适当调整动作难度与速度
积分扣减计算以输出视频时长为准
系统会校验视频内容,如有问题会返回错误码等信息
| element_list | array | 可选 | 空 | 主体参考列表 |
|---|---|---|---|---|
基于主体库中主体的ID配置,用key:value承载,如下:
引用主体时,生成的视频暂时只能参考视频中的人物朝向
暂时仅支持引入1个主体
| keep_original_sound | string | 可选 | yes | 可选择是否保留视频原声 |
|---|---|---|---|---|
枚举值:yesno
其中yes:保留视频原声
其中no:不保留视频原声
| character_orientation | string | 必须 | 无 | 生成视频中人物的朝向,可选择与图片一致或与视频一致 |
|---|---|---|---|---|
枚举值:imagevideo,其中:
其中image:与图片中人物朝向一致;此时参考视频时长不得超过10秒;
其中video:与视频中人物朝向一致;此时参考视频时长不得超过30秒;
引用主体时,生成的视频暂时只能参考视频中的人物朝向
| mode | string | 必选 | 无 | 生成视频的模式 |
|---|---|---|---|---|
枚举值:stdpro
其中std:标准模式(标准),基础模式,性价比高
其中pro:专家模式(高品质),高表现模式,生成视频质量更佳
不同模型版本、视频模式支持范围不同,详见当前文档3-0能力地图
| watermark_info | array | 可选 | 空 | 是否同时生成含水印的结果 |
|---|---|---|---|---|
通过enabled参数定义,具体array格式如下:
```json
{
"enabled": true
}
```
暂不支持自定义水印
| callback_url | string | 可选 | 空 | 本次任务结果回调通知地址,如果配置,服务端会在任务状态发生变更时主动通知 |
|---|---|---|---|---|
具体通知的消息schema见“Callback协议”
| external_task_id | string | 可选 | 空 | 自定义任务ID |
|---|---|---|---|---|
用户自定义任务ID,传入不会覆盖系统生成的任务ID,但支持通过该ID进行任务查询
请注意,单用户下需要保证唯一性
响应体
场景调用示例
3-14【动作控制】查询任务(单个)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/motion-control/{id} |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求路径参数
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| task_id | string | 必须 | 无 | 视频生成的任务ID |
请求路径参数,直接将值填写在请求路径中
| external_task_id | string | 可选 | 空 | 自定义任务ID |
|---|---|---|---|---|
用户自定义任务ID,传入不会覆盖系统生成的任务ID,但支持通过该ID进行任务查询
请注意,单用户下需要保证唯一性
请求体
响应体
3-15【动作控制】查询任务(列表)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/motion-control |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
查询参数
/v1/videos/motion-control?pageNum=1&pageSize=30
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| pageNum | int | 可选 | 1 | 页码 |
取值范围:[1,1000]
| pageSize | int | 可选 | 30 | 每页数据量 |
|---|---|---|---|---|
取值范围:[1,500]
请求体
响应体
3-16【多模态视频编辑】初始化待编辑视频
操作指引:使用“多模态视频编辑”功能时,需先对原始视频进行初始化处理。其中,在替换或删除现有视频中的元素时,需先标记视频中相关元素。
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/multi-elements/init-selection |
| 请求方法 | POST |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求体
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| video_id | string | 可选 | 空 | 视频ID,从历史作品中选择待编辑的视频,仅支持仅30天时间生成的视频作品 |
仅支持时长≥2秒且≤5秒,或≥7秒且≤10秒的视频
与video_url参数相关,不能同时为空,也不能同时有值
| video_url | string | 可选 | 空 | 获取视频的URL,上传时传视频下载链接,编辑选区时传接口返回的视频URL |
|---|---|---|---|---|
仅支持MP4和MOV格式
仅支持时长≥2秒且≤5秒,或≥7秒且≤10秒的视频
视频宽高尺寸需介于720px(含)和2160px(含)之间
仅支持上传24、30或60fps的视频
与video_url参数相关,不能同时为空,也不能同时有值
响应体
3-17【多模态视频编辑】增加视频选区
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/multi-elements/add-selection |
| 请求方法 | POST |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求体
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| session_id | string | 必须 | 无 | 会话ID,会基于视频初始化任务生成,不会随编辑选区行为而改变 |
| frame_index | | | | |
int
必须

帧号
最多支持添加10个标记帧,即最多基于10帧标记视频选区
1次仅支持标记1帧
| points | object[] | 必须 | 无 | 点选坐标,用x、y表示 |
|---|---|---|---|---|
取值范围:[0,1],用百分比表示;[0,1]代表画面左上角
支持同时增加多个标记点,某一帧最多可标记10个点
响应体
示例代码
解析图像分割结果
绘制图像分割图层
3-18【多模态视频编辑】删减视频选区
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/multi-elements/delete-selection |
| 请求方法 | POST |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求体
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| session_id | string | 必须 | 无 | 会话ID,会基于视频初始化任务生成,不会随编辑选区行为而改变 |
| frame_index | int | 必须 | 无 | 帧号 |
| points | object[] | 必须 | 无 | 点选坐标,用x、y表示 |
取值范围:[0,1],用百分比表示;[0,1]代表画面左上角
支持同时增加多个标记点
坐标点需与增加视频选区时完全一致
响应体
3-19【多模态视频编辑】清除视频选区
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/multi-elements/clear-selection |
| 请求方法 | POST |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求体
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| session_id | string | 必须 | 无 | 会话ID,会基于视频初始化任务生成,不会随编辑选区行为而改变 |
响应体
3-20【多模态视频编辑】预览已选区视频
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/multi-elements/preview-selection |
| 请求方法 | POST |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求体
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| session_id | string | 必须 | 无 | 会话ID,会基于视频初始化任务生成,不会随编辑选区行为而改变 |
响应体
3-21【多模态视频编辑】创建任务
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/multi-elements/ |
| 请求方法 | POST |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求体
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| model_name | string | 可选 | kling-v1-6 | 模型名称 |
枚举值:kling-v1-6
| session_id | string | 必须 | 无 | 会话ID |
|---|---|---|---|---|
会基于视频初始化任务生成,不会随编辑选区行为而改变
| edit_mode | string | 必须 | 无 | 操作类型 |
|---|---|---|---|---|
枚举值:addition, swap, removal, 其中:
addition:增加元素
swap:替换元素
removal:删除元素
| image_list | array | 可选 | 空 | 裁剪后的参考图像 |
|---|---|---|---|---|
增加视频元素时:当前参数必填,可上传1~2张图片
编辑视频元素时:当前参数必填,仅可上传1张图片
删除视频元素时,当前参数无需填写
用key:value承载,如下:
API端无裁剪逻辑,请直接上传已选主体后的图片
支持传入图片Base64编码或图片URL(确保可访问)
请注意,若您使用base64的方式,请确保您传递的所有图像数据参数均采用Base64编码格式。在提交数据时,请不要在Base64编码字符串前添加任何前缀,例如data:image/png;base64,。正确的参数格式应该直接是Base64编码后的字符串。
示例:
正确的Base64编码参数:
错误的Base64编码参数(包含data:前缀):
请仅提供Base64编码的字符串部分,以便系统能够正确处理和解析您的数据。
图片格式支持.jpg / .jpeg / .png
图片文件大小不能超过10MB,图片宽高尺寸不小于300px
| prompt | string | 必须 | 无 | 正向文本提示词 |
|---|---|---|---|---|
用<<<xxx>>>的格式来特指某个视频或某张图片,如<<<video_1>>>、<<<image_1>>>
为保证效果,提示词中需包含视频编辑所需的视频和图片(如有),如下文“推荐的Prompt模板”
不能超过2500个字符
推荐的Prompt模板
增加元素
中文:基于<<<video_1>>>中的原始内容,以自然生动的方式,将<<<image_1>>>中的【】,融入<<<video_1>>>的【】
英文:Using the context of <<<video_1>>>, seamlessly add [x] from <<<image_1>>>
替换元素
中文:使用<<<image_1>>>中的 【】,替换<<<video_1>>>中的 【】
英文:swap [x] from <<<image_1>>> for [x] from <<<video_1>>>
删除元素
中文:删除<<<video_1>>>中的【】
英文:Delete [x] from <<<video_1>>>
注:中文的【】,英文的[x],是需要用户填写的部分
| negative_prompt | string | 可选 | 空 | 负向文本提示词 |
|---|---|---|---|---|
不能超过2500个字符
| mode | string | 可选 | std | 生成视频的模式 |
|---|---|---|---|---|
枚举值:stdpro
其中std:标准模式(标准),基础模式,性价比高
其中pro:专家模式(高品质),高表现模式,生成视频质量更佳
| duration | string | 可选 | 5 | 生成视频时长,单位s |
|---|---|---|---|---|
枚举值:510
支持且仅支持生成5s和10s的视频,对于生成不同时长的视频,对输入视频有时长会有所限制:
如生成5s时长视频,输入视频时长需≥2s且≤5s
如生成10s时长视频,输入视频时长需≥7s且≤10s
| watermark_info | array | 可选 | 空 | 是否同时生成含水印的结果 |
|---|---|---|---|---|
通过enabled参数定义,具体array格式如下:
```json
{
"enabled": true
}
```
暂不支持自定义水印
| callback_url | string | 可选 | 空 | 本次任务结果回调通知地址,如果配置,服务端会在任务状态发生变更时主动通知 |
|---|---|---|---|---|
具体通知的消息schema见“Callback协议”
| external_task_id | string | 可选 | 空 | 自定义任务ID |
|---|---|---|---|---|
用户自定义任务ID,传入不会覆盖系统生成的任务ID,但支持通过该ID进行任务查询
请注意,单用户下需要保证唯一性
响应体
3-22【多模态视频编辑】查询任务(单个)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/multi-elements/{id} |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求路径参数
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| task_id | string | 可选 | 无 | 多图参考生视频的任务ID |
请求路径参数,直接将值填写在请求路径中,与external_task_id两种查询方式二选一
| external_task_id | string | 可选 | 无 | 多图参考生视频的自定义任务ID |
|---|---|---|---|---|
创建任务时填写的external_task_id,与task_id两种查询方式二选一
请求体
响应体
3-23【多模态视频编辑】查询任务(列表)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/multi-elements/ |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
查询参数
/v1/videos/multi-image2video?pageNum=1&pageSize=30
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| pageNum | int | 可选 | 1 | 页码 |
取值范围:[1,1000]
| pageSize | int | 可选 | 30 | 每页数据量 |
|---|---|---|---|---|
取值范围:[1,500]
请求体
响应体
3-24【视频延长】创建任务
注-1:视频延长是指对文生/图生视频结果进行时间上的延长,单次可延长4~5s,使用的模型和模式不可选择、与源视频相同
注-2:被延长后的视频可以再次延长,但总视频时长不能超过3min
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/video-extend |
| 请求方法 | POST |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求体
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| video_id | string | 必须 | 无 | 视频ID |
支持通过文本、图片和视频延长生成的视频的ID(原视频不能超过3分钟)
请注意,基于目前的清理策略、视频生成30天之后会被清理,则无法进行延长
| prompt | string | 可选 | 无 | 正向文本提示词 |
|---|---|---|---|---|
不能超过2500个字符
| negative_prompt | string | 可选 | 无 | 负向文本提示词 |
|---|---|---|---|---|
不能超过2500个字符
| cfg_scale | float | 可选 | 0.5 | 提示词参考强度 |
|---|---|---|---|---|
取值范围:[0,1],数值越大参考强度越大
| watermark_info | array | 可选 | 空 | 是否同时生成含水印的结果 |
|---|---|---|---|---|
通过enabled参数定义,具体array格式如下:
```json
{
"enabled": true
}
```
暂不支持自定义水印
| callback_url | string | 可选 | 无 | 本次任务结果回调通知地址,如果配置,服务端会在任务状态发生变更时主动通知 |
|---|---|---|---|---|
具体通知的消息schema见“Callback协议”
| external_task_id | string | 可选 | 无 | 自定义任务ID |
|---|---|---|---|---|
用户自定义任务ID,传入不会覆盖系统生成的任务ID,但支持通过该ID进行任务查询
请注意,单用户下需要保证唯一性
响应体
3-25【视频延长】查询任务(单个)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/video-extend/{id} |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求路径参数
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| task_id | string | 必须 | 无 | 视频续写的任务ID |
请求路径参数,直接将值填写在请求路径中
| external_task_id | string | 可选 | 空 | 自定义任务ID |
|---|---|---|---|---|
用户自定义任务ID,传入不会覆盖系统生成的任务ID,但支持通过该ID进行任务查询
请注意,单用户下需要保证唯一性
请求体
响应体
3-26【视频延长】查询任务(列表)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/video-extend |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
查询参数
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| pageNum | int | 可选 | 1 | 页码 |
取值范围:[1,1000]
| pageSize | int | 可选 | 30 | 每页数据量 |
|---|---|---|---|---|
取值范围:[1,500]
请求体
响应体
3-27【数字人】创建任务
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/avatar/image2video |
| 请求方法 | POST |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求体
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| image | string | 必须 | 无 | 数字人参考图 |
支持传入图片Base64编码或图片URL(确保可访问)
请注意,若您使用base64的方式,请确保您传递的所有图像数据参数均采用Base64编码格式。在提交数据时,请不要在Base64编码字符串前添加任何前缀,例如data:image/png;base64,。正确的参数格式应该直接是Base64编码后的字符串。
示例:
正确的Base64编码参数:
错误的Base64编码参数(包含data:前缀):
请仅提供Base64编码的字符串部分,以便系统能够正确处理和解析您的数据。
图片格式支持.jpg / .jpeg / .png
图片文件大小不能超过10MB,图片宽高尺寸不小于300px,图片宽高比介于1:2.5 ~ 2.5:1之间
| audio_id | string | 可选 | 空 | 通过试听接口生成的音频的ID |
|---|---|---|---|---|
仅支持使用30天内生成的、时长不短于2秒且不超过300秒的音频
audio_id、sound_file参数二选一,不能同时为空,也不能同时有值
| sound_file | string | 可选 | 空 | 音频文件 |
|---|---|---|---|---|
支持传入音频Base64编码或图音频URL(确保可访问)
音频文件支持.mp3/.wav/.m4a/.aac,文件大小不超过5MB,格式不匹配或文件过大会返回错误码等信息
仅支持使用时长不短于2秒且不长于300秒的音频
audio_id、sound_file参数二选一,不能同时为空,也不能同时有值
系统会校验音频内容,如有问题会返回错误码等信息
| prompt | string | 可选 | 空 | 正向文本提示词 |
|---|---|---|---|---|
可定义数字人动作、情绪及运镜等
不能超过2500个字符
| mode | string | 可选 | std | 生成视频的模式 |
|---|---|---|---|---|
枚举值:stdpro
其中std:标准模式(标准),基础模式,性价比高
其中pro:专家模式(高品质),高表现模式,生成视频质量更佳
不同模型版本、视频模式支持范围不同,详见当前文档3-0能力地图
| watermark_info | array | 可选 | 空 | 是否同时生成含水印的结果 |
|---|---|---|---|---|
通过enabled参数定义,具体array格式如下:
```json
{
"enabled": true
}
```
暂不支持自定义水印
| callback_url | string | 可选 | 无 | 本次任务结果回调通知地址,如果配置,服务端会在任务状态发生变更时主动通知 |
|---|---|---|---|---|
具体通知的消息schema见“Callback协议”
| external_task_id | string | 可选 | 空 | 自定义任务ID |
|---|---|---|---|---|
用户自定义任务ID,传入不会覆盖系统生成的任务ID,但支持通过该ID进行任务查询
请注意,单用户下需要保证唯一性
响应体
3-28【数字人】查询任务(单个)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/avatar/image2video/{id} |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求路径参数
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| task_id | string | 必须 | 无 | 数字人的任务ID |
请求路径参数,直接将值填写在请求路径中
| external_task_id | string | 可选 | 空 | 自定义任务ID |
|---|---|---|---|---|
用户自定义任务ID,传入不会覆盖系统生成的任务ID,但支持通过该ID进行任务查询
请注意,单用户下需要保证唯一性
请求体
响应体
3-29【数字人】查询任务(列表)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/avatar/image2video |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
查询参数
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| pageNum | int | 可选 | 1 | 页码 |
取值范围:[1,1000]
| pageSize | int | 可选 | 30 | 每页数据量 |
|---|---|---|---|---|
取值范围:[1,500]
请求体
响应体
3-30【对口型】人脸识别
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/identify-face |
| 请求方法 | POST |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求体
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| video_id | string | 可选 | 空 | 通过可灵AI生成的视频的ID |
用于指定视频、判断视频是否可用于对口型服务
与video_url参数二选一填写,不能同时为空,也不能同时有值
仅支持使用30天内生成的时长不超过60秒的视频
| video_url | string | 可选 | 空 | 所上传视频的获取URL |
|---|---|---|---|---|
用于指定视频,并判断视频是否可用于对口型服务
与video_id参数二选一填写,不能同时为空,也不能同时有值
视频文件支持.mp4/.mov,文件大小不超过100MB,视频时长不超过60s且不短于2s,仅支持720p和1080p、长宽的边长均位于512px~2160px之间,上述校验不通过会返回错误码等信息
系统会校验视频内容,如有问题会返回错误码等信息
响应体
3-31【对口型】创建任务
对口型创建任务接口已升级至全新版本,如需浏览旧版请移步可灵AI【对口型】(旧版)API文档
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/advanced-lip-sync |
| 请求方法 | POST |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求体
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| session_id | string | 必须 | 无 | 会话ID,会基于对口型人脸识别接口生成 |
| face_choose | | | | |
string[]
必填

指定人脸对口型
包括人脸ID、口型参考等内容等
暂时仅支持指定单人对口型
| face_choose |
|---|
face_id
string
必填

人脸ID
由人脸识别接口返回
| face_choose |
|---|
audio_id
string
可选

通过试听接口生成的音频的ID
仅支持使用30天内生成的、时长不短于2秒且不超过60秒的音频
audio_id、sound_file参数二选一,不能同时为空,也不能同时有值
| face_choose |
|---|
sound_file
string
可选

音频文件
支持传入音频Base64编码或图音频URL(确保可访问)
音频文件支持.mp3/.wav/.m4a/.aac,文件大小不超过5MB,格式不匹配或文件过大会返回错误码等信息
仅支持使用时长不短于2秒且不长于60秒的音频
audio_id、sound_file参数二选一,不能同时为空,也不能同时有值
系统会校验音频内容,如有问题会返回错误码等信息
| face_choose |
|---|
sound_start_time
long
必须

音频裁剪起点时间
以原始音频开始时间为准,开始时间为0分0秒,单位ms
起点之前的音频会被裁剪,裁剪后音频不得短于2秒
| face_choose |
|---|
sound_end_time
long
必须

音频裁剪终点时间
以原始音频开始时间为准,开始时间为0分0秒,单位ms
终点之后的音频会被裁剪,裁剪后音频不得短于2秒
终点时间不得晚于原始音频总时长
| face_choose |
|---|
sound_insert_time
long
必须

裁剪后音频插入时间
以视频开始时间为准,视频开始时间为0分0秒,单位ms
插入音频的时间范围与该人脸可对口型时间区间至少重合2秒时长
插入音频的开始时间不得早于视频开始时间,插入音频的结束时间不得晚于视频结束时间
| face_choose |
|---|
sound_volume
float
可选
1
音频音量大小;值越大,音量越大
取值范围:[0, 2]
| face_choose |
|---|
original_audio_volume
float
可选
1
原始视频音量大小;值越大,音量越大
取值范围:[0, 2]
原视频无声时,当前参数无效果
| watermark_info | array | 可选 | 空 | 是否同时生成含水印的结果 |
|---|---|---|---|---|
通过enabled参数定义,具体array格式如下:
```json
{
"enabled": true
}
```
暂不支持自定义水印
| external_task_id | string | 可选 | 无 | 自定义任务ID |
|---|---|---|---|---|
用户自定义任务ID,传入不会覆盖系统生成的任务ID,但支持通过该ID进行任务查询
请注意,单用户下需要保证唯一性
| callback_url | string | 可选 | 无 | 本次任务结果回调通知地址,如果配置,服务端会在任务状态发生变更时主动通知 |
|---|---|---|---|---|
具体通知的消息schema见“Callback协议”
响应体
3-32【对口型】查询任务(单个)
对口型创建任务接口已升级至全新版本,如需浏览旧版请移步可灵AI【对口型】(旧版)API文档
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/advanced-lip-sync/{id} |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求路径参数
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| task_id | string | 必须 | 无 | 对口型的任务ID |
请求路径参数,直接将值填写在请求路径中
请求体
响应体
3-33【对口型】查询任务(列表)
对口型创建任务接口已升级至全新版本,如需浏览旧版请移步可灵AI【对口型】(旧版)API文档
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/advanced-lip-sync |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
查询参数
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| pageNum | int | 可选 | 1 | 页码 |
取值范围:[1,1000]
| pageSize | int | 可选 | 30 | 每页数据量 |
|---|---|---|---|---|
取值范围:[1,500]
请求体
响应体
3-34【视频特效】创建任务
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/effects |
| 请求方法 | POST |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
通用请求体
当前一共支持 230 款特效,您可以根据调用 effect_scene 实现不同的效果,详细内容请见:特效模版中心
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| effect_scene | string | 必须 | 无 | 场景名称 |
枚举值:flash_drive, shush_my_dreams, french_elegance, finger_swipe, advent_of_flora, smooth_transition, raid_check, fortune_in_motion, chinese_trend, sedan_chair_dance, yangge_dance, good_luck_dance, laicai_dance, snow_night_kiss, eternal_kiss, color_mixing, palm_sized_figure, lantern_festival_cuju, unique_firework, unique_spring_couplets, horse_mask, fortune_knocks_cartoon, tangyuan_to_animal, hot_feet_dance, swag_dance, pigeon_dance, bloodline_dance, chanel_dance, cute_dance, love_theme_song, pumpitup_dance, city_to_village, fortune_god_transform, new_year_feast, ring_in_new, horse_year_firework, pet_vlogger, crystal_horse, lateral_shift_transition, drunk_dance, drunk_dance_pet, daoma_dance, bouncy_dance, smooth_sailing_dance, new_year_greeting, lion_dance, prosperity, great_success, golden_horse_fortune, red_packet_box, lucky_horse_year, lucky_red_packet, lucky_money_come, lion_dance_pet, dumpling_making_pet, fish_making_pet, pet_red_packet, lantern_glow, expression_challenge, overdrive, heart_gesture_dance, poping, martial_arts, running, nezha, motorcycle_dance, subject_3_dance, ghost_step_dance, phantom_jewel, zoom_out, cheers_2026, kiss_pro, fight_pro, hug_pro,heart_gesture_pro, dollar_rain_pro, pet_bee_pro, countdown_teleport, santa_random_surprise, magic_match_tree, bullet_time_360, happy_birthday, birthday_star, thumbs_up_pro, tiger_hug_pro, pet_lion_pro, surprise_bouquet, bouquet_drop, 3d_cartoon_1_pro, firework_2026, glamour_photo_shoot, box_of_joy, first_toast_of_the_year, my_santa_pic, santa_gift, steampunk_christmas, snowglobe, christmas_photo_shoot, ornament_crash, santa_express, instant_christmas, particle_santa_surround, coronation_of_frost, building_sweater, spark_in_the_snow, scarlet_and_snow, cozy_toon_wrap, bullet_time_lite, magic_cloak, balloon_parade, jumping_ginger_joy, bullet_time, c4d_cartoon_pro, pure_white_wings, black_wings, golden_wing, pink_pink_wings, venomous_spider, throne_of_king, luminous_elf, woodland_elf, japanese_anime_1, american_comics, guardian_spirit, swish_swish, snowboarding, witch_transform, vampire_transform, pumpkin_head_transform, demon_transform, mummy_transform, zombie_transform, cute_pumpkin_transform, cute_ghost_transform, knock_knock_halloween, halloween_escape, baseball, inner_voice, a_list_look, memory_alive, trampoline, trampoline_night, pucker_up, guess_what, feed_mooncake, rampage_ape, flyer, dishwasher, pet_chinese_opera, magic_fireball, gallery_ring, pet_moto_rider, muscle_pet, squeeze_scream, pet_delivery, running_man, disappear, mythic_style, steampunk, 3d_cartoon_2, eagle_snatch, hug_from_past, firework, media_interview, pet_chef, santa_gifts, santa_hug, girlfriend, boyfriend, heart_gesture_1, pet_wizard, smoke_smoke, instant_kid, dollar_rain, cry_cry, building_collapse, gun_shot, mushroom, double_gun, pet_warrior, lightning_power, jesus_hug, shark_alert, long_hair, lie_flat, polar_bear_hug, brown_bear_hug , jazz_jazz, office_escape_plow, fly_fly, watermelon_bomb, pet_dance, boss_coming, wool_curly, pet_bee, marry_me, swing_swing, day_to_night, piggy_morph, wig_out, car_explosion, ski_ski, siblings, construction_worker, lets_ride, snatched, magic_broom, felt_felt, jumpdrop, splashsplash, surfsurf, fairy_wing, angel_wing, dark_wing, skateskate, plushcut, jelly_press, jelly_slice, jelly_squish, jelly_jiggle, pixelpixel, yearbook, instant_film, anime_figure, rocketrocket, bloombloom, dizzydizzy, fuzzyfuzzy, squish, expansion
更多参数请见: 特效模版中心
| input | object | 必须 | 无 | 支持不同任务输入的结构体 |
|---|---|---|---|---|
根据scene不同,结构体里传的字段不同,具体如「场景请求体」所示
| callback_url | string | 可选 | 无 | 本次任务结果回调通知地址,如果配置,服务端会在任务状态发生变更时主动通知 |
|---|---|---|---|---|
具体通知的消息schema见“Callback协议”
| external_task_id | string | 可选 | 无 | 自定义任务ID |
|---|---|---|---|---|
用户自定义任务ID,传入不会覆盖系统生成的任务ID,但支持通过该ID进行任务查询
请注意,单用户下需要保证唯一性
场景请求体
单图特效:220款,flash_drive, shush_my_dreams, advent_of_flora, raid_check, fortune_in_motion, chinese_trend, sedan_chair_dance, yangge_dance, good_luck_dance, laicai_dance, color_mixing, palm_sized_figure, lantern_festival_cuju, unique_firework, unique_spring_couplets, horse_mask, fortune_knocks_cartoon, tangyuan_to_animal, hot_feet_dance, swag_dance, pigeon_dance, bloodline_dance, chanel_dance, cute_dance, love_theme_song, pumpitup_dance, city_to_village, fortune_god_transform, new_year_feast, ring_in_new, horse_year_firework, pet_vlogger, crystal_horse, lateral_shift_transition, drunk_dance, drunk_dance_pet, daoma_dance, bouncy_dance, smooth_sailing_dance, new_year_greeting, lion_dance, prosperity, great_success, golden_horse_fortune, red_packet_box, lucky_horse_year, lucky_red_packet, lucky_money_come, lion_dance_pet, dumpling_making_pet, fish_making_pet, pet_red_packet, lantern_glow, expression_challenge, overdrive, heart_gesture_dance, poping, martial_arts, running, nezha, motorcycle_dance, subject_3_dance, ghost_step_dance, phantom_jewel, zoom_out, dollar_rain_pro, pet_bee_pro, countdown_teleport, santa_random_surprise, magic_match_tree, bullet_time_360, happy_birthday, birthday_star, thumbs_up_pro, tiger_hug_pro, pet_lion_pro, surprise_bouquet, bouquet_drop, 3d_cartoon_1_pro, firework_2026, glamour_photo_shoot, box_of_joy, first_toast_of_the_year, my_santa_pic, santa_gift, steampunk_christmas, snowglobe, christmas_photo_shoot, ornament_crash, santa_express, instant_christmas, particle_santa_surround, coronation_of_frost, building_sweater, spark_in_the_snow, scarlet_and_snow, cozy_toon_wrap, bullet_time_lite, magic_cloak, balloon_parade, jumping_ginger_joy, bullet_time, c4d_cartoon_pro, pure_white_wings, black_wings, golden_wing, pink_pink_wings, venomous_spider, throne_of_king, luminous_elf, woodland_elf, japanese_anime_1, american_comics, guardian_spirit, swish_swish, snowboarding, witch_transform, vampire_transform, pumpkin_head_transform, demon_transform, mummy_transform, zombie_transform, cute_pumpkin_transform, cute_ghost_transform, knock_knock_halloween, halloween_escape, baseball, inner_voice, a_list_look, memory_alive, trampoline, trampoline_night, pucker_up, guess_what, feed_mooncake, rampage_ape, flyer, dishwasher, pet_chinese_opera, magic_fireball, gallery_ring, pet_moto_rider, muscle_pet, squeeze_scream, pet_delivery, running_man, disappear, mythic_style, steampunk, 3d_cartoon_2, eagle_snatch, hug_from_past, firework, media_interview, pet_chef, santa_gifts, santa_hug, girlfriend, boyfriend, heart_gesture_1, pet_wizard, smoke_smoke, instant_kid, dollar_rain, cry_cry, building_collapse, gun_shot, mushroom, double_gun, pet_warrior, lightning_power, jesus_hug, shark_alert, long_hair, lie_flat, polar_bear_hug, brown_bear_hug , jazz_jazz, office_escape_plow, fly_fly, watermelon_bomb, pet_dance, boss_coming, wool_curly, pet_bee, marry_me, swing_swing, day_to_night, piggy_morph, wig_out, car_explosion, ski_ski, siblings, construction_worker, lets_ride, snatched, magic_broom, felt_felt, jumpdrop, splashsplash, surfsurf, fairy_wing, angel_wing, dark_wing, skateskate, plushcut, jelly_press, jelly_slice, jelly_squish, jelly_jiggle, pixelpixel, yearbook, instant_film, anime_figure, rocketrocket, bloombloom, dizzydizzy, fuzzyfuzzy, squish, expansion
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| effect_scene | string | 必须 | 无 | 场景名称 |
| image | string | 必须 | 无 | 参考图像 |
支持传入图片Base64编码或图片URL(确保可访问)
请注意,若您使用base64的方式,请确保您传递的所有图像数据参数均采用Base64编码格式。在提交数据时,请不要在Base64编码字符串前添加任何前缀,例如data:image/png;base64,。正确的参数格式应该直接是Base64编码后的字符串。
示例:
正确的Base64编码参数:
错误的Base64编码参数(包含data:前缀):
请仅提供Base64编码的字符串部分,以便系统能够正确处理和解析您的数据。
图片格式支持.jpg / .jpeg / .png
图片文件大小不能超过10MB,图片宽高尺寸不小于300px,图片宽高比介于1:2.5 ~ 2.5:1之间
单人特效请求示例
双人互动特效:10款,french_elegance, finger_swipe, smooth_transition, snow_night_kiss, eternal_kiss, cheers_2026, kiss_pro, fight_pro, hug_pro, heart_gesture_pro
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| effect_scene | string | 必须 | 无 | 场景名称 |
| images | Array[string] | 必须 | 无 | 参考图像组 |
数组的长度必须是2,上传的第一张图在合照的左边,上传的第二张图在合照的右边
该服务包含合照功能,即用户上传两张人想图,可灵AI将自适应拼接为合照,如图所示先后上传
"https://p2-kling.klingai.com/bs2/upload-ylab-stunt/c54e463c95816d959602f1f2541c62b2.png?x-kcdn-pid=112452",
"https://p2-kling.klingai.com/bs2/upload-ylab-stunt/5eef15e03a70e1fa80732808a2f50f3f.png?x-kcdn-pid=112452"
得到合照的效果为:
支持传入图片Base64编码或图片URL(确保可访问)
请注意,若您使用base64的方式,请确保您传递的所有图像数据参数均采用Base64编码格式。在提交数据时,请不要在Base64编码字符串前添加任何前缀,例如data:image/png;base64,。正确的参数格式应该直接是Base64编码后的字符串。
示例:
正确的Base64编码参数:
错误的Base64编码参数(包含data:前缀):
请仅提供Base64编码的字符串部分,以便系统能够正确处理和解析您的数据。
图片格式支持.jpg / .jpeg / .png
图片文件大小不能超过10MB,图片宽高尺寸不小于300px,图片宽高比介于1:2.5 ~ 2.5:1之间
双人特效请求示例 (每个特效的请求示例详见:特效模版中心)
响应体
3-35【视频特效】查询任务(单个)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/effects/{id} |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求路径参数
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| task_id | string | 可选 | 无 | 视频特效的任务ID |
请求路径参数,直接将值填写在请求路径中,与external_task_id两种查询方式二选一
| external_task_id | string | 可选 | 无 | 视频特效的自定义任务ID |
|---|---|---|---|---|
创建任务时填写的external_task_id,与task_id两种查询方式二选一
请求体
响应体
3-36【视频特效】查询任务(列表)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/effects |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
查询参数
/v1/videos/image2video?pageNum=1&pageSize=30
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| pageNum | int | 可选 | 1 | 页码 |
取值范围:[1,1000]
| pageSize | int | 可选 | 30 | 每页数据量 |
|---|---|---|---|---|
取值范围:[1,500]
请求体
响应体
3-37 【文生音效】创建任务
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/audio/text-to-audio |
| 请求方法 | POST |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求体
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| prompt | string | 必须 | 无 | 文本提示词 |
内容长度不超过200字符
| duration | float | 必须 | 无 | 生成音频的时长 |
|---|---|---|---|---|
取值范围: ​​3.0秒至10.0秒​​,支持小数点后一位精度
| external_task_id | string | 可选 | 无 | 自定义任务ID |
|---|---|---|---|---|
用户自定义任务ID,传入不会覆盖系统生成的任务ID,但支持通过该ID进行任务查询
请注意,单用户下需要保证唯一性
| callback_url | string | 可选 | 无 | 本次任务结果回调通知地址,如果配置,服务端会在任务状态发生变更时主动通知 |
|---|---|---|---|---|
具体通知的消息schema见“Callback协议”
响应体
3-38【文生音效】查询任务(单个)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/audio/text-to-audio/{id} |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求路径参数
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| task_id | string | 可选 | 无 | 文生音频的任务ID |
请求路径参数,直接将值填写在请求路径中
| external_task_id | string | 可选 | 无 | 用户自定义任务ID |
|---|---|---|---|---|
创建任务时填写的external_task_id,与task_id两种查询方式二选一
请求体
响应体
3-39【文生音效】查询任务(列表)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/audio/text-to-audio |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
查询参数
/v1/audio/text-to-audio?pageNum=1&pageSize=30
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| pageNum | int | 可选 | 1 | 页码 |
取值范围:[1,1000]
| pageSize | int | 可选 | 30 | 每页数据量 |
|---|---|---|---|---|
取值范围:[1,500]
请求体
响应体
3-40【视频生音效】创建任务
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/audio/video-to-audio |
| 请求方法 | POST |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求体
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| video_id | string | 必须 | 无 | 通过可灵AI生成的视频的ID |
与video_url参数二选一填写,不能同时为空,也不能同时有值
仅支持30天内生成并且长度在3.0秒-20.0秒的视频
| video_url |
|---|
string
必须

所上传视频的获取链接
与video_id参数二选一填写,不能同时为空,也不能同时有值
视频格式仅支持MP4/MOV,文件大小≤100M,视频长度在3.0秒-20.0秒
| sound_effect_prompt | string | 可选 | 无 | 音效生成提示词 |
|---|---|---|---|---|
不能超过200个字符
| bgm_prompt | string | 可选 | 无 | 配乐生成提示词 |
|---|---|---|---|---|
不能超过200个字符
| asmr_mode | boolean | 可选 | false | 是否开启ASMR模式;该模式会增强细节音效, 适合高沉浸内容场景 |
|---|---|---|---|---|
true表示开启,false表示关闭(默认值)
| external_task_id | string | 可选 | 无 | 自定义任务ID |
|---|---|---|---|---|
用户自定义任务ID,传入不会覆盖系统生成的任务ID,但支持通过该ID进行任务查询
请注意,单用户下需要保证唯一性
| callback_url | string | 可选 | 无 | 本次任务结果回调通知地址,如果配置,服务端会在任务状态发生变更时主动通知 |
|---|---|---|---|---|
具体通知的消息schema见“Callback协议”
响应体
3-41【视频生音效】查询任务(单个)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/audio/video-to-audio/{id} |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求路径参数
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| task_id | string | 必须 | 无 | 视频生音频的任务ID |
请求路径参数,直接将值填写在请求路径中
| external_task_id | string | 可选 | 无 | 用户自定义任务ID |
|---|---|---|---|---|
创建任务时填写的external_task_id,与task_id两种查询方式二选一
请求体
响应体
3-42【视频生音效】查询任务(列表)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/audio/video-to-audio |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
查询参数
/v1/audio/video-to-audio?pageNum=1&pageSize=30
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| pageNum | int | 可选 | 1 | 页码 |
取值范围:[1,1000]
| pageSize | int | 可选 | 30 | 每页数据量 |
|---|---|---|---|---|
取值范围:[1,500]
请求体
响应体
3-43【通用】语音合成
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/audio/tts |
| 请求方法 | POST |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求体
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| text | string | 必填 | 无 | 合成音频的文案 |
文本内容最大长度1000,内容过长会返回错误码等信息
系统会校验文本内容,如有问题会返回错误码等信息
| voice_id | string | 必填 | 无 | 音色ID |
|---|---|---|---|---|
系统提供多种音色可供选择,具体音色效果、音色ID、音色语种对应关系点此查看;音色试听不支持自定义文案
音色试听文件命名规范:音色名称#音色ID#音色语种
| voice_language | string | 必填 | 无 | 音色语种,与音色ID对应,详见 |
|---|---|---|---|---|
枚举值:zhen
音色语种与音色ID对应,详见上文
| voice_speed | float | 可选 | 1.0 | 语速 |
|---|---|---|---|---|
有效范围:0.8~2.0,精确至小数点后1位,超出部分将自动四舍五入
响应体
3-44【通用】图像识别
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/videos/image-recognize |
| 请求方法 | POST |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求体
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| image | string | 必须 | 无 | 待识别的图片 |
支持传入图片Base64编码或图片URL(确保可访问)
请注意,若您使用base64的方式,请确保您传递的所有图像数据参数均采用Base64编码格式。在提交数据时,请不要在Base64编码字符串前添加任何前缀,例如data:image/png;base64,。正确的参数格式应该直接是Base64编码后的字符串。
示例:
正确的Base64编码参数:
错误的Base64编码参数(包含data:前缀):
请仅提供Base64编码的字符串部分,以便系统能够正确处理和解析您的数据。
图片格式支持.jpg / .jpeg / .png
图片文件大小不能超过10MB,图片宽高尺寸不小于300px,图片宽高比介于1:2.5 ~ 2.5:1之间
响应体
3-45【通用】创建主体
创建主体相关服务已升级至全新版本,如需浏览旧版请移步可灵AI【旧版】主体相关API文档
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/general/advanced-custom-elements |
| 请求方法 | POST |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求体
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| element_name | string | 必须 | 无 | 主体名称 |
不能超过20个字符
| element_description | string | 必须 | 无 | 主体描述 |
|---|---|---|---|---|
不能超过100个字符
| reference_type | string | 必须 | 无 | 主体参考方式 |
|---|---|---|---|---|
枚举值:video_refer, image_refer
video_refer: 视频角色主体,此时将参考element_video_list定义主体外表
image_refer: 多图主体,此时将参考element_image_list定义主体外表
通过视频定制的主体和通过图片定制的主体的可用范围不同,详见能力地图和参数说明。
| element_image_list | array | 可选 | 空 | 主体参考图,可通过多张图片设定主体及其细节 |
|---|---|---|---|---|
包括正面参考图和其他角度或特写参考图,其中:
至少包括1张正面参考图,由frontal_image参数定义
需包括1~3张其他参考图,需与正面参考图有差异,由image_url参数定义
用key:value承载,如下:
```json
[
{
"image_url": "https://example.com/image.jpg"
}
]
```
支持传入图片Base64编码或图片URL(确保可访问)
图片格式支持.jpg / .jpeg / .png
图片文件大小不能超过10MB,图片宽高尺寸不小于300px,图片宽高比要在1:2.5 ~ 2.5:1之间
reference_type参数值为image_refer时,当前参数必填
| element_video_list | array | 可选 | 空 | 主体参考视频,可通过视频设定主体及其细节 |
|---|---|---|---|---|
可上传有声视频,有声视频包含人声则触发音色定制(定制+入音色库+与主体绑定)
暂时仅支持通过视频定制写实风格的人形形象
参考视频时当前参数必填,参考图片时当前参数无效
用key:value承载,如下:
```json
[
{
"video_url": "https://example.com/video.mp4",
"refer_type": "feature",
"keep_original_sound": "yes"
}
]
```
视频格式仅支持MP4/MOV
仅支持时长介于3s~8s之间、宽高比例需为16:9或9:16的1080P视频
至多仅支持上传1段视频,视频大小不超过200MB
video_url参数值不得为空
视频定制的主体仅支持用于kling-video-o3及之后的模型
| element_voice_id | string | 可选 | 空 | 主体音色ID,可绑定音色库中已有音色 |
|---|---|---|---|---|
当前参数为空时,当前主体不绑定音色
为多图主体绑定音色时,仅支持人物形象主体或类人形象主体
可通过音色相关API获取ID,详见:「可灵AI」新系统 API 接口文档
| tag_list | array | 可选 | 空 | 为主体配置标签,一个主体可以配置多个标签 |
|---|---|---|---|---|
用key:value承载,其中具体如下:
tag的ID与名称关系:
| ID | 名称 |
|---|---|
| o_101 | 热梗 |
| o_102 | 人物 |
| o_103 | 动物 |
| o_104 | 道具 |
| o_105 | 服饰 |
| o_106 | 场景 |
| o_107 | 特效 |
| o_108 | 其他 |
| callback_url | string | 可选 | 无 | 本次任务结果回调通知地址,如果配置,服务端会在任务状态发生变更时主动通知 |
|---|---|---|---|---|
具体通知的消息schema见“Callback协议”
| external_task_id | string | 可选 | 无 | 自定义任务ID |
|---|---|---|---|---|
用户自定义任务ID,传入不会覆盖系统生成的任务ID,但支持通过该ID进行任务查询
请注意,单用户下需要保证唯一性
响应体
调用示例
创建图片定制主体
创建视频定制主体
3-46【通用】查询自定义主体(单个)
查询主体相关服务已升级至全新版本,如需浏览旧版请移步可灵AI【旧版】主体相关API文档
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/general/advanced-custom-elements/{id} |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求路径参数
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| task_id | string | 必须 | 无 | 图片生成的任务ID |
请求路径参数,直接将值填写在请求路径中
| external_task_id | string | 可选 | 空 | 自定义任务ID |
|---|---|---|---|---|
用户自定义任务ID,传入不会覆盖系统生成的任务ID,但支持通过该ID进行任务查询
请注意,单用户下需要保证唯一性
请求体
响应体
调用示例
查询某个自定义主体
3-47【通用】查询自定义主体(列表)
查询主体相关服务已升级至全新版本,如需浏览旧版请移步可灵AI【旧版】主体相关API文档
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/general/advanced-custom-elements |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求路径参数
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| pageNum | int | 可选 | 1 | 页码 |
取值范围:[1,1000]
| pageSize | int | 可选 | 30 | 每页数据量 |
|---|---|---|---|---|
取值范围:[1,500]
请求体
响应体
调用示例
批量查询自定义主体
3-48【通用】查询官方主体(列表)
查询主体相关服务已升级至全新版本,如需浏览旧版请移步可灵AI【旧版】主体相关API文档
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/general/advanced-presets-elements |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求路径参数
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| pageNum | int | 可选 | 1 | 页码 |
取值范围:[1,1000]
| pageSize | int | 可选 | 30 | 每页数据量 |
|---|---|---|---|---|
取值范围:[1,500]
请求体
响应体
3-49【通用】删除自定义主体
删除自定义主体相关服务已原地升级,无需移步其他文档
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/general/delete-elements |
| 请求方法 | POST |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求体
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| element_id | string | 必须 | 无 | 要删除的主体ID,仅支持删除自定义主体 |
响应体
3-50【通用】创建自定义音色
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/general/custom-voices |
| 请求方法 | POST |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求体
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| voice_name | string | 必须 | 无 | 音色名称 |
文本内容最大长度20个字符
创建后不再使用的音色可通过API删除
| voice_url | string | 可选 | 空 | 音色数据文件获取链接 |
|---|---|---|---|---|
支持.mp3/.wav/.mp4/.mov格式的音视频文件
音频中人生需干净无杂音,有且只能有一种人声,时长不短于5秒且不长于30秒
| video_id | string | 可选 | 空 | 历史作品ID,可通过引用历史作品提供音频素材 |
|---|---|---|---|---|
仅满足以下条件的视频可以用于定制音色:
使用V2.6版本模型生成且开启sound参数值为on的视频
通过数字人API生成的视频
通过对口型API生成的视频
音频中人生需干净无杂音,有且只能有一种人声,时长不短于5秒且不长于30秒
| callback_url | string | 可选 | 空 | 本次任务结果回调通知地址,如果配置,服务端会在任务状态发生变更时主动通知 |
|---|---|---|---|---|
具体通知的消息schema见“Callback协议”
| external_task_id | string | 可选 | 空 | 自定义任务ID |
|---|---|---|---|---|
用户自定义任务ID,传入不会覆盖系统生成的任务ID,但支持通过该ID进行任务查询
请注意,单用户下需要保证唯一性
响应体
3-51【通用】查询自定义音色(单个)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/general/custom-voices/{id} |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
查询参数
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| task_id | string | 必须 | 无 | 生成音色的任务ID |
请求路径参数,直接将值填写在请求路径中
| external_task_id | string | 可选 | 空 | 自定义任务ID |
|---|---|---|---|---|
用户自定义任务ID,传入不会覆盖系统生成的任务ID,但支持通过该ID进行任务查询
请注意,单用户下需要保证唯一性
响应体
3-52 【通用】查询自定义音色(列表)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/general/custom-voices |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
查询参数
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| pageNum | int | 可选 | 1 | 页码 |
取值范围:[1,1000]
| pageSize | int | 可选 | 30 | 每页数据量 |
|---|---|---|---|---|
取值范围:[1,1000]
响应体
3-53【通用】查询官方音色(列表)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/general/presets-voices |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
查询参数
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| pageNum | int | 可选 | 1 | 页码 |
取值范围:[1,1000]
| pageSize | int | 可选 | 30 | 每页数据量 |
|---|---|---|---|---|
取值范围:[1,1000]
请求体
响应体
3-54【通用】删除自定义音色
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/general/delete-voices |
| 请求方法 | POST |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求体
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| voice_id | string | 必须 | 无 | 待删除的音色的ID,仅支持删除自定义音色 |
响应体
四、虚拟试穿
4-1【虚拟试穿】创建任务
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/images/kolors-virtual-try-on |
| 请求方法 | POST |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求体
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| model_name | string | 可选 | kolors-virtual-try-on-v1 | 模型名称 |
枚举值:kolors-virtual-try-on-v1, kolors-virtual-try-on-v1-5
| human_image | string | 必须 | 无 | 上传的人物图片 |
|---|---|---|---|---|
支持传入图片Base64编码或图片URL(确保可访问)
图片格式支持.jpg / .jpeg / .png
图片文件大小不能超过10MB,图片宽高尺寸不小于300px
| cloth_image | string | 必须 | 无 | 虚拟试穿的服饰图片 |
|---|---|---|---|---|
支持上传服饰商品图或服饰白底图,支持上装upper、下装lower、与连体装dress
支持传入图片Base64编码或图片URL(确保可访问)
图片格式支持.jpg / .jpeg / .png
图片文件大小不能超过10MB,图片宽高尺寸不小于300px
其中 kolors-virtual-try-on-v1-5 模型不仅支持单个服装输入,还支持“上装+下装”形式服装组合输入,即:
输入单个服饰图片(上装 or 下装 or 连体装)-> 生成试穿的单品图片
输入组合服饰图片(您可以将多个单品服饰白底图拼接到同一张图片)
模型检测为“上装+下装” -> 生成试穿的“上装+下装”图片
模型检测为“上装+上装” -> 生成失败
模型检测为“下装+下装” -> 生成失败
模型检测为“连体装+连体装” -> 生成失败
模型检测为“上装+连体装” -> 生成失败
模型检测为“下装+连体装” -> 生成失败
组合服饰图片示例:*
| callback_url | string | 可选 | 无 | 本次任务结果回调通知地址,如果配置,服务端会在任务状态发生变更时主动通知 |
|---|---|---|---|---|
具体通知的消息schema见“Callback协议”
| external_task_id | string | 可选 | 无 | 自定义任务ID |
|---|---|---|---|---|
用户自定义任务ID,传入不会覆盖系统生成的任务ID,但支持通过该ID进行任务查询
请注意,单用户下需要保证唯一性
响应体
4-2【虚拟试穿】查询任务(单个)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/images/kolors-virtual-try-on/{id} |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求路径参数
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| task_id | string | 必须 | 无 | 虚拟试穿的任务ID |
请求路径参数,直接将值填写在请求路径中
| external_task_id | string | 可选 | 空 | 自定义任务ID |
|---|---|---|---|---|
用户自定义任务ID,传入不会覆盖系统生成的任务ID,但支持通过该ID进行任务查询
请注意,单用户下需要保证唯一性
请求体
响应体
4-3【虚拟试穿】查询任务(列表)
| 网络协议 | https |
|---|---|
| 请求地址 | /v1/images/kolors-virtual-try-on |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
查询参数
/v1/images/kolors-virtual-try-on?pageNum=1&pageSize=30
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| pageNum | int | 可选 | 1 | 页码 |
取值范围:[1,1000]
| pageSize | int | 可选 | 30 | 每页数据量 |
|---|---|---|---|---|
取值范围:[1,500]
请求体
响应体
五、Callback协议
对于异步任务(图像生成 / 视频生成 / 虚拟试穿),若您在创建任务时主动设置了callback_url,则当任务状态发生变更时、服务端会主动通知,协议如下
六、账号信息查询
6-1 查询账号下资源包列表及余量
注:该接口免费调用,方便您查询账号下的资源包列表和余量,但请您注意控制请求速率(QPS<=1)
| 网络协议 | https |
|---|---|
| 请求地址 | /account/costs |
| 请求方法 | GET |
| 请求格式 | application/json |
| 响应格式 | application/json |
请求头
| 字段 | 值 | 描述 |
|---|---|---|
| Content-Type | application/json | 数据交换格式 |
| Authorization | 鉴权信息,参考接口鉴权 | 鉴权信息,参考接口鉴权 |
请求路径参数
| 字段 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
| start_time | int | 是 | 无 | 查询的开始时间,Unix时间戳、单位ms |
| end_time | int | 是 | 无 | 查询的结束时间,Unix时间戳、单位ms |
| resource_pack_name | string | 否 | 无 | 资源包名称,用于精准指定查询某个资源包 |
请求体
响应体
七、计费说明
计费方式
目前仅提供购买预付费资源包的形式
目前资源包按照 “能力” 分为三类:视频生成资源包、图像生成资源包、虚拟试穿资源包。
积分扣减数量说明
生成失败的任务不扣积分(任何原因导致的失败均不扣,包含因内容风控策略导致的失败)
图像生成资源包
| 积分扣减数量说明 | | |
|---|---|---|
| 单张图片规格 | 资源包扣减 | 单价(原价) |
| 【可图Image-O1模型】文生图 | 从资源包总数里扣减8 | 0.2元 |
| 【可图Image-O1模型】图生图 | 从资源包总数里扣减8 | 0.2元 |
| 【可图Image-O1模型】图片编辑 | 从资源包总数里扣减8 | 0.2元 |
| 【可图Image-3O模型】 1K/2K | 从资源包总数里扣减8 | 0.2元 |
| 【可图Image-3O模型】 4K | 从资源包总数里扣减16 | 0.4元 |
| 【可图V1.0模型】文生图 | 从资源包总数里扣减1 | 0.025元 |
| 【可图V1.0模型】图生图 | 从资源包总数里扣减1 | 0.025元 |
| 【可图V1.5模型】文生图 | 从资源包总数里扣减4 | 0.1元 |
| 【可图V1.5模型】图生图 | 从资源包总数里扣减8 | 0.2元 |
| 【可图V2.0模型】文生图 | 从资源包总数里扣减4 | 0.1元 |
| 【可图V2.0模型】图生图 | 从资源包总数里扣减8 | 0.2元 |
| 【可图V2.0-new模型】图生图 | 从资源包总数里扣减8 | 0.2元 |
| 【可图V2.0模型】多图参考生图 | 从资源包总数里扣减16 | 0.4元 |
| 【可图V2.1模型】文生图 | 从资源包总数里扣减4 | 0.1元 |
| 【可图V2.1模型】图生图 | 从资源包总数里扣减8 | 0.2元 |
| 【可图V2.1模型】多图参考生图 | 从资源包总数里扣减16 | 0.4元 |
| 【可图V3.0模型】1K/2K | 从资源包总数里扣减8 | 0.2元 |
| 【图片编辑】扩图 | 从资源包总数里扣减8 | 0.2元 |
| 【智能补全主体图】按服务访问次数计费 | 从资源包总数里扣减20 | 0.5元 |
视频生成资源包
| 积分扣减数量说明 | | |
|---|---|---|
| 单条视频规格 | 资源包扣减 | 单价(原价) |
| 【可灵Video-O1模型】标准(std)x 1s时长 x 无参考视频 | 从资源包总数里扣减0.6 | 0.6元 |
| 【可灵Video-O1模型】标准(std)x 1s时长 x 有参考视频 | 从资源包总数里扣减0.9 | 0.9元 |
| 【可灵Video-O1模型】高品质(pro)x 1s时长 x 无参考视频 | 从资源包总数里扣减0.8 | 0.8元 |
| 【可灵Video-O1模型】高品质(pro)x 1s时长 x 有参考视频 | 从资源包总数里扣减1.2 | 1.2元 |
| 【可灵V3-Omni模型】标准(std)x 1s时长 x 无参考视频 x 无声 | 从资源包总数里扣减0.6 | 0.6元 |
| 【可灵V3-Omni模型】标准(std)x 1s时长 x 无参考视频 x 有声 | 从资源包总数里扣减0.8 | 0.8元 |
| 【可灵V3-Omni模型】标准(std)x 1s时长 x 有参考视频 x 无声 | 从资源包总数里扣减0.9 | 0.9元 |
| 【可灵V3-Omni模型】高品质(pro)x 1s时长 x 无参考视频 x 无声 | 从资源包总数里扣减0.8 | 0.8元 |
| 【可灵V3-Omni模型】高品质(pro)x 1s时长 x 无参考视频 x 有声 | 从资源包总数里扣减1.0 | 1.0元 |
| 【可灵V3-Omni模型】高品质(pro)x 1s时长 x 有参考视频 x 无声 | 从资源包总数里扣减1.2 | 1.2元 |
| 【可灵V1模型】标准(std)x 5s时长 | 从资源包总数里扣减1 | 1元 |
| 【可灵V1模型】标准(std)x 10s时长 | 从资源包总数里扣减2 | 2元 |
| 【可灵V1模型】高品质(pro)x 5s时长 | 从资源包总数里扣减3.5 | 3.5元 |
| 【可灵V1模型】高品质(pro)x 10s时长 | 从资源包总数里扣减7 | 7元 |
| 【可灵V1.5模型】标准(std)x 5s时长 | 从资源包总数里扣减2 | 2元 |
| 【可灵V1.5模型】标准(std)x 10s时长 | 从资源包总数里扣减4 | 4元 |
| 【可灵V1.5模型】高品质(pro)x 5s时长 | 从资源包总数里扣减3.5 | 3.5元 |
| 【可灵V1.5模型】高品质(pro)x 10s时长 | 从资源包总数里扣减7 | 7元 |
| 【可灵V1.6模型】标准(std)x 5s时长 | 从资源包总数里扣减2 | 2元 |
| 【可灵V1.6模型】标准(std)x 10s时长 | 从资源包总数里扣减4 | 4元 |
| 【可灵V1.6模型】高品质(pro)x 5s时长 | 从资源包总数里扣减3.5 | 3.5元 |
| 【可灵V1.6模型】高品质(pro)x 10s时长 | 从资源包总数里扣减7 | 7元 |
| 【可灵V1.6多图参考生视频】标准(std)x 5s时长 | 从资源包总数里扣减2 | 2元 |
| 【可灵V1.6多图参考生视频】标准(std)x 10s时长 | 从资源包总数里扣减4 | 4元 |
| 【可灵V1.6多图参考生视频】高品质(pro)x 5s时长 | 从资源包总数里扣减3.5 | 3.5元 |
| 【可灵V1.6多图参考生视频】高品质(pro)x 10s时长 | 从资源包总数里扣减7 | 7元 |
| 【可灵V2.0大师版模型】x 5s时长 | 从资源包总数里扣减10 | 10元 |
| 【可灵V2.0大师版模型】x 10s时长 | 从资源包总数里扣减20 | 20元 |
| 【可灵V2.1模型】标准(std)x 5s时长 | 从资源包总数里扣减2 | 2元 |
| 【可灵V2.1模型】标准(std)x 10s时长 | 从资源包总数里扣减4 | 4元 |
| 【可灵V2.1模型】高品质(pro)x 5s时长 | 从资源包总数里扣减3.5 | 3.5元 |
| 【可灵V2.1模型】高品质(pro)x 10s时长 | 从资源包总数里扣减7 | 7元 |
| 【可灵V2.1大师版模型】x 5s时长 | 从资源包总数里扣减10 | 10元 |
| 【可灵V2.1大师版模型】x 10s时长 | 从资源包总数里扣减20 | 20元 |
| 【可灵V2.5 turbo模型】标准(std)x 5s时长 | 从资源包总数里扣减1.5 | 1.5元 |
| 【可灵V2.5 turbo模型】标准(std)x 10s时长 | 从资源包总数里扣减3 | 3元 |
| 【可灵V2.5 turbo模型】高品质(pro)x 5s时长 | 从资源包总数里扣减2.5 | 2.5元 |
| 【可灵V2.5 turbo模型】高品质(pro)x 10s时长 | 从资源包总数里扣减5 | 5元 |
| 【可灵V2.6模型】标准(std)x 5s时长 x 无声 x 未指定音色 | 从资源包总数里扣减1.5 | 1.5元 |
| 【可灵V2.6模型】标准(std)x 10s时长 x 无声 x 未指定音色 | 从资源包总数里扣减3 | 3元 |
| 【可灵V2.6模型】高品质(pro)x 5s时长 x 无声 x 未指定音色 | 从资源包总数里扣减2.5 | 2.5元 |
| 【可灵V2.6模型】高品质(pro)x 10s时长 x 无声 x 未指定音色 | 从资源包总数里扣减5 | 5元 |
| 【可灵V2.6模型】高品质(pro)x 5s时长 x 有声 x 未指定音色 | 从资源包总数里扣减5 | 5元 |
| 【可灵V2.6模型】高品质(pro)x 10s时长 x 有声 x 未指定音色 | 从资源包总数里扣减10 | 10元 |
| 【可灵V2.6模型】高品质(pro)x 5s时长 x 有声 x 有指定音色 | 从资源包总数里扣减6 | 6元 |
| 【可灵V2.6模型】高品质(pro)x 10s时长 x 有声 x 有指定音色 | 从资源包总数里扣减12 | 12元 |
| 【可灵V3.0模型】标准(std)x 1s时长 x 无声 | 从资源包总数里扣减0.6 | 0.6元 |
| 【可灵V3.0模型】标准(std)x 1s时长 x 有声 x 未指定音色 | 从资源包总数里扣减0.9 | 0.9元 |
| 【可灵V3.0模型】高品质(pro)x 1s时长 x 无声 | 从资源包总数里扣减0.8 | 0.8元 |
| 【可灵V3.0模型】高品质(pro)x 1s时长 x 有声 x 未指定音色 | 从资源包总数里扣减1.2 | 1.2元 |
| 【动作控制】可灵V2.6模型_标准(std)x 1s时长 | 从资源包总数里扣减0.5 | 0.5元 |
| 【动作控制】可灵V2.6模型_高品质(pro)x 1s时长 | 从资源包总数里扣减0.8 | 0.8元 |
| 【动作控制】可灵V3.0模型_标准(std)x 1s时长 | 从资源包总数里扣减0.9 | 0.9元 |
| 【动作控制】可灵V3.0模型_高品质(pro)x 1s时长 | 从资源包总数里扣减1.2 | 1.2元 |
| 【多模态视频编辑】可灵V1.6模型_标准(std)x 5s时长 | 从资源包总数里扣减3 | 3元 |
| 【多模态视频编辑】可灵V1.6模型_标准(std)x 10s时长 | 从资源包总数里扣减6 | 6元 |
| 【多模态视频编辑】可灵V1.6模型_高品质(pro)x 5s时长 | 从资源包总数里扣减5 | 5元 |
| 【多模态视频编辑】可灵V1.6模型_高品质(pro)x 10s时长 | 从资源包总数里扣减10 | 10元 |
| 【视频延长】可灵V1模型_标准(std) x 4~5s时长 | 从资源包总数里扣减1 | 1元 |
| 【视频延长】可灵V1模型_高品质(pro) x 4~5s时长 | 从资源包总数里扣减3.5 | 3.5元 |
| 【视频延长】可灵V1.5模型_标准(std) x 4~5s时长 | 从资源包总数里扣减2 | 2元 |
| 【视频延长】可灵V1.5模型_高品质(pro) x 4~5s时长 | 从资源包总数里扣减3.5 | 3.5元 |
| 【视频延长】可灵V1.6模型_标准(std) x 4~5s时长 | 从资源包总数里扣减2 | 2元 |
| 【视频延长】可灵V1.6模型_高品质(pro) x 4~5s时长 | 从资源包总数里扣减3.5 | 3.5元 |
| 【数字人】标准(std)x 按时长收费,以秒为单位,四舍五入取整 | 每秒从资源包总数里扣减0.4积分 | 0.4元 |
| 【数字人】高品质(pro)x 按时长收费,以秒为单位,四舍五入取整 | 每秒从资源包总数里扣减0.8积分 | 0.8元 |
| 【对口型】 与视频时长相关,不足5秒按5秒计算 | 每5秒从资源包总数里扣减0.5积分 | 0.5元 |
| 【特效模板】与模版相关,每个特效模板费用不同 | 详见:特效价目表 | 详见:特效价目表 |
| 【视频配音效】可灵音频模型 x 3~20s时长 | 从资源包总数里扣减0.25 | 0.25元 |
| 【文生音效】可灵音频模型 x 3~10s时长 | 从资源包总数里扣减0.25 | 0.25元 |
| 【人脸识别】按服务访问次数计费 | 每次从资源包总数里扣减0.05积分 | 0.05元 |
| 【语音合成】按服务访问次数计费 | 每次从资源包总数里扣减0.05积分 | 0.05元 |
| 【图像识别】按服务访问次数计费,一次访问可得图片中所有类型元素的识别结果 | 每次从资源包总数里扣减0.1积分 | 0.1元 |
| 【音色定制】按调用次数计费 | 每次从资源包总数里扣减0.05积分 | 0.05元 |
虚拟试穿资源包
| 积分扣减数量说明 | | |
|---|---|---|
| 单张图片规格 | 资源包扣减 | 单价(原价) |
| 【可图-虚拟试穿V1模型】 | 从资源包总数里扣减1 | 0.5元 |
| 【可图-虚拟试穿V1.5模型】 | 从资源包总数里扣减1 | 0.5元 |