跳转到主要内容
POST
/
vidu
/
ent
/
v2
/
img2video
curl --request POST \
  --url https://api.powertokens.ai/vidu/ent/v2/img2video \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "model": "viduq3-pro-fast",
  "images": [
    "https://example.com/image.png"
  ],
  "prompt": "让图片中的场景动起来"
}
'
{
  "task_id": "your_task_id_here",
  "state": "created",
  "model": "viduq3-pro-fast",
  "images": [
    "https://prod-ss-images.s3.cn-northwest-1.amazonaws.com.cn/vidu-maas/template/image2video.png"
  ],
  "prompt": "The astronaut waved and the camera moved up.",
  "duration": 5,
  "seed": 123456789,
  "resolution": "1080p",
  "movement_amplitude": "auto",
  "payload": "",
  "off_peak": false,
  "credits": 10,
  "created_at": "2025-01-01T15:41:31.968916Z"
}

授权

Authorization
string
header
必填

在请求头中传入 Authorization: Bearer <token>

请求体

application/json
model
enum<string>
必填

视频生成模型名称。

  • viduq3-pro-fast: 高效生成高质量音视频内容,生成速度更快,性价比高
可用选项:
viduq3-pro-fast
images
string[]
必填

用作生成视频起始帧的图片。

  • 仅接受 1 张图片
  • 支持公网 URL 或 Base64 格式
  • 支持格式:png, jpeg, jpg, webp
  • 图片宽高比必须在 1:4 到 4:1 之间
  • 单张图片限制 50MB
  • HTTP 请求体不超过 20MB
  • Base64 格式示例:data:image/png;base64,{base64_encode}
Required array length: 1 element
prompt
string

文本提示词,用于描述视频生成内容。 注意:如果使用了推荐提示词(is_rec=true),模型将忽略手动输入的 prompt 参数。

Maximum string length: 5000
voice_id
string

声音 ID,用于确定视频中的语音角色。Q3 系列模型不生效。 系统会自动推荐合适的声音,也可通过声音克隆 API 克隆任意声音。

is_rec
boolean
默认值:false

是否使用推荐提示词。

  • true: 是,系统自动生成并应用推荐提示词,推荐提示词数量 = 1
  • false: 否,根据用户提供的提示词生成视频 注意:启用推荐提示词功能时,每个任务将额外消耗 10 积分。
bgm
boolean
默认值:false

是否为生成的视频添加背景音乐。q3 模型不生效

  • true: 系统自动添加合适的 BGM,无时长限制,系统自动适配
  • false: 不添加背景音乐 注意:q2 模型在时长为 9 或 10 秒时 BGM 不生效;q3 模型不支持 BGM。
audio
boolean
默认值:false

是否使用直出音视频能力。

  • false: 不进行直出音视频,输出无声视频
  • true: 需要直出音视频,输出有声视频(包含对话和音效) 注意 1:voice_id 参数仅在 audio=true 时生效 注意 2:当此参数为 true 时,不支持交错模式(q3 模型支持交错模式) 注意 3:当 model 为 q3 时,此参数默认值为 true
audio_type
enum<string>
默认值:all

音频类型,当 audio=true 时必填。

  • all: 音效+人声
  • speech_only: 仅人声
  • sound-effect_only: 仅音效 注意:目前该参数仅支持 q2、q1 和 2.0 系列模型的音频分离。
可用选项:
all,
speech_only,
sound-effect_only
duration
integer

视频时长(秒)。不同模型的默认值和可用范围:

  • viduq3-pro-fast, viduq3-pro, viduq3-turbo: 默认 5,可用 1-16
seed
integer

随机种子。

  • 默认为随机种子数
  • 手动设置值将覆盖默认随机种子
resolution
enum<string>

分辨率(基于模型和时长)。

  • viduq3-pro-fast (1-16s): 默认 720p,可选 720p, 1080p
  • viduq3-pro, viduq3-turbo (1-16s): 默认 720p,可选 540p, 720p, 1080p
可用选项:
540p,
720p,
1080p
movement_amplitude
enum<string>
默认值:auto

画面中物体的运动幅度。

  • 默认值:auto
  • 可选值:auto, small, medium, large 注意:修改此参数对 q2、q3 模型无效。
可用选项:
auto,
small,
medium,
large
payload
string

透传参数。 不做处理,仅做数据透传,最大长度 1048576 字符。

Maximum string length: 1048576
off_peak
boolean
默认值:false

错峰模式。

  • true: 错峰生成模式
  • false: 正常生成模式 错峰模式消耗更低积分(详见定价说明)。错峰模式下提交的任务将在 48 小时内生成,未完成的任务将自动取消并退还积分。支持取消错峰任务。
watermark
boolean
默认值:false

是否添加水印。

  • true: 添加水印
  • false: 不添加水印

注1:目前水印内容为固定,内容由AI生成,默认不加 注2:您可以通过 watermarked_url 参数查询获取带水印的视频内容,详情见查询任务接口

wm_position
integer
默认值:3

水印位置,表示水印出现在图片的位置,可选项为:

  • 1: 左上角
  • 2: 右上角
  • 3: 右下角
  • 4: 左下角

默认为:3

wm_url
string

水印内容,此处为图片URL。不传时,使用默认水印:内容由AI生成

meta_data
string

元数据标识,json格式字符串,透传字段,您可以自定义格式或使用示例格式,示例如下:

{
"Label": "your_label",
"ContentProducer": "your_content_producer",
"ContentPropagator": "your_content_propagator",
"ProduceID": "your_product_id",
"PropagateID": "your_propagate_id",
"ReservedCode1": "your_reserved_code1",
"ReservedCode2": "your_reserved_code2"
}

该参数为空时,默认使用vidu生成的元数据标识

callback_url
string

Callback 协议。需要您在创建任务时主动设置 callback_url,请求方法为 POST,当视频生成任务有状态变化时,Vidu 将向此地址发送包含任务最新状态的回调请求。回调请求内容结构与查询任务API的返回体一致。

回调返回的 "status" 包括以下状态:

  • processing: 任务处理中
  • success: 任务完成(如发送失败,回调三次)
  • failed: 任务失败(如发送失败,回调三次)

响应

提交成功,返回视频任务对象。

task_id
string

任务 ID。

state
enum<string>

任务处理状态:

  • created: 任务创建成功
  • queueing: 任务排队中
  • processing: 任务处理中
  • success: 生成成功
  • failed: 任务失败
可用选项:
created,
queueing,
processing,
success,
failed
model
string

本次调用使用的模型参数。

prompt
string

本次调用使用的文本提示词。

images
string[]

本次调用使用的图片列表。

duration
integer

本次调用使用的视频时长参数。

audio
boolean

本次调用是否使用音频。

audio_type
string

本次调用使用的音频类型参数。

seed
integer

本次调用使用的随机种子参数。

resolution
string

本次调用使用的分辨率参数。

movement_amplitude
string

本次调用使用的镜头运动幅度参数。

payload
string

本次调用使用的透传参数。

off_peak
boolean

本次调用使用的错峰模式参数。

credits
integer

本次调用消耗的积分。

watermark
boolean

本次提交任务是否使用水印。

created_at
string<date-time>

任务创建时间。