GitHub: venice-video-harness
MIT 许可。社区维护。
角色一致性视频
在整个系列中锁定角色、声音和美学风格
故事板到视频
采用 Venice 多重编辑细化的两阶段面板生成
文本优先剪辑
使用 whisper.cpp 在本地转录,从 12KB 包中剪辑,在每个边界自评
这是什么
大多数 Venice 集成只是 API 调用的薄包装。Venice Video Harness 是位于您的 agent 和 Venice API 之间的更高层:CLAUDE.md中的编排规则.claude/commands/中的可复用 playbook(19 个工作流命令).claude/agents/中的专用 agent(art-director、prompt-engineer、cut-qa 等).claude/skills/中的 Venice 生产 skill(与 Agent Skills 格式兼容)src/中的 TypeScript 执行层- 全面的模型注册表,覆盖 50+ 个 Venice 视频、图像、音频和音乐模型
- 角色一致性视频项目(任何题材、任何长度)
- 视觉风格锁定的系列或活动
- 故事板到视频工作流
- 短视频和长篇叙事内容
- 品牌化电影序列、预告片和宣传片
- 包含循环角色的社交媒体系列
入门
要求
可选,用于编辑流水线:安装whisper-cpp 进行本地转录。
设置
在您的 agent 中打开
在 Cursor、Claude Code 或任何支持 agent 聊天的 IDE 中打开项目。agent 会自动读取
CLAUDE.md 和 playbook。尝试这些首次消息之一:- “Set up this Venice video harness for first use”
- “Create a new character-consistent video series”
- “Generate a 30-second branded video sequence”
- “Build a multi-episode narrative with locked characters”
- “Create a product launch trailer with consistent visual style”
它的 Venice 优化体现在哪里
- 针对 Venice 图像模型调优的图像 prompt,如
seedream-v5-lite、nano-banana-pro、flux-2-pro/max等 - 两阶段面板生成,采用 Venice 多重编辑细化进行角色校正
- 针对动作、氛围和角色一致性层级的模型路由逻辑
- 参考感知的视频生成,按模型正确使用
elements、reference_image_urls和scene_image_urls - 环境感知的 prompt 调整,处理白天 vs 夜晚场景
- Venice 原生音频路径用于 TTS(Kokoro、Qwen3、ElevenLabs)、SFX 和音乐
- 通过
/video/quote和/audio/quote在生成前进行成本估算 - 模型感知的参数构建,自动跳过目标模型不支持的参数
模型路由默认值
harness 默认值是有主见的,因为一致性是关键。当前路由(2026 年 4 月): 默认 Seedance 2.0 R2V。3+ 角色场景回退到 Kling O3 R2V。建立镜头使用 Seedance 2.0 i2v。| 角色 | 默认模型 | 使用场景 |
|---|---|---|
| 角色镜头(1-2 个角色) | seedance-2-0-reference-to-video | 默认 R2V,采用扁平 reference_image_urls、@Image 标签,最长 15 秒,原生立体声音频 |
| 角色镜头(3+ 个角色) | kling-o3-standard-reference-to-video | 自动回退,采用结构化 elements 处理多角色身份 |
| 建立镜头/氛围/动作 | seedance-2-0-image-to-video | 无角色;史诗级电影质量,最长 15 秒 |
series.json → videoDefaults 按项目覆盖。要针对非 Seedance 系列(例如缺乏 Seedance 访问权限的账户),将 videoDefaults 设置为 kling-o3-standard-reference-to-video 和 veo3.1-fast-image-to-video。
Seedance 人脸规则: Seedance 2.0 屏蔽不是由
seedream-v5-lite 或 seedream-v5-lite-edit 生成的带人脸输入图像。harness 通过将带角色的图像工作路由经 Seedream 处理,并在每次 Seedance 调用之前运行预检门控来自动处理这一点。支持的 Venice 模型
视频(2026 年 4 月)
| 系列 | i2v | t2v | 最大时长 | 音频 | 备注 |
|---|---|---|---|---|---|
| Seedance 2.0 | i2v、R2V | t2v | 15s | 是(立体声,对 8+ 种语言口型同步) | 排名 #1。R2V:扁平 reference_image_urls、@Image 标签。 |
| Kling V3 | Pro、Standard | Pro、Standard | 15s | 是 | end_image_url 用于帧定位 |
| Kling O3 | Pro、Std、Pro R2V、Std R2V | Pro、Standard | 15s | 是 | R2V:elements、reference_image_urls、scene_image_urls |
| Kling 2.6 / 2.5 Turbo | Pro | Pro | 10s | 2.6:是 / 2.5:否 | end_image_url |
| Veo 3.1 | Fast、Full | Fast、Full | 8s | 是 | 最高 4K 分辨率 |
| Sora 2 | Standard、Pro | Standard、Pro | 12s | 是 | 最高 1080p |
| Wan 2.6 / 2.5 | Std、Flash / 是 | Std / 是 | 15s / 10s | 是 | audio_url 输入 |
| LTX Video 2.0 | Fast、Full、v2.3、19B | Fast、Full、v2.3、19B | 20s | 是 | 最高 4K,最长同步 |
| Longcat | Std、Distilled | Std、Distilled | 30s | 否 | 最长单镜头 |
| Vidu Q3 | 是 | 是 | 16s | 是 | reference_image_urls |
| PixVerse v5.6 | Std、Transition | Standard | 8s | 是 | Transition:end_image_url |
| Grok Imagine | 是 | 是 | 15s | 是 | 宽宽高比支持 |
图像、音频和音乐
- 图像(22+ 个模型):
nano-banana-pro/2、gpt-image-2、flux-2-pro/max、grok-imagine、qwen-image-2-pro、recraft-v4-pro、seedream-v4/v5-lite、lustify-sdxl/v7、wai-Illustrious等 - 多重编辑:
qwen-edit、flux-2-max-edit、nano-banana-pro-edit、seedream-v5-lite-edit、gpt-image-2-edit等 - TTS:
tts-kokoro(50+ 种声音)、tts-qwen3-0-6b/1-7b、elevenlabs-tts-v3、elevenlabs-tts-multilingual-v2 - 音乐:
elevenlabs-music、minimax-music-v2、ace-step-15、stable-audio-25 - SFX:
elevenlabs-sound-effects-v2、mmaudio-v2-text-to-audio
生产流水线
生成流水线
端到端叙事视频(脚本 → 故事板 → 视频 → 音频 → 组装):src/mini-drama/ 中的参考实现涵盖:
- 系列/角色/集数管理
- LLM 驱动的脚本工作坊
- 两阶段故事板生成(生成 + 多重编辑细化)
- 基于视觉的面板 QA
- 带帧链接的视频生成
- 分层音频后期制作
- 字幕烧录和最终组装
编辑流水线
剪辑已存在的媒体(Venice 生成的镜头或真实原始素材)。文本优先:LLM 读取紧凑的takes_packed.md(每 40 分钟音频 ~12KB),而不是逐帧转储视频。
五个步骤:
cut-qa 检查捕捉宽高比回归、单词内的帧哈希跳变、配音截断、光照不连续、超过 -6 dBFS 的音频峰值,以及字幕与画面内文字的重叠。
命令、Agent 和 Skill
harness 公开 19 个工作流命令、10 个专用 agent 和 7 个生产 skill。亮点:| 工作流命令 | 用途 |
|---|---|
new-series | 创建带锁定美学的新系列 |
add-character / lock-character | 角色 + 声音锁定 |
workshop-episode | 协作集脚本编写 |
storyboard-episode | 为一集编写故事板 |
produce-episode | 一条命令完成完整流水线 |
generate-trailer | 完整预告片流水线 |
edit-footage | 现有媒体的文本优先编辑流水线 |
ingest-screenplay | 摄取 Fountain 或 PDF 剧本 |
| 专用 Agent | 角色 |
|---|---|
art-director | 美学、调色板、光照、构图决策 |
prompt-engineer | Venice 图像 prompt、角色一致性 |
storyboard-qa | 面板 QA,检查连贯性和角色 |
cut-qa | 渲染后质量门(每个剪辑 6 项检查,最多 3 次迭代) |
overlay-designer | 品牌化动态图形,并行子 agent |
trailer-curator | 预告片镜头选择和反剧透规则 |
| 生产 Skill | 用途 |
|---|---|
venice-api | Venice REST API 用法和默认值 |
venice-video-model-routing | R2V 优先路由、决策树 |
character-consistency | 多镜头角色一致性指南 |
shot-composition | 镜头构图和摄影机指南 |
screenplay-parsing | 剧本解析工作流 |
video-editing | 文本优先编辑理念、EDL 格式、cut-qa 循环 |
NLE 来回流转
渲染后,将组装的时间线导出为 XML,以便在您选择的编辑器中精调。每个视频片段、对话剪辑、SFX 剪辑和音乐线索都落在自己的轨道上。编程使用
您还可以从您自己的 TypeScript 中直接调用 harness 的模块:资源
GitHub
源代码、issue 和发布
Venice 视频生成
harness 所驱动的底层 API
参考到视频
用于角色一致性的 R2V 指南
Seedance 2.0
harness 默认的视频系列
社区维护,按现状提供。对于 harness 特定问题,请在项目的 GitHub 仓库上提交。