课程教学主线（已接入课程系统）

已落地教学能力：课程介绍页、网课章节系统、视频播放、评论区、作业提交、评分反馈。

课程正文（课程介绍页）

Vibe Studio 模型卡使用指南

欢迎使用 Vibe Studio！本指南将帮助你全面了解平台上所有可用的 AI 模型，以及如何选择最适合你需求的模型。

🎨 文生图 (Text-to-Image)

通过文字描述生成高质量图片。

FLUX.1 Dev

提供商: Black Forest Labs
参数规模: 120 亿
生成时间: ~10 秒
分辨率: 1024×1024

特点:

基于 Flow Transformer 架构，生成质量极高
细节还原能力强，适合复杂场景
对提示词理解准确

最佳使用场景:

需要高质量、细节丰富的图片
艺术创作、概念设计
对画面质量要求较高的商业用途

提示词技巧:

写实风格: "A photorealistic portrait of..., professional photography, 8k, highly detailed"
艺术风格: "An oil painting of..., impressionist style, vibrant colors, textured brushstrokes"

FLUX.1 Schnell

提供商: Black Forest Labs
生成时间: ~2 秒
分辨率: 1024×1024

特点:

极速生成，仅需 1-4 步
保持较高的图像质量
适合实时应用和快速迭代

最佳使用场景:

快速原型设计
实时预览和调试提示词
批量生成任务

Fast SDXL

提供商: Stability AI
生成时间: ~5 秒
分辨率: 1024×1024

特点:

基于 Stable Diffusion XL 架构
风格多样性强
对提示词遵循度高

最佳使用场景:

多样化风格创作
需要特定艺术风格
对细节有一定要求但追求速度

HiDream I1

提供商: HiDream
参数规模: 170 亿
生成时间: ~15 秒
分辨率: 1024×1024

特点:

超大参数量，创意能力强
开源基础模型
适合抽象和创意内容

最佳使用场景:

创意艺术作品
抽象概念可视化
探索性创作

🎬 文生视频 (Text-to-Video)

输入提示词直接生成视频。

MiniMax Video-01 (Hailuo)

提供商: MiniMax
最大时长: 6 秒
分辨率: 1280×720
生成时间: ~120 秒

特点:

运动连贯性优秀
视觉保真度高
生成速度相对较快

最佳使用场景:

短视频内容创作
产品展示动画
社交媒体内容

提示词技巧:

"A golden retriever running through a meadow at sunset, slow motion, cinematic"
注意描述: 主体 + 动作 + 场景 + 风格

Kling 1.5 Pro

提供商: Kuaishou (快手)
最大时长: 10 秒
分辨率: 1080p
帧率: 30fps
生成时间: ~180 秒

特点:

角色一致性极佳
复杂运动处理能力强
电影级画质

最佳使用场景:

人物角色视频
电影级短片
需要角色连贯性的内容

提示词技巧:

在提示词开头描述角色: "A young woman with long black hair in a white dress, walking through..."

HunyuanVideo

提供商: Tencent (腾讯)
最大时长: 5 秒
分辨率: 720p
生成时间: ~150 秒

特点:

开源模型
时序一致性好
对复杂提示词理解能力强

最佳使用场景:

需要开源方案的项目
复杂场景描述
研究和实验用途

Mochi 1

提供商: Genmo
最大时长: 5 秒
分辨率: 848×480
生成时间: ~90 秒

特点:

开源模型
自然运动表现优秀
场景理解能力强

最佳使用场景:

自然场景视频
需要真实物理运动
快速迭代和测试

🎥 图生视频 (Image-to-Video)

让静态图片动起来。

Kling 1.5 Pro I2V

提供商: Kuaishou
最大时长: 5 秒
分辨率: 1080p
生成时间: ~120 秒

特点:

电影级运动流畅度
保持原图风格和细节
运动自然真实

使用技巧:

提供高质量源图片
在提示词中描述期望的运动
描述镜头运动（推、拉、摇、移）

提示词示例: "Camera slowly zooming in, gentle wind blowing hair, subtle eye movement"

Luma Ray 2

提供商: Luma AI
最大时长: 5 秒
分辨率: 1080p
生成时间: ~90 秒

特点:

高度写实
运动连贯性强
转场自然流畅

最佳使用场景:

产品动态展示
人像动态效果
需要自然过渡的内容

MiniMax Video-01 I2V

提供商: MiniMax
最大时长: 6 秒
分辨率: 1280×720
生成时间: ~60 秒

特点:

生成速度快
运动连贯性好
输出稳定可靠

最佳使用场景:

快速预览效果
批量处理任务
对速度有要求的场景

🎙️ 文生语音 (Text-to-Speech)

将文本转换为自然语音。

Dia TTS

提供商: Nari Labs
生成时间: ~5 秒

特点:

支持多角色对话
支持情感标签
自然的语气变化

多角色对话格式:

[S1] 你好！今天天气真不错。
[S2] 是啊，我们出去走走吧。
[S1] 好主意！(laughs)

支持的情感标签:

(laughs) - 笑声
(sighs) - 叹气
(clears throat) - 清嗓子

F5 TTS

提供商: F5-TTS
生成时间: ~8 秒

特点:

基于扩散模型
高保真度输出
支持声音克隆

最佳使用场景:

有声读物
高质量配音
需要特定声线的项目

MiniMax Speech-02 HD

提供商: MiniMax
生成时间: ~3 秒

特点:

高清音质
自然语调
生成速度快

最佳使用场景:

快速生成语音
视频配音
实时应用

✨ AI 润色功能

每个功能都配备了智能提示词润色功能，使用 Claude 3.5 Sonnet 模型：

文生图: 自动添加艺术风格、光影、构图描述
文生视频: 优化运动描述、镜头语言、时序表达
图生视频: 增强运动指令、物理效果描述
文生语音: 优化语句节奏、添加自然停顿

点击输入框右上角的「✨ AI 润色」按钮即可使用。

选择模型的建议

需求	推荐模型
最高画质	FLUX.1 Dev
最快速度	FLUX.1 Schnell
人物视频	Kling 1.5 Pro
快速视频	MiniMax / Mochi
图片动态化	Kling I2V / Luma Ray 2
多角色对话	Dia TTS
高清语音	MiniMax Speech-02 HD

提示词黄金法则

具体明确: 描述越具体，结果越符合预期
分层描述: 主体 → 动作 → 场景 → 风格 → 技术细节
善用 AI 润色: 让 AI 帮你补充专业描述词
迭代优化: 根据结果调整提示词，逐步完善

祝你创作愉快！🎨

Vibe Studio 模型卡使用指南

全面了解平台支持的所有 AI 模型及其最佳使用方式

课程进度：0 / 7

进度 0%

课程播放区（视频播放）

通过文字描述生成高质量图片。

当前章节未配置独立媒体。课程主学习正文已内嵌在下方"课程正文"区域。

课程正文

# Vibe Studio 模型卡使用指南欢迎使用 Vibe Studio！本指南将帮助你全面了解平台上所有可用的 AI 模型，以及如何选择最适合你需求的模型。 --- ## 🎨 文生图 (Text-to-Image) 通过文字描述生成高质量图片。 ### FLUX.1 Dev **提供商**: Black Forest Labs **参数规模**: 120 亿 **生成时间**: ~10 秒 **分辨率**: 1024×1024 **特点**: - 基于 Flow Transformer 架构，生成质量极高 - 细节还原能力强，适合复杂场景 - 对提示词理解准确 **最佳使用场景**: - 需要高质量、细节丰富的图片 - 艺术创作、概念设计 - 对画面质量要求较高的商业用途 **提示词技巧**: ``` 写实风格: "A photorealistic portrait of..., professional photography, 8k, highly detailed" 艺术风格: "An oil painting of..., impressionist style, vibrant colors, textured brushstrokes" ``` --- ### FLUX.1 Schnell **提供商**: Black Forest Labs **生成时间**: ~2 秒 **分辨率**: 1024×1024 **特点**: - 极速生成，仅需 1-4 步 - 保持较高的图像质量 - 适合实时应用和快速迭代 **最佳使用场景**: - 快速原型设计 - 实时预览和调试提示词 - 批量生成任务 --- ### Fast SDXL **提供商**: Stability AI **生成时间**: ~5 秒 **分辨率**: 1024×1024 **特点**: - 基于 Stable Diffusion XL 架构 - 风格多样性强 - 对提示词遵循度高 **最佳使用场景**: - 多样化风格创作 - 需要特定艺术风格 - 对细节有一定要求但追求速度 --- ### HiDream I1 **提供商**: HiDream **参数规模**: 170 亿 **生成时间**: ~15 秒 **分辨率**: 1024×1024 **特点**: - 超大参数量，创意能力强 - 开源基础模型 - 适合抽象和创意内容 **最佳使用场景**: - 创意艺术作品 - 抽象概念可视化 - 探索性创作 --- ## 🎬 文生视频 (Text-to-Video) 输入提示词直接生成视频。 ### MiniMax Video-01 (Hailuo) **提供商**: MiniMax **最大时长**: 6 秒 **分辨率**: 1280×720 **生成时间**: ~120 秒 **特点**: - 运动连贯性优秀 - 视觉保真度高 - 生成速度相对较快 **最佳使用场景**: - 短视频内容创作 - 产品展示动画 - 社交媒体内容 **提示词技巧**: ``` "A golden retriever running through a meadow at sunset, slow motion, cinematic" 注意描述: 主体 + 动作 + 场景 + 风格 ``` --- ### Kling 1.5 Pro **提供商**: Kuaishou (快手) **最大时长**: 10 秒 **分辨率**: 1080p **帧率**: 30fps **生成时间**: ~180 秒 **特点**: - 角色一致性极佳 - 复杂运动处理能力强 - 电影级画质 **最佳使用场景**: - 人物角色视频 - 电影级短片 - 需要角色连贯性的内容 **提示词技巧**: ``` 在提示词开头描述角色: "A young woman with long black hair in a white dress, walking through..." ``` --- ### HunyuanVideo **提供商**: Tencent (腾讯) **最大时长**: 5 秒 **分辨率**: 720p **生成时间**: ~150 秒 **特点**: - 开源模型 - 时序一致性好 - 对复杂提示词理解能力强 **最佳使用场景**: - 需要开源方案的项目 - 复杂场景描述 - 研究和实验用途 --- ### Mochi 1 **提供商**: Genmo **最大时长**: 5 秒 **分辨率**: 848×480 **生成时间**: ~90 秒 **特点**: - 开源模型 - 自然运动表现优秀 - 场景理解能力强 **最佳使用场景**: - 自然场景视频 - 需要真实物理运动 - 快速迭代和测试 --- ## 🎥 图生视频 (Image-to-Video) 让静态图片动起来。 ### Kling 1.5 Pro I2V **提供商**: Kuaishou **最大时长**: 5 秒 **分辨率**: 1080p **生成时间**: ~120 秒 **特点**: - 电影级运动流畅度 - 保持原图风格和细节 - 运动自然真实 **使用技巧**: 1. 提供高质量源图片 2. 在提示词中描述期望的运动 3. 描述镜头运动（推、拉、摇、移） ``` 提示词示例: "Camera slowly zooming in, gentle wind blowing hair, subtle eye movement" ``` --- ### Luma Ray 2 **提供商**: Luma AI **最大时长**: 5 秒 **分辨率**: 1080p **生成时间**: ~90 秒 **特点**: - 高度写实 - 运动连贯性强 - 转场自然流畅 **最佳使用场景**: - 产品动态展示 - 人像动态效果 - 需要自然过渡的内容 --- ### MiniMax Video-01 I2V **提供商**: MiniMax **最大时长**: 6 秒 **分辨率**: 1280×720 **生成时间**: ~60 秒 **特点**: - 生成速度快 - 运动连贯性好 - 输出稳定可靠 **最佳使用场景**: - 快速预览效果 - 批量处理任务 - 对速度有要求的场景 --- ## 🎙️ 文生语音 (Text-to-Speech) 将文本转换为自然语音。 ### Dia TTS **提供商**: Nari Labs **生成时间**: ~5 秒 **特点**: - 支持多角色对话 - 支持情感标签 - 自然的语气变化 **多角色对话格式**: ``` [S1] 你好！今天天气真不错。 [S2] 是啊，我们出去走走吧。 [S1] 好主意！(laughs) ``` **支持的情感标签**: - `(laughs)` - 笑声 - `(sighs)` - 叹气 - `(clears throat)` - 清嗓子 --- ### F5 TTS **提供商**: F5-TTS **生成时间**: ~8 秒 **特点**: - 基于扩散模型 - 高保真度输出 - 支持声音克隆 **最佳使用场景**: - 有声读物 - 高质量配音 - 需要特定声线的项目 --- ### MiniMax Speech-02 HD **提供商**: MiniMax **生成时间**: ~3 秒 **特点**: - 高清音质 - 自然语调 - 生成速度快 **最佳使用场景**: - 快速生成语音 - 视频配音 - 实时应用 --- ## ✨ AI 润色功能每个功能都配备了智能提示词润色功能，使用 Claude 3.5 Sonnet 模型： - **文生图**: 自动添加艺术风格、光影、构图描述 - **文生视频**: 优化运动描述、镜头语言、时序表达 - **图生视频**: 增强运动指令、物理效果描述 - **文生语音**: 优化语句节奏、添加自然停顿点击输入框右上角的「✨ AI 润色」按钮即可使用。 --- ## 选择模型的建议 | 需求 | 推荐模型 | |------|----------| | 最高画质 | FLUX.1 Dev | | 最快速度 | FLUX.1 Schnell | | 人物视频 | Kling 1.5 Pro | | 快速视频 | MiniMax / Mochi | | 图片动态化 | Kling I2V / Luma Ray 2 | | 多角色对话 | Dia TTS | | 高清语音 | MiniMax Speech-02 HD | --- ## 提示词黄金法则 1. **具体明确**: 描述越具体，结果越符合预期 2. **分层描述**: 主体 → 动作 → 场景 → 风格 → 技术细节 3. **善用 AI 润色**: 让 AI 帮你补充专业描述词 4. **迭代优化**: 根据结果调整提示词，逐步完善祝你创作愉快！🎨

评论区互动

正在加载评论...

作业系统（提交 / 反馈）

提交本节学习总结与可改进点。

教师 / 助教评分

尚未提交作业

← 返回课程列表

← 模型选择与应用策略进入创作 →