课程教学主线(已接入课程系统)
已落地教学能力:课程介绍页、网课章节系统、视频播放、评论区、作业提交、评分反馈。
课程正文(课程介绍页)
Vibe Studio 模型卡使用指南
欢迎使用 Vibe Studio!本指南将帮助你全面了解平台上所有可用的 AI 模型,以及如何选择最适合你需求的模型。
🎨 文生图 (Text-to-Image)
通过文字描述生成高质量图片。
FLUX.1 Dev
提供商: Black Forest Labs
参数规模: 120 亿
生成时间: ~10 秒
分辨率: 1024×1024
特点:
- 基于 Flow Transformer 架构,生成质量极高
- 细节还原能力强,适合复杂场景
- 对提示词理解准确
最佳使用场景:
- 需要高质量、细节丰富的图片
- 艺术创作、概念设计
- 对画面质量要求较高的商业用途
提示词技巧:
写实风格: "A photorealistic portrait of..., professional photography, 8k, highly detailed"
艺术风格: "An oil painting of..., impressionist style, vibrant colors, textured brushstrokes"
FLUX.1 Schnell
提供商: Black Forest Labs
生成时间: ~2 秒
分辨率: 1024×1024
特点:
- 极速生成,仅需 1-4 步
- 保持较高的图像质量
- 适合实时应用和快速迭代
最佳使用场景:
- 快速原型设计
- 实时预览和调试提示词
- 批量生成任务
Fast SDXL
提供商: Stability AI
生成时间: ~5 秒
分辨率: 1024×1024
特点:
- 基于 Stable Diffusion XL 架构
- 风格多样性强
- 对提示词遵循度高
最佳使用场景:
- 多样化风格创作
- 需要特定艺术风格
- 对细节有一定要求但追求速度
HiDream I1
提供商: HiDream
参数规模: 170 亿
生成时间: ~15 秒
分辨率: 1024×1024
特点:
- 超大参数量,创意能力强
- 开源基础模型
- 适合抽象和创意内容
最佳使用场景:
- 创意艺术作品
- 抽象概念可视化
- 探索性创作
🎬 文生视频 (Text-to-Video)
输入提示词直接生成视频。
MiniMax Video-01 (Hailuo)
提供商: MiniMax
最大时长: 6 秒
分辨率: 1280×720
生成时间: ~120 秒
特点:
- 运动连贯性优秀
- 视觉保真度高
- 生成速度相对较快
最佳使用场景:
- 短视频内容创作
- 产品展示动画
- 社交媒体内容
提示词技巧:
"A golden retriever running through a meadow at sunset, slow motion, cinematic"
注意描述: 主体 + 动作 + 场景 + 风格
Kling 1.5 Pro
提供商: Kuaishou (快手)
最大时长: 10 秒
分辨率: 1080p
帧率: 30fps
生成时间: ~180 秒
特点:
- 角色一致性极佳
- 复杂运动处理能力强
- 电影级画质
最佳使用场景:
- 人物角色视频
- 电影级短片
- 需要角色连贯性的内容
提示词技巧:
在提示词开头描述角色: "A young woman with long black hair in a white dress, walking through..."
HunyuanVideo
提供商: Tencent (腾讯)
最大时长: 5 秒
分辨率: 720p
生成时间: ~150 秒
特点:
- 开源模型
- 时序一致性好
- 对复杂提示词理解能力强
最佳使用场景:
- 需要开源方案的项目
- 复杂场景描述
- 研究和实验用途
Mochi 1
提供商: Genmo
最大时长: 5 秒
分辨率: 848×480
生成时间: ~90 秒
特点:
- 开源模型
- 自然运动表现优秀
- 场景理解能力强
最佳使用场景:
- 自然场景视频
- 需要真实物理运动
- 快速迭代和测试
🎥 图生视频 (Image-to-Video)
让静态图片动起来。
Kling 1.5 Pro I2V
提供商: Kuaishou
最大时长: 5 秒
分辨率: 1080p
生成时间: ~120 秒
特点:
- 电影级运动流畅度
- 保持原图风格和细节
- 运动自然真实
使用技巧:
- 提供高质量源图片
- 在提示词中描述期望的运动
- 描述镜头运动(推、拉、摇、移)
提示词示例: "Camera slowly zooming in, gentle wind blowing hair, subtle eye movement"
Luma Ray 2
提供商: Luma AI
最大时长: 5 秒
分辨率: 1080p
生成时间: ~90 秒
特点:
- 高度写实
- 运动连贯性强
- 转场自然流畅
最佳使用场景:
- 产品动态展示
- 人像动态效果
- 需要自然过渡的内容
MiniMax Video-01 I2V
提供商: MiniMax
最大时长: 6 秒
分辨率: 1280×720
生成时间: ~60 秒
特点:
- 生成速度快
- 运动连贯性好
- 输出稳定可靠
最佳使用场景:
- 快速预览效果
- 批量处理任务
- 对速度有要求的场景
🎙️ 文生语音 (Text-to-Speech)
将文本转换为自然语音。
Dia TTS
提供商: Nari Labs
生成时间: ~5 秒
特点:
- 支持多角色对话
- 支持情感标签
- 自然的语气变化
多角色对话格式:
[S1] 你好!今天天气真不错。
[S2] 是啊,我们出去走走吧。
[S1] 好主意!(laughs)
支持的情感标签:
(laughs)- 笑声(sighs)- 叹气(clears throat)- 清嗓子
F5 TTS
提供商: F5-TTS
生成时间: ~8 秒
特点:
- 基于扩散模型
- 高保真度输出
- 支持声音克隆
最佳使用场景:
- 有声读物
- 高质量配音
- 需要特定声线的项目
MiniMax Speech-02 HD
提供商: MiniMax
生成时间: ~3 秒
特点:
- 高清音质
- 自然语调
- 生成速度快
最佳使用场景:
- 快速生成语音
- 视频配音
- 实时应用
✨ AI 润色功能
每个功能都配备了智能提示词润色功能,使用 Claude 3.5 Sonnet 模型:
- 文生图: 自动添加艺术风格、光影、构图描述
- 文生视频: 优化运动描述、镜头语言、时序表达
- 图生视频: 增强运动指令、物理效果描述
- 文生语音: 优化语句节奏、添加自然停顿
点击输入框右上角的「✨ AI 润色」按钮即可使用。
选择模型的建议
| 需求 | 推荐模型 |
|---|---|
| 最高画质 | FLUX.1 Dev |
| 最快速度 | FLUX.1 Schnell |
| 人物视频 | Kling 1.5 Pro |
| 快速视频 | MiniMax / Mochi |
| 图片动态化 | Kling I2V / Luma Ray 2 |
| 多角色对话 | Dia TTS |
| 高清语音 | MiniMax Speech-02 HD |
提示词黄金法则
- 具体明确: 描述越具体,结果越符合预期
- 分层描述: 主体 → 动作 → 场景 → 风格 → 技术细节
- 善用 AI 润色: 让 AI 帮你补充专业描述词
- 迭代优化: 根据结果调整提示词,逐步完善
祝你创作愉快!🎨
Vibe Studio 模型卡使用指南
全面了解平台支持的所有 AI 模型及其最佳使用方式
课程播放区(视频播放)
通过文字描述生成高质量图片。
课程正文
评论区互动
作业系统(提交 / 反馈)
提交本节学习总结与可改进点。
教师 / 助教评分
尚未提交作业