学习中心
掌握 AI 创作技巧,了解各模型特点
据 Grand View Research 报告,全球 AIGC 市场规模 2024 年达 128.79 亿美元,年复合增长率 17.3%。HubSpot 2025 调研显示,55% 的营销人员已将 AI 作为主要内容创作工具。
文生图
输入文字,生成精美图片
FLUX.2 Max
Black Forest Labs
SOTA图像生成,极致真实感、精准度和一致性。文字渲染最强,细节保留最佳。专业级旗舰模型。
FLUX.2 Turbo
Black Forest Labs
FLUX.2 Dev加速版,保持高画质的同时大幅提升生成速度。支持原生编辑能力。
FLUX.2 Flash
Black Forest Labs
FLUX.2闪电版,2秒出图。保持Dev级画质,适合快速迭代和批量生成。
GPT-Image 1.5
OpenAI
OpenAI最新图像生成模型,高保真输出、强prompt遵循。精准保留构图、光线和细节,专业级图像生成。
Nano Banana Pro
Google (Gemini 3 Pro)
Google最新SOTA图像生成,基于Gemini 3 Pro架构。写实感极强,文字渲染优秀,支持多种分辨率输出。
Recraft v3
Recraft
Hugging Face排行榜冠军。长文字渲染最强,矢量图生成、品牌风格定制能力突出。设计师首选。
ImagineArt 1.5 Pro
ImagineArt
超高保真4K视觉输出,写实感极强、美学精致。专业级创意输出,适合高端内容创作。
GLM Image
Zhipu AI (智谱)
智谱AI图像生成模型,文字渲染准确、知识细节丰富。支持编辑、风格迁移、角色一致性保持。
FLUX.2 Flex
Black Forest Labs
Black Forest Labs最新模型,文字渲染能力强化,可调节推理步数和引导系数。精细控制生成过程,专业级输出。
FLUX.1 Dev
Black Forest Labs
画质天花板,细节极致。适合海报、概念图、需要高品质输出的作品。
FLUX.1 Schnell
Black Forest Labs
闪电出图,2秒搞定。快速验证创意、批量生成素材的首选。
Qwen Image 2512
Alibaba (通义千问)
阿里通义最新图像生成。文字渲染优化、自然纹理细腻、人物生成逼真。支持LoRA训练,性价比高。
Fast SDXL
Stability AI
风格百变,提示词理解强。插画、动漫、写实都能驾驭。
HiDream I1
HiDream
创意爆棚,脑洞大开。适合艺术创作、抽象表达、探索性作品。
文生视频
用文字描述,直接生成视频
Veo 3.1
Google DeepMind
Google旗舰视频模型,原生音频生成、对话唇形同步、物理模拟逼真。支持720p/1080p输出,4-8秒时长可选。电影级画质,prompt遵循能力强。
Veo 3.1 Fast
Google DeepMind
Veo 3.1加速版,更快生成速度,更低成本。使用固定分辨率和时长以换取3倍速度提升,仅支持画面比例调整。
Sora 2 Pro
OpenAI
Sora 2专业版,更高画质、更强细节表现。原生音频生成,电影级输出,适合专业内容创作。
Sora 2
OpenAI
OpenAI旗舰视频模型,原生音频生成、对话唇形同步。720p输出,4-12秒时长可选。电影级画质,风格从超写实到动画全覆盖。
Kling 2.6 Pro
Kuaishou (快手)
顶级图生视频,电影级画质、流畅动作、原生音频生成。人物一致性最强,复杂场景和多角色故事的首选。
Video-01
MiniMax (海螺)
国产之光,动作流畅自然。短视频、产品展示、社交内容的可靠选择。
Kling 1.5 Pro
Kuaishou (快手)
人物一致性最强,电影级画质。拍人物、讲故事、做广告片的首选。
HunyuanVideo 1.5
Tencent (腾讯)
腾讯最新最强视频模型。理解力强,复杂提示词也能准确执行。适合有明确创意的项目,国产可靠。
HunyuanVideo
Tencent (腾讯)
理解力强,复杂提示词也能准确执行。适合有明确创意的项目。
Mochi 1
Genmo
自然场景大师,物理运动逼真。风景、自然、环境类视频效果出众。
LTX-2 19B
Lightricks
支持原生音频生成的大参数模型。文生视频、图生视频、视频扩展全支持,可搭配LoRA自定义风格。
Wan 2.6
Alibaba (阿里)
阿里最新视频模型,文生视频和图生视频双模式。性价比高,出图稳定,国产可靠选择。
Seedance 1.5 Pro
ByteDance (字节跳动)
字节跳动最新视频模型,支持原生音频生成。动作流畅自然,适合短视频、广告片、社交内容创作。
Kandinsky 5.0 Pro
Sber AI
俄罗斯Sber AI最新视频模型,快速高质量生成。擅长艺术风格和创意内容,性价比高。
LTX-2 Distilled
Lightricks
LTX-2的蒸馏加速版,保持高质量的同时大幅提升生成速度。适合快速迭代和预览。
PixVerse v5.5
PixVerse
内置音频生成,支持多镜头复杂运镜。电影级画质,适合专业内容创作和广告制作。
Kling 2.5 Turbo
Kuaishou (快手)
快手Kling加速版,动作流畅度和提示词精准度极高。适合需要快速出片的场景。
Hailuo 02 Pro
MiniMax (海螺)
MiniMax最新旗舰模型,物理感知运动,超清画质。复杂动作和场景理解能力强。
图生视频
让静态图片动起来
Veo 3.1
Google DeepMind
Google最新视频模型,支持原生音频生成、多图参考和首尾帧控制。电影级画质,8秒1080p视频,物理效果逼真,对话唇形同步。
Veo 3.1 Fast
Google DeepMind
Veo 3.1加速版图生视频,更快生成速度,保持高画质。适合快速迭代和批量处理。
Sora 2 I2V
OpenAI
OpenAI Sora 2图生视频,原生音频生成。让静态图片变成精彩动态视频,电影级画质。
Sora 2 Pro I2V
OpenAI
Sora 2 Pro图生视频,专业级画质、原生音频。适合高端内容创作和商业项目。
Kling 2.1 Pro
Kuaishou (快手)
快手Kling 2.1专业版,精准相机运动、动态控制能力强。适合电影级叙事和复杂动作。
Kling 2.5 Turbo I2V
Kuaishou (快手)
快手Kling加速版图生视频,动作流畅度和提示词精准度极高。快速出片首选。
Hailuo 02 I2V
MiniMax (海螺)
MiniMax Hailuo-02图生视频,768p/512p可选,物理感知运动、超清画质。
PixVerse v5 I2V
PixVerse
PixVerse v5图生视频,高质量视频生成,风格多样。适合创意内容和广告制作。
HunyuanVideo 1.5 I2V
Tencent (腾讯)
腾讯最新图生视频模型,理解力强、执行准确。让静态图片生动起来,国产可靠。
Lucy 14B
Decart
超快图生视频AI,闪电般的生成速度重新定义可能性。适合快速迭代和实时预览。
Kling 1.5 Pro
Kuaishou (快手)
电影级动态,支持首尾帧。让静态图片优雅地动起来,过渡自然流畅。
Luma Ray 2
Luma AI
写实风格王者,运动连贯。产品展示、人像动态、需要真实感的首选。
Video-01 I2V
MiniMax (海螺)
快速稳定,效果可靠。批量处理、快速预览、赶项目时的效率之选。
Kling 2.6 Pro
Kuaishou (快手)
快手最新图生视频模型,支持原生音频生成。电影级画质,动作流畅,人物一致性极强。
Wan 2.6 I2V
Alibaba (阿里)
阿里Wan 2.6图生视频版本,让静态图片动起来。性价比高,效果稳定可靠。
LTX-2 19B I2V
Lightricks
LTX-2图生视频版本,支持原生音频生成。大参数模型,画质细腻,动作自然。
Seedance 1.5 Pro I2V
ByteDance (字节跳动)
字节跳动图生视频模型,支持首尾帧控制和原生音频。动作流畅,效果专业。
Kandinsky 5.0 Pro I2V
Sber AI
Kandinsky 5图生视频版本,快速高质量。擅长艺术风格动画和创意内容。
Pika 2.2
Pika Labs
支持最多5个关键帧插值,精准控制动画过程。适合需要精细控制的创意项目。
文生语音
文字秒变语音
Chatterbox TTS
Resemble AI
Resemble AI首款TTS,适合meme、视频、游戏、AI Agent。让你的内容栩栩如生。
ViBe Voice
Microsoft
微软强大TTS,快速生成长语音片段。适合长文本配音、有声书、播客等。
Dia TTS
Nari Labs
对话神器,支持多角色和情感表达。配音、有声书、角色对白的最佳选择。
F5 TTS
F5-TTS
音质细腻,表现力强。适合有声读物、高品质配音、专业级输出。
Speech-02 HD
MiniMax
高清快速,清晰自然。日常配音、视频旁白、快速出活的首选。
数字人
图片 + 音频生成说话视频
Creatify Aurora
Creatify
高保真、工作室级数字人视频生成。支持说话和唱歌,适合数字人营销和内容创作。
VEED Fabric 1.0
VEED
图片转说话视频API,让任何图片变成说话的视频。适合快速生成数字人内容。
OmniHuman v1.5
ByteDance (字节跳动)
字节跳动音频驱动数字人,图片+音频生成生动、高质量视频。情感和动作与音频高度相关。
Sync Lipsync v2
Sync
先进算法生成逼真嘴型同步动画,高质量嘴型同步模型。
PixVerse Lipsync
PixVerse
PixVerse嘴型同步模型,先进算法实现高质量嘴型动画同步。
Live Avatar
fal.ai
实时数字人生成,自然的面对面AI对话,流式无限长度视频,即时视觉反馈。
LongCat Avatar
LongCat
音频驱动长视频数字人生成,超逼真、嘴型同步、自然动态、身份一致。
Kling AI Avatar
Kuaishou (快手)
快手数字人专业版,支持真人、动物、卡通、风格化角色创建数字人视频。
3D 生成
图片或文字描述生成 3D 模型
Hunyuan3D v3 I2-3D
Tencent (腾讯)
秒级将照片转换为超高分辨率3D模型。电影级几何细节+PBR纹理,适合游戏、电商、3D打印。
Hunyuan3D v3 T2-3D
Tencent (腾讯)
纯文字描述创建想象中的3D模型。生产就绪、可导出,几分钟生成专业资产,包含逼真光照和材质。
Hunyuan3D v3 Sketch
Tencent (腾讯)
简单草图秒变详细、带纹理的3D模型。设计概念快速转换为Unity、Unreal、Blender可用格式。
Trellis 2
Trellis
原生3D生成模型,实现多样、高质量3D资产创建。图片转3D,适合游戏和虚拟内容。
UltraShape
UltraShape
3D扩散框架,通过粗到细几何细化生成高保真3D几何体。
快速选择指南
提示词写作技巧
描述要具体
不要「一只猫」,要「一只橘色的胖猫躺在阳光下的窗台上」
分层次写
主体 → 动作 → 场景 → 光线 → 风格
善用 AI 润色
点击「AI 润色」自动补充专业词汇
多试几次
同样的提示词,不同模型效果差异很大
用 CORT 结构
角色 + 任务 + 限定条件 + 输出格式,让 AI 更懂你的意图
提供参考示例
给 AI 看 1-2 个你喜欢的风格案例,比纯文字描述更有效
进阶技巧
5 步迭代法
- 1.明确任务目标
- 2.提供背景上下文
- 3.加入参考案例
- 4.评估生成效果
- 5.反复优化调整
每次只改一个变量,方便定位问题
视觉类提示词公式
- 1.[主体] + [动作/姿态]
- 2.[场景/背景]
- 3.[光线/时间]
- 4.[艺术风格/媒介]
- 5.[镜头/构图]
描述视觉感受:梦幻、复古、赛博朋克...
视频类提示词要点
- 1.描述运动轨迹和速度
- 2.指定镜头运动方式
- 3.说明时间跨度和节奏
- 4.注意物理合理性
- 5.人物需保持一致性
复杂动作分多段生成,再拼接
常见误区
Prompt 太模糊
越具体越好,细节决定效果
忽略参数调整
温度、步数、引导系数都会影响结果
直接用 AI 输出
AI 生成只是初稿,人工审核和编辑必不可少
版权意识薄弱
商用前确认版权,避免使用受保护的 IP 元素