Files
lobe-chat/docs/usage/getting-started/generation.zh-CN.mdx
T
René Wang cbc259094d 📝 docs: add Codex & Claude Code agent guides; merge image+video generation (#15407)
- New docs/usage/agent/{codex,claude-code}.{mdx,zh-CN.mdx} cover how to
  delegate the Codex and Claude Code CLIs from the LobeHub desktop app
  (install, sign-in, working-directory pinning, in-chat tool renderers,
  resume behavior, execution targets, limitations).
- Rename docs/usage/getting-started/image-generation.{mdx,zh-CN.mdx} to
  generation.{mdx,zh-CN.mdx} and expand to cover the Video workspace
  alongside Image.
- Update <Card> links in sibling resource/vision docs to point at the
  new /generation slug.
2026-06-02 13:55:32 +08:00

210 lines
9.5 KiB
Plaintext
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: 图像与视频生成
description: 使用 DALL-E 3、Flux、Sora、Veo、Kling 等 AI 模型,通过文字描述生成高质量图像和视频。学习如何编写有效的提示词、选择合适的模型,并配置每种媒介的参数。
tags:
- LobeHub
- 图像生成
- 视频生成
- AI 画图
- AI 视频
- DALL-E
- Sora
- Veo
- Kling
- 文字生成图像
- 文字生成视频
- 提示词写作
---
# 图像与视频生成
用文字描述你想要的内容 ——LobeHub 帮你把想法变成图像和视频。产品原型、设计灵感、插图配图、动态概念、短片创作、创意探索:选择模型、设置参数,几秒钟内获得结果。所有生成内容都会出现在生成流中,可以下载或保存到你的资源库。
LobeHub 提供两个并行的工作区 ——**图像**与**视频**——基于同一套生成管线,但针对各自的媒介进行了优化。
## 开始生成
在 LobeHub 侧边栏:
- 点击**图像**(图片图标)进入 `/image` 的图像生成工作区。
- 点击**视频**(视频图标)进入 `/video` 的视频生成工作区。
两个工作区采用相同的三栏布局:提示词输入、配置面板、历史生成流。
## 图像生成
### 输入提示词
在输入框中描述你想要的图像。描述越具体,结果越符合预期。
**有效的提示词结构:**
```
[主体] [风格/媒介] [场景/背景] [光线] [氛围] [技术细节]
```
示例:
```
"赛博朋克风格的未来城市天际线,日落时分,霓虹灯在湿润街道上的倒影,数字艺术,电影级光线,4K 细节"
"温馨咖啡馆室内,水彩插画风格,阳光透过窗户洒入,窗台上摆放绿植,柔和温暖的氛围"
"极简皮革钱包产品照,白色干净背景,棚拍灯光,对焦清晰,商业摄影风格"
```
**提示词技巧:**
- **明确指定风格** — "油画"、"水彩"、"数字艺术"、"照片写实"、"动漫"、"矢量插画"
- **描述光线** — "戏剧性阴影"、"柔和漫射光"、"黄金时段"、"棚拍灯光"
- **指定构图** — "竖拍人像"、"广角"、"特写"、"俯拍鸟瞰"
- **加入质量词** — "高细节"、"4K"、"对焦清晰"、"专业品质"
- **避免模糊描述** — "漂亮"、"好看"、"不错" 对结果帮助有限 —— 要具体描述你真正想要的内容
### 选择 AI 模型
LobeHub 提供多个 AI 画图模型,不同模型各有所长:
![选择模型](/blog/assetsdd913561927c64d32bd390cee6846f9a.webp)
| 模型 | 最适合 |
| -------------------- | ------------------ |
| **DALL-E 3** | 写实照片、插画、精准遵循提示词 |
| **GPT Image** | 高保真编辑、图像内文本渲染 |
| **Flux** | 艺术风格、创意图像、快速生成 |
| **Stable Diffusion** | 高度可定制,支持社区风格和微调模型 |
| **Gemini Imagen** | 真实场景,整体构图能力强 |
| **fal.ai 系列模型** | 多种专业风格,生成速度快 |
用同一个提示词尝试不同模型,找到最适合你使用场景的。
### 参考图片(可选)
如果你有参考图片,可以上传作为生成的参考。点击上传按钮或直接拖入参考图片即可。根据模型不同,可以上传多张参考图片。
![上传参考图片](/blog/assets3c160860feef0bd7c653eeb46f683445.webp)
参考图片有助于模型理解你期望的风格、构图或配色方案 —— 配合提示词描述(例如替换背景、更换服饰),许多模型还支持基于参考图的**编辑**。
### 配置生成参数
右侧配置面板会展示当前模型支持的全部参数。常见控件:
- **比例(Aspect Ratio** — `1:1`、`16:9`、`9:16`、`4:3`、`3:2`。可锁定比例或解锁自由调整。
- **尺寸 / 分辨率** — 选择预设(`512px`、`1K`、`2K`、`4K`),或直接设定宽 × 高。
- **生成数量** — 一次生成 1–4 张变体。
- **质量** — 标准 / 高清(取决于模型)。
- **Seed(随机种子)** — 随机以获得多样性,或粘贴固定 seed 复现之前的结果。
- **Steps / 引导强度(CFG)** — 调节速度 vs 质量、提示词遵循程度的权衡。
- **水印** — 在支持的模型上开启或关闭。
- **联网搜索** / **提示词扩写** — 让 LLM 在生成前为你的提示词补充最新参考信息。
**比例速查:**
- **1:1** — 社交媒体发帖、头像
- **16:9** — 宽屏、演示文稿、横幅
- **9:16** — 手机屏幕、动态、竖屏视频
- **4:3** — 通用用途、旧显示格式
- **3:2** — 摄影标准、打印
### 查看和下载图片
图像生成完成后,会显示在生成流中。你可以:
- 点击任意图片查看全尺寸预览
- 下载、复制 seed、复制提示词,或在新一轮生成中复用完整参数
- 删除单张图片或整批
![生成的图片在资源库中](/blog/assets974acc551878f2f395518a3fbb9bd924.webp)
## 视频生成
视频工作区与图像工作区结构一致 —— 同样以提示词为先、同样的配置面板、同样的生成流 —— 只是参数针对动态画面做了调整。
### 输入提示词
描述**场景、运动和镜头**,不只是主体。模型对动词和镜头语言更敏感。
```
"金色时分一只红狐在新鲜雪地上小跑,呼气在冷空气中清晰可见,缓慢跟拍镜头,电影感"
"宇航员漂入色彩斑斓的星云,缓慢推进镜头,梦幻氛围,柔和的体积光"
"咖啡杯被慢动作微距倒入,蒸汽升腾,浅景深,商业产品镜头"
```
**视频提示词技巧:**
- **明确描述运动** — "缓慢跟拍"、"推进"、"手持"、"静态远景"、"向左横摇"
- **设置时间推进** — "起初有雾随后散去"、"门缓缓打开"
- **借用电影语言** — "浅景深"、"变形宽银幕镜头眩光"、"黄金时段"
- **保持焦点** — 一个镜头一个核心动作往往比塞进多个动作效果更好
### 选择 AI 模型
LobeHub 接入了主流的文生视频与图生视频提供商:
| 模型 | 最适合 |
| ------------------------------ | ------------------------------ |
| **OpenAI Sora 2 / Sora 2 Pro** | 连贯的多秒镜头,强场景理解能力 |
| **Google Veo 3 / 3.1** | 真实运动质感,原生音频生成,电影级画面 |
| **Kling V3** | 高质量运动表现,支持图生视频和 omni-video |
| **MiniMax Hailuo 2.3** | 快速文生视频,表现力强的人物 |
| **Qwen / Wan** | 文生视频,对中文提示词理解强 |
| **fal.ai 系列模型** | 多种专业模型,出片快 |
不同模型支持的参数不同,切换模型时配置面板会自动更新。
### 起始帧与结束帧(可选)
许多视频模型支持图像条件输入:
- **起始帧(Start Frame)** —— 上传一张图作为视频的第一帧。非常适合把图像工作区生成的静帧动起来。
- **结束帧(End Frame)** —— 上传一张图作为视频的最后一帧。必须先设置起始帧。
设置起始帧后,提示词占位文案会变为"描述你想要基于该图像生成的场景"。
### 配置生成参数
参数因模型而异,常见包括:
- **时长(Duration)** —— 视频长度(秒),取决于模型(如 4s / 6s / 8s)。
- **比例** —— `16:9`、`9:16`、`1:1`、`4:3`、`3:4`、`21:9`。
- **分辨率** —— `480p`、`720p`、`1080p`。
- **固定镜头(Fixed Camera)** —— 锁定镜头不动,而非让模型自由运镜。
- **生成音频(Generate Audio)** —— 同步生成配音(取决于模型,例如 Veo)。
- **Seed** —— 随机或固定以复现结果。
- **水印** —— 在支持的模型上开启或关闭。
- **联网搜索** / **提示词扩写** —— 与图像流程相同的 LLM 辅助扩写。
### 查看和下载视频
生成的视频会出现在生成流中并可直接内嵌播放。你可以:
- 播放、暂停、拖动进度
- 下载视频
- 生成失败时复制错误信息到剪贴板
- 删除单条视频或整批
"🎁 今日剩余 N 条免费视频"角标显示你的免费额度;用完后每次生成将按额度扣费。
## 获得更好结果的技巧
**迭代优化提示词** —— 如果第一次的结果不够理想,每次只调整一个要素,而不是重写整个提示词。可以增加细节、改变风格词,或指定你不想要的内容。
**使用参考图或起始帧** —— 上传参考能帮助模型匹配你期望的风格、配色、构图,或者 —— 对视频而言 —— 你想要的起始画面。
**多变体对比** —— 一次生成多张图片,或用相同 seed + 微调提示词重生视频。AI 生成本身具有随机性 —— 不同变体的质量可能差异明显。
**根据任务选模型** —— 产品照和写实场景选写实系模型(DALL-E 3、Flux、Imagen);艺术插画选风格化模型;电影感运动镜头选 Veo 或 Sora;人物为主的短片选 Kling 或 Hailuo。
**串联图像 → 视频** —— 先在图像工作区生成满意的静帧,再把它作为起始帧送入视频工作区,让它动起来。
<Cards>
<Card href={'/zh/docs/usage/getting-started/resource'} title={'资源库'} />
<Card href={'/zh/docs/usage/getting-started/vision'} title={'视觉与图像理解'} />
<Card href={'/zh/docs/usage/providers'} title={'AI 提供商'} />
</Cards>