mirror of
https://github.com/lobehub/lobe-chat.git
synced 2026-06-13 19:20:04 +00:00
cbc259094d
- New docs/usage/agent/{codex,claude-code}.{mdx,zh-CN.mdx} cover how to
delegate the Codex and Claude Code CLIs from the LobeHub desktop app
(install, sign-in, working-directory pinning, in-chat tool renderers,
resume behavior, execution targets, limitations).
- Rename docs/usage/getting-started/image-generation.{mdx,zh-CN.mdx} to
generation.{mdx,zh-CN.mdx} and expand to cover the Video workspace
alongside Image.
- Update <Card> links in sibling resource/vision docs to point at the
new /generation slug.
210 lines
9.5 KiB
Plaintext
210 lines
9.5 KiB
Plaintext
---
|
||
title: 图像与视频生成
|
||
description: 使用 DALL-E 3、Flux、Sora、Veo、Kling 等 AI 模型,通过文字描述生成高质量图像和视频。学习如何编写有效的提示词、选择合适的模型,并配置每种媒介的参数。
|
||
tags:
|
||
- LobeHub
|
||
- 图像生成
|
||
- 视频生成
|
||
- AI 画图
|
||
- AI 视频
|
||
- DALL-E
|
||
- Sora
|
||
- Veo
|
||
- Kling
|
||
- 文字生成图像
|
||
- 文字生成视频
|
||
- 提示词写作
|
||
---
|
||
|
||
# 图像与视频生成
|
||
|
||
用文字描述你想要的内容 ——LobeHub 帮你把想法变成图像和视频。产品原型、设计灵感、插图配图、动态概念、短片创作、创意探索:选择模型、设置参数,几秒钟内获得结果。所有生成内容都会出现在生成流中,可以下载或保存到你的资源库。
|
||
|
||
LobeHub 提供两个并行的工作区 ——**图像**与**视频**——基于同一套生成管线,但针对各自的媒介进行了优化。
|
||
|
||
## 开始生成
|
||
|
||
在 LobeHub 侧边栏:
|
||
|
||
- 点击**图像**(图片图标)进入 `/image` 的图像生成工作区。
|
||
- 点击**视频**(视频图标)进入 `/video` 的视频生成工作区。
|
||
|
||
两个工作区采用相同的三栏布局:提示词输入、配置面板、历史生成流。
|
||
|
||
## 图像生成
|
||
|
||
### 输入提示词
|
||
|
||
在输入框中描述你想要的图像。描述越具体,结果越符合预期。
|
||
|
||
**有效的提示词结构:**
|
||
|
||
```
|
||
[主体] [风格/媒介] [场景/背景] [光线] [氛围] [技术细节]
|
||
```
|
||
|
||
示例:
|
||
|
||
```
|
||
"赛博朋克风格的未来城市天际线,日落时分,霓虹灯在湿润街道上的倒影,数字艺术,电影级光线,4K 细节"
|
||
|
||
"温馨咖啡馆室内,水彩插画风格,阳光透过窗户洒入,窗台上摆放绿植,柔和温暖的氛围"
|
||
|
||
"极简皮革钱包产品照,白色干净背景,棚拍灯光,对焦清晰,商业摄影风格"
|
||
```
|
||
|
||
**提示词技巧:**
|
||
|
||
- **明确指定风格** — "油画"、"水彩"、"数字艺术"、"照片写实"、"动漫"、"矢量插画"
|
||
- **描述光线** — "戏剧性阴影"、"柔和漫射光"、"黄金时段"、"棚拍灯光"
|
||
- **指定构图** — "竖拍人像"、"广角"、"特写"、"俯拍鸟瞰"
|
||
- **加入质量词** — "高细节"、"4K"、"对焦清晰"、"专业品质"
|
||
- **避免模糊描述** — "漂亮"、"好看"、"不错" 对结果帮助有限 —— 要具体描述你真正想要的内容
|
||
|
||
### 选择 AI 模型
|
||
|
||
LobeHub 提供多个 AI 画图模型,不同模型各有所长:
|
||
|
||

|
||
|
||
| 模型 | 最适合 |
|
||
| -------------------- | ------------------ |
|
||
| **DALL-E 3** | 写实照片、插画、精准遵循提示词 |
|
||
| **GPT Image** | 高保真编辑、图像内文本渲染 |
|
||
| **Flux** | 艺术风格、创意图像、快速生成 |
|
||
| **Stable Diffusion** | 高度可定制,支持社区风格和微调模型 |
|
||
| **Gemini Imagen** | 真实场景,整体构图能力强 |
|
||
| **fal.ai 系列模型** | 多种专业风格,生成速度快 |
|
||
|
||
用同一个提示词尝试不同模型,找到最适合你使用场景的。
|
||
|
||
### 参考图片(可选)
|
||
|
||
如果你有参考图片,可以上传作为生成的参考。点击上传按钮或直接拖入参考图片即可。根据模型不同,可以上传多张参考图片。
|
||
|
||

|
||
|
||
参考图片有助于模型理解你期望的风格、构图或配色方案 —— 配合提示词描述(例如替换背景、更换服饰),许多模型还支持基于参考图的**编辑**。
|
||
|
||
### 配置生成参数
|
||
|
||
右侧配置面板会展示当前模型支持的全部参数。常见控件:
|
||
|
||
- **比例(Aspect Ratio)** — `1:1`、`16:9`、`9:16`、`4:3`、`3:2`。可锁定比例或解锁自由调整。
|
||
- **尺寸 / 分辨率** — 选择预设(`512px`、`1K`、`2K`、`4K`),或直接设定宽 × 高。
|
||
- **生成数量** — 一次生成 1–4 张变体。
|
||
- **质量** — 标准 / 高清(取决于模型)。
|
||
- **Seed(随机种子)** — 随机以获得多样性,或粘贴固定 seed 复现之前的结果。
|
||
- **Steps / 引导强度(CFG)** — 调节速度 vs 质量、提示词遵循程度的权衡。
|
||
- **水印** — 在支持的模型上开启或关闭。
|
||
- **联网搜索** / **提示词扩写** — 让 LLM 在生成前为你的提示词补充最新参考信息。
|
||
|
||
**比例速查:**
|
||
|
||
- **1:1** — 社交媒体发帖、头像
|
||
- **16:9** — 宽屏、演示文稿、横幅
|
||
- **9:16** — 手机屏幕、动态、竖屏视频
|
||
- **4:3** — 通用用途、旧显示格式
|
||
- **3:2** — 摄影标准、打印
|
||
|
||
### 查看和下载图片
|
||
|
||
图像生成完成后,会显示在生成流中。你可以:
|
||
|
||
- 点击任意图片查看全尺寸预览
|
||
- 下载、复制 seed、复制提示词,或在新一轮生成中复用完整参数
|
||
- 删除单张图片或整批
|
||
|
||

|
||
|
||
## 视频生成
|
||
|
||
视频工作区与图像工作区结构一致 —— 同样以提示词为先、同样的配置面板、同样的生成流 —— 只是参数针对动态画面做了调整。
|
||
|
||
### 输入提示词
|
||
|
||
描述**场景、运动和镜头**,不只是主体。模型对动词和镜头语言更敏感。
|
||
|
||
```
|
||
"金色时分一只红狐在新鲜雪地上小跑,呼气在冷空气中清晰可见,缓慢跟拍镜头,电影感"
|
||
|
||
"宇航员漂入色彩斑斓的星云,缓慢推进镜头,梦幻氛围,柔和的体积光"
|
||
|
||
"咖啡杯被慢动作微距倒入,蒸汽升腾,浅景深,商业产品镜头"
|
||
```
|
||
|
||
**视频提示词技巧:**
|
||
|
||
- **明确描述运动** — "缓慢跟拍"、"推进"、"手持"、"静态远景"、"向左横摇"
|
||
- **设置时间推进** — "起初有雾随后散去"、"门缓缓打开"
|
||
- **借用电影语言** — "浅景深"、"变形宽银幕镜头眩光"、"黄金时段"
|
||
- **保持焦点** — 一个镜头一个核心动作往往比塞进多个动作效果更好
|
||
|
||
### 选择 AI 模型
|
||
|
||
LobeHub 接入了主流的文生视频与图生视频提供商:
|
||
|
||
| 模型 | 最适合 |
|
||
| ------------------------------ | ------------------------------ |
|
||
| **OpenAI Sora 2 / Sora 2 Pro** | 连贯的多秒镜头,强场景理解能力 |
|
||
| **Google Veo 3 / 3.1** | 真实运动质感,原生音频生成,电影级画面 |
|
||
| **Kling V3** | 高质量运动表现,支持图生视频和 omni-video |
|
||
| **MiniMax Hailuo 2.3** | 快速文生视频,表现力强的人物 |
|
||
| **Qwen / Wan** | 文生视频,对中文提示词理解强 |
|
||
| **fal.ai 系列模型** | 多种专业模型,出片快 |
|
||
|
||
不同模型支持的参数不同,切换模型时配置面板会自动更新。
|
||
|
||
### 起始帧与结束帧(可选)
|
||
|
||
许多视频模型支持图像条件输入:
|
||
|
||
- **起始帧(Start Frame)** —— 上传一张图作为视频的第一帧。非常适合把图像工作区生成的静帧动起来。
|
||
- **结束帧(End Frame)** —— 上传一张图作为视频的最后一帧。必须先设置起始帧。
|
||
|
||
设置起始帧后,提示词占位文案会变为"描述你想要基于该图像生成的场景"。
|
||
|
||
### 配置生成参数
|
||
|
||
参数因模型而异,常见包括:
|
||
|
||
- **时长(Duration)** —— 视频长度(秒),取决于模型(如 4s / 6s / 8s)。
|
||
- **比例** —— `16:9`、`9:16`、`1:1`、`4:3`、`3:4`、`21:9`。
|
||
- **分辨率** —— `480p`、`720p`、`1080p`。
|
||
- **固定镜头(Fixed Camera)** —— 锁定镜头不动,而非让模型自由运镜。
|
||
- **生成音频(Generate Audio)** —— 同步生成配音(取决于模型,例如 Veo)。
|
||
- **Seed** —— 随机或固定以复现结果。
|
||
- **水印** —— 在支持的模型上开启或关闭。
|
||
- **联网搜索** / **提示词扩写** —— 与图像流程相同的 LLM 辅助扩写。
|
||
|
||
### 查看和下载视频
|
||
|
||
生成的视频会出现在生成流中并可直接内嵌播放。你可以:
|
||
|
||
- 播放、暂停、拖动进度
|
||
- 下载视频
|
||
- 生成失败时复制错误信息到剪贴板
|
||
- 删除单条视频或整批
|
||
|
||
"🎁 今日剩余 N 条免费视频"角标显示你的免费额度;用完后每次生成将按额度扣费。
|
||
|
||
## 获得更好结果的技巧
|
||
|
||
**迭代优化提示词** —— 如果第一次的结果不够理想,每次只调整一个要素,而不是重写整个提示词。可以增加细节、改变风格词,或指定你不想要的内容。
|
||
|
||
**使用参考图或起始帧** —— 上传参考能帮助模型匹配你期望的风格、配色、构图,或者 —— 对视频而言 —— 你想要的起始画面。
|
||
|
||
**多变体对比** —— 一次生成多张图片,或用相同 seed + 微调提示词重生视频。AI 生成本身具有随机性 —— 不同变体的质量可能差异明显。
|
||
|
||
**根据任务选模型** —— 产品照和写实场景选写实系模型(DALL-E 3、Flux、Imagen);艺术插画选风格化模型;电影感运动镜头选 Veo 或 Sora;人物为主的短片选 Kling 或 Hailuo。
|
||
|
||
**串联图像 → 视频** —— 先在图像工作区生成满意的静帧,再把它作为起始帧送入视频工作区,让它动起来。
|
||
|
||
<Cards>
|
||
<Card href={'/zh/docs/usage/getting-started/resource'} title={'资源库'} />
|
||
|
||
<Card href={'/zh/docs/usage/getting-started/vision'} title={'视觉与图像理解'} />
|
||
|
||
<Card href={'/zh/docs/usage/providers'} title={'AI 提供商'} />
|
||
</Cards>
|