lobe-chat/docs/usage/getting-started/generation.zh-CN.mdx

---
title: 图像与视频生成
description: 使用 DALL-E 3、Flux、Sora、Veo、Kling 等 AI 模型，通过文字描述生成高质量图像和视频。学习如何编写有效的提示词、选择合适的模型，并配置每种媒介的参数。
tags:
  - LobeHub
  - 图像生成
  - 视频生成
  - AI 画图
  - AI 视频
  - DALL-E
  - Sora
  - Veo
  - Kling
  - 文字生成图像
  - 文字生成视频
  - 提示词写作
---

# 图像与视频生成

用文字描述你想要的内容 ——LobeHub 帮你把想法变成图像和视频。产品原型、设计灵感、插图配图、动态概念、短片创作、创意探索：选择模型、设置参数，几秒钟内获得结果。所有生成内容都会出现在生成流中，可以下载或保存到你的资源库。

LobeHub 提供两个并行的工作区 ——**图像**与**视频**——基于同一套生成管线，但针对各自的媒介进行了优化。

## 开始生成

在 LobeHub 侧边栏：

- 点击**图像**（图片图标）进入 `/image` 的图像生成工作区。
- 点击**视频**（视频图标）进入 `/video` 的视频生成工作区。

两个工作区采用相同的三栏布局：提示词输入、配置面板、历史生成流。

## 图像生成

### 输入提示词

在输入框中描述你想要的图像。描述越具体，结果越符合预期。

**有效的提示词结构：**

```
[主体] [风格/媒介] [场景/背景] [光线] [氛围] [技术细节]
```

示例：

```
"赛博朋克风格的未来城市天际线，日落时分，霓虹灯在湿润街道上的倒影，数字艺术，电影级光线，4K 细节"

"温馨咖啡馆室内，水彩插画风格，阳光透过窗户洒入，窗台上摆放绿植，柔和温暖的氛围"

"极简皮革钱包产品照，白色干净背景，棚拍灯光，对焦清晰，商业摄影风格"
```

**提示词技巧：**

- **明确指定风格** — "油画"、"水彩"、"数字艺术"、"照片写实"、"动漫"、"矢量插画"
- **描述光线** — "戏剧性阴影"、"柔和漫射光"、"黄金时段"、"棚拍灯光"
- **指定构图** — "竖拍人像"、"广角"、"特写"、"俯拍鸟瞰"
- **加入质量词** — "高细节"、"4K"、"对焦清晰"、"专业品质"
- **避免模糊描述** — "漂亮"、"好看"、"不错" 对结果帮助有限 —— 要具体描述你真正想要的内容

### 选择 AI 模型

LobeHub 提供多个 AI 画图模型，不同模型各有所长：

![选择模型](/blog/assetsdd913561927c64d32bd390cee6846f9a.webp)

| 模型                   | 最适合                |
| -------------------- | ------------------ |
| **DALL-E 3**         | 写实照片、插画、精准遵循提示词    |
| **GPT Image**        | 高保真编辑、图像内文本渲染      |
| **Flux**             | 艺术风格、创意图像、快速生成     |
| **Stable Diffusion** | 高度可定制，支持社区风格和微调模型  |
| **Gemini Imagen**    | 真实场景，整体构图能力强       |
| **fal.ai 系列模型**      | 多种专业风格，生成速度快       |

用同一个提示词尝试不同模型，找到最适合你使用场景的。

### 参考图片（可选）

如果你有参考图片，可以上传作为生成的参考。点击上传按钮或直接拖入参考图片即可。根据模型不同，可以上传多张参考图片。

![上传参考图片](/blog/assets3c160860feef0bd7c653eeb46f683445.webp)

参考图片有助于模型理解你期望的风格、构图或配色方案 —— 配合提示词描述（例如替换背景、更换服饰），许多模型还支持基于参考图的**编辑**。

### 配置生成参数

右侧配置面板会展示当前模型支持的全部参数。常见控件：

- **比例（Aspect Ratio）** — `1:1`、`16:9`、`9:16`、`4:3`、`3:2`。可锁定比例或解锁自由调整。
- **尺寸 / 分辨率** — 选择预设（`512px`、`1K`、`2K`、`4K`），或直接设定宽 × 高。
- **生成数量** — 一次生成 1–4 张变体。
- **质量** — 标准 / 高清（取决于模型）。
- **Seed（随机种子）** — 随机以获得多样性，或粘贴固定 seed 复现之前的结果。
- **Steps / 引导强度（CFG）** — 调节速度 vs 质量、提示词遵循程度的权衡。
- **水印** — 在支持的模型上开启或关闭。
- **联网搜索** / **提示词扩写** — 让 LLM 在生成前为你的提示词补充最新参考信息。

**比例速查：**

- **1:1** — 社交媒体发帖、头像
- **16:9** — 宽屏、演示文稿、横幅
- **9:16** — 手机屏幕、动态、竖屏视频
- **4:3** — 通用用途、旧显示格式
- **3:2** — 摄影标准、打印

### 查看和下载图片

图像生成完成后，会显示在生成流中。你可以：

- 点击任意图片查看全尺寸预览
- 下载、复制 seed、复制提示词，或在新一轮生成中复用完整参数
- 删除单张图片或整批

![生成的图片在资源库中](/blog/assets974acc551878f2f395518a3fbb9bd924.webp)

## 视频生成

视频工作区与图像工作区结构一致 —— 同样以提示词为先、同样的配置面板、同样的生成流 —— 只是参数针对动态画面做了调整。

### 输入提示词

描述**场景、运动和镜头**，不只是主体。模型对动词和镜头语言更敏感。

```
"金色时分一只红狐在新鲜雪地上小跑，呼气在冷空气中清晰可见，缓慢跟拍镜头，电影感"

"宇航员漂入色彩斑斓的星云，缓慢推进镜头，梦幻氛围，柔和的体积光"

"咖啡杯被慢动作微距倒入，蒸汽升腾，浅景深，商业产品镜头"
```

**视频提示词技巧：**

- **明确描述运动** — "缓慢跟拍"、"推进"、"手持"、"静态远景"、"向左横摇"
- **设置时间推进** — "起初有雾随后散去"、"门缓缓打开"
- **借用电影语言** — "浅景深"、"变形宽银幕镜头眩光"、"黄金时段"
- **保持焦点** — 一个镜头一个核心动作往往比塞进多个动作效果更好

### 选择 AI 模型

LobeHub 接入了主流的文生视频与图生视频提供商：

| 模型                             | 最适合                            |
| ------------------------------ | ------------------------------ |
| **OpenAI Sora 2 / Sora 2 Pro** | 连贯的多秒镜头，强场景理解能力                |
| **Google Veo 3 / 3.1**         | 真实运动质感，原生音频生成，电影级画面            |
| **Kling V3**                   | 高质量运动表现，支持图生视频和 omni-video     |
| **MiniMax Hailuo 2.3**         | 快速文生视频，表现力强的人物                 |
| **Qwen / Wan**                 | 文生视频，对中文提示词理解强                 |
| **fal.ai 系列模型**                | 多种专业模型，出片快                     |

不同模型支持的参数不同，切换模型时配置面板会自动更新。

### 起始帧与结束帧（可选）

许多视频模型支持图像条件输入：

- **起始帧（Start Frame）** —— 上传一张图作为视频的第一帧。非常适合把图像工作区生成的静帧动起来。
- **结束帧（End Frame）** —— 上传一张图作为视频的最后一帧。必须先设置起始帧。

设置起始帧后，提示词占位文案会变为"描述你想要基于该图像生成的场景"。

### 配置生成参数

参数因模型而异，常见包括：

- **时长（Duration）** —— 视频长度（秒），取决于模型（如 4s / 6s / 8s）。
- **比例** —— `16:9`、`9:16`、`1:1`、`4:3`、`3:4`、`21:9`。
- **分辨率** —— `480p`、`720p`、`1080p`。
- **固定镜头（Fixed Camera）** —— 锁定镜头不动，而非让模型自由运镜。
- **生成音频（Generate Audio）** —— 同步生成配音（取决于模型，例如 Veo）。
- **Seed** —— 随机或固定以复现结果。
- **水印** —— 在支持的模型上开启或关闭。
- **联网搜索** / **提示词扩写** —— 与图像流程相同的 LLM 辅助扩写。

### 查看和下载视频

生成的视频会出现在生成流中并可直接内嵌播放。你可以：

- 播放、暂停、拖动进度
- 下载视频
- 生成失败时复制错误信息到剪贴板
- 删除单条视频或整批

"🎁 今日剩余 N 条免费视频"角标显示你的免费额度；用完后每次生成将按额度扣费。

## 获得更好结果的技巧

**迭代优化提示词** —— 如果第一次的结果不够理想，每次只调整一个要素，而不是重写整个提示词。可以增加细节、改变风格词，或指定你不想要的内容。

**使用参考图或起始帧** —— 上传参考能帮助模型匹配你期望的风格、配色、构图，或者 —— 对视频而言 —— 你想要的起始画面。

**多变体对比** —— 一次生成多张图片，或用相同 seed + 微调提示词重生视频。AI 生成本身具有随机性 —— 不同变体的质量可能差异明显。

**根据任务选模型** —— 产品照和写实场景选写实系模型（DALL-E 3、Flux、Imagen）；艺术插画选风格化模型；电影感运动镜头选 Veo 或 Sora；人物为主的短片选 Kling 或 Hailuo。

**串联图像 → 视频** —— 先在图像工作区生成满意的静帧，再把它作为起始帧送入视频工作区，让它动起来。

<Cards>
  <Card href={'/zh/docs/usage/getting-started/resource'} title={'资源库'} />

  <Card href={'/zh/docs/usage/getting-started/vision'} title={'视觉与图像理解'} />

  <Card href={'/zh/docs/usage/providers'} title={'AI 提供商'} />
</Cards>