mirror of
https://github.com/lobehub/lobe-chat.git
synced 2026-06-19 05:45:26 +00:00
Compare commits
1 Commits
| Author | SHA1 | Date | |
|---|---|---|---|
| 4fa6d64df2 |
@@ -140,15 +140,6 @@ OPENAI_API_KEY=sk-xxxxxxxxx
|
||||
|
||||
# INFINIAI_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
|
||||
|
||||
### ModelScope ###
|
||||
|
||||
# MODELSCOPE_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
|
||||
|
||||
### AiHubMix ###
|
||||
|
||||
# AIHUBMIX_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
|
||||
|
||||
|
||||
########################################
|
||||
############ Market Service ############
|
||||
########################################
|
||||
|
||||
-460
@@ -2,466 +2,6 @@
|
||||
|
||||
# Changelog
|
||||
|
||||
### [Version 1.107.2](https://github.com/lobehub/lobe-chat/compare/v1.107.1...v1.107.2)
|
||||
|
||||
<sup>Released on **2025-08-02**</sup>
|
||||
|
||||
#### ♻ Code Refactoring
|
||||
|
||||
- **misc**: Move types to separate package.
|
||||
|
||||
#### 🐛 Bug Fixes
|
||||
|
||||
- **desktop**: Settings window can't exit when fullscreen.
|
||||
|
||||
<br/>
|
||||
|
||||
<details>
|
||||
<summary><kbd>Improvements and Fixes</kbd></summary>
|
||||
|
||||
#### Code refactoring
|
||||
|
||||
- **misc**: Move types to separate package, closes [#8635](https://github.com/lobehub/lobe-chat/issues/8635) ([3cc4a54](https://github.com/lobehub/lobe-chat/commit/3cc4a54))
|
||||
|
||||
#### What's fixed
|
||||
|
||||
- **desktop**: Settings window can't exit when fullscreen, closes [#8633](https://github.com/lobehub/lobe-chat/issues/8633) ([954eb2c](https://github.com/lobehub/lobe-chat/commit/954eb2c))
|
||||
|
||||
</details>
|
||||
|
||||
<div align="right">
|
||||
|
||||
[](#readme-top)
|
||||
|
||||
</div>
|
||||
|
||||
### [Version 1.107.1](https://github.com/lobehub/lobe-chat/compare/v1.107.0...v1.107.1)
|
||||
|
||||
<sup>Released on **2025-08-01**</sup>
|
||||
|
||||
#### 💄 Styles
|
||||
|
||||
- **misc**: Update i18n.
|
||||
|
||||
<br/>
|
||||
|
||||
<details>
|
||||
<summary><kbd>Improvements and Fixes</kbd></summary>
|
||||
|
||||
#### Styles
|
||||
|
||||
- **misc**: Update i18n, closes [#8629](https://github.com/lobehub/lobe-chat/issues/8629) ([3b87fe7](https://github.com/lobehub/lobe-chat/commit/3b87fe7))
|
||||
|
||||
</details>
|
||||
|
||||
<div align="right">
|
||||
|
||||
[](#readme-top)
|
||||
|
||||
</div>
|
||||
|
||||
## [Version 1.107.0](https://github.com/lobehub/lobe-chat/compare/v1.106.8...v1.107.0)
|
||||
|
||||
<sup>Released on **2025-08-01**</sup>
|
||||
|
||||
#### ✨ Features
|
||||
|
||||
- **misc**: Support aihubmix provider.
|
||||
|
||||
<br/>
|
||||
|
||||
<details>
|
||||
<summary><kbd>Improvements and Fixes</kbd></summary>
|
||||
|
||||
#### What's improved
|
||||
|
||||
- **misc**: Support aihubmix provider, closes [#8038](https://github.com/lobehub/lobe-chat/issues/8038) ([4db6485](https://github.com/lobehub/lobe-chat/commit/4db6485))
|
||||
|
||||
</details>
|
||||
|
||||
<div align="right">
|
||||
|
||||
[](#readme-top)
|
||||
|
||||
</div>
|
||||
|
||||
### [Version 1.106.8](https://github.com/lobehub/lobe-chat/compare/v1.106.7...v1.106.8)
|
||||
|
||||
<sup>Released on **2025-07-31**</sup>
|
||||
|
||||
#### 💄 Styles
|
||||
|
||||
- **misc**: Support SenseNova V6.5 models.
|
||||
|
||||
<br/>
|
||||
|
||||
<details>
|
||||
<summary><kbd>Improvements and Fixes</kbd></summary>
|
||||
|
||||
#### Styles
|
||||
|
||||
- **misc**: Support SenseNova V6.5 models, closes [#8569](https://github.com/lobehub/lobe-chat/issues/8569) ([411ed7e](https://github.com/lobehub/lobe-chat/commit/411ed7e))
|
||||
|
||||
</details>
|
||||
|
||||
<div align="right">
|
||||
|
||||
[](#readme-top)
|
||||
|
||||
</div>
|
||||
|
||||
### [Version 1.106.7](https://github.com/lobehub/lobe-chat/compare/v1.106.6...v1.106.7)
|
||||
|
||||
<sup>Released on **2025-07-31**</sup>
|
||||
|
||||
#### 💄 Styles
|
||||
|
||||
- **misc**: Update Aliyun Bailian models.
|
||||
|
||||
<br/>
|
||||
|
||||
<details>
|
||||
<summary><kbd>Improvements and Fixes</kbd></summary>
|
||||
|
||||
#### Styles
|
||||
|
||||
- **misc**: Update Aliyun Bailian models, closes [#8612](https://github.com/lobehub/lobe-chat/issues/8612) ([433e679](https://github.com/lobehub/lobe-chat/commit/433e679))
|
||||
|
||||
</details>
|
||||
|
||||
<div align="right">
|
||||
|
||||
[](#readme-top)
|
||||
|
||||
</div>
|
||||
|
||||
### [Version 1.106.6](https://github.com/lobehub/lobe-chat/compare/v1.106.5...v1.106.6)
|
||||
|
||||
<sup>Released on **2025-07-31**</sup>
|
||||
|
||||
#### 🐛 Bug Fixes
|
||||
|
||||
- **misc**: Fix oidc oauth callback pages 404.
|
||||
|
||||
<br/>
|
||||
|
||||
<details>
|
||||
<summary><kbd>Improvements and Fixes</kbd></summary>
|
||||
|
||||
#### What's fixed
|
||||
|
||||
- **misc**: Fix oidc oauth callback pages 404, closes [#8620](https://github.com/lobehub/lobe-chat/issues/8620) ([d136b6e](https://github.com/lobehub/lobe-chat/commit/d136b6e))
|
||||
|
||||
</details>
|
||||
|
||||
<div align="right">
|
||||
|
||||
[](#readme-top)
|
||||
|
||||
</div>
|
||||
|
||||
### [Version 1.106.5](https://github.com/lobehub/lobe-chat/compare/v1.106.4...v1.106.5)
|
||||
|
||||
<sup>Released on **2025-07-30**</sup>
|
||||
|
||||
#### 💄 Styles
|
||||
|
||||
- **misc**: Improve mcp plugin calling and display.
|
||||
|
||||
<br/>
|
||||
|
||||
<details>
|
||||
<summary><kbd>Improvements and Fixes</kbd></summary>
|
||||
|
||||
#### Styles
|
||||
|
||||
- **misc**: Improve mcp plugin calling and display, closes [#8619](https://github.com/lobehub/lobe-chat/issues/8619) ([14c41c4](https://github.com/lobehub/lobe-chat/commit/14c41c4))
|
||||
|
||||
</details>
|
||||
|
||||
<div align="right">
|
||||
|
||||
[](#readme-top)
|
||||
|
||||
</div>
|
||||
|
||||
### [Version 1.106.4](https://github.com/lobehub/lobe-chat/compare/v1.106.3...v1.106.4)
|
||||
|
||||
<sup>Released on **2025-07-30**</sup>
|
||||
|
||||
#### 🐛 Bug Fixes
|
||||
|
||||
- **misc**: Fix mcp calling missing array content.
|
||||
|
||||
#### 💄 Styles
|
||||
|
||||
- **misc**: Update i18n.
|
||||
|
||||
<br/>
|
||||
|
||||
<details>
|
||||
<summary><kbd>Improvements and Fixes</kbd></summary>
|
||||
|
||||
#### What's fixed
|
||||
|
||||
- **misc**: Fix mcp calling missing array content, closes [#8615](https://github.com/lobehub/lobe-chat/issues/8615) ([b7f8e6e](https://github.com/lobehub/lobe-chat/commit/b7f8e6e))
|
||||
|
||||
#### Styles
|
||||
|
||||
- **misc**: Update i18n, closes [#8609](https://github.com/lobehub/lobe-chat/issues/8609) ([21cac39](https://github.com/lobehub/lobe-chat/commit/21cac39))
|
||||
|
||||
</details>
|
||||
|
||||
<div align="right">
|
||||
|
||||
[](#readme-top)
|
||||
|
||||
</div>
|
||||
|
||||
### [Version 1.106.3](https://github.com/lobehub/lobe-chat/compare/v1.106.2...v1.106.3)
|
||||
|
||||
<sup>Released on **2025-07-29**</sup>
|
||||
|
||||
#### 🐛 Bug Fixes
|
||||
|
||||
- **misc**: Moonshot assistant messages must not be empty.
|
||||
|
||||
#### 💄 Styles
|
||||
|
||||
- **misc**: Add volcengine kimi-k2 model, Add Zhipu GLM-4.5 models.
|
||||
|
||||
<br/>
|
||||
|
||||
<details>
|
||||
<summary><kbd>Improvements and Fixes</kbd></summary>
|
||||
|
||||
#### What's fixed
|
||||
|
||||
- **misc**: Moonshot assistant messages must not be empty, closes [#8419](https://github.com/lobehub/lobe-chat/issues/8419) ([a796495](https://github.com/lobehub/lobe-chat/commit/a796495))
|
||||
|
||||
#### Styles
|
||||
|
||||
- **misc**: Add volcengine kimi-k2 model, closes [#8591](https://github.com/lobehub/lobe-chat/issues/8591) ([9630167](https://github.com/lobehub/lobe-chat/commit/9630167))
|
||||
- **misc**: Add Zhipu GLM-4.5 models, closes [#8590](https://github.com/lobehub/lobe-chat/issues/8590) ([4f4620c](https://github.com/lobehub/lobe-chat/commit/4f4620c))
|
||||
|
||||
</details>
|
||||
|
||||
<div align="right">
|
||||
|
||||
[](#readme-top)
|
||||
|
||||
</div>
|
||||
|
||||
### [Version 1.106.2](https://github.com/lobehub/lobe-chat/compare/v1.106.1...v1.106.2)
|
||||
|
||||
<sup>Released on **2025-07-29**</sup>
|
||||
|
||||
#### 🐛 Bug Fixes
|
||||
|
||||
- **misc**: Fix desktop auth redirect url error.
|
||||
|
||||
<br/>
|
||||
|
||||
<details>
|
||||
<summary><kbd>Improvements and Fixes</kbd></summary>
|
||||
|
||||
#### What's fixed
|
||||
|
||||
- **misc**: Fix desktop auth redirect url error, closes [#8597](https://github.com/lobehub/lobe-chat/issues/8597) ([0ed7368](https://github.com/lobehub/lobe-chat/commit/0ed7368))
|
||||
|
||||
</details>
|
||||
|
||||
<div align="right">
|
||||
|
||||
[](#readme-top)
|
||||
|
||||
</div>
|
||||
|
||||
### [Version 1.106.1](https://github.com/lobehub/lobe-chat/compare/v1.106.0...v1.106.1)
|
||||
|
||||
<sup>Released on **2025-07-29**</sup>
|
||||
|
||||
#### 💄 Styles
|
||||
|
||||
- **misc**: Support Minimax T2I models.
|
||||
|
||||
<br/>
|
||||
|
||||
<details>
|
||||
<summary><kbd>Improvements and Fixes</kbd></summary>
|
||||
|
||||
#### Styles
|
||||
|
||||
- **misc**: Support Minimax T2I models, closes [#8583](https://github.com/lobehub/lobe-chat/issues/8583) ([f8a01aa](https://github.com/lobehub/lobe-chat/commit/f8a01aa))
|
||||
|
||||
</details>
|
||||
|
||||
<div align="right">
|
||||
|
||||
[](#readme-top)
|
||||
|
||||
</div>
|
||||
|
||||
## [Version 1.106.0](https://github.com/lobehub/lobe-chat/compare/v1.105.6...v1.106.0)
|
||||
|
||||
<sup>Released on **2025-07-29**</sup>
|
||||
|
||||
#### ✨ Features
|
||||
|
||||
- **misc**: Add support for Okta Authentication.
|
||||
|
||||
<br/>
|
||||
|
||||
<details>
|
||||
<summary><kbd>Improvements and Fixes</kbd></summary>
|
||||
|
||||
#### What's improved
|
||||
|
||||
- **misc**: Add support for Okta Authentication, closes [#8547](https://github.com/lobehub/lobe-chat/issues/8547) ([67abdfe](https://github.com/lobehub/lobe-chat/commit/67abdfe))
|
||||
|
||||
</details>
|
||||
|
||||
<div align="right">
|
||||
|
||||
[](#readme-top)
|
||||
|
||||
</div>
|
||||
|
||||
### [Version 1.105.6](https://github.com/lobehub/lobe-chat/compare/v1.105.5...v1.105.6)
|
||||
|
||||
<sup>Released on **2025-07-29**</sup>
|
||||
|
||||
#### 💄 Styles
|
||||
|
||||
- **misc**: Open new topic by tap Just Chat again.
|
||||
|
||||
<br/>
|
||||
|
||||
<details>
|
||||
<summary><kbd>Improvements and Fixes</kbd></summary>
|
||||
|
||||
#### Styles
|
||||
|
||||
- **misc**: Open new topic by tap Just Chat again, closes [#8426](https://github.com/lobehub/lobe-chat/issues/8426) ([018ca75](https://github.com/lobehub/lobe-chat/commit/018ca75))
|
||||
|
||||
</details>
|
||||
|
||||
<div align="right">
|
||||
|
||||
[](#readme-top)
|
||||
|
||||
</div>
|
||||
|
||||
### [Version 1.105.5](https://github.com/lobehub/lobe-chat/compare/v1.105.4...v1.105.5)
|
||||
|
||||
<sup>Released on **2025-07-29**</sup>
|
||||
|
||||
#### 🐛 Bug Fixes
|
||||
|
||||
- **misc**: Reorder AppTheme and Locale to fix modal i18n.
|
||||
|
||||
<br/>
|
||||
|
||||
<details>
|
||||
<summary><kbd>Improvements and Fixes</kbd></summary>
|
||||
|
||||
#### What's fixed
|
||||
|
||||
- **misc**: Reorder AppTheme and Locale to fix modal i18n, closes [#8600](https://github.com/lobehub/lobe-chat/issues/8600) ([3264cf2](https://github.com/lobehub/lobe-chat/commit/3264cf2))
|
||||
|
||||
</details>
|
||||
|
||||
<div align="right">
|
||||
|
||||
[](#readme-top)
|
||||
|
||||
</div>
|
||||
|
||||
### [Version 1.105.4](https://github.com/lobehub/lobe-chat/compare/v1.105.3...v1.105.4)
|
||||
|
||||
<sup>Released on **2025-07-29**</sup>
|
||||
|
||||
#### 🐛 Bug Fixes
|
||||
|
||||
- **misc**: Revert jose to ^5 to fix auth issue on desktop.
|
||||
|
||||
<br/>
|
||||
|
||||
<details>
|
||||
<summary><kbd>Improvements and Fixes</kbd></summary>
|
||||
|
||||
#### What's fixed
|
||||
|
||||
- **misc**: Revert jose to ^5 to fix auth issue on desktop, closes [#8603](https://github.com/lobehub/lobe-chat/issues/8603) ([57118b0](https://github.com/lobehub/lobe-chat/commit/57118b0))
|
||||
|
||||
</details>
|
||||
|
||||
<div align="right">
|
||||
|
||||
[](#readme-top)
|
||||
|
||||
</div>
|
||||
|
||||
### [Version 1.105.3](https://github.com/lobehub/lobe-chat/compare/v1.105.2...v1.105.3)
|
||||
|
||||
<sup>Released on **2025-07-29**</sup>
|
||||
|
||||
#### 🐛 Bug Fixes
|
||||
|
||||
- **misc**: Fix subscription plan tag display.
|
||||
|
||||
<br/>
|
||||
|
||||
<details>
|
||||
<summary><kbd>Improvements and Fixes</kbd></summary>
|
||||
|
||||
#### What's fixed
|
||||
|
||||
- **misc**: Fix subscription plan tag display, closes [#8599](https://github.com/lobehub/lobe-chat/issues/8599) ([2a3754a](https://github.com/lobehub/lobe-chat/commit/2a3754a))
|
||||
|
||||
</details>
|
||||
|
||||
<div align="right">
|
||||
|
||||
[](#readme-top)
|
||||
|
||||
</div>
|
||||
|
||||
### [Version 1.105.2](https://github.com/lobehub/lobe-chat/compare/v1.105.1...v1.105.2)
|
||||
|
||||
<sup>Released on **2025-07-29**</sup>
|
||||
|
||||
#### ♻ Code Refactoring
|
||||
|
||||
- **misc**: Clean mcp sitemap, refactor jose-JWT to xor obfuscation.
|
||||
|
||||
#### 💄 Styles
|
||||
|
||||
- **misc**: Add more OpenAI SDK Text2Image providers, update i18n.
|
||||
|
||||
<br/>
|
||||
|
||||
<details>
|
||||
<summary><kbd>Improvements and Fixes</kbd></summary>
|
||||
|
||||
#### Code refactoring
|
||||
|
||||
- **misc**: Clean mcp sitemap, closes [#8596](https://github.com/lobehub/lobe-chat/issues/8596) ([b9e3e66](https://github.com/lobehub/lobe-chat/commit/b9e3e66))
|
||||
- **misc**: Refactor jose-JWT to xor obfuscation, closes [#8595](https://github.com/lobehub/lobe-chat/issues/8595) ([be98d56](https://github.com/lobehub/lobe-chat/commit/be98d56))
|
||||
|
||||
#### Styles
|
||||
|
||||
- **misc**: Add more OpenAI SDK Text2Image providers, closes [#8573](https://github.com/lobehub/lobe-chat/issues/8573) ([403aebd](https://github.com/lobehub/lobe-chat/commit/403aebd))
|
||||
- **misc**: Update i18n, closes [#8593](https://github.com/lobehub/lobe-chat/issues/8593) ([356cf0c](https://github.com/lobehub/lobe-chat/commit/356cf0c))
|
||||
|
||||
</details>
|
||||
|
||||
<div align="right">
|
||||
|
||||
[](#readme-top)
|
||||
|
||||
</div>
|
||||
|
||||
### [Version 1.105.1](https://github.com/lobehub/lobe-chat/compare/v1.105.0...v1.105.1)
|
||||
|
||||
<sup>Released on **2025-07-29**</sup>
|
||||
|
||||
@@ -150,8 +150,6 @@ ENV \
|
||||
AI21_API_KEY="" AI21_MODEL_LIST="" \
|
||||
# Ai360
|
||||
AI360_API_KEY="" AI360_MODEL_LIST="" \
|
||||
# AiHubMix
|
||||
AIHUBMIX_API_KEY="" AIHUBMIX_MODEL_LIST="" \
|
||||
# Anthropic
|
||||
ANTHROPIC_API_KEY="" ANTHROPIC_MODEL_LIST="" ANTHROPIC_PROXY_URL="" \
|
||||
# Amazon Bedrock
|
||||
|
||||
@@ -192,8 +192,6 @@ ENV \
|
||||
AI21_API_KEY="" AI21_MODEL_LIST="" \
|
||||
# Ai360
|
||||
AI360_API_KEY="" AI360_MODEL_LIST="" \
|
||||
# AiHubMix
|
||||
AIHUBMIX_API_KEY="" AIHUBMIX_MODEL_LIST="" \
|
||||
# Anthropic
|
||||
ANTHROPIC_API_KEY="" ANTHROPIC_MODEL_LIST="" ANTHROPIC_PROXY_URL="" \
|
||||
# Amazon Bedrock
|
||||
|
||||
@@ -152,8 +152,6 @@ ENV \
|
||||
AI21_API_KEY="" AI21_MODEL_LIST="" \
|
||||
# Ai360
|
||||
AI360_API_KEY="" AI360_MODEL_LIST="" \
|
||||
# AiHubMix
|
||||
AIHUBMIX_API_KEY="" AIHUBMIX_MODEL_LIST="" \
|
||||
# Anthropic
|
||||
ANTHROPIC_API_KEY="" ANTHROPIC_MODEL_LIST="" ANTHROPIC_PROXY_URL="" \
|
||||
# Amazon Bedrock
|
||||
|
||||
@@ -9,7 +9,7 @@ import {
|
||||
import { join } from 'node:path';
|
||||
|
||||
import { buildDir, preloadDir, resourcesDir } from '@/const/dir';
|
||||
import { isDev, isMac, isWindows } from '@/const/env';
|
||||
import { isDev, isWindows } from '@/const/env';
|
||||
import {
|
||||
BACKGROUND_DARK,
|
||||
BACKGROUND_LIGHT,
|
||||
@@ -269,20 +269,7 @@ export default class Browser {
|
||||
|
||||
hide() {
|
||||
logger.debug(`Hiding window: ${this.identifier}`);
|
||||
|
||||
// Fix for macOS fullscreen black screen issue
|
||||
// See: https://github.com/electron/electron/issues/20263
|
||||
if (isMac && this.browserWindow.isFullScreen()) {
|
||||
logger.debug(
|
||||
`[${this.identifier}] Window is in fullscreen mode, exiting fullscreen before hiding.`,
|
||||
);
|
||||
this.browserWindow.once('leave-full-screen', () => {
|
||||
this.browserWindow.hide();
|
||||
});
|
||||
this.browserWindow.setFullScreen(false);
|
||||
} else {
|
||||
this.browserWindow.hide();
|
||||
}
|
||||
this.browserWindow.hide();
|
||||
}
|
||||
|
||||
close() {
|
||||
@@ -426,7 +413,7 @@ export default class Browser {
|
||||
// logger.error(`[${this.identifier}] Failed to save window state on hide:`, error);
|
||||
// }
|
||||
e.preventDefault();
|
||||
this.hide();
|
||||
browserWindow.hide();
|
||||
} else {
|
||||
// Window is actually closing (not keepAlive)
|
||||
logger.debug(
|
||||
@@ -478,7 +465,7 @@ export default class Browser {
|
||||
toggleVisible() {
|
||||
logger.debug(`Toggling visibility for window: ${this.identifier}`);
|
||||
if (this._browserWindow.isVisible() && this._browserWindow.isFocused()) {
|
||||
this.hide(); // Use the hide() method which handles fullscreen
|
||||
this._browserWindow.hide();
|
||||
} else {
|
||||
this._browserWindow.show();
|
||||
this._browserWindow.focus();
|
||||
|
||||
@@ -25,34 +25,6 @@ export const setupRouteInterceptors = function () {
|
||||
// 存储被阻止的路径,避免pushState重复触发
|
||||
const preventedPaths = new Set<string>();
|
||||
|
||||
// 重写 window.open 方法来拦截 JavaScript 调用
|
||||
const originalWindowOpen = window.open;
|
||||
window.open = function (url?: string | URL, target?: string, features?: string) {
|
||||
if (url) {
|
||||
try {
|
||||
const urlString = typeof url === 'string' ? url : url.toString();
|
||||
const urlObj = new URL(urlString, window.location.href);
|
||||
|
||||
// 检查是否为外部链接
|
||||
if (urlObj.origin !== window.location.origin) {
|
||||
console.log(`[preload] Intercepted window.open for external URL:`, urlString);
|
||||
// 调用主进程处理外部链接
|
||||
invoke('openExternalLink', urlString);
|
||||
return null; // 返回 null 表示没有打开新窗口
|
||||
}
|
||||
} catch (error) {
|
||||
// 处理无效 URL 或特殊协议
|
||||
console.error(`[preload] Intercepted window.open for special protocol:`, url);
|
||||
console.error(error);
|
||||
invoke('openExternalLink', typeof url === 'string' ? url : url.toString());
|
||||
return null;
|
||||
}
|
||||
}
|
||||
|
||||
// 对于内部链接,调用原始的 window.open
|
||||
return originalWindowOpen.call(window, url, target, features);
|
||||
};
|
||||
|
||||
// 拦截所有a标签的点击事件 - 针对Next.js的Link组件
|
||||
document.addEventListener(
|
||||
'click',
|
||||
|
||||
@@ -1,118 +1,4 @@
|
||||
[
|
||||
{
|
||||
"children": {
|
||||
"improvements": ["Update i18n."]
|
||||
},
|
||||
"date": "2025-08-01",
|
||||
"version": "1.107.1"
|
||||
},
|
||||
{
|
||||
"children": {
|
||||
"features": ["Support aihubmix provider."]
|
||||
},
|
||||
"date": "2025-08-01",
|
||||
"version": "1.107.0"
|
||||
},
|
||||
{
|
||||
"children": {
|
||||
"improvements": ["Support SenseNova V6.5 models."]
|
||||
},
|
||||
"date": "2025-07-31",
|
||||
"version": "1.106.8"
|
||||
},
|
||||
{
|
||||
"children": {
|
||||
"improvements": ["Update Aliyun Bailian models."]
|
||||
},
|
||||
"date": "2025-07-31",
|
||||
"version": "1.106.7"
|
||||
},
|
||||
{
|
||||
"children": {
|
||||
"fixes": ["Fix oidc oauth callback pages 404."]
|
||||
},
|
||||
"date": "2025-07-31",
|
||||
"version": "1.106.6"
|
||||
},
|
||||
{
|
||||
"children": {
|
||||
"improvements": ["Improve mcp plugin calling and display."]
|
||||
},
|
||||
"date": "2025-07-30",
|
||||
"version": "1.106.5"
|
||||
},
|
||||
{
|
||||
"children": {
|
||||
"fixes": ["Fix mcp calling missing array content."],
|
||||
"improvements": ["Update i18n."]
|
||||
},
|
||||
"date": "2025-07-30",
|
||||
"version": "1.106.4"
|
||||
},
|
||||
{
|
||||
"children": {
|
||||
"fixes": ["Moonshot assistant messages must not be empty."],
|
||||
"improvements": ["Add volcengine kimi-k2 model, Add Zhipu GLM-4.5 models."]
|
||||
},
|
||||
"date": "2025-07-29",
|
||||
"version": "1.106.3"
|
||||
},
|
||||
{
|
||||
"children": {
|
||||
"fixes": ["Fix desktop auth redirect url error."]
|
||||
},
|
||||
"date": "2025-07-29",
|
||||
"version": "1.106.2"
|
||||
},
|
||||
{
|
||||
"children": {
|
||||
"improvements": ["Support Minimax T2I models."]
|
||||
},
|
||||
"date": "2025-07-29",
|
||||
"version": "1.106.1"
|
||||
},
|
||||
{
|
||||
"children": {
|
||||
"features": ["Add support for Okta Authentication."]
|
||||
},
|
||||
"date": "2025-07-29",
|
||||
"version": "1.106.0"
|
||||
},
|
||||
{
|
||||
"children": {
|
||||
"improvements": ["Open new topic by tap Just Chat again."]
|
||||
},
|
||||
"date": "2025-07-29",
|
||||
"version": "1.105.6"
|
||||
},
|
||||
{
|
||||
"children": {
|
||||
"fixes": ["Reorder AppTheme and Locale to fix modal i18n."]
|
||||
},
|
||||
"date": "2025-07-29",
|
||||
"version": "1.105.5"
|
||||
},
|
||||
{
|
||||
"children": {
|
||||
"fixes": ["Revert jose to ^5 to fix auth issue on desktop."]
|
||||
},
|
||||
"date": "2025-07-29",
|
||||
"version": "1.105.4"
|
||||
},
|
||||
{
|
||||
"children": {
|
||||
"fixes": ["Fix subscription plan tag display."]
|
||||
},
|
||||
"date": "2025-07-29",
|
||||
"version": "1.105.3"
|
||||
},
|
||||
{
|
||||
"children": {
|
||||
"improvements": ["Add more OpenAI SDK Text2Image providers, update i18n."]
|
||||
},
|
||||
"date": "2025-07-29",
|
||||
"version": "1.105.2"
|
||||
},
|
||||
{
|
||||
"children": {
|
||||
"improvements": ["Support more Text2Image from Qwen."]
|
||||
|
||||
@@ -55,8 +55,6 @@ Currently supported identity verification services include:
|
||||
<Card href={'/docs/self-hosting/advanced/auth/next-auth/keycloak'} title={'Keycloak'} />
|
||||
|
||||
<Card href={'/docs/self-hosting/advanced/auth/next-auth/google'} title={'Google'} />
|
||||
|
||||
<Card href={'/docs/self-hosting/advanced/auth/next-auth/okta'} title={'Okta'} />
|
||||
</Cards>
|
||||
|
||||
Click on the links to view the corresponding platform's configuration documentation.
|
||||
@@ -80,7 +78,6 @@ The order corresponds to the display order of the SSO providers.
|
||||
| ZITADEL | `zitadel` |
|
||||
| Keycloak | `keycloak` |
|
||||
| Google | `google` |
|
||||
| Okta | `okta` |
|
||||
|
||||
## Other SSO Providers
|
||||
|
||||
|
||||
@@ -51,8 +51,6 @@ LobeChat 与 Clerk 做了深度集成,能够为用户提供一个更加安全
|
||||
<Card href={'/zh/docs/self-hosting/advanced/auth/next-auth/logto'} title={'Logto'} />
|
||||
|
||||
<Card href={'/zh/docs/self-hosting/advanced/auth/next-auth/keycloak'} title={'Keycloak'} />
|
||||
|
||||
<Card href={'/zh/docs/self-hosting/advanced/auth/next-auth/okta'} title={'Okta'} />
|
||||
</Cards>
|
||||
|
||||
点击即可查看对应平台的配置文档。
|
||||
@@ -75,7 +73,6 @@ LobeChat 与 Clerk 做了深度集成,能够为用户提供一个更加安全
|
||||
| Microsoft Entra ID | `microsoft-entra-id` |
|
||||
| ZITADEL | `zitadel` |
|
||||
| Keycloak | `keycloak` |
|
||||
| Okta | `okta` |
|
||||
|
||||
## 其他 SSO 提供商
|
||||
|
||||
|
||||
@@ -1,65 +0,0 @@
|
||||
---
|
||||
title: Configure Okta Identity Verification Service for LobeChat
|
||||
description: >-
|
||||
Learn how to configure Okta Identity Verification Service for LobeChat for your organization, including creating applications, adding users, and configuring environment variables.
|
||||
|
||||
tags:
|
||||
- Okta
|
||||
- Identity Verification
|
||||
- Single Sign-On
|
||||
- Environment Variables
|
||||
- User Management
|
||||
- SSO Integrations
|
||||
- Social Login
|
||||
---
|
||||
|
||||
# Configure Okta Identity Verification Service
|
||||
|
||||
<Steps>
|
||||
### Create Okta Application
|
||||
|
||||
Register and log in to [Okta][okta-client-page], open the "Applications" subtab in the left navigation bar, and click "Applications" to switch to the application management interface. click "Create App Integration" in the upper left corner to create an application.
|
||||
|
||||
Select "OIDC - OpenID Connect" in Sign-In Method and then select "Web Application" in Application Type.
|
||||
|
||||
Fill in the following settings:
|
||||
|
||||
| Setting Name | Description | Sample Information |
|
||||
| ---------------------- | ------------------------------------------------------------------------------------------------------------ | --------------------------------------------- |
|
||||
| App Integration Name | The Application Name your users will see | LobeChat Instance |
|
||||
| Sign-in redirect URIs | Okta sends the authentication response and ID token for the user's sign-in request to these URIs | (http(s)://your-domain/api/auth/callback/okta |
|
||||
| Sign-out redirect URIs | After your application contacts Okta to close the user session, Okta redirects the user to one of these URIs | (http(s)://your-domain |
|
||||
|
||||
<Callout type={'important'}>
|
||||
You can fill in or modify all the fields after deployment, but make sure the filled URL is
|
||||
consistent with the deployed URL.
|
||||
</Callout>
|
||||
|
||||
### Add Users
|
||||
|
||||
Click on the "Assignments" in the top navigation bar to enter the user management interface, where you can create or assign users in your organization to log in to LobeChat.
|
||||
|
||||
### Configure Environment Variables
|
||||
|
||||
When deploying LobeChat, you need to configure the following environment variables:
|
||||
|
||||
| Environment Variable | Type | Description |
|
||||
| ------------------------- | -------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
|
||||
| `NEXT_AUTH_SECRET` | Required | Key used to encrypt Auth.js session tokens. You can generate a key using the following command: `openssl rand -base64 32` |
|
||||
| `NEXT_AUTH_SSO_PROVIDERS` | Required | Select the single sign-on provider for LoboChat. Use `okta` for Okta. |
|
||||
| `AUTH_OKTA_ID` | Required | Client ID of the Okta application |
|
||||
| `AUTH_OKTA_SECRET` | Required | Client Secret of the Okta application |
|
||||
| `AUTH_OKTA_ISSUER` | Required | Domain of the Okta application, `https://example.oktapreview.com` |
|
||||
| `NEXTAUTH_URL` | Optional | The URL is used to specify the callback address for the execution of OAuth authentication in Auth.js. It needs to be set only when the default address is incorrect. `https://example.com/api/auth` |
|
||||
|
||||
<Callout type={'tip'}>
|
||||
You can refer to the related variable details at [📘Environment Variables](/docs/self-hosting/environment-variable/auth#okta).
|
||||
</Callout>
|
||||
</Steps>
|
||||
|
||||
<Callout>
|
||||
After successful deployment, users will be able to authenticate and use LobeChat using the users
|
||||
configured in Okta.
|
||||
</Callout>
|
||||
|
||||
[okta-client-page]: https://login.okta.com
|
||||
@@ -1,63 +0,0 @@
|
||||
---
|
||||
title: 在 LobeChat 中配置 Okta 身份验证服务 - 详细步骤和环境变量设置
|
||||
description: >-
|
||||
学习如何在 LobeChat 中为您的组织配置 Okta 身份验证服务,包括创建应用程序、添加用户和配置环境变量等。
|
||||
|
||||
tags:
|
||||
- Okta
|
||||
- 身份验证
|
||||
- 单点登录
|
||||
- 环境变量
|
||||
- 用户管理
|
||||
- SSO 集成
|
||||
- 社交登录
|
||||
---
|
||||
|
||||
# 配置 Okta 身份验证服务
|
||||
|
||||
<Steps>
|
||||
### 创建 Okta 应用程序
|
||||
|
||||
注册并登录 [Okta][okta-client-page],打开左侧导航栏中的「Applications」子选项卡,点击「Applications」切换到应用程序管理界面。点击左上角的「Create App Integration」创建应用程序。
|
||||
|
||||
在登录方法中选择「OIDC - OpenID Connect」,然后在应用程序类型中选择「Web Application」。
|
||||
|
||||
填写以下设置:
|
||||
|
||||
| 设置名称 | 描述 | 示例信息 |
|
||||
| ---------------------- | ------------------------------------------- | --------------------------------------------- |
|
||||
| App Integration Name | 您的用户将看到的应用程序名称 | LobeChat Instance |
|
||||
| Sign-in redirect URIs | Okta 将用户登录请求的身份验证响应和 ID 令牌发送到这些 URI | (http(s)://your-domain/api/auth/callback/okta |
|
||||
| Sign-out redirect URIs | 您的应用程序联系 Okta 关闭用户会话后,Okta 将用户重定向到这些 URI 之一 | (http(s)://your-domain |
|
||||
|
||||
<Callout type={'important'}>
|
||||
您可以在部署后填写或修改所有字段,但请确保填写的 URL 与部署的 URL 一致。
|
||||
</Callout>
|
||||
|
||||
### 添加用户
|
||||
|
||||
点击顶部导航栏中的「Assignments」进入用户管理界面,您可以在此创建或分配组织中的用户来登录 LobeChat。
|
||||
|
||||
### 配置环境变量
|
||||
|
||||
在部署 LobeChat 时,您需要配置以下环境变量:
|
||||
|
||||
| 环境变量 | 类型 | 描述 |
|
||||
| ------------------------- | -- | ------------------------------------------------------------------------------------ |
|
||||
| `NEXT_AUTH_SECRET` | 必选 | 用于加密 Auth.js 会话令牌的密钥。您可以使用以下命令生成密钥:`openssl rand -base64 32` |
|
||||
| `NEXT_AUTH_SSO_PROVIDERS` | 必选 | 选择 LoboChat 的单点登录提供商。使用 Okta 请填写 `okta`。 |
|
||||
| `AUTH_OKTA_ID` | 必选 | Okta 应用程序的客户端 ID |
|
||||
| `AUTH_OKTA_SECRET` | 必选 | Okta 应用程序的客户端密钥 |
|
||||
| `AUTH_OKTA_ISSUER` | 必选 | Okta 应用程序的域名,`https://example.oktapreview.com` |
|
||||
| `NEXTAUTH_URL` | 可选 | 该 URL 用于指定 Auth.js 在执行 OAuth 认证时的回调地址。仅当默认地址不正确时才需要设置。`https://example.com/api/auth` |
|
||||
|
||||
<Callout type={'tip'}>
|
||||
您可以在 [📘环境变量](/zh/docs/self-hosting/environment-variables/auth#okta) 查阅相关变量详情。
|
||||
</Callout>
|
||||
</Steps>
|
||||
|
||||
<Callout>
|
||||
部署成功后,用户将能够使用在 Okta 中配置的用户进行身份验证并使用 LobeChat。
|
||||
</Callout>
|
||||
|
||||
[okta-client-page]: https://login.okta.com
|
||||
@@ -249,29 +249,6 @@ LobeChat provides a complete authentication service capability when deployed. Th
|
||||
- Default: `-`
|
||||
- Example: `https://your-instance-abc123.zitadel.cloud`
|
||||
|
||||
### Okta
|
||||
|
||||
#### `AUTH_OKTA_ID`
|
||||
|
||||
- Type: Required
|
||||
- Description: Client ID of the Okta application. This can be found under your application settings in the Okta console.
|
||||
- Default: `-`
|
||||
- Example: `ac12c950f3ce48c8a45a`
|
||||
|
||||
#### `AUTH_OKTA_SECRET`
|
||||
|
||||
- Type: Required
|
||||
- Description: Client Secret of the Okta application. This can be found under your application settings in the Okta console.
|
||||
- Default: `-`
|
||||
- Example: `ex1HqvSOOkC5INqo42grOSqNvHoD4p84em1yy5QU7v88IZlaWGywFjYkrkpkSopt`
|
||||
|
||||
#### `AUTH_OKTA_ISSUER`
|
||||
|
||||
- Type: Required
|
||||
- Description: Issuer of the Okta application. This is the URL of the Okta instance -- If branding is set up, it can be your custom domain.
|
||||
- Default: `-`
|
||||
- Example: `https://your-instance.okta.com`
|
||||
|
||||
### Generic OIDC
|
||||
|
||||
#### `AUTH_GENERIC_OIDC_ID`
|
||||
|
||||
@@ -245,29 +245,6 @@ LobeChat 在部署时提供了完善的身份验证服务能力,以下是相
|
||||
- 默认值:`-`
|
||||
- 示例:`https://your-instance-abc123.zitadel.cloud`
|
||||
|
||||
### Okta
|
||||
|
||||
#### `AUTH_OKTA_ID`
|
||||
|
||||
- 类型:必选
|
||||
- 描述:Okta 应用程序的 Client ID。您可以在 Okta 控制台的应用程序设置中找到。
|
||||
- 默认值:`-`
|
||||
- 示例:`ac12c950f3ce48c8a45a`
|
||||
|
||||
#### `AUTH_OKTA_SECRET`
|
||||
|
||||
- 类型:必选
|
||||
- 描述:Okta 应用程序的 Client Secret。您可以在 Okta 控制台的应用程序设置中找到。
|
||||
- 默认值:`-`
|
||||
- 示例:`ex1HqvSOOkC5INqo42grOSqNvHoD4p84em1yy5QU7v88IZlaWGywFjYkrkpkSopt`
|
||||
|
||||
#### `AUTH_OKTA_ISSUER`
|
||||
|
||||
- 类型:必选
|
||||
- 描述:Okta 应用程序的 OpenID Connect 颁发者(issuer)。这是 Okta 实例的 URL—— 如果设置了品牌化,也可以是您的自定义域名。
|
||||
- 默认值:`-`
|
||||
- 示例:`https://your-instance.okta.com`
|
||||
|
||||
### Generic OIDC
|
||||
|
||||
#### `AUTH_GENERIC_OIDC_ID`
|
||||
|
||||
@@ -1,101 +0,0 @@
|
||||
---
|
||||
title: AiHubMix 提供商配置
|
||||
description: 学习如何在 LobeChat 中配置和使用 AiHubMix 提供商
|
||||
tags:
|
||||
- AiHubMix
|
||||
- 提供商配置
|
||||
- 配置指南
|
||||
---
|
||||
|
||||
# AiHubMix 提供商配置
|
||||
|
||||
AiHubMix 是一个 AI 模型聚合平台,通过统一的 OpenAI 兼容 API 接口提供多种 AI 模型的访问服务。本指南将帮助您在 LobeChat 中设置 AiHubMix 提供商。
|
||||
|
||||
## 前置条件
|
||||
|
||||
在使用 AiHubMix API 之前,您需要:
|
||||
|
||||
1. **创建 AiHubMix 账户**
|
||||
- 访问 [AiHubMix](https://lobe.li/MZmv94N)
|
||||
- 注册账户
|
||||
|
||||
2. **获取 API 密钥**
|
||||
- 登录您的 AiHubMix 控制台
|
||||
- 导航到 API 设置
|
||||
- 生成用于 LobeChat 的 API 密钥
|
||||
|
||||
## 配置
|
||||
|
||||
### 环境变量
|
||||
|
||||
在您的 `.env` 文件中添加以下环境变量:
|
||||
|
||||
```bash
|
||||
# 启用 AiHubMix 提供商
|
||||
ENABLED_AIHUBMIX=1
|
||||
|
||||
# AiHubMix API 密钥(必需)
|
||||
AIHUBMIX_API_KEY=your_aihubmix_api_key
|
||||
```
|
||||
|
||||
### 可用模型
|
||||
|
||||
AiHubMix 提供多种热门 AI 模型的访问,包括:
|
||||
|
||||
- **GPT-4o Mini** - OpenAI 的高性价比小型模型
|
||||
- **GPT-4o** - OpenAI 的旗舰多模态模型
|
||||
- **Claude 3.5 Sonnet** - Anthropic 的高级推理模型
|
||||
- **Claude 3.5 Haiku** - 快速高效的 Claude 模型
|
||||
- **Gemini Pro 1.5** - Google 的长上下文支持模型
|
||||
- **DeepSeek V3** - 具有高级推理能力的模型
|
||||
|
||||
## 使用方法
|
||||
|
||||
1. **配置 API 密钥**
|
||||
- 在环境变量中设置您的 AiHubMix API 密钥
|
||||
- 重启您的 LobeChat 实例
|
||||
|
||||
2. **选择模型**
|
||||
- 进入 LobeChat 设置
|
||||
- 导航到语言模型
|
||||
- 选择 AiHubMix 作为您的提供商
|
||||
- 从可用模型中选择
|
||||
|
||||
3. **开始对话**
|
||||
- 创建新对话
|
||||
- 选择 AiHubMix 模型
|
||||
- 开始您的对话
|
||||
|
||||
## 功能特性
|
||||
|
||||
- **多模型访问**:通过单一 API 访问各种 AI 模型
|
||||
- **OpenAI 兼容**:使用标准 OpenAI API 格式
|
||||
- **函数调用**:支持兼容模型的函数调用功能
|
||||
- **视觉能力**:部分模型支持图像分析
|
||||
- **模型获取**:自动获取可用模型列表
|
||||
|
||||
## 故障排除
|
||||
|
||||
### 常见问题
|
||||
|
||||
1. **401 认证错误**
|
||||
- 验证您的 API 密钥是否正确
|
||||
- 确保 API 密钥具有适当的权限
|
||||
- 检查您的账户是否有足够的积分
|
||||
|
||||
2. **模型不可用**
|
||||
- 某些模型可能有使用限制
|
||||
- 查看 AiHubMix 文档了解模型可用性
|
||||
- 验证您的账户等级是否支持请求的模型
|
||||
|
||||
3. **速率限制**
|
||||
- AiHubMix 可能根据您的计划有速率限制
|
||||
- 考虑升级您的计划以获得更高的限制
|
||||
|
||||
## 支持
|
||||
|
||||
如需更多支持:
|
||||
|
||||
- 访问 [AiHubMix 文档](https://docs.aihubmix.com/)
|
||||
- 查看 [模型列表](https://docs.aihubmix.com/cn/api/Model-List)
|
||||
- 联系 AiHubMix 支持团队解决 API 相关问题
|
||||
@@ -189,7 +189,6 @@
|
||||
"aesGcm": "سيتم استخدام خوارزمية التشفير <1>AES-GCM</1> لتشفير مفتاحك وعنوان الوكيل وما إلى ذلك",
|
||||
"apiKey": {
|
||||
"desc": "يرجى إدخال مفتاح API الخاص بك {{name}}",
|
||||
"descWithUrl": "يرجى إدخال مفتاح API الخاص بـ {{name}}، <3>انقر هنا للحصول عليه</3>",
|
||||
"placeholder": "{{name}} مفتاح API",
|
||||
"title": "مفتاح API"
|
||||
},
|
||||
|
||||
+5
-185
@@ -32,9 +32,6 @@
|
||||
"4.0Ultra": {
|
||||
"description": "Spark4.0 Ultra هو أقوى إصدار في سلسلة نماذج Spark، حيث يعزز فهم النصوص وقدرات التلخيص مع تحسين روابط البحث عبر الإنترنت. إنه حل شامل يهدف إلى تعزيز إنتاجية المكتب والاستجابة الدقيقة للاحتياجات، ويعتبر منتجًا ذكيًا رائدًا في الصناعة."
|
||||
},
|
||||
"AnimeSharp": {
|
||||
"description": "AnimeSharp (المعروف أيضًا باسم \"4x‑AnimeSharp\") هو نموذج مفتوح المصدر للتكبير الفائق الدقة طوره Kim2091 استنادًا إلى بنية ESRGAN، يركز على تكبير وتوضيح الصور بأسلوب الأنمي. تم إعادة تسميته في فبراير 2022 من \"4x-TextSharpV1\"، وكان في الأصل مناسبًا أيضًا لصور النصوص لكنه تم تحسين أداؤه بشكل كبير لمحتوى الأنمي."
|
||||
},
|
||||
"Baichuan2-Turbo": {
|
||||
"description": "يستخدم تقنية تعزيز البحث لتحقيق الربط الشامل بين النموذج الكبير والمعرفة الميدانية والمعرفة من جميع أنحاء الشبكة. يدعم تحميل مستندات PDF وWord وغيرها من المدخلات، مما يضمن الحصول على المعلومات بشكل سريع وشامل، ويقدم نتائج دقيقة واحترافية."
|
||||
},
|
||||
@@ -92,9 +89,6 @@
|
||||
"Doubao-pro-4k": {
|
||||
"description": "النموذج الرئيسي الأكثر فعالية، مناسب لمعالجة المهام المعقدة، ويحقق أداءً ممتازًا في سيناريوهات مثل الأسئلة المرجعية، التلخيص، الإبداع، تصنيف النصوص، ولعب الأدوار. يدعم الاستدلال والتخصيص مع نافذة سياق 4k."
|
||||
},
|
||||
"DreamO": {
|
||||
"description": "DreamO هو نموذج توليد صور مخصص مفتوح المصدر تم تطويره بالتعاون بين ByteDance وجامعة بكين، يهدف إلى دعم مهام توليد الصور المتعددة من خلال بنية موحدة. يستخدم طريقة نمذجة مركبة فعالة لتوليد صور متسقة ومخصصة بناءً على شروط متعددة مثل الهوية، الموضوع، الأسلوب، والخلفية التي يحددها المستخدم."
|
||||
},
|
||||
"ERNIE-3.5-128K": {
|
||||
"description": "نموذج اللغة الكبير الرائد الذي طورته بايدو، يغطي كمية هائلة من البيانات باللغة الصينية والإنجليزية، ويتميز بقدرات عامة قوية، يمكنه تلبية معظم متطلبات الحوار، والإجابة على الأسئلة، وإنشاء المحتوى، وتطبيقات الإضافات؛ يدعم الاتصال التلقائي بإضافات بحث بايدو، مما يضمن تحديث معلومات الإجابة."
|
||||
},
|
||||
@@ -128,39 +122,15 @@
|
||||
"ERNIE-Speed-Pro-128K": {
|
||||
"description": "نموذج اللغة الكبير عالي الأداء الذي طورته بايدو، والذي تم إصداره في عام 2024، يتمتع بقدرات عامة ممتازة، ويتميز بأداء أفضل من ERNIE Speed، مناسب كنموذج أساسي للتعديل الدقيق، مما يساعد على معالجة مشكلات السيناريوهات المحددة بشكل أفضل، مع أداء استدلال ممتاز."
|
||||
},
|
||||
"FLUX.1-Kontext-dev": {
|
||||
"description": "FLUX.1-Kontext-dev هو نموذج متعدد الوسائط لتوليد وتحرير الصور طورته Black Forest Labs، يعتمد على بنية Rectified Flow Transformer ويحتوي على 12 مليار معلمة، يركز على توليد وإعادة بناء وتعزيز أو تحرير الصور بناءً على شروط سياقية محددة. يجمع النموذج بين مزايا التوليد القابل للتحكم في نماذج الانتشار وقدرات نمذجة السياق في Transformer، ويدعم إخراج صور عالية الجودة، ويستخدم على نطاق واسع في إصلاح الصور، إكمال الصور، وإعادة بناء المشاهد البصرية."
|
||||
},
|
||||
"FLUX.1-dev": {
|
||||
"description": "FLUX.1-dev هو نموذج لغة متعدد الوسائط مفتوح المصدر طورته Black Forest Labs، مُحسّن لمهام النص والصورة، يدمج قدرات فهم وتوليد الصور والنصوص. يعتمد على نماذج اللغة الكبيرة المتقدمة مثل Mistral-7B، ويحقق معالجة متزامنة للنص والصورة واستدلالًا معقدًا من خلال مشفر بصري مصمم بعناية وضبط دقيق متعدد المراحل."
|
||||
},
|
||||
"Gryphe/MythoMax-L2-13b": {
|
||||
"description": "MythoMax-L2 (13B) هو نموذج مبتكر، مناسب لتطبيقات متعددة المجالات والمهام المعقدة."
|
||||
},
|
||||
"HelloMeme": {
|
||||
"description": "HelloMeme هو أداة ذكاء اصطناعي يمكنها تلقائيًا إنشاء ملصقات تعبيرية، صور متحركة أو مقاطع فيديو قصيرة بناءً على الصور أو الحركات التي تقدمها. لا تحتاج إلى مهارات رسم أو برمجة، فقط قدم صورة مرجعية، وستساعدك في إنشاء محتوى جميل، ممتع ومتناسق في الأسلوب."
|
||||
},
|
||||
"HiDream-I1-Full": {
|
||||
"description": "HiDream-E1-Full هو نموذج تحرير صور متعدد الوسائط مفتوح المصدر أطلقته HiDream.ai، يعتمد على بنية Diffusion Transformer المتقدمة، ويجمع بين قدرات فهم اللغة القوية (مضمن LLaMA 3.1-8B-Instruct)، يدعم توليد الصور، نقل الأسلوب، التحرير الجزئي وإعادة رسم المحتوى عبر أوامر اللغة الطبيعية، ويتميز بفهم وتنفيذ ممتاز للنص والصورة."
|
||||
},
|
||||
"HunyuanDiT-v1.2-Diffusers-Distilled": {
|
||||
"description": "hunyuandit-v1.2-distilled هو نموذج توليد صور نصية خفيف الوزن، محسن بالتقطير، قادر على توليد صور عالية الجودة بسرعة، ومناسب بشكل خاص للبيئات ذات الموارد المحدودة والمهام التي تتطلب توليدًا فوريًا."
|
||||
},
|
||||
"InstantCharacter": {
|
||||
"description": "InstantCharacter هو نموذج توليد شخصيات مخصص بدون ضبط دقيق أصدره فريق Tencent AI في 2025، يهدف إلى تحقيق توليد شخصيات متسقة وعالية الدقة عبر مشاهد مختلفة. يدعم بناء نموذج الشخصية استنادًا إلى صورة مرجعية واحدة فقط، ويمكن نقل الشخصية بمرونة إلى أنماط، حركات وخلفيات متنوعة."
|
||||
},
|
||||
"InternVL2-8B": {
|
||||
"description": "InternVL2-8B هو نموذج قوي للغة البصرية، يدعم المعالجة متعددة الوسائط للصورة والنص، قادر على التعرف بدقة على محتوى الصورة وتوليد أوصاف أو إجابات ذات صلة."
|
||||
},
|
||||
"InternVL2.5-26B": {
|
||||
"description": "InternVL2.5-26B هو نموذج قوي للغة البصرية، يدعم المعالجة متعددة الوسائط للصورة والنص، قادر على التعرف بدقة على محتوى الصورة وتوليد أوصاف أو إجابات ذات صلة."
|
||||
},
|
||||
"Kolors": {
|
||||
"description": "Kolors هو نموذج توليد صور نصية طوره فريق Kolors في Kuaishou. تم تدريبه على مليارات المعلمات، ويتميز بجودة بصرية عالية، وفهم دقيق للغة الصينية، وقدرة ممتازة على عرض النصوص."
|
||||
},
|
||||
"Kwai-Kolors/Kolors": {
|
||||
"description": "Kolors هو نموذج توليد صور نصية واسع النطاق يعتمد على الانتشار الكامن طوره فريق Kolors في Kuaishou. تم تدريبه على مليارات أزواج نص-صورة، ويظهر تفوقًا ملحوظًا في جودة الصور، دقة الفهم الدلالي المعقد، وعرض الأحرف الصينية والإنجليزية. يدعم الإدخال باللغتين الصينية والإنجليزية، ويبرع في فهم وتوليد المحتوى الخاص باللغة الصينية."
|
||||
},
|
||||
"Llama-3.2-11B-Vision-Instruct": {
|
||||
"description": "قدرات استدلال الصور الممتازة على الصور عالية الدقة، مناسبة لتطبيقات الفهم البصري."
|
||||
},
|
||||
@@ -194,15 +164,9 @@
|
||||
"MiniMaxAI/MiniMax-M1-80k": {
|
||||
"description": "MiniMax-M1 هو نموذج استدلال كبير الحجم مفتوح المصدر يعتمد على الانتباه المختلط، يحتوي على 456 مليار معلمة، حيث يمكن لكل رمز تفعيل حوالي 45.9 مليار معلمة. يدعم النموذج أصلاً سياقًا فائق الطول يصل إلى مليون رمز، ومن خلال آلية الانتباه السريع، يوفر 75% من العمليات الحسابية العائمة في مهام التوليد التي تصل إلى 100 ألف رمز مقارنة بـ DeepSeek R1. بالإضافة إلى ذلك، يعتمد MiniMax-M1 على بنية MoE (الخبراء المختلطون)، ويجمع بين خوارزمية CISPO وتصميم الانتباه المختلط لتدريب تعلم معزز فعال، محققًا أداءً رائدًا في الصناعة في استدلال الإدخالات الطويلة وسيناريوهات هندسة البرمجيات الحقيقية."
|
||||
},
|
||||
"Moonshot-Kimi-K2-Instruct": {
|
||||
"description": "يحتوي على 1 تريليون معلمة و32 مليار معلمة مفعلة. من بين النماذج غير المعتمدة على التفكير، يحقق مستويات متقدمة في المعرفة الحديثة، الرياضيات والبرمجة، ويتفوق في مهام الوكيل العامة. تم تحسينه بعناية لمهام الوكيل، لا يجيب فقط على الأسئلة بل يتخذ إجراءات. مثالي للدردشة العفوية، التجارب العامة والوكيل، وهو نموذج سريع الاستجابة لا يتطلب تفكيرًا طويلًا."
|
||||
},
|
||||
"NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
||||
"description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B) هو نموذج تعليمات عالي الدقة، مناسب للحسابات المعقدة."
|
||||
},
|
||||
"OmniConsistency": {
|
||||
"description": "يعزز OmniConsistency اتساق الأسلوب والقدرة على التعميم في مهام تحويل الصور إلى صور من خلال إدخال Transformers الانتشارية واسعة النطاق (DiTs) وبيانات نمطية مزدوجة، مما يمنع تدهور الأسلوب."
|
||||
},
|
||||
"Phi-3-medium-128k-instruct": {
|
||||
"description": "نموذج Phi-3-medium نفسه، ولكن مع حجم سياق أكبر لـ RAG أو التوجيه القليل."
|
||||
},
|
||||
@@ -254,9 +218,6 @@
|
||||
"Pro/deepseek-ai/DeepSeek-V3": {
|
||||
"description": "DeepSeek-V3 هو نموذج لغوي مختلط الخبراء (MoE) يحتوي على 6710 مليار معلمة، يستخدم الانتباه المتعدد الرؤوس (MLA) وهيكل DeepSeekMoE، ويجمع بين استراتيجيات توازن الحمل بدون خسائر مساعدة، مما يحسن كفاءة الاستدلال والتدريب. تم تدريبه مسبقًا على 14.8 تريليون توكن عالية الجودة، وتم إجراء تعديل دقيق تحت الإشراف والتعلم المعزز، مما يجعل DeepSeek-V3 يتفوق على نماذج مفتوحة المصدر الأخرى، ويقترب من النماذج المغلقة الرائدة."
|
||||
},
|
||||
"Pro/moonshotai/Kimi-K2-Instruct": {
|
||||
"description": "Kimi K2 هو نموذج أساسي يعتمد على بنية MoE مع قدرات قوية في البرمجة والوكيل، يحتوي على 1 تريليون معلمة و32 مليار معلمة مفعلة. يتفوق نموذج K2 في اختبارات الأداء الأساسية في مجالات المعرفة العامة، البرمجة، الرياضيات والوكيل مقارنة بالنماذج المفتوحة المصدر الأخرى."
|
||||
},
|
||||
"QwQ-32B-Preview": {
|
||||
"description": "QwQ-32B-Preview هو نموذج معالجة اللغة الطبيعية المبتكر، قادر على معالجة مهام توليد الحوار وفهم السياق بشكل فعال."
|
||||
},
|
||||
@@ -317,18 +278,9 @@
|
||||
"Qwen/Qwen3-235B-A22B": {
|
||||
"description": "Qwen3 هو نموذج جديد من الجيل التالي مع تحسينات كبيرة في القدرات، حيث يصل إلى مستويات رائدة في الاستدلال، المهام العامة، الوكلاء، واللغات المتعددة، ويدعم تبديل وضع التفكير."
|
||||
},
|
||||
"Qwen/Qwen3-235B-A22B-Instruct-2507": {
|
||||
"description": "Qwen3-235B-A22B-Instruct-2507 هو نموذج لغة كبير من سلسلة Qwen3 طوره فريق Alibaba Tongyi Qianwen، وهو نموذج خبير مختلط (MoE) رائد. يحتوي على 235 مليار معلمة إجمالية و22 مليار معلمة مفعلة في كل استدلال. تم إصداره كنسخة محدثة من Qwen3-235B-A22B غير التفكير، مع تحسينات كبيرة في اتباع التعليمات، الاستدلال المنطقي، فهم النصوص، الرياضيات، العلوم، البرمجة واستخدام الأدوات. يعزز التغطية المعرفية متعددة اللغات ويدعم التوافق الأفضل مع تفضيلات المستخدم في المهام الذاتية والمفتوحة لتوليد نصوص أكثر فائدة وجودة."
|
||||
},
|
||||
"Qwen/Qwen3-235B-A22B-Thinking-2507": {
|
||||
"description": "Qwen3-235B-A22B-Thinking-2507 هو نموذج لغة كبير من سلسلة Qwen3 طوره فريق Alibaba Tongyi Qianwen، يركز على مهام الاستدلال المعقدة عالية الصعوبة. يعتمد على بنية MoE ويحتوي على 235 مليار معلمة إجمالية مع تفعيل حوالي 22 مليار معلمة لكل رمز، مما يحسن الكفاءة الحسابية مع الحفاظ على الأداء القوي. كنموذج \"تفكير\" متخصص، يظهر تحسينات كبيرة في الاستدلال المنطقي، الرياضيات، العلوم، البرمجة والاختبارات الأكاديمية، ويصل إلى مستوى رائد بين نماذج التفكير المفتوحة المصدر. يعزز القدرات العامة مثل اتباع التعليمات، استخدام الأدوات وتوليد النصوص، ويدعم فهم سياق طويل يصل إلى 256 ألف رمز، مما يجعله مناسبًا للمهام التي تتطلب استدلالًا عميقًا ومعالجة مستندات طويلة."
|
||||
},
|
||||
"Qwen/Qwen3-30B-A3B": {
|
||||
"description": "Qwen3 هو نموذج جديد من الجيل التالي مع تحسينات كبيرة في القدرات، حيث يصل إلى مستويات رائدة في الاستدلال، المهام العامة، الوكلاء، واللغات المتعددة، ويدعم تبديل وضع التفكير."
|
||||
},
|
||||
"Qwen/Qwen3-30B-A3B-Instruct-2507": {
|
||||
"description": "Qwen3-30B-A3B-Instruct-2507 هو نسخة محدثة من Qwen3-30B-A3B في وضع عدم التفكير. هذا نموذج خبير مختلط (MoE) يحتوي على 30.5 مليار معلمة إجمالية و3.3 مليار معلمة تنشيط. تم تعزيز النموذج بشكل كبير في عدة جوانب، بما في ذلك تحسين كبير في الالتزام بالتعليمات، والتفكير المنطقي، وفهم النصوص، والرياضيات، والعلوم، والبرمجة، واستخدام الأدوات. كما حقق تقدمًا ملموسًا في تغطية المعرفة متعددة اللغات، ويستطيع التوافق بشكل أفضل مع تفضيلات المستخدم في المهام الذاتية والمفتوحة، مما يمكنه من توليد ردود أكثر فائدة ونصوص ذات جودة أعلى. بالإضافة إلى ذلك، تم تعزيز قدرة النموذج على فهم النصوص الطويلة إلى 256 ألف رمز. هذا النموذج يدعم فقط وضع عدم التفكير، ولن ينتج علامات `<think></think>` في مخرجاته."
|
||||
},
|
||||
"Qwen/Qwen3-32B": {
|
||||
"description": "Qwen3 هو نموذج جديد من الجيل التالي مع تحسينات كبيرة في القدرات، حيث يصل إلى مستويات رائدة في الاستدلال، المهام العامة، الوكلاء، واللغات المتعددة، ويدعم تبديل وضع التفكير."
|
||||
},
|
||||
@@ -362,12 +314,6 @@
|
||||
"Qwen2.5-Coder-32B-Instruct": {
|
||||
"description": "Qwen2.5-Coder-32B-Instruct هو نموذج لغوي كبير مصمم خصيصًا لتوليد الشيفرات، وفهم الشيفرات، ومشاهد التطوير الفعالة، مع استخدام حجم 32B من المعلمات الرائدة في الصناعة، مما يلبي احتياجات البرمجة المتنوعة."
|
||||
},
|
||||
"Qwen3-235B": {
|
||||
"description": "Qwen3-235B-A22B هو نموذج MoE (نموذج خبير مختلط) يقدم \"وضع الاستدلال المختلط\"، ويدعم المستخدمين في التبديل السلس بين \"وضع التفكير\" و\"وضع عدم التفكير\". يدعم فهم واستدلال 119 لغة ولهجة، ويتميز بقدرات قوية على استدعاء الأدوات. في اختبارات الأداء الشاملة، والبرمجة والرياضيات، واللغات المتعددة، والمعرفة والاستدلال، ينافس هذا النموذج النماذج الرائدة في السوق مثل DeepSeek R1، OpenAI o1، o3-mini، Grok 3، وGoogle Gemini 2.5 Pro."
|
||||
},
|
||||
"Qwen3-32B": {
|
||||
"description": "Qwen3-32B هو نموذج كثيف (Dense Model) يقدم \"وضع الاستدلال المختلط\"، ويدعم التبديل السلس بين \"وضع التفكير\" و\"وضع عدم التفكير\". بفضل تحسينات في بنية النموذج، وزيادة بيانات التدريب، وأساليب تدريب أكثر فعالية، يقدم أداءً يعادل تقريبًا Qwen2.5-72B."
|
||||
},
|
||||
"SenseChat": {
|
||||
"description": "نموذج الإصدار الأساسي (V4)، بطول سياق 4K، يمتلك قدرات قوية وعامة."
|
||||
},
|
||||
@@ -404,12 +350,6 @@
|
||||
"SenseChat-Vision": {
|
||||
"description": "النموذج الأحدث (V5.5) يدعم إدخال صور متعددة، ويحقق تحسينات شاملة في القدرات الأساسية للنموذج، مع تحسينات كبيرة في التعرف على خصائص الكائنات، والعلاقات المكانية، والتعرف على الأحداث، وفهم المشاهد، والتعرف على المشاعر، واستنتاج المعرفة المنطقية، وفهم النصوص وتوليدها."
|
||||
},
|
||||
"SenseNova-V6-5-Pro": {
|
||||
"description": "من خلال تحديث شامل للبيانات متعددة الوسائط، واللغوية، والاستدلالية، وتحسين استراتيجيات التدريب، حقق النموذج الجديد تحسينات ملحوظة في الاستدلال متعدد الوسائط وقدرة متابعة التعليمات العامة، ويدعم نافذة سياق تصل إلى 128 ألف رمز، ويظهر أداءً متميزًا في مهام متخصصة مثل التعرف الضوئي على الحروف (OCR) والتعرف على حقوق الملكية الفكرية في السياحة والثقافة."
|
||||
},
|
||||
"SenseNova-V6-5-Turbo": {
|
||||
"description": "من خلال تحديث شامل للبيانات متعددة الوسائط، واللغوية، والاستدلالية، وتحسين استراتيجيات التدريب، حقق النموذج الجديد تحسينات ملحوظة في الاستدلال متعدد الوسائط وقدرة متابعة التعليمات العامة، ويدعم نافذة سياق تصل إلى 128 ألف رمز، ويظهر أداءً متميزًا في مهام متخصصة مثل التعرف الضوئي على الحروف (OCR) والتعرف على حقوق الملكية الفكرية في السياحة والثقافة."
|
||||
},
|
||||
"SenseNova-V6-Pro": {
|
||||
"description": "تحقيق توحيد أصلي لقدرات الصور والنصوص والفيديو، متجاوزًا حدود التعدد النمطي التقليدي المنفصل، وفاز بالبطولة المزدوجة في تقييمات OpenCompass وSuperCLUE."
|
||||
},
|
||||
@@ -1004,9 +944,6 @@
|
||||
"doubao-seed-1.6-thinking": {
|
||||
"description": "نموذج Doubao-Seed-1.6-thinking يعزز قدرات التفكير بشكل كبير، مقارنة بـ Doubao-1.5-thinking-pro، مع تحسينات إضافية في القدرات الأساسية مثل البرمجة والرياضيات والاستدلال المنطقي، ويدعم الفهم البصري. يدعم نافذة سياق بحجم 256k وطول إخراج يصل إلى 16k رمز."
|
||||
},
|
||||
"doubao-seedream-3-0-t2i-250415": {
|
||||
"description": "نموذج توليد الصور Doubao طوره فريق Seed في ByteDance، يدعم إدخال النص والصورة، ويوفر تجربة توليد صور عالية الجودة وقابلة للتحكم. يولد الصور بناءً على أوامر نصية."
|
||||
},
|
||||
"doubao-vision-lite-32k": {
|
||||
"description": "نموذج Doubao-vision هو نموذج متعدد الوسائط أطلقته Doubao، يتمتع بقدرات قوية في فهم الصور والاستدلال، بالإضافة إلى دقة عالية في فهم التعليمات. أظهر النموذج أداءً قويًا في استخراج المعلومات من النصوص والصور، والمهام الاستدلالية القائمة على الصور، مما يجعله مناسبًا لمهام الأسئلة البصرية المعقدة والواسعة."
|
||||
},
|
||||
@@ -1058,9 +995,6 @@
|
||||
"ernie-char-fiction-8k": {
|
||||
"description": "نموذج اللغة الكبير المخصص الذي طورته بايدو، مناسب لتطبيقات مثل NPC في الألعاب، محادثات خدمة العملاء، وأدوار الحوار، حيث يتميز بأسلوب شخصيات واضح ومتسق، وقدرة قوية على اتباع التعليمات، وأداء استدلال ممتاز."
|
||||
},
|
||||
"ernie-irag-edit": {
|
||||
"description": "نموذج تحرير الصور ERNIE iRAG المطور ذاتيًا من Baidu يدعم عمليات مثل المسح (إزالة الكائنات)، إعادة الرسم (إعادة رسم الكائنات)، والتنوع (توليد متغيرات) بناءً على الصور."
|
||||
},
|
||||
"ernie-lite-8k": {
|
||||
"description": "ERNIE Lite هو نموذج اللغة الكبير الخفيف الذي طورته بايدو، يجمع بين أداء النموذج الممتاز وأداء الاستدلال، مناسب للاستخدام مع بطاقات تسريع الذكاء الاصطناعي ذات القدرة الحاسوبية المنخفضة."
|
||||
},
|
||||
@@ -1088,27 +1022,12 @@
|
||||
"ernie-x1-turbo-32k": {
|
||||
"description": "يتميز هذا النموذج بأداء أفضل مقارنةً بـ ERNIE-X1-32K."
|
||||
},
|
||||
"flux-1-schnell": {
|
||||
"description": "نموذج توليد صور نصية يحتوي على 12 مليار معلمة طورته Black Forest Labs، يستخدم تقنية تقطير الانتشار التنافسي الكامن، قادر على توليد صور عالية الجودة في 1 إلى 4 خطوات. أداء النموذج يضاهي البدائل المغلقة المصدر، ومتاح بموجب ترخيص Apache-2.0 للاستخدام الشخصي، البحثي والتجاري."
|
||||
},
|
||||
"flux-dev": {
|
||||
"description": "FLUX.1 [dev] هو نموذج مفتوح المصدر للأوزان المكررة موجه للتطبيقات غير التجارية. يحافظ على جودة الصور وقدرة اتباع التعليمات مماثلة لإصدار FLUX الاحترافي، مع كفاءة تشغيل أعلى. مقارنة بالنماذج القياسية ذات الحجم المماثل، يستخدم الموارد بشكل أكثر فعالية."
|
||||
},
|
||||
"flux-kontext/dev": {
|
||||
"description": "نموذج تحرير الصور Frontier."
|
||||
},
|
||||
"flux-merged": {
|
||||
"description": "نموذج FLUX.1-merged يجمع بين ميزات العمق التي استكشفتها نسخة \"DEV\" أثناء التطوير ومزايا التنفيذ السريع التي تمثلها نسخة \"Schnell\". من خلال هذا الدمج، يعزز FLUX.1-merged حدود أداء النموذج ويوسع نطاق تطبيقاته."
|
||||
},
|
||||
"flux-pro/kontext": {
|
||||
"description": "FLUX.1 Kontext [pro] قادر على معالجة النصوص والصور المرجعية كمدخلات، مما يتيح تحريرًا محليًا مستهدفًا وتحولات معقدة للمشهد الكلي بسلاسة."
|
||||
},
|
||||
"flux-schnell": {
|
||||
"description": "FLUX.1 [schnell] هو النموذج المفتوح المصدر الأكثر تقدمًا حاليًا في فئة النماذج قليلة الخطوات، متفوقًا على المنافسين وحتى على نماذج غير مكررة قوية مثل Midjourney v6.0 وDALL·E 3 (HD). تم ضبط النموذج خصيصًا للحفاظ على تنوع المخرجات الكامل من مرحلة ما قبل التدريب، ويحقق تحسينات ملحوظة في جودة الصورة، الالتزام بالتعليمات، التغيرات في الحجم/النسبة، معالجة الخطوط وتنوع المخرجات مقارنة بأحدث النماذج في السوق، مما يوفر تجربة توليد صور إبداعية أكثر ثراءً وتنوعًا للمستخدمين."
|
||||
},
|
||||
"flux.1-schnell": {
|
||||
"description": "محول تدفق مصحح يحتوي على 12 مليار معلمة، قادر على توليد الصور بناءً على الوصف النصي."
|
||||
},
|
||||
"flux/schnell": {
|
||||
"description": "FLUX.1 [schnell] هو نموذج محول متدفق يحتوي على 12 مليار معلمة، قادر على توليد صور عالية الجودة من النص في 1 إلى 4 خطوات، مناسب للاستخدام الشخصي والتجاري."
|
||||
},
|
||||
@@ -1190,6 +1109,9 @@
|
||||
"gemini-2.5-flash-preview-04-17": {
|
||||
"description": "معاينة فلاش جمنّي 2.5 هي النموذج الأكثر كفاءة من جوجل، حيث تقدم مجموعة شاملة من الميزات."
|
||||
},
|
||||
"gemini-2.5-flash-preview-04-17-thinking": {
|
||||
"description": "Gemini 2.5 Flash Preview هو نموذج Google الأكثر فعالية من حيث التكلفة، يقدم وظائف شاملة."
|
||||
},
|
||||
"gemini-2.5-flash-preview-05-20": {
|
||||
"description": "Gemini 2.5 Flash Preview هو نموذج Google الأكثر فعالية من حيث التكلفة، يقدم وظائف شاملة."
|
||||
},
|
||||
@@ -1268,21 +1190,6 @@
|
||||
"glm-4.1v-thinking-flashx": {
|
||||
"description": "سلسلة نماذج GLM-4.1V-Thinking هي أقوى نماذج اللغة البصرية المعروفة على مستوى 10 مليارات معلمة، وتدمج مهام اللغة البصرية المتقدمة من نفس المستوى، بما في ذلك فهم الفيديو، الأسئلة والأجوبة على الصور، حل المسائل العلمية، التعرف على النصوص OCR، تفسير الوثائق والرسوم البيانية، وكلاء واجهة المستخدم الرسومية، ترميز صفحات الويب الأمامية، والتثبيت الأرضي، وغيرها. تتفوق قدرات هذه المهام على نموذج Qwen2.5-VL-72B الذي يحتوي على أكثر من 8 أضعاف عدد المعلمات. من خلال تقنيات التعلم المعزز الرائدة، يتقن النموذج تحسين دقة وإثراء الإجابات عبر استدلال سلسلة التفكير، متفوقًا بشكل ملحوظ على النماذج التقليدية غير المعتمدة على التفكير من حيث النتائج النهائية وقابلية التفسير."
|
||||
},
|
||||
"glm-4.5": {
|
||||
"description": "أحدث نموذج رائد من Zhizhu، يدعم تبديل وضع التفكير، ويحقق مستوى SOTA بين النماذج المفتوحة المصدر في القدرات الشاملة، مع طول سياق يصل إلى 128 ألف رمز."
|
||||
},
|
||||
"glm-4.5-air": {
|
||||
"description": "نسخة خفيفة من GLM-4.5، تجمع بين الأداء والقيمة، وتدعم التبديل المرن بين نماذج التفكير المختلطة."
|
||||
},
|
||||
"glm-4.5-airx": {
|
||||
"description": "نسخة فائقة السرعة من GLM-4.5-Air، تستجيب بسرعة أكبر، مصممة لتلبية الطلبات الكبيرة عالية السرعة."
|
||||
},
|
||||
"glm-4.5-flash": {
|
||||
"description": "نسخة مجانية من GLM-4.5، تقدم أداءً ممتازًا في الاستدلال، البرمجة، والوكيل."
|
||||
},
|
||||
"glm-4.5-x": {
|
||||
"description": "نسخة فائقة السرعة من GLM-4.5، تجمع بين أداء قوي وسرعة توليد تصل إلى 100 رمز في الثانية."
|
||||
},
|
||||
"glm-4v": {
|
||||
"description": "GLM-4V يوفر قدرات قوية في فهم الصور والاستدلال، ويدعم مجموعة متنوعة من المهام البصرية."
|
||||
},
|
||||
@@ -1302,7 +1209,7 @@
|
||||
"description": "استدلال فائق السرعة: يتمتع بسرعة استدلال فائقة وأداء استدلال قوي."
|
||||
},
|
||||
"glm-z1-flash": {
|
||||
"description": "سلسلة GLM-Z1 تتميز بقدرات استدلال معقدة قوية، وتتفوق في مجالات الاستدلال المنطقي، الرياضيات، والبرمجة."
|
||||
"description": "سلسلة GLM-Z1 تتمتع بقدرة استدلال معقدة قوية، تظهر أداءً ممتازًا في مجالات الاستدلال المنطقي، الرياضيات، والبرمجة. الحد الأقصى لطول السياق هو 32K."
|
||||
},
|
||||
"glm-z1-flashx": {
|
||||
"description": "سرعة عالية وتكلفة منخفضة: نسخة محسنة من Flash، سرعة استدلال فائقة، وضمان تزامن أسرع."
|
||||
@@ -1478,9 +1385,6 @@
|
||||
"grok-2-1212": {
|
||||
"description": "لقد تم تحسين هذا النموذج في الدقة، والامتثال للتعليمات، والقدرة على التعامل مع لغات متعددة."
|
||||
},
|
||||
"grok-2-image-1212": {
|
||||
"description": "نموذج توليد الصور الأحدث لدينا قادر على توليد صور حيوية وواقعية بناءً على الأوامر النصية. يبرع في مجالات التسويق، وسائل التواصل الاجتماعي، والترفيه."
|
||||
},
|
||||
"grok-2-vision-1212": {
|
||||
"description": "لقد تم تحسين هذا النموذج في الدقة، والامتثال للتعليمات، والقدرة على التعامل مع لغات متعددة."
|
||||
},
|
||||
@@ -1550,9 +1454,6 @@
|
||||
"hunyuan-t1-20250529": {
|
||||
"description": "محسن لإنشاء النصوص وكتابة المقالات، مع تحسين القدرات في البرمجة الأمامية، الرياضيات، والمنطق العلمي، بالإضافة إلى تعزيز القدرة على اتباع التعليمات."
|
||||
},
|
||||
"hunyuan-t1-20250711": {
|
||||
"description": "تحسين كبير في القدرات الرياضية، المنطقية والبرمجية عالية الصعوبة، مع تحسين استقرار مخرجات النموذج وتعزيز قدرات النصوص الطويلة."
|
||||
},
|
||||
"hunyuan-t1-latest": {
|
||||
"description": "أول نموذج استدلال هجين ضخم في الصناعة، يوسع قدرات الاستدلال، بسرعة فك تشفير فائقة، ويعزز التوافق مع تفضيلات البشر."
|
||||
},
|
||||
@@ -1601,12 +1502,6 @@
|
||||
"hunyuan-vision": {
|
||||
"description": "نموذج Hunyuan الأحدث متعدد الوسائط، يدعم إدخال الصور والنصوص لتوليد محتوى نصي."
|
||||
},
|
||||
"image-01": {
|
||||
"description": "نموذج توليد صور جديد يقدم تفاصيل دقيقة، يدعم توليد الصور من النصوص والصور."
|
||||
},
|
||||
"image-01-live": {
|
||||
"description": "نموذج توليد صور يقدم تفاصيل دقيقة، يدعم توليد الصور من النصوص مع إمكانية ضبط الأسلوب الفني."
|
||||
},
|
||||
"imagen-4.0-generate-preview-06-06": {
|
||||
"description": "سلسلة نموذج Imagen للجيل الرابع لتحويل النص إلى صورة"
|
||||
},
|
||||
@@ -1631,9 +1526,6 @@
|
||||
"internvl3-latest": {
|
||||
"description": "أحدث نموذج متعدد الوسائط تم إصداره، يتمتع بقدرات فهم أقوى للنصوص والصور، وفهم الصور على المدى الطويل، وأدائه يتساوى مع النماذج المغلقة الرائدة. يشير بشكل افتراضي إلى أحدث نموذج من سلسلة InternVL، الحالي هو internvl3-78b."
|
||||
},
|
||||
"irag-1.0": {
|
||||
"description": "نموذج iRAG (استرجاع معزز بالصور) المطور ذاتيًا من Baidu، يجمع بين موارد صور بحث Baidu الضخمة وقدرات النموذج الأساسي القوية لتوليد صور فائقة الواقعية، متفوقًا بشكل كبير على أنظمة توليد الصور النصية الأصلية، مع إزالة الطابع الاصطناعي وتقليل التكلفة. يتميز iRAG بعدم وجود هلوسة، واقعية فائقة، وسرعة في الحصول على النتائج."
|
||||
},
|
||||
"jamba-large": {
|
||||
"description": "أقوى وأحدث نموذج لدينا، مصمم لمعالجة المهام المعقدة على مستوى المؤسسات، ويتميز بأداء استثنائي."
|
||||
},
|
||||
@@ -1643,9 +1535,6 @@
|
||||
"jina-deepsearch-v1": {
|
||||
"description": "البحث العميق يجمع بين البحث عبر الإنترنت، والقراءة، والاستدلال، مما يتيح إجراء تحقيق شامل. يمكنك اعتباره وكيلًا يتولى مهام البحث الخاصة بك - حيث يقوم بإجراء بحث واسع النطاق ويخضع لعدة تكرارات قبل تقديم الإجابة. تتضمن هذه العملية بحثًا مستمرًا، واستدلالًا، وحل المشكلات من زوايا متعددة. وهذا يختلف اختلافًا جوهريًا عن النماذج الكبيرة القياسية التي تولد الإجابات مباشرة من البيانات المدربة مسبقًا، وكذلك عن أنظمة RAG التقليدية التي تعتمد على البحث السطحي لمرة واحدة."
|
||||
},
|
||||
"kimi-k2": {
|
||||
"description": "Kimi-K2 هو نموذج أساسي يعتمد على بنية MoE أطلقته Moonshot AI، يتمتع بقدرات قوية في البرمجة والوكيل، يحتوي على 1 تريليون معلمة و32 مليار معلمة مفعلة. يتفوق نموذج K2 في اختبارات الأداء الأساسية في مجالات المعرفة العامة، البرمجة، الرياضيات والوكيل مقارنة بالنماذج المفتوحة المصدر الأخرى."
|
||||
},
|
||||
"kimi-k2-0711-preview": {
|
||||
"description": "kimi-k2 هو نموذج أساسي بمعمارية MoE يتمتع بقدرات فائقة في البرمجة والوكيل، مع إجمالي 1 تريليون معلمة و32 مليار معلمة مفعلة. في اختبارات الأداء الأساسية في مجالات المعرفة العامة، البرمجة، الرياضيات، والوكيل، يتفوق نموذج K2 على النماذج المفتوحة المصدر الرئيسية الأخرى."
|
||||
},
|
||||
@@ -2039,9 +1928,6 @@
|
||||
"moonshotai/Kimi-Dev-72B": {
|
||||
"description": "Kimi-Dev-72B هو نموذج مفتوح المصدر للبرمجة، تم تحسينه عبر تعلم معزز واسع النطاق، قادر على إنتاج تصحيحات مستقرة وجاهزة للإنتاج مباشرة. حقق هذا النموذج نتيجة قياسية جديدة بنسبة 60.4% على SWE-bench Verified، محطماً الأرقام القياسية للنماذج المفتوحة المصدر في مهام هندسة البرمجيات الآلية مثل إصلاح العيوب ومراجعة الشيفرة."
|
||||
},
|
||||
"moonshotai/Kimi-K2-Instruct": {
|
||||
"description": "Kimi K2 هو نموذج أساسي يعتمد على بنية MoE يتمتع بقدرات قوية في البرمجة والوكيل، يحتوي على 1 تريليون معلمة و32 مليار معلمة مفعلة. يتفوق نموذج K2 في اختبارات الأداء الأساسية في مجالات المعرفة العامة، البرمجة، الرياضيات والوكيل مقارنة بالنماذج المفتوحة المصدر الأخرى."
|
||||
},
|
||||
"moonshotai/kimi-k2-instruct": {
|
||||
"description": "kimi-k2 هو نموذج أساسي مبني على بنية MoE يتمتع بقدرات فائقة في البرمجة والوكيل، مع إجمالي 1 تريليون معلمة و32 مليار معلمة مفعلة. في اختبارات الأداء المعيارية في مجالات المعرفة العامة، البرمجة، الرياضيات، والوكيل، يتفوق نموذج K2 على النماذج المفتوحة المصدر الرئيسية الأخرى."
|
||||
},
|
||||
@@ -2378,21 +2264,9 @@
|
||||
"qwen3-235b-a22b": {
|
||||
"description": "Qwen3 هو نموذج جديد من الجيل التالي مع تحسينات كبيرة في القدرات، حيث يصل إلى مستويات رائدة في الصناعة في الاستدلال، والعموم، والوكلاء، واللغات المتعددة، ويدعم التبديل بين أنماط التفكير."
|
||||
},
|
||||
"qwen3-235b-a22b-instruct-2507": {
|
||||
"description": "نموذج مفتوح المصدر غير تفكيري مبني على Qwen3، مع تحسينات طفيفة في القدرات الإبداعية والسلامة مقارنة بالإصدار السابق (Tongyi Qianwen 3-235B-A22B)."
|
||||
},
|
||||
"qwen3-235b-a22b-thinking-2507": {
|
||||
"description": "نموذج مفتوح المصدر تفكيري مبني على Qwen3، مع تحسينات كبيرة في القدرات المنطقية، العامة، تعزيز المعرفة والإبداع مقارنة بالإصدار السابق (Tongyi Qianwen 3-235B-A22B)، مناسب للمهام المعقدة التي تتطلب استدلالًا قويًا."
|
||||
},
|
||||
"qwen3-30b-a3b": {
|
||||
"description": "Qwen3 هو نموذج جديد من الجيل التالي مع تحسينات كبيرة في القدرات، حيث يصل إلى مستويات رائدة في الصناعة في الاستدلال، والعموم، والوكلاء، واللغات المتعددة، ويدعم التبديل بين أنماط التفكير."
|
||||
},
|
||||
"qwen3-30b-a3b-instruct-2507": {
|
||||
"description": "تحسنت القدرات العامة للنموذج بشكل كبير في اللغتين الصينية والإنجليزية واللغات المتعددة مقارنة بالإصدار السابق (Qwen3-30B-A3B). تم تحسين المهام المفتوحة الذاتية بشكل خاص لتتوافق بشكل أفضل مع تفضيلات المستخدم، مما يمكنه من تقديم ردود أكثر فائدة."
|
||||
},
|
||||
"qwen3-30b-a3b-thinking-2507": {
|
||||
"description": "نموذج مفتوح المصدر لوضع التفكير مبني على Qwen3، مع تحسينات كبيرة في القدرات المنطقية، والقدرات العامة، وتعزيز المعرفة، والقدرة الإبداعية مقارنة بالإصدار السابق (Tongyi Qianwen 3-30B-A3B)، مناسب للسيناريوهات التي تتطلب استدلالًا عالي الصعوبة."
|
||||
},
|
||||
"qwen3-32b": {
|
||||
"description": "Qwen3 هو نموذج جديد من الجيل التالي مع تحسينات كبيرة في القدرات، حيث يصل إلى مستويات رائدة في الصناعة في الاستدلال، والعموم، والوكلاء، واللغات المتعددة، ويدعم التبديل بين أنماط التفكير."
|
||||
},
|
||||
@@ -2402,12 +2276,6 @@
|
||||
"qwen3-8b": {
|
||||
"description": "Qwen3 هو نموذج جديد من الجيل التالي مع تحسينات كبيرة في القدرات، حيث يصل إلى مستويات رائدة في الصناعة في الاستدلال، والعموم، والوكلاء، واللغات المتعددة، ويدعم التبديل بين أنماط التفكير."
|
||||
},
|
||||
"qwen3-coder-480b-a35b-instruct": {
|
||||
"description": "نسخة مفتوحة المصدر من نموذج كود Tongyi Qianwen. أحدث نموذج qwen3-coder-480b-a35b-instruct مبني على Qwen3 لتوليد الكود، يتمتع بقدرات قوية كوكيل برمجي، بارع في استدعاء الأدوات والتفاعل مع البيئة، قادر على البرمجة الذاتية مع أداء برمجي ممتاز وقدرات عامة."
|
||||
},
|
||||
"qwen3-coder-plus": {
|
||||
"description": "نموذج كود Tongyi Qianwen. أحدث سلسلة Qwen3-Coder-Plus مبنية على Qwen3 لتوليد الكود، تتمتع بقدرات قوية كوكيل برمجي، بارعة في استدعاء الأدوات والتفاعل مع البيئة، قادرة على البرمجة الذاتية مع أداء برمجي ممتاز وقدرات عامة."
|
||||
},
|
||||
"qwq": {
|
||||
"description": "QwQ هو نموذج بحث تجريبي يركز على تحسين قدرات الاستدلال للذكاء الاصطناعي."
|
||||
},
|
||||
@@ -2450,24 +2318,6 @@
|
||||
"sonar-reasoning-pro": {
|
||||
"description": "منتج API جديد مدعوم من نموذج الاستدلال DeepSeek."
|
||||
},
|
||||
"stable-diffusion-3-medium": {
|
||||
"description": "نموذج توليد صور نصية كبير أحدث من Stability AI. هذا الإصدار يحسن جودة الصور، فهم النصوص وتنوع الأساليب بشكل ملحوظ مقارنة بالأجيال السابقة، قادر على تفسير أوامر اللغة الطبيعية المعقدة بدقة وتوليد صور أكثر دقة وتنوعًا."
|
||||
},
|
||||
"stable-diffusion-3.5-large": {
|
||||
"description": "stable-diffusion-3.5-large هو نموذج مولد صور نصية متعدد الوسائط (MMDiT) يحتوي على 800 مليون معلمة، يتميز بجودة صور ممتازة وتوافق عالي مع الأوامر النصية، يدعم توليد صور عالية الدقة تصل إلى مليون بكسل، ويعمل بكفاءة على الأجهزة الاستهلاكية العادية."
|
||||
},
|
||||
"stable-diffusion-3.5-large-turbo": {
|
||||
"description": "stable-diffusion-3.5-large-turbo هو نموذج مبني على stable-diffusion-3.5-large يستخدم تقنية تقطير الانتشار التنافسي (ADD) لتحقيق سرعة أعلى."
|
||||
},
|
||||
"stable-diffusion-v1.5": {
|
||||
"description": "stable-diffusion-v1.5 تم تهيئته باستخدام أوزان نقطة التحقق stable-diffusion-v1.2، وتم ضبطه بدقة على \"laion-aesthetics v2 5+\" بدقة 512x512 عبر 595 ألف خطوة، مع تقليل شرطية النص بنسبة 10% لتحسين التوليد بدون مصنف."
|
||||
},
|
||||
"stable-diffusion-xl": {
|
||||
"description": "stable-diffusion-xl يحتوي على تحسينات كبيرة مقارنة بالإصدار v1.5، ويعادل أداء نموذج midjourney المفتوح المصدر الرائد. تشمل التحسينات: بنية unet أكبر بثلاثة أضعاف، إضافة وحدة تحسين لتحسين جودة الصور المولدة، وتقنيات تدريب أكثر كفاءة."
|
||||
},
|
||||
"stable-diffusion-xl-base-1.0": {
|
||||
"description": "نموذج توليد صور نصية كبير طورته Stability AI ومفتوح المصدر، يتميز بقدرات توليد صور إبداعية رائدة في الصناعة. يمتلك فهمًا ممتازًا للتعليمات ويدعم تعريف العكس (Reverse Prompt) لتوليد محتوى دقيق."
|
||||
},
|
||||
"step-1-128k": {
|
||||
"description": "يوفر توازنًا بين الأداء والتكلفة، مناسب لمجموعة متنوعة من السيناريوهات."
|
||||
},
|
||||
@@ -2498,12 +2348,6 @@
|
||||
"step-1v-8k": {
|
||||
"description": "نموذج بصري صغير، مناسب للمهام الأساسية المتعلقة بالنصوص والصور."
|
||||
},
|
||||
"step-1x-edit": {
|
||||
"description": "نموذج متخصص في مهام تحرير الصور، قادر على تعديل وتعزيز الصور بناءً على الصور والأوصاف النصية التي يقدمها المستخدم. يدعم تنسيقات إدخال متعددة، بما في ذلك الأوصاف النصية والصور النموذجية. يفهم نية المستخدم ويولد نتائج تحرير صور متوافقة مع المتطلبات."
|
||||
},
|
||||
"step-1x-medium": {
|
||||
"description": "نموذج قوي لتوليد الصور يدعم الإدخال عبر الأوصاف النصية. يدعم اللغة الصينية بشكل أصلي، قادر على فهم ومعالجة الأوصاف النصية الصينية بدقة، والتقاط المعاني الدلالية وتحويلها إلى ميزات صور لتحقيق توليد صور أكثر دقة. يولد صورًا عالية الدقة والجودة، ويمتلك قدرات نقل الأسلوب."
|
||||
},
|
||||
"step-2-16k": {
|
||||
"description": "يدعم تفاعلات سياق كبيرة، مناسب لمشاهد الحوار المعقدة."
|
||||
},
|
||||
@@ -2513,9 +2357,6 @@
|
||||
"step-2-mini": {
|
||||
"description": "نموذج كبير سريع يعتمد على بنية الانتباه الجديدة MFA، يحقق نتائج مشابهة لـ step1 بتكلفة منخفضة جداً، مع الحفاظ على قدرة أعلى على المعالجة وزمن استجابة أسرع. يمكنه التعامل مع المهام العامة، ويتميز بقدرات قوية في البرمجة."
|
||||
},
|
||||
"step-2x-large": {
|
||||
"description": "نموذج الجيل الجديد من Step Star، يركز على مهام توليد الصور، قادر على توليد صور عالية الجودة بناءً على الأوصاف النصية المقدمة من المستخدم. يتميز النموذج الجديد بجودة صور أكثر واقعية وقدرات أفضل في توليد النصوص الصينية والإنجليزية."
|
||||
},
|
||||
"step-r1-v-mini": {
|
||||
"description": "هذا النموذج هو نموذج استدلال كبير يتمتع بقدرة قوية على فهم الصور، يمكنه معالجة المعلومات النصية والصورية، ويخرج نصوصًا بعد تفكير عميق. يظهر هذا النموذج أداءً بارزًا في مجال الاستدلال البصري، كما يمتلك قدرات رياضية، برمجية، ونصية من الدرجة الأولى. طول السياق هو 100k."
|
||||
},
|
||||
@@ -2591,23 +2432,8 @@
|
||||
"v0-1.5-md": {
|
||||
"description": "نموذج v0-1.5-md مناسب للمهام اليومية وتوليد واجهات المستخدم (UI)"
|
||||
},
|
||||
"wan2.2-t2i-flash": {
|
||||
"description": "نسخة Wanxiang 2.2 فائقة السرعة، أحدث نموذج حاليًا. تم تحسين الإبداع، الاستقرار، والواقعية بشكل شامل، مع سرعة توليد عالية وقيمة ممتازة مقابل التكلفة."
|
||||
},
|
||||
"wan2.2-t2i-plus": {
|
||||
"description": "نسخة Wanxiang 2.2 الاحترافية، أحدث نموذج حاليًا. تم تحسين الإبداع، الاستقرار، والواقعية بشكل شامل، مع تفاصيل توليد غنية."
|
||||
},
|
||||
"wanx-v1": {
|
||||
"description": "نموذج أساسي لتوليد الصور النصية. يتوافق مع نموذج Tongyi Wanxiang 1.0 الرسمي."
|
||||
},
|
||||
"wanx2.0-t2i-turbo": {
|
||||
"description": "متخصص في توليد صور بورتريه واقعية، سرعة متوسطة وتكلفة منخفضة. يتوافق مع نموذج Tongyi Wanxiang 2.0 السريع الرسمي."
|
||||
},
|
||||
"wanx2.1-t2i-plus": {
|
||||
"description": "نسخة مطورة شاملة. توليد صور بتفاصيل أكثر ثراءً، سرعة أقل قليلاً. يتوافق مع نموذج Tongyi Wanxiang 2.1 الاحترافي الرسمي."
|
||||
},
|
||||
"wanx2.1-t2i-turbo": {
|
||||
"description": "نسخة مطورة شاملة. سرعة توليد عالية، أداء شامل، وقيمة ممتازة مقابل التكلفة. يتوافق مع نموذج Tongyi Wanxiang 2.1 السريع الرسمي."
|
||||
"description": "نموذج توليد الصور التابع لشركة علي بابا كلاود Tongyi"
|
||||
},
|
||||
"whisper-1": {
|
||||
"description": "نموذج التعرف على الصوت العام، يدعم التعرف على الصوت بعدة لغات، الترجمة الصوتية، والتعرف على اللغة."
|
||||
@@ -2659,11 +2485,5 @@
|
||||
},
|
||||
"yi-vision-v2": {
|
||||
"description": "نموذج مهام بصرية معقدة، يوفر فهمًا عالي الأداء وقدرات تحليلية بناءً على صور متعددة."
|
||||
},
|
||||
"zai-org/GLM-4.5": {
|
||||
"description": "GLM-4.5 هو نموذج أساسي مصمم لتطبيقات الوكلاء الذكية، يستخدم بنية Mixture-of-Experts (MoE). تم تحسينه بعمق في مجالات استدعاء الأدوات، تصفح الويب، هندسة البرمجيات، وبرمجة الواجهة الأمامية، ويدعم التكامل السلس مع وكلاء الكود مثل Claude Code وRoo Code. يستخدم وضع استدلال مختلط ليتكيف مع سيناريوهات الاستدلال المعقدة والاستخدام اليومي."
|
||||
},
|
||||
"zai-org/GLM-4.5-Air": {
|
||||
"description": "GLM-4.5-Air هو نموذج أساسي مصمم لتطبيقات الوكلاء الذكية، يستخدم بنية Mixture-of-Experts (MoE). تم تحسينه بعمق في مجالات استدعاء الأدوات، تصفح الويب، هندسة البرمجيات، وبرمجة الواجهة الأمامية، ويدعم التكامل السلس مع وكلاء الكود مثل Claude Code وRoo Code. يستخدم وضع استدلال مختلط ليتكيف مع سيناريوهات الاستدلال المعقدة والاستخدام اليومي."
|
||||
}
|
||||
}
|
||||
|
||||
@@ -5,9 +5,6 @@
|
||||
"ai360": {
|
||||
"description": "AI 360 هي منصة نماذج وخدمات الذكاء الاصطناعي التي أطلقتها شركة 360، تقدم مجموعة متنوعة من نماذج معالجة اللغة الطبيعية المتقدمة، بما في ذلك 360GPT2 Pro و360GPT Pro و360GPT Turbo و360GPT Turbo Responsibility 8K. تجمع هذه النماذج بين المعلمات الكبيرة والقدرات متعددة الوسائط، وتستخدم على نطاق واسع في توليد النصوص، وفهم المعاني، وأنظمة الحوار، وتوليد الشيفرات. من خلال استراتيجيات تسعير مرنة، تلبي AI 360 احتياجات المستخدمين المتنوعة، وتدعم المطورين في التكامل، مما يعزز الابتكار والتطوير في التطبيقات الذكية."
|
||||
},
|
||||
"aihubmix": {
|
||||
"description": "يوفر AiHubMix الوصول إلى نماذج الذكاء الاصطناعي المتعددة من خلال واجهة برمجة تطبيقات موحدة."
|
||||
},
|
||||
"anthropic": {
|
||||
"description": "Anthropic هي شركة تركز على أبحاث وتطوير الذكاء الاصطناعي، وتقدم مجموعة من نماذج اللغة المتقدمة، مثل Claude 3.5 Sonnet وClaude 3 Sonnet وClaude 3 Opus وClaude 3 Haiku. تحقق هذه النماذج توازنًا مثاليًا بين الذكاء والسرعة والتكلفة، وتناسب مجموعة متنوعة من سيناريوهات التطبيقات، من أحمال العمل على مستوى المؤسسات إلى الاستجابات السريعة. يعتبر Claude 3.5 Sonnet أحدث نماذجها، وقد أظهر أداءً ممتازًا في العديد من التقييمات مع الحفاظ على نسبة تكلفة فعالة."
|
||||
},
|
||||
|
||||
@@ -189,7 +189,6 @@
|
||||
"aesGcm": "Вашият ключ и адреса на прокси ще бъдат криптирани с <1>AES-GCM</1> алгоритъм",
|
||||
"apiKey": {
|
||||
"desc": "Моля, въведете вашия {{name}} API ключ",
|
||||
"descWithUrl": "Моля, въведете вашия {{name}} API ключ, <3>кликнете тук, за да го получите</3>",
|
||||
"placeholder": "{{name}} API ключ",
|
||||
"title": "API ключ"
|
||||
},
|
||||
|
||||
+5
-185
@@ -32,9 +32,6 @@
|
||||
"4.0Ultra": {
|
||||
"description": "Spark4.0 Ultra е най-мощната версия в серията Starfire, която подобрява разбирането и обобщаването на текстовото съдържание, докато надгражда свързаните търсения. Това е всестранно решение за повишаване на производителността в офиса и точно отговаряне на нуждите, водещо в индустрията интелигентно решение."
|
||||
},
|
||||
"AnimeSharp": {
|
||||
"description": "AnimeSharp (известен още като “4x‑AnimeSharp”) е отворен модел за свръхрезолюция, разработен от Kim2091 на базата на архитектурата ESRGAN, фокусиран върху увеличаване и изостряне на изображения в аниме стил. През февруари 2022 г. моделът е преименуван от “4x-TextSharpV1” и първоначално е бил подходящ и за текстови изображения, но е оптимизиран значително за аниме съдържание."
|
||||
},
|
||||
"Baichuan2-Turbo": {
|
||||
"description": "Използва технологии за подобряване на търсенето, за да свърже голям модел с областни знания и знания от интернет. Поддържа качване на различни документи като PDF, Word и вход на уебсайтове, с бърз и цялостен достъп до информация, предоставяйки точни и професионални резултати."
|
||||
},
|
||||
@@ -92,9 +89,6 @@
|
||||
"Doubao-pro-4k": {
|
||||
"description": "Най-ефективният основен модел, подходящ за обработка на сложни задачи, с отлични резултати в справки, обобщения, творчество, текстова класификация и ролеви игри. Поддържа разсъждения и финна настройка с контекстен прозорец от 4k."
|
||||
},
|
||||
"DreamO": {
|
||||
"description": "DreamO е отворен модел за персонализирано генериране на изображения, съвместно разработен от ByteDance и Пекинския университет, с цел поддържане на мултизадачно генериране на изображения чрез унифицирана архитектура. Той използва ефективен комбиниран модел, който може да генерира високо съгласувани и персонализирани изображения според множество условия, зададени от потребителя, като идентичност, обект, стил и фон."
|
||||
},
|
||||
"ERNIE-3.5-128K": {
|
||||
"description": "Флагманският модел на Baidu, разработен самостоятелно, е мащабен езиков модел, който обхваща огромно количество китайски и английски текстове. Той притежава мощни общи способности и може да отговори на почти всички изисквания за диалогови въпроси и отговори, генериране на съдържание и приложения с плъгини; поддържа автоматично свързване с плъгина за търсене на Baidu, осигурявайки актуалност на информацията за отговорите."
|
||||
},
|
||||
@@ -128,39 +122,15 @@
|
||||
"ERNIE-Speed-Pro-128K": {
|
||||
"description": "Най-новият модел на Baidu за големи езикови модели с висока производителност, разработен самостоятелно, с отлични общи способности, по-добри резултати в сравнение с ERNIE Speed, подходящ за основен модел за фина настройка, за по-добро справяне с конкретни проблеми, като същевременно предлага отлична производителност при извеждане."
|
||||
},
|
||||
"FLUX.1-Kontext-dev": {
|
||||
"description": "FLUX.1-Kontext-dev е мултимоделен модел за генериране и редактиране на изображения, разработен от Black Forest Labs, базиран на архитектурата Rectified Flow Transformer с 12 милиарда параметри. Моделът е специализиран в генериране, реконструкция, подобряване и редактиране на изображения при зададени контекстуални условия. Той съчетава предимствата на контролираното генериране на дифузионни модели с контекстуалното моделиране на Transformer, поддържайки висококачествен изход и широко приложение в задачи като възстановяване, допълване и реконструкция на визуални сцени."
|
||||
},
|
||||
"FLUX.1-dev": {
|
||||
"description": "FLUX.1-dev е отворен мултимодален езиков модел (Multimodal Language Model, MLLM), разработен от Black Forest Labs, оптимизиран за задачи с текст и изображения. Той интегрира разбиране и генериране на изображения и текст, базиран на напреднали големи езикови модели като Mistral-7B, с внимателно проектиран визуален енкодер и многостепенно фино настройване с инструкции, което позволява съвместна обработка на текст и изображения и сложни задачи за разсъждение."
|
||||
},
|
||||
"Gryphe/MythoMax-L2-13b": {
|
||||
"description": "MythoMax-L2 (13B) е иновативен модел, подходящ за приложения в множество области и сложни задачи."
|
||||
},
|
||||
"HelloMeme": {
|
||||
"description": "HelloMeme е AI инструмент, който автоматично генерира мемета, анимирани GIF файлове или кратки видеоклипове въз основа на предоставени от вас изображения или действия. Не е необходимо да имате умения за рисуване или програмиране – просто подгответе референтни изображения и инструментът ще създаде красиви, забавни и стилово съгласувани съдържания."
|
||||
},
|
||||
"HiDream-I1-Full": {
|
||||
"description": "HiDream-E1-Full е отворен мултимодален голям модел за редактиране на изображения, разработен от HiDream.ai, базиран на напредналата архитектура Diffusion Transformer и съчетаващ мощни езикови способности (вграден LLaMA 3.1-8B-Instruct). Поддържа генериране на изображения, трансфер на стил, локално редактиране и прерисуване чрез естествени езикови команди, с изключителни умения за разбиране и изпълнение на текстово-изобразителни задачи."
|
||||
},
|
||||
"HunyuanDiT-v1.2-Diffusers-Distilled": {
|
||||
"description": "hunyuandit-v1.2-distilled е лек модел за генериране на изображения от текст, оптимизиран чрез дистилация, който може бързо да създава висококачествени изображения, особено подходящ за среди с ограничени ресурси и задачи за реално време."
|
||||
},
|
||||
"InstantCharacter": {
|
||||
"description": "InstantCharacter е персонализиран модел за генериране на персонажи без нужда от фино настройване, пуснат от AI екипа на Tencent през 2025 г. Целта му е да осигури висококачествено и консистентно генериране на персонажи в различни сцени. Моделът поддържа моделиране на персонаж само на базата на една референтна снимка и позволява гъвкаво пренасяне на персонажа в различни стилове, пози и фонове."
|
||||
},
|
||||
"InternVL2-8B": {
|
||||
"description": "InternVL2-8B е мощен визуален езиков модел, който поддържа многомодално обработване на изображения и текст, способен да разпознава точно съдържанието на изображения и да генерира свързани описания или отговори."
|
||||
},
|
||||
"InternVL2.5-26B": {
|
||||
"description": "InternVL2.5-26B е мощен визуален езиков модел, който поддържа многомодално обработване на изображения и текст, способен да разпознава точно съдържанието на изображения и да генерира свързани описания или отговори."
|
||||
},
|
||||
"Kolors": {
|
||||
"description": "Kolors е модел за генериране на изображения от текст, разработен от екипа Kolors на Kuaishou. Той е обучен с милиарди параметри и има значителни предимства в качеството на визуализация, разбирането на китайски семантичен контекст и рендирането на текст."
|
||||
},
|
||||
"Kwai-Kolors/Kolors": {
|
||||
"description": "Kolors е голям модел за генериране на изображения от текст, базиран на латентна дифузия, разработен от екипа Kolors на Kuaishou. Обучен с милиарди двойки текст-изображение, моделът демонстрира значителни предимства в качеството на визуализация, точността на сложната семантика и рендирането на китайски и английски символи. Той поддържа вход на китайски и английски език и се представя отлично в разбирането и генерирането на специфично китайско съдържание."
|
||||
},
|
||||
"Llama-3.2-11B-Vision-Instruct": {
|
||||
"description": "Изключителни способности за визуално разсъждение върху изображения с висока резолюция, подходящи за приложения за визуално разбиране."
|
||||
},
|
||||
@@ -194,15 +164,9 @@
|
||||
"MiniMaxAI/MiniMax-M1-80k": {
|
||||
"description": "MiniMax-M1 е мащабен модел за разсъждение с отворени тегла и смесено внимание, с 456 милиарда параметри, като всеки токен активира около 45.9 милиарда параметри. Моделът поддържа естествено контекст с дължина до 1 милион токена и чрез механизма за светкавично внимание спестява 75% от изчисленията при задачи с генериране на 100 хиляди токена в сравнение с DeepSeek R1. Освен това MiniMax-M1 използва MoE (смесен експертен) архитектура, комбинирайки CISPO алгоритъм и ефективно обучение с подсилване с дизайн на смесено внимание, постигащи водещи в индустрията резултати при дълги входни разсъждения и реални софтуерни инженерни сценарии."
|
||||
},
|
||||
"Moonshot-Kimi-K2-Instruct": {
|
||||
"description": "Общ брой параметри 1 трилион, активирани параметри 32 милиарда. Сред немисловните модели постига водещи резултати в областта на актуални знания, математика и кодиране, с по-добри възможности за универсални агентски задачи. Специално оптимизиран за агентски задачи, не само отговаря на въпроси, но и може да предприема действия. Най-подходящ за импровизирани, универсални разговори и агентски преживявания, модел с рефлексна скорост без нужда от дълго мислене."
|
||||
},
|
||||
"NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
||||
"description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B) е модел с висока точност за инструкции, подходящ за сложни изчисления."
|
||||
},
|
||||
"OmniConsistency": {
|
||||
"description": "OmniConsistency подобрява консистентността на стил и генерализацията в задачи за преобразуване на изображения чрез въвеждане на големи дифузионни трансформъри (DiTs) и двойни стилизирани данни, като предотвратява деградация на стила."
|
||||
},
|
||||
"Phi-3-medium-128k-instruct": {
|
||||
"description": "Същият модел Phi-3-medium, но с по-голям размер на контекста за RAG или малко подканване."
|
||||
},
|
||||
@@ -254,9 +218,6 @@
|
||||
"Pro/deepseek-ai/DeepSeek-V3": {
|
||||
"description": "DeepSeek-V3 е модел на езика с 6710 милиарда параметри, който използва архитектура на смесени експерти (MoE) с много глави на потенциално внимание (MLA) и стратегия за баланс на натоварването без помощни загуби, оптимизираща производителността на инференцията и обучението. Чрез предварително обучение на 14.8 трилиона висококачествени токени и последващо супервизирано фино настройване и обучение с подсилване, DeepSeek-V3 надминава производителността на други отворени модели и е близо до водещите затворени модели."
|
||||
},
|
||||
"Pro/moonshotai/Kimi-K2-Instruct": {
|
||||
"description": "Kimi K2 е базов модел с MoE архитектура с изключителни кодови и агентски способности, с общо 1 трилион параметри и 32 милиарда активирани параметри. В бенчмаркове за общо знание, програмиране, математика и агентски задачи моделът K2 превъзхожда други водещи отворени модели."
|
||||
},
|
||||
"QwQ-32B-Preview": {
|
||||
"description": "QwQ-32B-Preview е иновативен модел за обработка на естествен език, способен да обработва ефективно сложни задачи за генериране на диалог и разбиране на контекста."
|
||||
},
|
||||
@@ -317,18 +278,9 @@
|
||||
"Qwen/Qwen3-235B-A22B": {
|
||||
"description": "Qwen3 е ново поколение модел на Tongyi Qianwen с значително подобрени способности, достигащи водещо ниво в индустрията в разсъждения, общи, агенти и многоезични основни способности, и поддържа превключване на режим на мислене."
|
||||
},
|
||||
"Qwen/Qwen3-235B-A22B-Instruct-2507": {
|
||||
"description": "Qwen3-235B-A22B-Instruct-2507 е флагмански голям езиков модел с хибридни експерти (MoE) от серията Qwen3, разработен от екипа на Alibaba Cloud Tongyi Qianwen. Моделът има общо 235 милиарда параметри, като при всяко извеждане се активират 22 милиарда. Той е обновена версия на Qwen3-235B-A22B в не-мисловен режим, със значителни подобрения в следването на инструкции, логическо разсъждение, разбиране на текст, математика, наука, програмиране и използване на инструменти. Моделът също така разширява покритието на многоезикови дългоопашати знания и по-добре се адаптира към потребителските предпочитания в субективни и отворени задачи, за да генерира по-полезен и качествен текст."
|
||||
},
|
||||
"Qwen/Qwen3-235B-A22B-Thinking-2507": {
|
||||
"description": "Qwen3-235B-A22B-Thinking-2507 е член на серията големи езикови модели Qwen3, разработен от екипа на Alibaba Tongyi Qianwen, фокусиран върху сложни задачи за разсъждение. Моделът използва MoE архитектура с общо 235 милиарда параметри, като при обработка на всеки токен се активират около 22 милиарда, което повишава изчислителната ефективност без да се губи мощност. Като специализиран „мисловен“ модел, той постига значителни подобрения в логическо разсъждение, математика, наука, програмиране и академични бенчмаркове, достигайки водещи нива сред отворените мисловни модели. Освен това подобрява общите способности като следване на инструкции, използване на инструменти и генериране на текст, и поддържа нативно разбиране на дълги контексти до 256K токена, подходящ за дълбоко разсъждение и обработка на дълги документи."
|
||||
},
|
||||
"Qwen/Qwen3-30B-A3B": {
|
||||
"description": "Qwen3 е ново поколение модел на Tongyi Qianwen с значително подобрени способности, достигащи водещо ниво в индустрията в разсъждения, общи, агенти и многоезични основни способности, и поддържа превключване на режим на мислене."
|
||||
},
|
||||
"Qwen/Qwen3-30B-A3B-Instruct-2507": {
|
||||
"description": "Qwen3-30B-A3B-Instruct-2507 е обновена версия на Qwen3-30B-A3B в режим без мислене. Това е хибриден експертен (MoE) модел с общо 30,5 милиарда параметри и 3,3 милиарда активни параметри. Моделът е получил ключови подобрения в множество аспекти, включително значително подобрена способност за следване на инструкции, логическо разсъждение, разбиране на текст, математика, наука, кодиране и използване на инструменти. Освен това, той постига съществен напредък в покритието на дългоопашатите знания на многоезично ниво и по-добре се съгласува с предпочитанията на потребителите при субективни и отворени задачи, което позволява генериране на по-полезни отговори и по-висококачествен текст. Освен това, способността му за разбиране на дълги текстове е увеличена до 256K. Този модел поддържа само режим без мислене и в изхода му не се генерират тагове `<think></think>`."
|
||||
},
|
||||
"Qwen/Qwen3-32B": {
|
||||
"description": "Qwen3 е ново поколение модел на Tongyi Qianwen с значително подобрени способности, достигащи водещо ниво в индустрията в разсъждения, общи, агенти и многоезични основни способности, и поддържа превключване на режим на мислене."
|
||||
},
|
||||
@@ -362,12 +314,6 @@
|
||||
"Qwen2.5-Coder-32B-Instruct": {
|
||||
"description": "Qwen2.5-Coder-32B-Instruct е голям езиков модел, проектиран специално за генериране на код, разбиране на код и ефективни сценарии за разработка, с водеща в индустрията параметрична стойност от 32B, способен да отговори на разнообразни програмни нужди."
|
||||
},
|
||||
"Qwen3-235B": {
|
||||
"description": "Qwen3-235B-A22B е MoE (хибриден експертен модел), който въвежда „хибриден режим на разсъждение“, позволяващ на потребителите безпроблемно превключване между „режим мислене“ и „режим без мислене“. Поддържа разбиране и разсъждение на 119 езика и диалекта и разполага с мощни възможности за извикване на инструменти. В множество базови тестове за общи способности, кодиране, математика, многоезичност, знания и разсъждение, той може да се конкурира с водещите големи модели на пазара като DeepSeek R1, OpenAI o1, o3-mini, Grok 3 и Google Gemini 2.5 Pro."
|
||||
},
|
||||
"Qwen3-32B": {
|
||||
"description": "Qwen3-32B е плътен модел (Dense Model), който въвежда „хибриден режим на разсъждение“, позволяващ на потребителите безпроблемно превключване между „режим мислене“ и „режим без мислене“. Благодарение на подобрения в архитектурата на модела, увеличени тренировъчни данни и по-ефективни методи за обучение, общата производителност е сравнима с тази на Qwen2.5-72B."
|
||||
},
|
||||
"SenseChat": {
|
||||
"description": "Основна версия на модела (V4), с контекстна дължина 4K, с мощни общи способности."
|
||||
},
|
||||
@@ -404,12 +350,6 @@
|
||||
"SenseChat-Vision": {
|
||||
"description": "Най-новата версия на модела (V5.5) поддържа вход с множество изображения и напълно реализира оптимизация на основните способности на модела, с голямо подобрение в разпознаването на свойства на обекти, пространствени отношения, разпознаване на действия и събития, разбиране на сцени, разпознаване на емоции, логическо разсъждение и генериране на текст."
|
||||
},
|
||||
"SenseNova-V6-5-Pro": {
|
||||
"description": "Чрез цялостно обновяване на мултимодалните, езиковите и разсъждаващите данни и оптимизация на тренировъчните стратегии, новият модел постига значително подобрение в мултимодалното разсъждение и способността за следване на общи инструкции. Поддържа контекстен прозорец до 128k и показва отлични резултати в специализирани задачи като OCR и разпознаване на културно-туристически IP."
|
||||
},
|
||||
"SenseNova-V6-5-Turbo": {
|
||||
"description": "Чрез цялостно обновяване на мултимодалните, езиковите и разсъждаващите данни и оптимизация на тренировъчните стратегии, новият модел постига значително подобрение в мултимодалното разсъждение и способността за следване на общи инструкции. Поддържа контекстен прозорец до 128k и показва отлични резултати в специализирани задачи като OCR и разпознаване на културно-туристически IP."
|
||||
},
|
||||
"SenseNova-V6-Pro": {
|
||||
"description": "Постигане на родно обединение на възможностите за изображения, текст и видео, преодолявайки ограниченията на традиционните мултимодални разделения, спечелвайки двойна титла в оценките OpenCompass и SuperCLUE."
|
||||
},
|
||||
@@ -1004,9 +944,6 @@
|
||||
"doubao-seed-1.6-thinking": {
|
||||
"description": "Doubao-Seed-1.6-thinking моделът значително подобрява способностите за мислене в сравнение с Doubao-1.5-thinking-pro, с допълнителни подобрения в кодиране, математика и логическо разсъждение, като поддържа и визуално разбиране. Поддържа контекстен прозорец от 256k и максимална дължина на изхода до 16k токена."
|
||||
},
|
||||
"doubao-seedream-3-0-t2i-250415": {
|
||||
"description": "Моделът за генериране на изображения Doubao е разработен от екипа Seed на ByteDance, поддържа вход както от текст, така и от изображения, и предлага високо контролирано и качествено генериране на изображения. Генерира изображения въз основа на текстови подсказки."
|
||||
},
|
||||
"doubao-vision-lite-32k": {
|
||||
"description": "Моделът Doubao-vision е мултимодален голям модел, разработен от Doubao, с мощни способности за разбиране и разсъждение върху изображения, както и прецизно разбиране на инструкции. Моделът показва силна производителност при извличане на информация от изображения и текст, както и при задачи за разсъждение, базирани на изображения, подходящ за по-сложни и широки визуални въпроси."
|
||||
},
|
||||
@@ -1058,9 +995,6 @@
|
||||
"ernie-char-fiction-8k": {
|
||||
"description": "Специализиран голям езиков модел, разработен от Baidu, подходящ за приложения като NPC в игри, диалози на клиентска поддръжка и ролеви игри, с по-изразителен и последователен стил на персонажите, по-силна способност за следване на инструкции и по-добра производителност на разсъжденията."
|
||||
},
|
||||
"ernie-irag-edit": {
|
||||
"description": "Собствен модел за редактиране на изображения ERNIE iRAG на Baidu поддържа операции като изтриване (erase), прерисуване (repaint) и вариации (variation) върху изображения."
|
||||
},
|
||||
"ernie-lite-8k": {
|
||||
"description": "ERNIE Lite е лек голям езиков модел, разработен от Baidu, който съчетава отлични резултати с производителност на разсъжденията, подходящ за използване с AI ускорителни карти с ниска изчислителна мощ."
|
||||
},
|
||||
@@ -1088,27 +1022,12 @@
|
||||
"ernie-x1-turbo-32k": {
|
||||
"description": "В сравнение с ERNIE-X1-32K, моделът предлага по-добри резултати и производителност."
|
||||
},
|
||||
"flux-1-schnell": {
|
||||
"description": "Модел за генериране на изображения от текст с 12 милиарда параметри, разработен от Black Forest Labs, използващ латентна противоречива дифузионна дистилация, способен да генерира висококачествени изображения за 1 до 4 стъпки. Моделът постига производителност, сравнима с проприетарни алтернативи, и е пуснат под лиценз Apache-2.0, подходящ за лична, научна и търговска употреба."
|
||||
},
|
||||
"flux-dev": {
|
||||
"description": "FLUX.1 [dev] е отворен и пречистен модел, предназначен за нетърговска употреба. Той запазва качество на изображенията и способността за следване на инструкции, близки до професионалната версия на FLUX, като същевременно предлага по-висока ефективност на работа и по-добро използване на ресурсите в сравнение със стандартни модели със същия размер."
|
||||
},
|
||||
"flux-kontext/dev": {
|
||||
"description": "Модел за редактиране на изображения Frontier."
|
||||
},
|
||||
"flux-merged": {
|
||||
"description": "FLUX.1-merged комбинира дълбоките характеристики, изследвани в разработката на \"DEV\" версията, с високоскоростните предимства на \"Schnell\". Тази комбинация не само разширява границите на производителността на модела, но и увеличава обхвата на неговото приложение."
|
||||
},
|
||||
"flux-pro/kontext": {
|
||||
"description": "FLUX.1 Kontext [pro] може да обработва текст и референтни изображения като вход, осигурявайки безпроблемно целенасочено локално редактиране и сложни трансформации на цялостната сцена."
|
||||
},
|
||||
"flux-schnell": {
|
||||
"description": "FLUX.1 [schnell] е най-напредналият отворен модел с малък брой стъпки, който надминава конкурентите си и дори превъзхожда мощни нефино настроени модели като Midjourney v6.0 и DALL·E 3 (HD). Моделът е специално фино настроен, за да запази пълното разнообразие на изхода от предварителното обучение и значително подобрява визуалното качество, следването на инструкции, промяната на размери/пропорции, обработката на шрифтове и разнообразието на изхода в сравнение с най-съвременните модели на пазара, предоставяйки по-богато и разнообразно творческо генериране на изображения."
|
||||
},
|
||||
"flux.1-schnell": {
|
||||
"description": "Коригиран потоков трансформър с 12 милиарда параметри, способен да генерира изображения въз основа на текстово описание."
|
||||
},
|
||||
"flux/schnell": {
|
||||
"description": "FLUX.1 [schnell] е потоков трансформаторен модел с 12 милиарда параметри, способен да генерира висококачествени изображения от текст в 1 до 4 стъпки, подходящ за лична и търговска употреба."
|
||||
},
|
||||
@@ -1190,6 +1109,9 @@
|
||||
"gemini-2.5-flash-preview-04-17": {
|
||||
"description": "Gemini 2.5 Flash Preview е моделът с най-добро съотношение цена-качество на Google, предлагащ пълна функционалност."
|
||||
},
|
||||
"gemini-2.5-flash-preview-04-17-thinking": {
|
||||
"description": "Gemini 2.5 Flash Preview е най-ефективният модел на Google, предлагащ пълна функционалност."
|
||||
},
|
||||
"gemini-2.5-flash-preview-05-20": {
|
||||
"description": "Gemini 2.5 Flash Preview е най-ефективният модел на Google, предлагащ пълна функционалност."
|
||||
},
|
||||
@@ -1268,21 +1190,6 @@
|
||||
"glm-4.1v-thinking-flashx": {
|
||||
"description": "Серията модели GLM-4.1V-Thinking е най-мощният визуален модел сред известните VLM модели с размер около 10 милиарда параметри, обединяващ водещи в класа си задачи за визуално-езиково разбиране, включително видео разбиране, въпроси и отговори върху изображения, решаване на предметни задачи, OCR разпознаване на текст, интерпретация на документи и графики, GUI агент, кодиране на уеб страници, Grounding и други. Някои от задачите дори превъзхождат модели с 8 пъти повече параметри като Qwen2.5-VL-72B. Чрез водещи техники за подсилено обучение моделът овладява разсъждения чрез вериги на мисълта, което значително подобрява точността и богатството на отговорите, превъзхождайки традиционните модели без мисловен процес по отношение на крайния резултат и обяснимостта."
|
||||
},
|
||||
"glm-4.5": {
|
||||
"description": "Най-новият флагмански модел на Zhizhu, поддържащ режим на мислене, с общи способности на ниво SOTA сред отворените модели и контекстова дължина до 128K."
|
||||
},
|
||||
"glm-4.5-air": {
|
||||
"description": "Леката версия на GLM-4.5, балансираща между производителност и цена, с възможност за гъвкаво превключване на смесен мисловен режим."
|
||||
},
|
||||
"glm-4.5-airx": {
|
||||
"description": "Експресната версия на GLM-4.5-Air с по-бърза реакция, специално създадена за големи мащаби и високи скорости."
|
||||
},
|
||||
"glm-4.5-flash": {
|
||||
"description": "Безплатната версия на GLM-4.5, с отлични резултати в задачи за разсъждение, кодиране и интелигентни агенти."
|
||||
},
|
||||
"glm-4.5-x": {
|
||||
"description": "Експресната версия на GLM-4.5, която съчетава силна производителност с генериране на скорост до 100 токена в секунда."
|
||||
},
|
||||
"glm-4v": {
|
||||
"description": "GLM-4V предлага мощни способности за разбиране и разсъждение на изображения, поддържаща множество визуални задачи."
|
||||
},
|
||||
@@ -1302,7 +1209,7 @@
|
||||
"description": "Супер бързо разсъждение: с изключително бърза скорост на разсъждение и силни резултати."
|
||||
},
|
||||
"glm-z1-flash": {
|
||||
"description": "Серията GLM-Z1 притежава мощни способности за сложни разсъждения и се представя отлично в логическо мислене, математика и програмиране."
|
||||
"description": "GLM-Z1 серията притежава силни способности за сложни разсъждения, показвайки отлични резултати в логическите разсъждения, математиката и програмирането. Максималната дължина на контекста е 32K."
|
||||
},
|
||||
"glm-z1-flashx": {
|
||||
"description": "Висока скорост и ниска цена: Flash подобрена версия с изключително бърза скорост на инференция и по-добра гаранция за паралелна обработка."
|
||||
@@ -1478,9 +1385,6 @@
|
||||
"grok-2-1212": {
|
||||
"description": "Този модел е подобрен по отношение на точност, спазване на инструкции и многоезични способности."
|
||||
},
|
||||
"grok-2-image-1212": {
|
||||
"description": "Нашият най-нов модел за генериране на изображения може да създава живи и реалистични изображения въз основа на текстови подсказки. Той се представя отлично в маркетинг, социални медии и развлекателни области."
|
||||
},
|
||||
"grok-2-vision-1212": {
|
||||
"description": "Този модел е подобрен по отношение на точност, спазване на инструкции и многоезични способности."
|
||||
},
|
||||
@@ -1550,9 +1454,6 @@
|
||||
"hunyuan-t1-20250529": {
|
||||
"description": "Оптимизиран за текстово творчество и писане на есета, подобрява уменията в кодирането, математиката и логическото разсъждение, както и способността за следване на инструкции."
|
||||
},
|
||||
"hunyuan-t1-20250711": {
|
||||
"description": "Значително подобрени способности в сложна математика, логика и кодиране, оптимизирана стабилност на изхода и подобрена работа с дълги текстове."
|
||||
},
|
||||
"hunyuan-t1-latest": {
|
||||
"description": "Първият в индустрията свръхголям хибриден трансформаторен модел за инференция, който разширява инференционните способности, предлага изключителна скорост на декодиране и допълнително съгласува човешките предпочитания."
|
||||
},
|
||||
@@ -1601,12 +1502,6 @@
|
||||
"hunyuan-vision": {
|
||||
"description": "Най-новият мултимодален модел на HunYuan, поддържащ генериране на текстово съдържание от изображения и текстови входове."
|
||||
},
|
||||
"image-01": {
|
||||
"description": "Нов модел за генериране на изображения с фини детайли, поддържащ генериране от текст и изображения."
|
||||
},
|
||||
"image-01-live": {
|
||||
"description": "Модел за генериране на изображения с фини детайли, поддържащ генериране от текст и настройка на стил."
|
||||
},
|
||||
"imagen-4.0-generate-preview-06-06": {
|
||||
"description": "Imagen 4-то поколение текст-към-изображение модел серия"
|
||||
},
|
||||
@@ -1631,9 +1526,6 @@
|
||||
"internvl3-latest": {
|
||||
"description": "Нашият най-нов мултимодален голям модел, с по-силни способности за разбиране на текст и изображения, дългосрочно разбиране на изображения, производителност, сравнима с водещи затворени модели. По подразбиране сочи към нашата най-нова версия на серията InternVL, текущо сочи към internvl3-78b."
|
||||
},
|
||||
"irag-1.0": {
|
||||
"description": "Собствената технология iRAG (image based RAG) на Baidu за генериране на изображения с подсилено търсене, комбинираща милиарди изображения от търсачката на Baidu с мощни основни модели, позволява създаването на изключително реалистични изображения, далеч надминаващи родните системи за генериране на изображения от текст, без изкуствен вид и с ниски разходи. iRAG се характеризира с липса на халюцинации, изключителна реалистичност и незабавна готовност."
|
||||
},
|
||||
"jamba-large": {
|
||||
"description": "Нашият най-мощен и напреднал модел, проектиран за справяне с комплексни задачи на корпоративно ниво, с изключителна производителност."
|
||||
},
|
||||
@@ -1643,9 +1535,6 @@
|
||||
"jina-deepsearch-v1": {
|
||||
"description": "Дълбокото търсене комбинира интернет търсене, четене и разсъждение, за да извърши обширно разследване. Можете да го разглеждате като агент, който приема вашата изследователска задача - той ще извърши широко търсене и ще премине през множество итерации, преди да предостави отговор. Този процес включва непрекъснато изследване, разсъждение и решаване на проблеми от различни ъгли. Това е коренно различно от стандартните големи модели, които генерират отговори директно от предварително обучени данни, и от традиционните RAG системи, които разчитат на еднократни повърхностни търсения."
|
||||
},
|
||||
"kimi-k2": {
|
||||
"description": "Kimi-K2 е базов модел с MoE архитектура, пуснат от Moonshot AI, с изключителни кодови и агентски способности, общо 1 трилион параметри и 32 милиарда активирани параметри. В бенчмаркове за общо знание, програмиране, математика и агентски задачи моделът K2 превъзхожда други водещи отворени модели."
|
||||
},
|
||||
"kimi-k2-0711-preview": {
|
||||
"description": "kimi-k2 е базов модел с MoE архитектура с изключителни способности за кодиране и агентски функции, с общо 1 трилион параметри и 32 милиарда активни параметри. В тестове за общо знание, програмиране, математика и агентски задачи, моделът K2 превъзхожда други водещи отворени модели."
|
||||
},
|
||||
@@ -2039,9 +1928,6 @@
|
||||
"moonshotai/Kimi-Dev-72B": {
|
||||
"description": "Kimi-Dev-72B е голям отворен модел за код, оптимизиран чрез мащабно подсилено обучение, способен да генерира стабилни и директно приложими пачове. Този модел постига нов рекорд от 60,4 % на SWE-bench Verified, подобрявайки резултатите на отворени модели в автоматизирани задачи за софтуерно инженерство като поправка на дефекти и преглед на код."
|
||||
},
|
||||
"moonshotai/Kimi-K2-Instruct": {
|
||||
"description": "Kimi K2 е базов модел с MoE архитектура, с изключителни кодови и агентски способности, общо 1 трилион параметри и 32 милиарда активирани параметри. В бенчмаркове за общо знание, програмиране, математика и агентски задачи моделът K2 превъзхожда други водещи отворени модели."
|
||||
},
|
||||
"moonshotai/kimi-k2-instruct": {
|
||||
"description": "kimi-k2 е базов модел с MoE архитектура с изключителни способности за кодиране и агент, с общо 1 трилион параметри и 32 милиарда активни параметри. В бенчмаркови тестове за общи знания, програмиране, математика и агенти, моделът K2 превъзхожда други водещи отворени модели."
|
||||
},
|
||||
@@ -2378,21 +2264,9 @@
|
||||
"qwen3-235b-a22b": {
|
||||
"description": "Qwen3 е ново поколение модел с значително подобрени способности, който достига водещо ниво в индустрията в области като разсъждение, общо използване, агенти и многоезичност, и поддържа превключване на режимите на разсъждение."
|
||||
},
|
||||
"qwen3-235b-a22b-instruct-2507": {
|
||||
"description": "Отворен модел в не-мисловен режим, базиран на Qwen3, с леки подобрения в субективните творчески способности и безопасността на модела спрямо предишната версия (Tongyi Qianwen 3-235B-A22B)."
|
||||
},
|
||||
"qwen3-235b-a22b-thinking-2507": {
|
||||
"description": "Отворен модел в мисловен режим, базиран на Qwen3, с големи подобрения в логическите способности, общите умения, обогатяването на знания и творческите способности спрямо предишната версия (Tongyi Qianwen 3-235B-A22B), подходящ за сложни задачи с високи изисквания за разсъждение."
|
||||
},
|
||||
"qwen3-30b-a3b": {
|
||||
"description": "Qwen3 е ново поколение модел с значително подобрени способности, който достига водещо ниво в индустрията в области като разсъждение, общо използване, агенти и многоезичност, и поддържа превключване на режимите на разсъждение."
|
||||
},
|
||||
"qwen3-30b-a3b-instruct-2507": {
|
||||
"description": "В сравнение с предишната версия (Qwen3-30B-A3B), общите способности на английски, китайски и многоезични задачи са значително подобрени. Специализирана оптимизация за субективни и отворени задачи, значително по-добре съобразена с предпочитанията на потребителите, което позволява предоставяне на по-полезни отговори."
|
||||
},
|
||||
"qwen3-30b-a3b-thinking-2507": {
|
||||
"description": "Базиран на отворения модел в режим мислене на Qwen3, в сравнение с предишната версия (Tongyi Qianwen 3-30B-A3B) логическите способности, общите умения, знанията и творческите способности са значително подобрени, подходящ за сложни сценарии с интензивно разсъждение."
|
||||
},
|
||||
"qwen3-32b": {
|
||||
"description": "Qwen3 е ново поколение модел с значително подобрени способности, който достига водещо ниво в индустрията в области като разсъждение, общо използване, агенти и многоезичност, и поддържа превключване на режимите на разсъждение."
|
||||
},
|
||||
@@ -2402,12 +2276,6 @@
|
||||
"qwen3-8b": {
|
||||
"description": "Qwen3 е ново поколение модел с значително подобрени способности, който достига водещо ниво в индустрията в области като разсъждение, общо използване, агенти и многоезичност, и поддържа превключване на режимите на разсъждение."
|
||||
},
|
||||
"qwen3-coder-480b-a35b-instruct": {
|
||||
"description": "Отворена версия на кодовия модел Tongyi Qianwen. Най-новият qwen3-coder-480b-a35b-instruct е кодов модел, базиран на Qwen3, с мощни Coding Agent способности, умения за използване на инструменти и взаимодействие с околната среда, способен на автономно програмиране с отлични кодови и общи умения."
|
||||
},
|
||||
"qwen3-coder-plus": {
|
||||
"description": "Кодов модел Tongyi Qianwen. Най-новата серия Qwen3-Coder-Plus е базирана на Qwen3, с мощни Coding Agent способности, умения за използване на инструменти и взаимодействие с околната среда, способна на автономно програмиране с отлични кодови и общи умения."
|
||||
},
|
||||
"qwq": {
|
||||
"description": "QwQ е експериментален изследователски модел, който се фокусира върху подобряване на AI разсъдъчните способности."
|
||||
},
|
||||
@@ -2450,24 +2318,6 @@
|
||||
"sonar-reasoning-pro": {
|
||||
"description": "Нов API продукт, поддържан от модела за разсъждение DeepSeek."
|
||||
},
|
||||
"stable-diffusion-3-medium": {
|
||||
"description": "Най-новият голям модел за генериране на изображения от текст, пуснат от Stability AI. Тази версия запазва предимствата на предишните поколения и значително подобрява качеството на изображенията, разбирането на текст и разнообразието на стилове, позволявайки по-точно интерпретиране на сложни естествени езикови подсказки и генериране на по-прецизни и разнообразни изображения."
|
||||
},
|
||||
"stable-diffusion-3.5-large": {
|
||||
"description": "stable-diffusion-3.5-large е мултимоделен дифузионен трансформър (MMDiT) модел за генериране на изображения от текст с 800 милиона параметри, предлагащ изключително качество на изображенията и съвпадение с подсказките, поддържащ генериране на изображения с резолюция до 1 милион пиксела и ефективна работа на обикновен хардуер за потребители."
|
||||
},
|
||||
"stable-diffusion-3.5-large-turbo": {
|
||||
"description": "stable-diffusion-3.5-large-turbo е модел, базиран на stable-diffusion-3.5-large, използващ технологията за противоречива дифузионна дистилация (ADD) за по-висока скорост."
|
||||
},
|
||||
"stable-diffusion-v1.5": {
|
||||
"description": "stable-diffusion-v1.5 е инициализиран с теглата на stable-diffusion-v1.2 checkpoint и е фино настроен за 595k стъпки при резолюция 512x512 върху \"laion-aesthetics v2 5+\", с намалена текстова кондиционираност с 10% за подобряване на безкласовото насочено семплиране."
|
||||
},
|
||||
"stable-diffusion-xl": {
|
||||
"description": "stable-diffusion-xl представлява значително подобрение спрямо v1.5 и постига качество, сравнимо с водещия отворен модел midjourney. Основните подобрения включват: по-голям unet гръбнак, три пъти по-голям от предишния; добавен refinement модул за подобряване на качеството на генерираните изображения; по-ефективни техники за обучение и други."
|
||||
},
|
||||
"stable-diffusion-xl-base-1.0": {
|
||||
"description": "Голям модел за генериране на изображения от текст, разработен и отворен от Stability AI, с водещи в индустрията способности за творческо генериране на изображения. Отличава се с изключителна способност за разбиране на инструкции и поддържа обратни промпти за прецизно дефиниране на съдържанието."
|
||||
},
|
||||
"step-1-128k": {
|
||||
"description": "Баланс между производителност и разходи, подходящ за общи сценарии."
|
||||
},
|
||||
@@ -2498,12 +2348,6 @@
|
||||
"step-1v-8k": {
|
||||
"description": "Малък визуален модел, подходящ за основни текстово-визуални задачи."
|
||||
},
|
||||
"step-1x-edit": {
|
||||
"description": "Този модел е специализиран за задачи по редактиране на изображения, способен да модифицира и подобрява изображения според предоставени от потребителя снимки и текстови описания. Поддържа различни входни формати, включително текстови описания и примерни изображения. Моделът разбира намеренията на потребителя и генерира редактирани изображения, отговарящи на изискванията."
|
||||
},
|
||||
"step-1x-medium": {
|
||||
"description": "Този модел притежава мощни способности за генериране на изображения, поддържа вход от текстови описания. Има вградена поддръжка на китайски език, което позволява по-добро разбиране и обработка на китайски текстови описания, по-точно улавяне на семантиката и превръщането ѝ в визуални характеристики за по-прецизно генериране на изображения. Моделът може да генерира висококачествени и високоразделителни изображения и притежава известни способности за трансфер на стил."
|
||||
},
|
||||
"step-2-16k": {
|
||||
"description": "Поддържа взаимодействия с голям мащаб на контекста, подходящи за сложни диалогови сценарии."
|
||||
},
|
||||
@@ -2513,9 +2357,6 @@
|
||||
"step-2-mini": {
|
||||
"description": "Модел с бърза производителност, базиран на новото поколение собствена архитектура Attention MFA, който постига резултати, подобни на step1 с много ниски разходи, като същевременно поддържа по-висока производителност и по-бързо време за отговор. Може да обработва общи задачи и притежава специализирани умения в кодирането."
|
||||
},
|
||||
"step-2x-large": {
|
||||
"description": "Новото поколение модел за генериране на изображения Step Star, специализиран в генериране на висококачествени изображения според текстови описания от потребителя. Новият модел създава по-реалистични текстури и има по-силни способности за генериране на китайски и английски текст."
|
||||
},
|
||||
"step-r1-v-mini": {
|
||||
"description": "Този модел е мощен модел за разсъждение с отлични способности за разбиране на изображения, способен да обработва информация от изображения и текст, и след дълбочинно разсъждение да генерира текстово съдържание. Моделът показва изключителни резултати в областта на визуалните разсъждения, като същевременно притежава първокласни способности в математиката, кода и текстовите разсъждения. Дължината на контекста е 100k."
|
||||
},
|
||||
@@ -2591,23 +2432,8 @@
|
||||
"v0-1.5-md": {
|
||||
"description": "Моделът v0-1.5-md е подходящ за ежедневни задачи и генериране на потребителски интерфейс (UI)"
|
||||
},
|
||||
"wan2.2-t2i-flash": {
|
||||
"description": "Wanxiang 2.2 експресна версия, най-новият модел към момента. Комплексно подобрение в креативност, стабилност и реализъм, с бърза скорост на генериране и висока цена-ефективност."
|
||||
},
|
||||
"wan2.2-t2i-plus": {
|
||||
"description": "Wanxiang 2.2 професионална версия, най-новият модел към момента. Комплексно подобрение в креативност, стабилност и реализъм, с богати детайли в генерираните изображения."
|
||||
},
|
||||
"wanx-v1": {
|
||||
"description": "Основен модел за генериране на изображения от текст. Съответства на универсалния модел 1.0 на официалния сайт на Tongyi Wanxiang."
|
||||
},
|
||||
"wanx2.0-t2i-turbo": {
|
||||
"description": "Специализиран в генериране на портрети с реалистична текстура, със средна скорост и ниски разходи. Съответства на експресния модел 2.0 на официалния сайт на Tongyi Wanxiang."
|
||||
},
|
||||
"wanx2.1-t2i-plus": {
|
||||
"description": "Пълноценна ъпгрейд версия. Генерираните изображения са с по-богати детайли, скоростта е леко по-ниска. Съответства на професионалния модел 2.1 на официалния сайт на Tongyi Wanxiang."
|
||||
},
|
||||
"wanx2.1-t2i-turbo": {
|
||||
"description": "Пълноценна ъпгрейд версия. Бърза скорост на генериране, цялостно качество и висока цена-ефективност. Съответства на експресния модел 2.1 на официалния сайт на Tongyi Wanxiang."
|
||||
"description": "Модел за генериране на изображения от текст на Alibaba Cloud Tongyi"
|
||||
},
|
||||
"whisper-1": {
|
||||
"description": "Универсален модел за разпознаване на реч, поддържащ многоезично разпознаване на реч, превод на реч и разпознаване на език."
|
||||
@@ -2659,11 +2485,5 @@
|
||||
},
|
||||
"yi-vision-v2": {
|
||||
"description": "Модел за сложни визуални задачи, предлагащ висока производителност в разбирането и анализа на базата на множество изображения."
|
||||
},
|
||||
"zai-org/GLM-4.5": {
|
||||
"description": "GLM-4.5 е базов модел, специално създаден за интелигентни агенти, използващ архитектура с микс от експерти (Mixture-of-Experts). Той е дълбоко оптимизиран за използване на инструменти, уеб браузване, софтуерно инженерство и фронтенд програмиране, и поддържа безпроблемна интеграция с кодови агенти като Claude Code и Roo Code. GLM-4.5 използва смесен режим на разсъждение, подходящ за сложни и ежедневни приложения."
|
||||
},
|
||||
"zai-org/GLM-4.5-Air": {
|
||||
"description": "GLM-4.5-Air е базов модел, специално създаден за интелигентни агенти, използващ архитектура с микс от експерти (Mixture-of-Experts). Той е дълбоко оптимизиран за използване на инструменти, уеб браузване, софтуерно инженерство и фронтенд програмиране, и поддържа безпроблемна интеграция с кодови агенти като Claude Code и Roo Code. GLM-4.5 използва смесен режим на разсъждение, подходящ за сложни и ежедневни приложения."
|
||||
}
|
||||
}
|
||||
|
||||
@@ -5,9 +5,6 @@
|
||||
"ai360": {
|
||||
"description": "360 AI е платформа за AI модели и услуги, предлагана от компания 360, предлагаща множество напреднали модели за обработка на естествен език, включително 360GPT2 Pro, 360GPT Pro, 360GPT Turbo и 360GPT Turbo Responsibility 8K. Тези модели комбинират голям брой параметри и мултимодални способности, широко използвани в текстово генериране, семантично разбиране, диалогови системи и генериране на код. Чрез гъвкава ценова стратегия, 360 AI отговаря на разнообразни потребителски нужди, поддържайки интеграция за разработчици и насърчавайки иновации и развитие на интелигентни приложения."
|
||||
},
|
||||
"aihubmix": {
|
||||
"description": "AiHubMix предоставя достъп до множество AI модели чрез единен API интерфейс."
|
||||
},
|
||||
"anthropic": {
|
||||
"description": "Anthropic е компания, специализирана в изследвания и разработка на изкуствен интелект, предлагаща набор от напреднали езикови модели, като Claude 3.5 Sonnet, Claude 3 Sonnet, Claude 3 Opus и Claude 3 Haiku. Тези модели постигат идеален баланс между интелигентност, скорост и разходи, подходящи за различни приложения, от корпоративни натоварвания до бързи отговори. Claude 3.5 Sonnet, като най-новия им модел, показва отлични резултати в множество оценки, като същевременно поддържа висока цена-качество."
|
||||
},
|
||||
|
||||
@@ -189,7 +189,6 @@
|
||||
"aesGcm": "Ihr Schlüssel und die Proxy-Adresse werden mit dem <1>AES-GCM</1>-Verschlüsselungsalgorithmus verschlüsselt",
|
||||
"apiKey": {
|
||||
"desc": "Bitte geben Sie Ihren {{name}} API-Schlüssel ein",
|
||||
"descWithUrl": "Bitte gib deinen {{name}} API-Schlüssel ein, <3>hier klicken zum Abrufen</3>",
|
||||
"placeholder": "{{name}} API-Schlüssel",
|
||||
"title": "API-Schlüssel"
|
||||
},
|
||||
|
||||
+5
-185
@@ -32,9 +32,6 @@
|
||||
"4.0Ultra": {
|
||||
"description": "Spark4.0 Ultra ist die leistungsstärkste Version der Spark-Großmodellreihe, die die Online-Suchverbindung aktualisiert und die Fähigkeit zur Textverständnis und -zusammenfassung verbessert. Es ist eine umfassende Lösung zur Steigerung der Büroproduktivität und zur genauen Reaktion auf Anforderungen und ein führendes intelligentes Produkt in der Branche."
|
||||
},
|
||||
"AnimeSharp": {
|
||||
"description": "AnimeSharp (auch bekannt als „4x‑AnimeSharp“) ist ein von Kim2091 auf Basis der ESRGAN-Architektur entwickeltes Open-Source-Superauflösungsmodell, das sich auf die Vergrößerung und Schärfung von Anime-Stil-Bildern spezialisiert hat. Es wurde im Februar 2022 von „4x-TextSharpV1“ umbenannt und war ursprünglich auch für Textbilder geeignet, wurde jedoch für Anime-Inhalte erheblich optimiert."
|
||||
},
|
||||
"Baichuan2-Turbo": {
|
||||
"description": "Verwendet Suchverbesserungstechnologie, um eine umfassende Verknüpfung zwischen großen Modellen und Fachwissen sowie Wissen aus dem gesamten Internet zu ermöglichen. Unterstützt das Hochladen von Dokumenten wie PDF, Word und die Eingabe von URLs, um Informationen zeitnah und umfassend zu erhalten, mit genauen und professionellen Ergebnissen."
|
||||
},
|
||||
@@ -92,9 +89,6 @@
|
||||
"Doubao-pro-4k": {
|
||||
"description": "Das leistungsstärkste Hauptmodell, geeignet für komplexe Aufgaben. Es erzielt hervorragende Ergebnisse in Szenarien wie Referenzfragen, Zusammenfassungen, kreatives Schreiben, Textklassifikation und Rollenspielen. Unterstützt Inferenz und Feintuning mit einem Kontextfenster von 4k."
|
||||
},
|
||||
"DreamO": {
|
||||
"description": "DreamO ist ein von ByteDance und der Peking-Universität gemeinsam entwickeltes Open-Source-Bildgenerierungsmodell zur individuellen Anpassung, das durch eine einheitliche Architektur Multitasking-Bildgenerierung unterstützt. Es verwendet eine effiziente kombinierte Modellierungsmethode, um basierend auf vom Nutzer angegebenen Identität, Motiv, Stil, Hintergrund und weiteren Bedingungen hochgradig konsistente und maßgeschneiderte Bilder zu erzeugen."
|
||||
},
|
||||
"ERNIE-3.5-128K": {
|
||||
"description": "Das von Baidu entwickelte Flaggschiff-Modell für großangelegte Sprachverarbeitung, das eine riesige Menge an chinesischen und englischen Texten abdeckt. Es verfügt über starke allgemeine Fähigkeiten und kann die meisten Anforderungen an Dialogfragen, kreative Generierung und Anwendungsfälle von Plugins erfüllen. Es unterstützt die automatische Anbindung an das Baidu-Such-Plugin, um die Aktualität der Antwortinformationen zu gewährleisten."
|
||||
},
|
||||
@@ -128,39 +122,15 @@
|
||||
"ERNIE-Speed-Pro-128K": {
|
||||
"description": "Das neueste von Baidu im Jahr 2024 veröffentlichte hochleistungsfähige Sprachmodell, das überragende allgemeine Fähigkeiten bietet und bessere Ergebnisse als ERNIE Speed erzielt. Es eignet sich als Basis-Modell für Feinabstimmungen, um spezifische Szenarien besser zu bearbeiten, und bietet gleichzeitig hervorragende Inferenzleistung."
|
||||
},
|
||||
"FLUX.1-Kontext-dev": {
|
||||
"description": "FLUX.1-Kontext-dev ist ein von Black Forest Labs entwickeltes multimodales Bildgenerierungs- und Bearbeitungsmodell auf Basis der Rectified Flow Transformer-Architektur mit 12 Milliarden Parametern. Es konzentriert sich auf die Generierung, Rekonstruktion, Verbesserung oder Bearbeitung von Bildern unter gegebenen Kontextbedingungen. Das Modell kombiniert die kontrollierbare Generierung von Diffusionsmodellen mit der Kontextmodellierung von Transformern, unterstützt hochwertige Bildausgaben und ist vielseitig einsetzbar für Bildrestaurierung, Bildvervollständigung und visuelle Szenenrekonstruktion."
|
||||
},
|
||||
"FLUX.1-dev": {
|
||||
"description": "FLUX.1-dev ist ein von Black Forest Labs entwickeltes Open-Source-multimodales Sprachmodell (Multimodal Language Model, MLLM), das für Bild-Text-Aufgaben optimiert ist und Verständnis sowie Generierung von Bildern und Texten vereint. Es basiert auf fortschrittlichen großen Sprachmodellen wie Mistral-7B und erreicht durch sorgfältig gestaltete visuelle Encoder und mehrstufige Instruktions-Feinabstimmung eine kooperative Verarbeitung von Bild und Text sowie komplexe Aufgabenlogik."
|
||||
},
|
||||
"Gryphe/MythoMax-L2-13b": {
|
||||
"description": "MythoMax-L2 (13B) ist ein innovatives Modell, das sich für Anwendungen in mehreren Bereichen und komplexe Aufgaben eignet."
|
||||
},
|
||||
"HelloMeme": {
|
||||
"description": "HelloMeme ist ein KI-Tool, das automatisch Memes, animierte GIFs oder Kurzvideos basierend auf von dir bereitgestellten Bildern oder Aktionen erstellt. Es erfordert keine Zeichen- oder Programmierkenntnisse – du brauchst nur Referenzbilder, und es hilft dir, ansprechende, unterhaltsame und stilistisch einheitliche Inhalte zu erstellen."
|
||||
},
|
||||
"HiDream-I1-Full": {
|
||||
"description": "HiDream-E1-Full ist ein von HiDream.ai entwickeltes Open-Source-multimodales Bildbearbeitungsmodell, das auf der fortschrittlichen Diffusion Transformer-Architektur basiert und mit leistungsstarker Sprachverständnisfähigkeit (integriert LLaMA 3.1-8B-Instruct) ausgestattet ist. Es unterstützt die Bildgenerierung, Stilübertragung, lokale Bearbeitung und Neugestaltung durch natürliche Sprachbefehle und bietet exzellentes Verständnis und Ausführung von Bild-Text-Anweisungen."
|
||||
},
|
||||
"HunyuanDiT-v1.2-Diffusers-Distilled": {
|
||||
"description": "hunyuandit-v1.2-distilled ist ein leichtgewichtiges Text-zu-Bild-Modell, das durch Destillation optimiert wurde, um schnell hochwertige Bilder zu erzeugen. Es eignet sich besonders für ressourcenarme Umgebungen und Echtzeit-Generierungsaufgaben."
|
||||
},
|
||||
"InstantCharacter": {
|
||||
"description": "InstantCharacter ist ein 2025 vom Tencent AI-Team veröffentlichtes tuning-freies personalisiertes Charaktergenerierungsmodell, das eine hochpräzise und konsistente Charaktererstellung über verschiedene Szenarien hinweg ermöglicht. Das Modell kann einen Charakter allein anhand eines Referenzbildes modellieren und diesen flexibel in verschiedene Stile, Bewegungen und Hintergründe übertragen."
|
||||
},
|
||||
"InternVL2-8B": {
|
||||
"description": "InternVL2-8B ist ein leistungsstarkes visuelles Sprachmodell, das multimodale Verarbeitung von Bildern und Text unterstützt und in der Lage ist, Bildinhalte präzise zu erkennen und relevante Beschreibungen oder Antworten zu generieren."
|
||||
},
|
||||
"InternVL2.5-26B": {
|
||||
"description": "InternVL2.5-26B ist ein leistungsstarkes visuelles Sprachmodell, das multimodale Verarbeitung von Bildern und Text unterstützt und in der Lage ist, Bildinhalte präzise zu erkennen und relevante Beschreibungen oder Antworten zu generieren."
|
||||
},
|
||||
"Kolors": {
|
||||
"description": "Kolors ist ein von Kuaishou Kolors Team entwickeltes Text-zu-Bild-Modell, das mit Milliarden von Parametern trainiert wurde und in visueller Qualität, chinesischem semantischem Verständnis sowie Textdarstellung herausragende Vorteile bietet."
|
||||
},
|
||||
"Kwai-Kolors/Kolors": {
|
||||
"description": "Kolors ist ein von Kuaishou Kolors Team entwickeltes groß angelegtes latentes Diffusionsmodell zur Text-zu-Bild-Generierung. Es wurde mit Milliarden von Text-Bild-Paaren trainiert und zeigt herausragende Leistungen in visueller Qualität, komplexer semantischer Genauigkeit sowie der Darstellung chinesischer und englischer Schriftzeichen. Es unterstützt sowohl chinesische als auch englische Eingaben und ist besonders leistungsfähig bei der Verarbeitung und Erzeugung chinesischsprachiger Inhalte."
|
||||
},
|
||||
"Llama-3.2-11B-Vision-Instruct": {
|
||||
"description": "Hervorragende Bildschlussfolgerungsfähigkeiten auf hochauflösenden Bildern, geeignet für Anwendungen im Bereich der visuellen Verständigung."
|
||||
},
|
||||
@@ -194,15 +164,9 @@
|
||||
"MiniMaxAI/MiniMax-M1-80k": {
|
||||
"description": "MiniMax-M1 ist ein groß angelegtes hybrides Aufmerksamkeits-Inferenzmodell mit offenen Gewichten, das 456 Milliarden Parameter umfasst und etwa 45,9 Milliarden Parameter pro Token aktiviert. Das Modell unterstützt nativ einen ultralangen Kontext von 1 Million Tokens und spart durch den Blitz-Attention-Mechanismus bei Aufgaben mit 100.000 Tokens im Vergleich zu DeepSeek R1 75 % der Fließkommaoperationen ein. Gleichzeitig verwendet MiniMax-M1 eine MoE-Architektur (Mixture of Experts) und kombiniert den CISPO-Algorithmus mit einem hybriden Aufmerksamkeitsdesign für effizientes verstärkendes Lernen, was in der Langzeiteingabe-Inferenz und realen Software-Engineering-Szenarien branchenführende Leistung erzielt."
|
||||
},
|
||||
"Moonshot-Kimi-K2-Instruct": {
|
||||
"description": "Mit insgesamt 1 Billion Parametern und 32 Milliarden aktivierten Parametern erreicht dieses nicht-denkende Modell Spitzenleistungen in den Bereichen aktuelles Wissen, Mathematik und Programmierung und ist besonders für allgemeine Agentenaufgaben optimiert. Es wurde speziell für Agentenaufgaben verfeinert, kann nicht nur Fragen beantworten, sondern auch Aktionen ausführen. Ideal für spontane, allgemeine Gespräche und Agentenerfahrungen, ist es ein reflexartiges Modell ohne lange Denkzeiten."
|
||||
},
|
||||
"NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
||||
"description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B) ist ein hochpräzises Anweisungsmodell, das für komplexe Berechnungen geeignet ist."
|
||||
},
|
||||
"OmniConsistency": {
|
||||
"description": "OmniConsistency verbessert durch den Einsatz großskaliger Diffusion Transformers (DiTs) und gepaarter stilisierter Daten die Stil-Konsistenz und Generalisierungsfähigkeit bei Bild-zu-Bild-Aufgaben und verhindert Stilverschlechterung."
|
||||
},
|
||||
"Phi-3-medium-128k-instruct": {
|
||||
"description": "Das gleiche Phi-3-medium-Modell, jedoch mit einer größeren Kontextgröße für RAG oder Few-Shot-Prompting."
|
||||
},
|
||||
@@ -254,9 +218,6 @@
|
||||
"Pro/deepseek-ai/DeepSeek-V3": {
|
||||
"description": "DeepSeek-V3 ist ein hybrides Experten (MoE) Sprachmodell mit 6710 Milliarden Parametern, das eine Multi-Head-Latente-Attention (MLA) und DeepSeekMoE-Architektur verwendet, kombiniert mit einer Lastenausgleichsstrategie ohne Hilfskosten, um die Inferenz- und Trainingseffizienz zu optimieren. Durch das Pre-Training auf 14,8 Billionen hochwertigen Tokens und anschließende überwachte Feinabstimmung und verstärktes Lernen übertrifft DeepSeek-V3 in der Leistung andere Open-Source-Modelle und nähert sich führenden geschlossenen Modellen."
|
||||
},
|
||||
"Pro/moonshotai/Kimi-K2-Instruct": {
|
||||
"description": "Kimi K2 ist ein MoE-Architektur-Basis-Modell mit herausragenden Code- und Agentenfähigkeiten, insgesamt 1 Billion Parameter und 32 Milliarden aktivierten Parametern. In Benchmark-Tests zu allgemeinem Wissen, Programmierung, Mathematik und Agentenaufgaben übertrifft das K2-Modell andere führende Open-Source-Modelle."
|
||||
},
|
||||
"QwQ-32B-Preview": {
|
||||
"description": "QwQ-32B-Preview ist ein innovatives Modell für die Verarbeitung natürlicher Sprache, das komplexe Aufgaben der Dialoggenerierung und des Kontextverständnisses effizient bewältigen kann."
|
||||
},
|
||||
@@ -317,18 +278,9 @@
|
||||
"Qwen/Qwen3-235B-A22B": {
|
||||
"description": "Qwen3 ist ein neues, leistungsstark verbessertes Modell von Tongyi Qianwen, das in den Bereichen Denken, Allgemeinwissen, Agenten und Mehrsprachigkeit in mehreren Kernfähigkeiten branchenführende Standards erreicht und den Wechsel zwischen Denkmodi unterstützt."
|
||||
},
|
||||
"Qwen/Qwen3-235B-A22B-Instruct-2507": {
|
||||
"description": "Qwen3-235B-A22B-Instruct-2507 ist ein Flaggschiff-Misch-Experten-(MoE)-Großsprachmodell aus der Qwen3-Serie, entwickelt vom Alibaba Cloud Tongyi Qianwen Team. Es verfügt über 235 Milliarden Gesamtparameter und aktiviert bei jeder Inferenz 22 Milliarden Parameter. Als aktualisierte Version des nicht-denkenden Qwen3-235B-A22B fokussiert es sich auf signifikante Verbesserungen in Instruktionsbefolgung, logischem Denken, Textverständnis, Mathematik, Wissenschaft, Programmierung und Werkzeugnutzung. Zudem wurde die Abdeckung mehrsprachigen Langschwanzwissens erweitert und die Ausrichtung auf Nutzerpräferenzen bei subjektiven und offenen Aufgaben verbessert, um hilfreichere und qualitativ hochwertigere Texte zu generieren."
|
||||
},
|
||||
"Qwen/Qwen3-235B-A22B-Thinking-2507": {
|
||||
"description": "Qwen3-235B-A22B-Thinking-2507 ist ein Mitglied der Qwen3-Serie großer Sprachmodelle von Alibaba Tongyi Qianwen, spezialisiert auf komplexe anspruchsvolle Schlussfolgerungsaufgaben. Das Modell basiert auf der Misch-Experten-(MoE)-Architektur mit 235 Milliarden Gesamtparametern, aktiviert jedoch nur etwa 22 Milliarden Parameter pro Token, was eine hohe Rechenleistung bei Effizienz ermöglicht. Als dediziertes „Denk“-Modell zeigt es herausragende Leistungen in logischem Denken, Mathematik, Wissenschaft, Programmierung und akademischen Benchmarks und erreicht Spitzenwerte unter Open-Source-Denkmodellen. Zusätzlich verbessert es allgemeine Fähigkeiten wie Instruktionsbefolgung, Werkzeugnutzung und Textgenerierung und unterstützt nativ eine Kontextlänge von 256K, ideal für tiefgehende Schlussfolgerungen und lange Dokumente."
|
||||
},
|
||||
"Qwen/Qwen3-30B-A3B": {
|
||||
"description": "Qwen3 ist ein neues, leistungsstark verbessertes Modell von Tongyi Qianwen, das in den Bereichen Denken, Allgemeinwissen, Agenten und Mehrsprachigkeit in mehreren Kernfähigkeiten branchenführende Standards erreicht und den Wechsel zwischen Denkmodi unterstützt."
|
||||
},
|
||||
"Qwen/Qwen3-30B-A3B-Instruct-2507": {
|
||||
"description": "Qwen3-30B-A3B-Instruct-2507 ist eine aktualisierte Version des Qwen3-30B-A3B im Nicht-Denkmodus. Es handelt sich um ein Mixture-of-Experts (MoE)-Modell mit insgesamt 30,5 Milliarden Parametern und 3,3 Milliarden Aktivierungsparametern. Das Modell wurde in mehreren Bereichen entscheidend verbessert, darunter eine signifikante Steigerung der Befolgung von Anweisungen, logisches Denken, Textverständnis, Mathematik, Wissenschaft, Programmierung und Werkzeugnutzung. Gleichzeitig wurden substanzielle Fortschritte bei der Abdeckung von Langschwanzwissen in mehreren Sprachen erzielt, und es kann besser auf die Präferenzen der Nutzer bei subjektiven und offenen Aufgaben abgestimmt werden, um hilfreichere Antworten und qualitativ hochwertigere Texte zu generieren. Darüber hinaus wurde die Fähigkeit zum Verständnis langer Texte auf 256K erweitert. Dieses Modell unterstützt ausschließlich den Nicht-Denkmodus und generiert keine `<think></think>`-Tags in der Ausgabe."
|
||||
},
|
||||
"Qwen/Qwen3-32B": {
|
||||
"description": "Qwen3 ist ein neues, leistungsstark verbessertes Modell von Tongyi Qianwen, das in den Bereichen Denken, Allgemeinwissen, Agenten und Mehrsprachigkeit in mehreren Kernfähigkeiten branchenführende Standards erreicht und den Wechsel zwischen Denkmodi unterstützt."
|
||||
},
|
||||
@@ -362,12 +314,6 @@
|
||||
"Qwen2.5-Coder-32B-Instruct": {
|
||||
"description": "Qwen2.5-Coder-32B-Instruct ist ein großes Sprachmodell, das speziell für die Codegenerierung, das Verständnis von Code und effiziente Entwicklungsszenarien entwickelt wurde. Es verwendet eine branchenführende Parametergröße von 32B und kann vielfältige Programmieranforderungen erfüllen."
|
||||
},
|
||||
"Qwen3-235B": {
|
||||
"description": "Qwen3-235B-A22B ist ein MoE (Mixture-of-Experts)-Modell, das den „Hybrid-Reasoning-Modus“ einführt und Nutzern nahtloses Umschalten zwischen „Denkmodus“ und „Nicht-Denkmodus“ ermöglicht. Es unterstützt das Verständnis und die Argumentation in 119 Sprachen und Dialekten und verfügt über leistungsstarke Werkzeugaufruffähigkeiten. In umfassenden Benchmark-Tests zu allgemeinen Fähigkeiten, Programmierung und Mathematik, Mehrsprachigkeit, Wissen und Argumentation konkurriert es mit führenden aktuellen Großmodellen auf dem Markt wie DeepSeek R1, OpenAI o1, o3-mini, Grok 3 und Google Gemini 2.5 Pro."
|
||||
},
|
||||
"Qwen3-32B": {
|
||||
"description": "Qwen3-32B ist ein dichtes Modell (Dense Model), das den „Hybrid-Reasoning-Modus“ einführt und Nutzern nahtloses Umschalten zwischen „Denkmodus“ und „Nicht-Denkmodus“ ermöglicht. Aufgrund von Verbesserungen in der Modellarchitektur, einer Erweiterung der Trainingsdaten und effizienteren Trainingsmethoden entspricht die Gesamtleistung der von Qwen2.5-72B."
|
||||
},
|
||||
"SenseChat": {
|
||||
"description": "Basisversion des Modells (V4) mit 4K Kontextlänge, die über starke allgemeine Fähigkeiten verfügt."
|
||||
},
|
||||
@@ -404,12 +350,6 @@
|
||||
"SenseChat-Vision": {
|
||||
"description": "Das neueste Modell (V5.5) unterstützt die Eingabe mehrerer Bilder und optimiert umfassend die grundlegenden Fähigkeiten des Modells. Es hat signifikante Verbesserungen in der Erkennung von Objektattributen, räumlichen Beziehungen, Aktionsereignissen, Szenenverständnis, Emotionserkennung, logischem Wissen und Textverständnis und -generierung erreicht."
|
||||
},
|
||||
"SenseNova-V6-5-Pro": {
|
||||
"description": "Durch umfassende Aktualisierungen multimodaler, sprachlicher und argumentativer Daten sowie Optimierungen der Trainingsstrategie erzielt das neue Modell erhebliche Verbesserungen bei multimodalem Schließen und generalisierter Befolgung von Anweisungen. Es unterstützt Kontextfenster von bis zu 128k und zeigt herausragende Leistungen bei spezialisierten Aufgaben wie OCR und der Erkennung von Tourismus-IP."
|
||||
},
|
||||
"SenseNova-V6-5-Turbo": {
|
||||
"description": "Durch umfassende Aktualisierungen multimodaler, sprachlicher und argumentativer Daten sowie Optimierungen der Trainingsstrategie erzielt das neue Modell erhebliche Verbesserungen bei multimodalem Schließen und generalisierter Befolgung von Anweisungen. Es unterstützt Kontextfenster von bis zu 128k und zeigt herausragende Leistungen bei spezialisierten Aufgaben wie OCR und der Erkennung von Tourismus-IP."
|
||||
},
|
||||
"SenseNova-V6-Pro": {
|
||||
"description": "Erreicht eine native Einheit von Bild-, Text- und Video-Fähigkeiten, überwindet die traditionellen Grenzen der multimodalen Trennung und hat in den Bewertungen von OpenCompass und SuperCLUE zwei Meistertitel gewonnen."
|
||||
},
|
||||
@@ -1004,9 +944,6 @@
|
||||
"doubao-seed-1.6-thinking": {
|
||||
"description": "Das Doubao-Seed-1.6-thinking Modell verfügt über stark verbesserte Denkfähigkeiten. Im Vergleich zu Doubao-1.5-thinking-pro wurden die Grundfähigkeiten in Coding, Mathematik und logischem Denken weiter verbessert und unterstützt visuelles Verständnis. Unterstützt ein Kontextfenster von 256k und eine maximale Ausgabelänge von 16k Tokens."
|
||||
},
|
||||
"doubao-seedream-3-0-t2i-250415": {
|
||||
"description": "Das Doubao-Bildgenerierungsmodell wurde vom ByteDance Seed Team entwickelt und unterstützt sowohl Text- als auch Bildeingaben, um eine hochgradig kontrollierbare und qualitativ hochwertige Bildgenerierung zu bieten. Es erzeugt Bilder basierend auf Text-Prompts."
|
||||
},
|
||||
"doubao-vision-lite-32k": {
|
||||
"description": "Das Doubao-vision-Modell ist ein multimodales Großmodell von Doubao mit starker Bildverständnis- und Inferenzfähigkeit sowie präziser Befehlsinterpretation. Es zeigt starke Leistung bei der Extraktion von Bild- und Textinformationen sowie bei bildbasierten Inferenzaufgaben und eignet sich für komplexere und umfassendere visuelle Frage-Antwort-Aufgaben."
|
||||
},
|
||||
@@ -1058,9 +995,6 @@
|
||||
"ernie-char-fiction-8k": {
|
||||
"description": "Das von Baidu entwickelte große Sprachmodell für vertikale Szenarien eignet sich für Anwendungen wie NPCs in Spielen, Kundenservice-Dialoge und Rollenspiele, mit einem klareren und konsistenteren Charakterstil, einer stärkeren Befolgung von Anweisungen und besserer Inferenzleistung."
|
||||
},
|
||||
"ernie-irag-edit": {
|
||||
"description": "Das von Baidu entwickelte ERNIE iRAG Edit Bildbearbeitungsmodell unterstützt Operationen wie Löschen (erase), Neumalen (repaint) und Variationserzeugung (variation) basierend auf Bildern."
|
||||
},
|
||||
"ernie-lite-8k": {
|
||||
"description": "ERNIE Lite ist ein leichtgewichtiges großes Sprachmodell, das von Baidu entwickelt wurde und sowohl hervorragende Modellleistung als auch Inferenzleistung bietet, geeignet für die Verwendung mit AI-Beschleunigungskarten mit geringer Rechenleistung."
|
||||
},
|
||||
@@ -1088,27 +1022,12 @@
|
||||
"ernie-x1-turbo-32k": {
|
||||
"description": "Im Vergleich zu ERNIE-X1-32K bietet dieses Modell bessere Leistung und Effizienz."
|
||||
},
|
||||
"flux-1-schnell": {
|
||||
"description": "Ein von Black Forest Labs entwickeltes Text-zu-Bild-Modell mit 12 Milliarden Parametern, das latente adversariale Diffusionsdestillation verwendet und in 1 bis 4 Schritten hochwertige Bilder erzeugen kann. Die Leistung ist vergleichbar mit proprietären Alternativen und wird unter der Apache-2.0-Lizenz für private, wissenschaftliche und kommerzielle Nutzung veröffentlicht."
|
||||
},
|
||||
"flux-dev": {
|
||||
"description": "FLUX.1 [dev] ist ein Open-Source-Gewichtungs- und Feinschlichtungsmodell für nicht-kommerzielle Anwendungen. Es bietet eine Bildqualität und Instruktionsbefolgung ähnlich der professionellen FLUX-Version, jedoch mit höherer Effizienz. Im Vergleich zu Standardmodellen gleicher Größe ist es ressourcenschonender."
|
||||
},
|
||||
"flux-kontext/dev": {
|
||||
"description": "Frontier Bildbearbeitungsmodell."
|
||||
},
|
||||
"flux-merged": {
|
||||
"description": "Das FLUX.1-merged Modell kombiniert die tiefgehenden Eigenschaften, die in der Entwicklungsphase von „DEV“ erforscht wurden, mit der hohen Ausführungsgeschwindigkeit von „Schnell“. Dadurch werden sowohl die Leistungsgrenzen des Modells erweitert als auch dessen Anwendungsbereich vergrößert."
|
||||
},
|
||||
"flux-pro/kontext": {
|
||||
"description": "FLUX.1 Kontext [pro] kann Text und Referenzbilder als Eingabe verarbeiten und ermöglicht nahtlose zielgerichtete lokale Bearbeitungen sowie komplexe umfassende Szenenveränderungen."
|
||||
},
|
||||
"flux-schnell": {
|
||||
"description": "FLUX.1 [schnell] ist das derzeit fortschrittlichste Open-Source-Modell mit wenigen Schritten, das nicht nur Konkurrenten übertrifft, sondern auch leistungsstärkere nicht-feinabgestimmte Modelle wie Midjourney v6.0 und DALL·E 3 (HD) übertrifft. Das Modell wurde speziell feinabgestimmt, um die gesamte Vielfalt der Vortrainingsausgaben zu bewahren. Im Vergleich zu den aktuell besten Modellen auf dem Markt bietet FLUX.1 [schnell] erhebliche Verbesserungen in visueller Qualität, Instruktionsbefolgung, Größen- und Proportionsänderungen, Schriftartenverarbeitung und Ausgabediversität, was den Nutzern eine reichhaltigere und vielfältigere kreative Bildgenerierung ermöglicht."
|
||||
},
|
||||
"flux.1-schnell": {
|
||||
"description": "Ein Rectified Flow Transformer mit 12 Milliarden Parametern, der Bilder basierend auf Textbeschreibungen generieren kann."
|
||||
},
|
||||
"flux/schnell": {
|
||||
"description": "FLUX.1 [schnell] ist ein Streaming-Transformator-Modell mit 12 Milliarden Parametern, das in 1 bis 4 Schritten hochwertige Bilder aus Text generiert und sich für private und kommerzielle Nutzung eignet."
|
||||
},
|
||||
@@ -1190,6 +1109,9 @@
|
||||
"gemini-2.5-flash-preview-04-17": {
|
||||
"description": "Gemini 2.5 Flash Preview ist das kosteneffizienteste Modell von Google und bietet umfassende Funktionen."
|
||||
},
|
||||
"gemini-2.5-flash-preview-04-17-thinking": {
|
||||
"description": "Gemini 2.5 Flash Preview ist Googles kosteneffizientestes Modell mit umfassenden Funktionen."
|
||||
},
|
||||
"gemini-2.5-flash-preview-05-20": {
|
||||
"description": "Gemini 2.5 Flash Preview ist Googles kosteneffizientestes Modell mit umfassenden Funktionen."
|
||||
},
|
||||
@@ -1268,21 +1190,6 @@
|
||||
"glm-4.1v-thinking-flashx": {
|
||||
"description": "Die GLM-4.1V-Thinking-Serie ist das leistungsstärkste visuelle Modell unter den bekannten 10-Milliarden-Parameter-VLMs und integriert SOTA-Leistungen auf diesem Niveau in verschiedenen visuellen Sprachaufgaben, darunter Videoverstehen, Bildfragen, Fachaufgaben, OCR-Texterkennung, Dokumenten- und Diagramminterpretation, GUI-Agenten, Frontend-Web-Coding und Grounding. In vielen Aufgaben übertrifft es sogar das Qwen2.5-VL-72B mit achtmal so vielen Parametern. Durch fortschrittliche Verstärkungslernverfahren beherrscht das Modell die Chain-of-Thought-Schlussfolgerung, was die Genauigkeit und Detailtiefe der Antworten deutlich verbessert und in Bezug auf Endergebnis und Erklärbarkeit traditionelle Nicht-Thinking-Modelle übertrifft."
|
||||
},
|
||||
"glm-4.5": {
|
||||
"description": "Das neueste Flaggschiff-Modell von Zhipu, unterstützt den Denkmoduswechsel und erreicht eine umfassende Leistungsfähigkeit auf SOTA-Niveau für Open-Source-Modelle mit einer Kontextlänge von bis zu 128K."
|
||||
},
|
||||
"glm-4.5-air": {
|
||||
"description": "Die leichtgewichtige Version von GLM-4.5, die Leistung und Kosten-Nutzen-Verhältnis ausbalanciert und flexibel zwischen hybriden Denkmodellen wechseln kann."
|
||||
},
|
||||
"glm-4.5-airx": {
|
||||
"description": "Die Turbo-Version von GLM-4.5-Air mit schnellerer Reaktionszeit, speziell für großskalige und hochgeschwindigkeitsbedürftige Anwendungen entwickelt."
|
||||
},
|
||||
"glm-4.5-flash": {
|
||||
"description": "Die kostenlose Version von GLM-4.5, die bei Inferenz, Programmierung und Agentenaufgaben hervorragende Leistungen zeigt."
|
||||
},
|
||||
"glm-4.5-x": {
|
||||
"description": "Die Turbo-Version von GLM-4.5, die bei starker Leistung eine Generierungsgeschwindigkeit von bis zu 100 Tokens pro Sekunde erreicht."
|
||||
},
|
||||
"glm-4v": {
|
||||
"description": "GLM-4V bietet starke Fähigkeiten zur Bildverständnis und -schlussfolgerung und unterstützt eine Vielzahl visueller Aufgaben."
|
||||
},
|
||||
@@ -1302,7 +1209,7 @@
|
||||
"description": "Blitzschlussfolgerung: Bietet extrem schnelle Schlussfolgerungsgeschwindigkeit und starke Schlussfolgerungseffekte."
|
||||
},
|
||||
"glm-z1-flash": {
|
||||
"description": "Die GLM-Z1-Serie verfügt über starke Fähigkeiten im komplexen logischen Denken und zeigt hervorragende Leistungen in Logik, Mathematik und Programmierung."
|
||||
"description": "Die GLM-Z1-Serie verfügt über starke Fähigkeiten zur komplexen Schlussfolgerung und zeigt in den Bereichen logische Schlussfolgerung, Mathematik und Programmierung hervorragende Leistungen. Die maximale Kontextlänge beträgt 32K."
|
||||
},
|
||||
"glm-z1-flashx": {
|
||||
"description": "Hohe Geschwindigkeit zu niedrigem Preis: Flash-verbesserte Version mit ultraschneller Inferenzgeschwindigkeit und schnellerer gleichzeitiger Verarbeitung."
|
||||
@@ -1478,9 +1385,6 @@
|
||||
"grok-2-1212": {
|
||||
"description": "Dieses Modell hat Verbesserungen in Bezug auf Genauigkeit, Befolgung von Anweisungen und Mehrsprachigkeit erfahren."
|
||||
},
|
||||
"grok-2-image-1212": {
|
||||
"description": "Unser neuestes Bildgenerierungsmodell kann lebendige und realistische Bilder basierend auf Text-Prompts erzeugen. Es zeigt hervorragende Leistungen in den Bereichen Marketing, soziale Medien und Unterhaltung."
|
||||
},
|
||||
"grok-2-vision-1212": {
|
||||
"description": "Dieses Modell hat Verbesserungen in Bezug auf Genauigkeit, Befolgung von Anweisungen und Mehrsprachigkeit erfahren."
|
||||
},
|
||||
@@ -1550,9 +1454,6 @@
|
||||
"hunyuan-t1-20250529": {
|
||||
"description": "Optimiert für Textkreation und Aufsatzschreiben, verbessert die Fähigkeiten in Frontend-Programmierung, Mathematik und logischem Denken sowie die Befolgung von Anweisungen."
|
||||
},
|
||||
"hunyuan-t1-20250711": {
|
||||
"description": "Erhebliche Verbesserungen bei anspruchsvoller Mathematik, Logik und Programmierfähigkeiten, Optimierung der Modellstabilität und Steigerung der Leistungsfähigkeit bei langen Texten."
|
||||
},
|
||||
"hunyuan-t1-latest": {
|
||||
"description": "Das erste ultra-skalierbare Hybrid-Transformer-Mamba-Inferenzmodell der Branche, das die Inferenzfähigkeiten erweitert, eine extrem hohe Dekodierungsgeschwindigkeit bietet und weiter auf menschliche Präferenzen abgestimmt ist."
|
||||
},
|
||||
@@ -1601,12 +1502,6 @@
|
||||
"hunyuan-vision": {
|
||||
"description": "Das neueste multimodale Modell von Hunyuan unterstützt die Eingabe von Bildern und Text zur Generierung von Textinhalten."
|
||||
},
|
||||
"image-01": {
|
||||
"description": "Neues Bildgenerierungsmodell mit feiner Bilddarstellung, unterstützt Text-zu-Bild und Bild-zu-Bild."
|
||||
},
|
||||
"image-01-live": {
|
||||
"description": "Bildgenerierungsmodell mit feiner Bilddarstellung, unterstützt Text-zu-Bild und Stil-Einstellungen."
|
||||
},
|
||||
"imagen-4.0-generate-preview-06-06": {
|
||||
"description": "Imagen 4. Generation Text-zu-Bild Modellserie"
|
||||
},
|
||||
@@ -1631,9 +1526,6 @@
|
||||
"internvl3-latest": {
|
||||
"description": "Unser neuestes multimodales Großmodell bietet verbesserte Fähigkeiten im Verständnis von Text und Bildern sowie im langfristigen Verständnis von Bildern und erreicht eine Leistung, die mit führenden proprietären Modellen vergleichbar ist. Standardmäßig verweist es auf unser neuestes veröffentlichtes InternVL-Modell, derzeit auf internvl3-78b."
|
||||
},
|
||||
"irag-1.0": {
|
||||
"description": "Das von Baidu entwickelte iRAG (image based RAG) ist eine durch Suche verstärkte Text-zu-Bild-Technologie, die Baidus Milliarden von Bildressourcen mit leistungsstarken Basismodellen kombiniert, um ultra-realistische Bilder zu erzeugen. Das Gesamtergebnis übertrifft native Text-zu-Bild-Systeme deutlich, wirkt weniger künstlich und ist kostengünstig. iRAG zeichnet sich durch keine Halluzinationen, hohe Realitätsnähe und sofortige Verfügbarkeit aus."
|
||||
},
|
||||
"jamba-large": {
|
||||
"description": "Unser leistungsstärkstes und fortschrittlichstes Modell, das speziell für die Bewältigung komplexer Aufgaben auf Unternehmensebene entwickelt wurde und herausragende Leistung bietet."
|
||||
},
|
||||
@@ -1643,9 +1535,6 @@
|
||||
"jina-deepsearch-v1": {
|
||||
"description": "Die Tiefensuche kombiniert Websuche, Lesen und Schlussfolgern und ermöglicht umfassende Untersuchungen. Sie können es als einen Agenten betrachten, der Ihre Forschungsaufgaben übernimmt – er führt eine umfassende Suche durch und iteriert mehrfach, bevor er eine Antwort gibt. Dieser Prozess umfasst kontinuierliche Forschung, Schlussfolgerungen und die Lösung von Problemen aus verschiedenen Perspektiven. Dies unterscheidet sich grundlegend von den Standard-Großmodellen, die Antworten direkt aus vortrainierten Daten generieren, sowie von traditionellen RAG-Systemen, die auf einmaligen Oberflächensuchen basieren."
|
||||
},
|
||||
"kimi-k2": {
|
||||
"description": "Kimi-K2 ist ein von Moonshot AI entwickeltes MoE-Basis-Modell mit herausragenden Code- und Agentenfähigkeiten, insgesamt 1 Billion Parameter und 32 Milliarden aktivierten Parametern. In Benchmark-Tests zu allgemeinem Wissen, Programmierung, Mathematik und Agentenaufgaben übertrifft das K2-Modell andere führende Open-Source-Modelle."
|
||||
},
|
||||
"kimi-k2-0711-preview": {
|
||||
"description": "kimi-k2 ist ein MoE-Architektur-Basis-Modell mit außergewöhnlichen Fähigkeiten in Code und Agentenfunktionen, mit insgesamt 1 Billion Parametern und 32 Milliarden aktiven Parametern. In Benchmark-Tests zu allgemeinem Wissen, Programmierung, Mathematik und Agenten übertrifft das K2-Modell andere führende Open-Source-Modelle."
|
||||
},
|
||||
@@ -2039,9 +1928,6 @@
|
||||
"moonshotai/Kimi-Dev-72B": {
|
||||
"description": "Kimi-Dev-72B ist ein Open-Source-Großmodell für Quellcode, das durch umfangreiche Verstärkungslernoptimierung robuste und direkt produktionsreife Patches erzeugen kann. Dieses Modell erreichte auf SWE-bench Verified eine neue Höchstpunktzahl von 60,4 % und stellte damit einen Rekord für Open-Source-Modelle bei automatisierten Software-Engineering-Aufgaben wie Fehlerbehebung und Code-Review auf."
|
||||
},
|
||||
"moonshotai/Kimi-K2-Instruct": {
|
||||
"description": "Kimi K2 ist ein MoE-Basis-Modell mit herausragenden Code- und Agentenfähigkeiten, insgesamt 1 Billion Parameter und 32 Milliarden aktivierten Parametern. In Benchmark-Tests zu allgemeinem Wissen, Programmierung, Mathematik und Agentenaufgaben übertrifft das K2-Modell andere führende Open-Source-Modelle."
|
||||
},
|
||||
"moonshotai/kimi-k2-instruct": {
|
||||
"description": "kimi-k2 ist ein MoE-Architektur-Basismodell mit außergewöhnlichen Fähigkeiten in Code und Agenten, mit insgesamt 1 Billion Parametern und 32 Milliarden aktiven Parametern. In Benchmark-Tests zu allgemeinem Wissen, Programmierung, Mathematik und Agenten übertrifft das K2-Modell andere führende Open-Source-Modelle."
|
||||
},
|
||||
@@ -2378,21 +2264,9 @@
|
||||
"qwen3-235b-a22b": {
|
||||
"description": "Qwen3 ist ein neues, leistungsstarkes Modell der nächsten Generation, das in den Bereichen Inferenz, Allgemeinwissen, Agenten und Mehrsprachigkeit erhebliche Fortschritte erzielt hat und den Wechsel zwischen Denkmodi unterstützt."
|
||||
},
|
||||
"qwen3-235b-a22b-instruct-2507": {
|
||||
"description": "Open-Source-Modell im nicht-denkenden Modus basierend auf Qwen3, mit leichten Verbesserungen in subjektiver Kreativität und Modellsicherheit gegenüber der Vorgängerversion (Tongyi Qianwen 3-235B-A22B)."
|
||||
},
|
||||
"qwen3-235b-a22b-thinking-2507": {
|
||||
"description": "Open-Source-Modell im Denkmodus basierend auf Qwen3, mit erheblichen Verbesserungen in Logik, allgemeinen Fähigkeiten, Wissensabdeckung und Kreativität gegenüber der Vorgängerversion (Tongyi Qianwen 3-235B-A22B). Geeignet für anspruchsvolle und stark schlussfolgernde Szenarien."
|
||||
},
|
||||
"qwen3-30b-a3b": {
|
||||
"description": "Qwen3 ist ein neues, leistungsstarkes Modell der nächsten Generation, das in den Bereichen Inferenz, Allgemeinwissen, Agenten und Mehrsprachigkeit erhebliche Fortschritte erzielt hat und den Wechsel zwischen Denkmodi unterstützt."
|
||||
},
|
||||
"qwen3-30b-a3b-instruct-2507": {
|
||||
"description": "Im Vergleich zur vorherigen Version (Qwen3-30B-A3B) wurde die allgemeine Leistungsfähigkeit in Chinesisch, Englisch und mehreren Sprachen deutlich verbessert. Spezielle Optimierungen für subjektive und offene Aufgaben führen zu einer deutlich besseren Übereinstimmung mit den Nutzerpräferenzen und ermöglichen hilfreichere Antworten."
|
||||
},
|
||||
"qwen3-30b-a3b-thinking-2507": {
|
||||
"description": "Basierend auf dem Denkmodus-Open-Source-Modell von Qwen3 wurden im Vergleich zur vorherigen Version (Tongyi Qianwen 3-30B-A3B) die logischen Fähigkeiten, die allgemeine Leistungsfähigkeit, das Wissen und die Kreativität erheblich verbessert. Es eignet sich für anspruchsvolle Szenarien mit starker Argumentation."
|
||||
},
|
||||
"qwen3-32b": {
|
||||
"description": "Qwen3 ist ein neues, leistungsstarkes Modell der nächsten Generation, das in den Bereichen Inferenz, Allgemeinwissen, Agenten und Mehrsprachigkeit erhebliche Fortschritte erzielt hat und den Wechsel zwischen Denkmodi unterstützt."
|
||||
},
|
||||
@@ -2402,12 +2276,6 @@
|
||||
"qwen3-8b": {
|
||||
"description": "Qwen3 ist ein neues, leistungsstarkes Modell der nächsten Generation, das in den Bereichen Inferenz, Allgemeinwissen, Agenten und Mehrsprachigkeit erhebliche Fortschritte erzielt hat und den Wechsel zwischen Denkmodi unterstützt."
|
||||
},
|
||||
"qwen3-coder-480b-a35b-instruct": {
|
||||
"description": "Open-Source-Code-Modell von Tongyi Qianwen. Das neueste qwen3-coder-480b-a35b-instruct basiert auf Qwen3, verfügt über starke Coding-Agent-Fähigkeiten, ist versiert im Werkzeugaufruf und in der Umgebungskommunikation und ermöglicht selbstständiges Programmieren mit hervorragender Codequalität und allgemeinen Fähigkeiten."
|
||||
},
|
||||
"qwen3-coder-plus": {
|
||||
"description": "Tongyi Qianwen Code-Modell. Die neueste Qwen3-Coder-Plus-Serie basiert auf Qwen3, verfügt über starke Coding-Agent-Fähigkeiten, ist versiert im Werkzeugaufruf und in der Umgebungskommunikation und ermöglicht selbstständiges Programmieren mit hervorragender Codequalität und allgemeinen Fähigkeiten."
|
||||
},
|
||||
"qwq": {
|
||||
"description": "QwQ ist ein experimentelles Forschungsmodell, das sich auf die Verbesserung der KI-Inferenzfähigkeiten konzentriert."
|
||||
},
|
||||
@@ -2450,24 +2318,6 @@
|
||||
"sonar-reasoning-pro": {
|
||||
"description": "Ein neues API-Produkt, das von dem DeepSeek-Inferenzmodell unterstützt wird."
|
||||
},
|
||||
"stable-diffusion-3-medium": {
|
||||
"description": "Das neueste Text-zu-Bild-Großmodell von Stability AI. Diese Version verbessert signifikant Bildqualität, Textverständnis und Stilvielfalt gegenüber Vorgängerversionen, kann komplexe natürliche Sprachaufforderungen präziser interpretieren und erzeugt genauere und vielfältigere Bilder."
|
||||
},
|
||||
"stable-diffusion-3.5-large": {
|
||||
"description": "stable-diffusion-3.5-large ist ein multimodaler Diffusions-Transformer (MMDiT) mit 800 Millionen Parametern für Text-zu-Bild-Generierung, bietet herausragende Bildqualität und Prompt-Übereinstimmung, unterstützt die Erzeugung von Bildern mit bis zu 1 Million Pixeln und läuft effizient auf handelsüblicher Hardware."
|
||||
},
|
||||
"stable-diffusion-3.5-large-turbo": {
|
||||
"description": "stable-diffusion-3.5-large-turbo basiert auf stable-diffusion-3.5-large und verwendet adversariale Diffusionsdestillation (ADD) für höhere Geschwindigkeit."
|
||||
},
|
||||
"stable-diffusion-v1.5": {
|
||||
"description": "stable-diffusion-v1.5 wurde mit den Gewichten des stable-diffusion-v1.2 Checkpoints initialisiert und mit 595k Schritten bei 512x512 Auflösung auf „laion-aesthetics v2 5+“ feinabgestimmt. Dabei wurde die Textkonditionierung um 10 % reduziert, um die geführte Stichprobenahme ohne Klassifikator zu verbessern."
|
||||
},
|
||||
"stable-diffusion-xl": {
|
||||
"description": "stable-diffusion-xl bringt bedeutende Verbesserungen gegenüber v1.5 und erreicht eine Qualität, die mit dem aktuellen Open-Source-Text-zu-Bild-SOTA-Modell Midjourney vergleichbar ist. Zu den Verbesserungen zählen ein dreimal größeres UNet-Backbone, ein Verfeinerungsmodul zur Qualitätssteigerung der generierten Bilder sowie effizientere Trainingstechniken."
|
||||
},
|
||||
"stable-diffusion-xl-base-1.0": {
|
||||
"description": "Ein von Stability AI entwickeltes und Open-Source-Text-zu-Bild-Großmodell mit branchenführender kreativer Bildgenerierungsfähigkeit. Es verfügt über exzellente Instruktionsverständnisfähigkeiten und unterstützt die Definition von Inverse Prompts zur präzisen Inhaltserzeugung."
|
||||
},
|
||||
"step-1-128k": {
|
||||
"description": "Bietet ein ausgewogenes Verhältnis zwischen Leistung und Kosten, geeignet für allgemeine Szenarien."
|
||||
},
|
||||
@@ -2498,12 +2348,6 @@
|
||||
"step-1v-8k": {
|
||||
"description": "Kleinvisualmodell, geeignet für grundlegende Text- und Bildaufgaben."
|
||||
},
|
||||
"step-1x-edit": {
|
||||
"description": "Dieses Modell ist auf Bildbearbeitungsaufgaben spezialisiert und kann Bilder basierend auf vom Nutzer bereitgestellten Bildern und Textbeschreibungen modifizieren und verbessern. Es unterstützt verschiedene Eingabeformate, einschließlich Textbeschreibungen und Beispielbilder, versteht die Nutzerintention und erzeugt entsprechende Bildbearbeitungsergebnisse."
|
||||
},
|
||||
"step-1x-medium": {
|
||||
"description": "Dieses Modell verfügt über starke Bildgenerierungsfähigkeiten und unterstützt Texteingaben. Es bietet native chinesische Unterstützung, versteht und verarbeitet chinesische Textbeschreibungen besser, erfasst semantische Informationen präziser und wandelt sie in Bildmerkmale um, um genauere Bildgenerierung zu ermöglichen. Das Modell erzeugt hochauflösende, qualitativ hochwertige Bilder und besitzt eine gewisse Stilübertragungsfähigkeit."
|
||||
},
|
||||
"step-2-16k": {
|
||||
"description": "Unterstützt groß angelegte Kontextinteraktionen und eignet sich für komplexe Dialogszenarien."
|
||||
},
|
||||
@@ -2513,9 +2357,6 @@
|
||||
"step-2-mini": {
|
||||
"description": "Ein ultraschnelles Großmodell, das auf der neuen, selbstentwickelten Attention-Architektur MFA basiert. Es erreicht mit extrem niedrigen Kosten ähnliche Ergebnisse wie Schritt 1 und bietet gleichzeitig eine höhere Durchsatzrate und schnellere Reaktionszeiten. Es kann allgemeine Aufgaben bearbeiten und hat besondere Fähigkeiten im Bereich der Codierung."
|
||||
},
|
||||
"step-2x-large": {
|
||||
"description": "Das neue Generationen-Bildmodell von Step Star konzentriert sich auf Bildgenerierung und kann basierend auf Textbeschreibungen des Nutzers hochwertige Bilder erzeugen. Das neue Modell erzeugt realistischere Bildtexturen und bietet verbesserte Fähigkeiten bei der Erzeugung chinesischer und englischer Schriftzeichen."
|
||||
},
|
||||
"step-r1-v-mini": {
|
||||
"description": "Dieses Modell ist ein leistungsstarkes Schlussfolgerungsmodell mit starker Bildverständnisfähigkeit, das in der Lage ist, Bild- und Textinformationen zu verarbeiten und nach tiefem Denken Textinhalte zu generieren. Es zeigt herausragende Leistungen im Bereich der visuellen Schlussfolgerung und verfügt über erstklassige Fähigkeiten in Mathematik, Programmierung und Textschlussfolgerung. Die Kontextlänge beträgt 100k."
|
||||
},
|
||||
@@ -2591,23 +2432,8 @@
|
||||
"v0-1.5-md": {
|
||||
"description": "Das Modell v0-1.5-md ist für alltägliche Aufgaben und die Generierung von Benutzeroberflächen (UI) geeignet"
|
||||
},
|
||||
"wan2.2-t2i-flash": {
|
||||
"description": "Wanxiang 2.2 Turbo-Version, das aktuell neueste Modell. Es bietet umfassende Verbesserungen in Kreativität, Stabilität und realistischer Textur, erzeugt schnell und bietet ein hervorragendes Preis-Leistungs-Verhältnis."
|
||||
},
|
||||
"wan2.2-t2i-plus": {
|
||||
"description": "Wanxiang 2.2 Professional-Version, das aktuell neueste Modell. Es bietet umfassende Verbesserungen in Kreativität, Stabilität und realistischer Textur mit reichhaltigen Details."
|
||||
},
|
||||
"wanx-v1": {
|
||||
"description": "Basis-Text-zu-Bild-Modell. Entspricht dem allgemeinen Modell 1.0 auf der offiziellen Tongyi Wanxiang Webseite."
|
||||
},
|
||||
"wanx2.0-t2i-turbo": {
|
||||
"description": "Spezialisiert auf realistische Porträts, mittlere Geschwindigkeit und niedrige Kosten. Entspricht dem Turbo-Modell 2.0 auf der offiziellen Tongyi Wanxiang Webseite."
|
||||
},
|
||||
"wanx2.1-t2i-plus": {
|
||||
"description": "Vollständig aufgerüstete Version mit reichhaltigeren Bilddetails, etwas langsamer. Entspricht dem professionellen Modell 2.1 auf der offiziellen Tongyi Wanxiang Webseite."
|
||||
},
|
||||
"wanx2.1-t2i-turbo": {
|
||||
"description": "Vollständig aufgerüstete Version mit schneller Generierung, umfassender Leistung und hervorragendem Preis-Leistungs-Verhältnis. Entspricht dem Turbo-Modell 2.1 auf der offiziellen Tongyi Wanxiang Webseite."
|
||||
"description": "Text-zu-Bild-Modell von Aliyun Tongyi"
|
||||
},
|
||||
"whisper-1": {
|
||||
"description": "Universelles Spracherkennungsmodell, unterstützt mehrsprachige Spracherkennung, Sprachübersetzung und Spracherkennung."
|
||||
@@ -2659,11 +2485,5 @@
|
||||
},
|
||||
"yi-vision-v2": {
|
||||
"description": "Ein Modell für komplexe visuelle Aufgaben, das leistungsstarke Verständnis- und Analysefähigkeiten auf der Grundlage mehrerer Bilder bietet."
|
||||
},
|
||||
"zai-org/GLM-4.5": {
|
||||
"description": "GLM-4.5 ist ein speziell für Agentenanwendungen entwickeltes Basismodell mit Mixture-of-Experts-Architektur. Es ist tief optimiert für Werkzeugaufrufe, Web-Browsing, Softwareentwicklung und Frontend-Programmierung und unterstützt nahtlos die Integration in Code-Agenten wie Claude Code und Roo Code. GLM-4.5 verwendet einen hybriden Inferenzmodus und ist für komplexe Schlussfolgerungen sowie den Alltagsgebrauch geeignet."
|
||||
},
|
||||
"zai-org/GLM-4.5-Air": {
|
||||
"description": "GLM-4.5-Air ist ein speziell für Agentenanwendungen entwickeltes Basismodell mit Mixture-of-Experts-Architektur. Es ist tief optimiert für Werkzeugaufrufe, Web-Browsing, Softwareentwicklung und Frontend-Programmierung und unterstützt nahtlos die Integration in Code-Agenten wie Claude Code und Roo Code. GLM-4.5 verwendet einen hybriden Inferenzmodus und ist für komplexe Schlussfolgerungen sowie den Alltagsgebrauch geeignet."
|
||||
}
|
||||
}
|
||||
|
||||
@@ -5,9 +5,6 @@
|
||||
"ai360": {
|
||||
"description": "360 AI ist die von der 360 Company eingeführte Plattform für KI-Modelle und -Dienste, die eine Vielzahl fortschrittlicher Modelle zur Verarbeitung natürlicher Sprache anbietet, darunter 360GPT2 Pro, 360GPT Pro, 360GPT Turbo und 360GPT Turbo Responsibility 8K. Diese Modelle kombinieren große Parameter mit multimodalen Fähigkeiten und finden breite Anwendung in den Bereichen Textgenerierung, semantisches Verständnis, Dialogsysteme und Codegenerierung. Durch flexible Preisstrategien erfüllt 360 AI die vielfältigen Bedürfnisse der Nutzer, unterstützt Entwickler bei der Integration und fördert die Innovation und Entwicklung intelligenter Anwendungen."
|
||||
},
|
||||
"aihubmix": {
|
||||
"description": "AiHubMix bietet über eine einheitliche API-Schnittstelle Zugriff auf verschiedene KI-Modelle."
|
||||
},
|
||||
"anthropic": {
|
||||
"description": "Anthropic ist ein Unternehmen, das sich auf Forschung und Entwicklung im Bereich der künstlichen Intelligenz spezialisiert hat und eine Reihe fortschrittlicher Sprachmodelle anbietet, darunter Claude 3.5 Sonnet, Claude 3 Sonnet, Claude 3 Opus und Claude 3 Haiku. Diese Modelle erreichen ein ideales Gleichgewicht zwischen Intelligenz, Geschwindigkeit und Kosten und sind für eine Vielzahl von Anwendungsszenarien geeignet, von unternehmensweiten Arbeitslasten bis hin zu schnellen Reaktionen. Claude 3.5 Sonnet, als neuestes Modell, hat in mehreren Bewertungen hervorragend abgeschnitten und bietet gleichzeitig ein hohes Preis-Leistungs-Verhältnis."
|
||||
},
|
||||
|
||||
@@ -189,7 +189,6 @@
|
||||
"aesGcm": "Your key and proxy URL will be encrypted using <1>AES-GCM</1> encryption algorithm",
|
||||
"apiKey": {
|
||||
"desc": "Please enter your {{name}} API Key",
|
||||
"descWithUrl": "Please enter your {{name}} API Key. <3>Click here to get it</3>",
|
||||
"placeholder": "{{name}} API Key",
|
||||
"title": "API Key"
|
||||
},
|
||||
|
||||
+5
-185
@@ -32,9 +32,6 @@
|
||||
"4.0Ultra": {
|
||||
"description": "Spark4.0 Ultra is the most powerful version in the Spark large model series, enhancing text content understanding and summarization capabilities while upgrading online search links. It is a comprehensive solution for improving office productivity and accurately responding to demands, leading the industry as an intelligent product."
|
||||
},
|
||||
"AnimeSharp": {
|
||||
"description": "AnimeSharp (also known as “4x-AnimeSharp”) is an open-source super-resolution model developed by Kim2091 based on the ESRGAN architecture, focusing on upscaling and sharpening anime-style images. It was renamed from “4x-TextSharpV1” in February 2022, originally also suitable for text images but significantly optimized for anime content."
|
||||
},
|
||||
"Baichuan2-Turbo": {
|
||||
"description": "Utilizes search enhancement technology to achieve comprehensive links between large models and domain knowledge, as well as knowledge from the entire web. Supports uploads of various documents such as PDF and Word, and URL input, providing timely and comprehensive information retrieval with accurate and professional output."
|
||||
},
|
||||
@@ -92,9 +89,6 @@
|
||||
"Doubao-pro-4k": {
|
||||
"description": "The best-performing flagship model, suitable for handling complex tasks. It excels in scenarios such as reference Q&A, summarization, creative writing, text classification, and role-playing. Supports inference and fine-tuning with a 4k context window."
|
||||
},
|
||||
"DreamO": {
|
||||
"description": "DreamO is an open-source image customization generation model jointly developed by ByteDance and Peking University, designed to support multi-task image generation through a unified architecture. It employs an efficient compositional modeling approach to generate highly consistent and customized images based on multiple user-specified conditions such as identity, subject, style, and background."
|
||||
},
|
||||
"ERNIE-3.5-128K": {
|
||||
"description": "Baidu's self-developed flagship large-scale language model, covering a vast amount of Chinese and English corpus. It possesses strong general capabilities, meeting the requirements for most dialogue Q&A, creative generation, and plugin application scenarios; it supports automatic integration with Baidu's search plugin to ensure the timeliness of Q&A information."
|
||||
},
|
||||
@@ -128,39 +122,15 @@
|
||||
"ERNIE-Speed-Pro-128K": {
|
||||
"description": "Baidu's latest self-developed high-performance large language model released in 2024, with outstanding general capabilities, providing better results than ERNIE Speed, suitable as a base model for fine-tuning, effectively addressing specific scenario issues while also exhibiting excellent inference performance."
|
||||
},
|
||||
"FLUX.1-Kontext-dev": {
|
||||
"description": "FLUX.1-Kontext-dev is a multimodal image generation and editing model developed by Black Forest Labs based on the Rectified Flow Transformer architecture, featuring 12 billion parameters. It specializes in generating, reconstructing, enhancing, or editing images under given contextual conditions. The model combines the controllable generation advantages of diffusion models with the contextual modeling capabilities of Transformers, supporting high-quality image output and widely applicable to image restoration, completion, and visual scene reconstruction tasks."
|
||||
},
|
||||
"FLUX.1-dev": {
|
||||
"description": "FLUX.1-dev is an open-source multimodal language model (MLLM) developed by Black Forest Labs, optimized for vision-and-language tasks by integrating image and text understanding and generation capabilities. Built upon advanced large language models such as Mistral-7B, it achieves vision-language collaborative processing and complex task reasoning through a carefully designed visual encoder and multi-stage instruction fine-tuning."
|
||||
},
|
||||
"Gryphe/MythoMax-L2-13b": {
|
||||
"description": "MythoMax-L2 (13B) is an innovative model suitable for multi-domain applications and complex tasks."
|
||||
},
|
||||
"HelloMeme": {
|
||||
"description": "HelloMeme is an AI tool that automatically generates memes, GIFs, or short videos based on the images or actions you provide. It requires no drawing or programming skills; simply prepare reference images, and it will help you create visually appealing, fun, and stylistically consistent content."
|
||||
},
|
||||
"HiDream-I1-Full": {
|
||||
"description": "HiDream-E1-Full is an open-source multimodal image editing large model launched by HiDream.ai, based on the advanced Diffusion Transformer architecture combined with powerful language understanding capabilities (embedded LLaMA 3.1-8B-Instruct). It supports image generation, style transfer, local editing, and content repainting through natural language instructions, demonstrating excellent vision-language comprehension and execution abilities."
|
||||
},
|
||||
"HunyuanDiT-v1.2-Diffusers-Distilled": {
|
||||
"description": "hunyuandit-v1.2-distilled is a lightweight text-to-image model optimized through distillation, capable of rapidly generating high-quality images, especially suitable for low-resource environments and real-time generation tasks."
|
||||
},
|
||||
"InstantCharacter": {
|
||||
"description": "InstantCharacter is a tuning-free personalized character generation model released by Tencent AI team in 2025, designed to achieve high-fidelity, cross-scene consistent character generation. The model supports character modeling based on a single reference image and can flexibly transfer the character to various styles, actions, and backgrounds."
|
||||
},
|
||||
"InternVL2-8B": {
|
||||
"description": "InternVL2-8B is a powerful visual language model that supports multimodal processing of images and text, capable of accurately recognizing image content and generating relevant descriptions or answers."
|
||||
},
|
||||
"InternVL2.5-26B": {
|
||||
"description": "InternVL2.5-26B is a powerful visual language model that supports multimodal processing of images and text, capable of accurately recognizing image content and generating relevant descriptions or answers."
|
||||
},
|
||||
"Kolors": {
|
||||
"description": "Kolors is a text-to-image model developed by the Kuaishou Kolors team. Trained with billions of parameters, it excels in visual quality, Chinese semantic understanding, and text rendering."
|
||||
},
|
||||
"Kwai-Kolors/Kolors": {
|
||||
"description": "Kolors is a large-scale latent diffusion text-to-image generation model developed by the Kuaishou Kolors team. Trained on billions of text-image pairs, it demonstrates significant advantages in visual quality, complex semantic accuracy, and Chinese and English character rendering. It supports both Chinese and English inputs and performs exceptionally well in understanding and generating Chinese-specific content."
|
||||
},
|
||||
"Llama-3.2-11B-Vision-Instruct": {
|
||||
"description": "Exhibits outstanding image reasoning capabilities on high-resolution images, suitable for visual understanding applications."
|
||||
},
|
||||
@@ -194,15 +164,9 @@
|
||||
"MiniMaxAI/MiniMax-M1-80k": {
|
||||
"description": "MiniMax-M1 is a large-scale hybrid attention inference model with open-source weights, featuring 456 billion parameters, with approximately 45.9 billion parameters activated per token. The model natively supports ultra-long contexts of up to 1 million tokens and, through lightning attention mechanisms, reduces floating-point operations by 75% compared to DeepSeek R1 in tasks generating 100,000 tokens. Additionally, MiniMax-M1 employs a Mixture of Experts (MoE) architecture, combining the CISPO algorithm with an efficient reinforcement learning training design based on hybrid attention, achieving industry-leading performance in long-input inference and real-world software engineering scenarios."
|
||||
},
|
||||
"Moonshot-Kimi-K2-Instruct": {
|
||||
"description": "With a total of 1 trillion parameters and 32 billion activated parameters, this non-thinking model achieves top-tier performance in cutting-edge knowledge, mathematics, and coding, excelling in general agent tasks. It is carefully optimized for agent tasks, capable not only of answering questions but also taking actions. Ideal for improvisational, general chat, and agent experiences, it is a reflex-level model requiring no prolonged thinking."
|
||||
},
|
||||
"NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
||||
"description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B) is a high-precision instruction model suitable for complex computations."
|
||||
},
|
||||
"OmniConsistency": {
|
||||
"description": "OmniConsistency enhances style consistency and generalization in image-to-image tasks by introducing large-scale Diffusion Transformers (DiTs) and paired stylized data, effectively preventing style degradation."
|
||||
},
|
||||
"Phi-3-medium-128k-instruct": {
|
||||
"description": "The same Phi-3-medium model, but with a larger context size for RAG or few-shot prompting."
|
||||
},
|
||||
@@ -254,9 +218,6 @@
|
||||
"Pro/deepseek-ai/DeepSeek-V3": {
|
||||
"description": "DeepSeek-V3 is a mixed expert (MoE) language model with 671 billion parameters, utilizing multi-head latent attention (MLA) and the DeepSeekMoE architecture, combined with a load balancing strategy without auxiliary loss to optimize inference and training efficiency. Pre-trained on 14.8 trillion high-quality tokens and fine-tuned with supervision and reinforcement learning, DeepSeek-V3 outperforms other open-source models and approaches leading closed-source models."
|
||||
},
|
||||
"Pro/moonshotai/Kimi-K2-Instruct": {
|
||||
"description": "Kimi K2 is a MoE architecture base model with exceptional coding and agent capabilities, featuring 1 trillion total parameters and 32 billion activated parameters. In benchmark tests across general knowledge reasoning, programming, mathematics, and agent tasks, the K2 model outperforms other mainstream open-source models."
|
||||
},
|
||||
"QwQ-32B-Preview": {
|
||||
"description": "QwQ-32B-Preview is an innovative natural language processing model capable of efficiently handling complex dialogue generation and context understanding tasks."
|
||||
},
|
||||
@@ -317,18 +278,9 @@
|
||||
"Qwen/Qwen3-235B-A22B": {
|
||||
"description": "Qwen3 is a next-generation model with significantly enhanced capabilities, achieving industry-leading levels in reasoning, general tasks, agent functions, and multilingual support, with a switchable thinking mode."
|
||||
},
|
||||
"Qwen/Qwen3-235B-A22B-Instruct-2507": {
|
||||
"description": "Qwen3-235B-A22B-Instruct-2507 is a flagship mixture-of-experts (MoE) large language model developed by Alibaba Cloud Tongyi Qianwen team within the Qwen3 series. It has 235 billion total parameters with 22 billion activated per inference. Released as an update to the non-thinking mode Qwen3-235B-A22B, it focuses on significant improvements in instruction following, logical reasoning, text comprehension, mathematics, science, programming, and tool usage. Additionally, it enhances coverage of multilingual long-tail knowledge and better aligns with user preferences in subjective and open-ended tasks to generate more helpful and higher-quality text."
|
||||
},
|
||||
"Qwen/Qwen3-235B-A22B-Thinking-2507": {
|
||||
"description": "Qwen3-235B-A22B-Thinking-2507 is a member of the Qwen3 large language model series developed by Alibaba Tongyi Qianwen team, specializing in complex reasoning tasks. Based on a mixture-of-experts (MoE) architecture with 235 billion total parameters and approximately 22 billion activated per token, it balances strong performance with computational efficiency. As a dedicated “thinking” model, it significantly improves performance in logic reasoning, mathematics, science, programming, and academic benchmarks requiring human expertise, ranking among the top open-source thinking models. It also enhances general capabilities such as instruction following, tool usage, and text generation, natively supports 256K long-context understanding, and is well-suited for scenarios requiring deep reasoning and long document processing."
|
||||
},
|
||||
"Qwen/Qwen3-30B-A3B": {
|
||||
"description": "Qwen3 is a next-generation model with significantly enhanced capabilities, achieving industry-leading levels in reasoning, general tasks, agent functions, and multilingual support, with a switchable thinking mode."
|
||||
},
|
||||
"Qwen/Qwen3-30B-A3B-Instruct-2507": {
|
||||
"description": "Qwen3-30B-A3B-Instruct-2507 is an updated version of the Qwen3-30B-A3B non-thinking mode. It is a Mixture of Experts (MoE) model with a total of 30.5 billion parameters and 3.3 billion active parameters. The model features key enhancements across multiple areas, including significant improvements in instruction following, logical reasoning, text comprehension, mathematics, science, coding, and tool usage. Additionally, it has made substantial progress in covering long-tail multilingual knowledge and better aligns with user preferences in subjective and open-ended tasks, enabling it to generate more helpful responses and higher-quality text. Furthermore, its long-text comprehension capability has been extended to 256K tokens. This model supports only the non-thinking mode and does not generate `<think></think>` tags in its output."
|
||||
},
|
||||
"Qwen/Qwen3-32B": {
|
||||
"description": "Qwen3 is a next-generation model with significantly enhanced capabilities, achieving industry-leading levels in reasoning, general tasks, agent functions, and multilingual support, with a switchable thinking mode."
|
||||
},
|
||||
@@ -362,12 +314,6 @@
|
||||
"Qwen2.5-Coder-32B-Instruct": {
|
||||
"description": "Qwen2.5-Coder-32B-Instruct is a large language model specifically designed for code generation, code understanding, and efficient development scenarios, featuring an industry-leading 32 billion parameters to meet diverse programming needs."
|
||||
},
|
||||
"Qwen3-235B": {
|
||||
"description": "Qwen3-235B-A22B is a Mixture of Experts (MoE) model that introduces a \"Hybrid Reasoning Mode,\" allowing users to seamlessly switch between \"Thinking Mode\" and \"Non-Thinking Mode.\" It supports understanding and reasoning in 119 languages and dialects and possesses powerful tool invocation capabilities. In comprehensive benchmarks covering overall ability, coding and mathematics, multilingual proficiency, knowledge, and reasoning, it competes with leading large models on the market such as DeepSeek R1, OpenAI o1, o3-mini, Grok 3, and Google Gemini 2.5 Pro."
|
||||
},
|
||||
"Qwen3-32B": {
|
||||
"description": "Qwen3-32B is a dense model that introduces a \"Hybrid Reasoning Mode,\" enabling users to seamlessly switch between \"Thinking Mode\" and \"Non-Thinking Mode.\" Thanks to architectural improvements, increased training data, and more efficient training methods, its overall performance is comparable to that of Qwen2.5-72B."
|
||||
},
|
||||
"SenseChat": {
|
||||
"description": "Basic version model (V4) with a context length of 4K, featuring strong general capabilities."
|
||||
},
|
||||
@@ -404,12 +350,6 @@
|
||||
"SenseChat-Vision": {
|
||||
"description": "The latest version model (V5.5) supports multi-image input and fully optimizes the model's basic capabilities, achieving significant improvements in object attribute recognition, spatial relationships, action event recognition, scene understanding, emotion recognition, logical reasoning, and text understanding and generation."
|
||||
},
|
||||
"SenseNova-V6-5-Pro": {
|
||||
"description": "With comprehensive updates to multimodal, language, and reasoning data, along with optimized training strategies, the new model achieves significant improvements in multimodal reasoning and generalized instruction-following capabilities. It supports a context window of up to 128K tokens and excels in specialized tasks such as OCR and cultural tourism IP recognition."
|
||||
},
|
||||
"SenseNova-V6-5-Turbo": {
|
||||
"description": "With comprehensive updates to multimodal, language, and reasoning data, along with optimized training strategies, the new model achieves significant improvements in multimodal reasoning and generalized instruction-following capabilities. It supports a context window of up to 128K tokens and excels in specialized tasks such as OCR and cultural tourism IP recognition."
|
||||
},
|
||||
"SenseNova-V6-Pro": {
|
||||
"description": "Achieves a native unification of image, text, and video capabilities, breaking through the limitations of traditional discrete multimodality, winning dual championships in the OpenCompass and SuperCLUE evaluations."
|
||||
},
|
||||
@@ -1004,9 +944,6 @@
|
||||
"doubao-seed-1.6-thinking": {
|
||||
"description": "Doubao-Seed-1.6-thinking features greatly enhanced thinking capabilities. Compared to Doubao-1.5-thinking-pro, it further improves foundational skills such as coding, math, and logical reasoning, and supports visual understanding. It supports a 256k context window and output lengths up to 16k tokens."
|
||||
},
|
||||
"doubao-seedream-3-0-t2i-250415": {
|
||||
"description": "Doubao image generation model developed by ByteDance Seed team supports both text and image inputs, providing a highly controllable and high-quality image generation experience based on text prompts."
|
||||
},
|
||||
"doubao-vision-lite-32k": {
|
||||
"description": "The Doubao-vision model is a multimodal large model launched by Doubao, featuring powerful image understanding and reasoning capabilities along with precise instruction comprehension. It demonstrates strong performance in image-text information extraction and image-based reasoning tasks, applicable to more complex and diverse visual question answering scenarios."
|
||||
},
|
||||
@@ -1058,9 +995,6 @@
|
||||
"ernie-char-fiction-8k": {
|
||||
"description": "Baidu's vertical scene large language model, suitable for applications such as game NPCs, customer service dialogues, and role-playing conversations, with a more distinct and consistent character style, stronger instruction-following capabilities, and superior inference performance."
|
||||
},
|
||||
"ernie-irag-edit": {
|
||||
"description": "Baidu's self-developed ERNIE iRAG Edit image editing model supports operations such as erase (object removal), repaint (object redrawing), and variation (variant generation) based on images."
|
||||
},
|
||||
"ernie-lite-8k": {
|
||||
"description": "ERNIE Lite is Baidu's lightweight large language model, balancing excellent model performance with inference efficiency, suitable for low-power AI acceleration card inference."
|
||||
},
|
||||
@@ -1088,27 +1022,12 @@
|
||||
"ernie-x1-turbo-32k": {
|
||||
"description": "The model performs better in terms of effectiveness and performance compared to ERNIE-X1-32K."
|
||||
},
|
||||
"flux-1-schnell": {
|
||||
"description": "Developed by Black Forest Labs, this 12-billion-parameter text-to-image model uses latent adversarial diffusion distillation technology to generate high-quality images within 1 to 4 steps. Its performance rivals closed-source alternatives and is released under the Apache-2.0 license, suitable for personal, research, and commercial use."
|
||||
},
|
||||
"flux-dev": {
|
||||
"description": "FLUX.1 [dev] is an open-source weight and fine-tuned model for non-commercial applications. It maintains image quality and instruction-following capabilities close to the FLUX professional version while offering higher operational efficiency. Compared to standard models of the same size, it is more resource-efficient."
|
||||
},
|
||||
"flux-kontext/dev": {
|
||||
"description": "Frontier image editing model."
|
||||
},
|
||||
"flux-merged": {
|
||||
"description": "The FLUX.1-merged model combines the deep features explored during the development phase of “DEV” with the high-speed execution advantages represented by “Schnell.” This integration not only pushes the model's performance boundaries but also broadens its application scope."
|
||||
},
|
||||
"flux-pro/kontext": {
|
||||
"description": "FLUX.1 Kontext [pro] can process text and reference images as input, seamlessly enabling targeted local edits and complex overall scene transformations."
|
||||
},
|
||||
"flux-schnell": {
|
||||
"description": "FLUX.1 [schnell], currently the most advanced open-source few-step model, surpasses competitors and even powerful non-distilled models like Midjourney v6.0 and DALL·E 3 (HD). Finely tuned to retain the full output diversity from pretraining, FLUX.1 [schnell] significantly enhances visual quality, instruction compliance, size/aspect ratio variation, font handling, and output diversity compared to state-of-the-art models on the market, offering users a richer and more diverse creative image generation experience."
|
||||
},
|
||||
"flux.1-schnell": {
|
||||
"description": "A 12-billion-parameter rectified flow transformer capable of generating images based on text descriptions."
|
||||
},
|
||||
"flux/schnell": {
|
||||
"description": "FLUX.1 [schnell] is a streaming transformer model with 12 billion parameters, capable of generating high-quality images from text in 1 to 4 steps, suitable for personal and commercial use."
|
||||
},
|
||||
@@ -1190,6 +1109,9 @@
|
||||
"gemini-2.5-flash-preview-04-17": {
|
||||
"description": "Gemini 2.5 Flash Preview is Google's most cost-effective model, offering a comprehensive set of features."
|
||||
},
|
||||
"gemini-2.5-flash-preview-04-17-thinking": {
|
||||
"description": "Gemini 2.5 Flash Preview is Google's most cost-effective model, offering comprehensive capabilities."
|
||||
},
|
||||
"gemini-2.5-flash-preview-05-20": {
|
||||
"description": "Gemini 2.5 Flash Preview is Google's most cost-effective model, offering comprehensive capabilities."
|
||||
},
|
||||
@@ -1268,21 +1190,6 @@
|
||||
"glm-4.1v-thinking-flashx": {
|
||||
"description": "The GLM-4.1V-Thinking series represents the most powerful vision-language models known at the 10B parameter scale, integrating state-of-the-art capabilities across various vision-language tasks such as video understanding, image question answering, academic problem solving, OCR text recognition, document and chart interpretation, GUI agents, front-end web coding, and grounding. Its performance in many tasks even surpasses that of Qwen2.5-VL-72B, which has over eight times the parameters. Leveraging advanced reinforcement learning techniques, the model masters Chain-of-Thought reasoning to improve answer accuracy and richness, significantly outperforming traditional non-thinking models in final results and interpretability."
|
||||
},
|
||||
"glm-4.5": {
|
||||
"description": "Zhipu's latest flagship model supports thinking mode switching, achieving state-of-the-art comprehensive capabilities among open-source models, with a context length of up to 128K."
|
||||
},
|
||||
"glm-4.5-air": {
|
||||
"description": "A lightweight version of GLM-4.5 balancing performance and cost-effectiveness, capable of flexibly switching hybrid thinking models."
|
||||
},
|
||||
"glm-4.5-airx": {
|
||||
"description": "The ultra-fast version of GLM-4.5-Air, offering faster response speeds, designed for large-scale high-speed demands."
|
||||
},
|
||||
"glm-4.5-flash": {
|
||||
"description": "The free version of GLM-4.5, delivering excellent performance in inference, coding, and agent tasks."
|
||||
},
|
||||
"glm-4.5-x": {
|
||||
"description": "The high-speed version of GLM-4.5, combining strong performance with generation speeds up to 100 tokens per second."
|
||||
},
|
||||
"glm-4v": {
|
||||
"description": "GLM-4V provides strong image understanding and reasoning capabilities, supporting various visual tasks."
|
||||
},
|
||||
@@ -1302,7 +1209,7 @@
|
||||
"description": "Ultra-fast reasoning: features extremely fast reasoning speed and powerful reasoning effects."
|
||||
},
|
||||
"glm-z1-flash": {
|
||||
"description": "The GLM-Z1 series features powerful complex reasoning abilities, excelling in logic reasoning, mathematics, and programming."
|
||||
"description": "The GLM-Z1 series possesses strong complex reasoning capabilities, excelling in logical reasoning, mathematics, programming, and more. The maximum context length is 32K."
|
||||
},
|
||||
"glm-z1-flashx": {
|
||||
"description": "High speed and low cost: Flash enhanced version with ultra-fast inference speed and improved concurrency support."
|
||||
@@ -1478,9 +1385,6 @@
|
||||
"grok-2-1212": {
|
||||
"description": "This model has improved in accuracy, instruction adherence, and multilingual capabilities."
|
||||
},
|
||||
"grok-2-image-1212": {
|
||||
"description": "Our latest image generation model can create vivid and realistic images based on text prompts. It performs excellently in image generation for marketing, social media, and entertainment."
|
||||
},
|
||||
"grok-2-vision-1212": {
|
||||
"description": "This model has improved in accuracy, instruction adherence, and multilingual capabilities."
|
||||
},
|
||||
@@ -1550,9 +1454,6 @@
|
||||
"hunyuan-t1-20250529": {
|
||||
"description": "Optimized for text creation and essay writing, with enhanced abilities in frontend coding, mathematics, logical reasoning, and improved instruction-following capabilities."
|
||||
},
|
||||
"hunyuan-t1-20250711": {
|
||||
"description": "Significantly improves high-difficulty mathematics, logic, and coding capabilities, optimizes model output stability, and enhances long-text processing ability."
|
||||
},
|
||||
"hunyuan-t1-latest": {
|
||||
"description": "The industry's first ultra-large-scale Hybrid-Transformer-Mamba inference model, enhancing reasoning capabilities with exceptional decoding speed, further aligning with human preferences."
|
||||
},
|
||||
@@ -1601,12 +1502,6 @@
|
||||
"hunyuan-vision": {
|
||||
"description": "The latest multimodal model from Hunyuan, supporting image + text input to generate textual content."
|
||||
},
|
||||
"image-01": {
|
||||
"description": "A brand-new image generation model with delicate visual performance, supporting text-to-image and image-to-image generation."
|
||||
},
|
||||
"image-01-live": {
|
||||
"description": "An image generation model with delicate visual performance, supporting text-to-image generation and style setting."
|
||||
},
|
||||
"imagen-4.0-generate-preview-06-06": {
|
||||
"description": "Imagen 4th generation text-to-image model series"
|
||||
},
|
||||
@@ -1631,9 +1526,6 @@
|
||||
"internvl3-latest": {
|
||||
"description": "Our latest released multimodal large model, featuring enhanced image-text understanding capabilities and long-sequence image comprehension, performs on par with top proprietary models. It defaults to our latest released InternVL series model, currently pointing to internvl3-78b."
|
||||
},
|
||||
"irag-1.0": {
|
||||
"description": "Baidu's self-developed iRAG (image-based Retrieval-Augmented Generation) technology combines Baidu Search's hundreds of millions of image resources with powerful foundational model capabilities to generate ultra-realistic images. The overall effect far surpasses native text-to-image systems, eliminating the AI-generated feel while maintaining low cost. iRAG features hallucination-free, ultra-realistic, and instant retrieval characteristics."
|
||||
},
|
||||
"jamba-large": {
|
||||
"description": "Our most powerful and advanced model, designed for handling complex enterprise-level tasks with exceptional performance."
|
||||
},
|
||||
@@ -1643,9 +1535,6 @@
|
||||
"jina-deepsearch-v1": {
|
||||
"description": "DeepSearch combines web search, reading, and reasoning for comprehensive investigations. You can think of it as an agent that takes on your research tasks—it conducts extensive searches and iterates multiple times before providing answers. This process involves ongoing research, reasoning, and problem-solving from various angles. This fundamentally differs from standard large models that generate answers directly from pre-trained data and traditional RAG systems that rely on one-time surface searches."
|
||||
},
|
||||
"kimi-k2": {
|
||||
"description": "Kimi-K2 is a MoE architecture base model launched by Moonshot AI with exceptional coding and agent capabilities, featuring 1 trillion total parameters and 32 billion activated parameters. In benchmark tests across general knowledge reasoning, programming, mathematics, and agent tasks, the K2 model outperforms other mainstream open-source models."
|
||||
},
|
||||
"kimi-k2-0711-preview": {
|
||||
"description": "kimi-k2 is a MoE architecture base model with powerful coding and agent capabilities, totaling 1 trillion parameters with 32 billion active parameters. In benchmark tests across general knowledge reasoning, programming, mathematics, and agent tasks, the K2 model outperforms other mainstream open-source models."
|
||||
},
|
||||
@@ -2039,9 +1928,6 @@
|
||||
"moonshotai/Kimi-Dev-72B": {
|
||||
"description": "Kimi-Dev-72B is an open-source large code model optimized through extensive reinforcement learning, capable of producing robust, production-ready patches. This model achieved a new high score of 60.4% on SWE-bench Verified, setting a record for open-source models in automated software engineering tasks such as defect repair and code review."
|
||||
},
|
||||
"moonshotai/Kimi-K2-Instruct": {
|
||||
"description": "Kimi K2 is a MoE architecture base model with exceptional coding and agent capabilities, featuring 1 trillion total parameters and 32 billion activated parameters. In benchmark tests across general knowledge reasoning, programming, mathematics, and agent tasks, the K2 model outperforms other mainstream open-source models."
|
||||
},
|
||||
"moonshotai/kimi-k2-instruct": {
|
||||
"description": "kimi-k2 is a MoE architecture base model with powerful coding and Agent capabilities, featuring a total of 1 trillion parameters and 32 billion active parameters. In benchmark tests across key categories such as general knowledge reasoning, programming, mathematics, and Agent tasks, the K2 model outperforms other mainstream open-source models."
|
||||
},
|
||||
@@ -2378,21 +2264,9 @@
|
||||
"qwen3-235b-a22b": {
|
||||
"description": "Qwen3 is a next-generation model with significantly enhanced capabilities, achieving industry-leading levels in reasoning, general tasks, agent functionality, and multilingual support, while also supporting mode switching."
|
||||
},
|
||||
"qwen3-235b-a22b-instruct-2507": {
|
||||
"description": "An open-source non-thinking mode model based on Qwen3, with slight improvements in subjective creativity and model safety compared to the previous version (Tongyi Qianwen 3-235B-A22B)."
|
||||
},
|
||||
"qwen3-235b-a22b-thinking-2507": {
|
||||
"description": "An open-source thinking mode model based on Qwen3, with significant improvements in logical ability, general capabilities, knowledge enhancement, and creativity compared to the previous version (Tongyi Qianwen 3-235B-A22B), suitable for high-difficulty and strong reasoning scenarios."
|
||||
},
|
||||
"qwen3-30b-a3b": {
|
||||
"description": "Qwen3 is a next-generation model with significantly enhanced capabilities, achieving industry-leading levels in reasoning, general tasks, agent functionality, and multilingual support, while also supporting mode switching."
|
||||
},
|
||||
"qwen3-30b-a3b-instruct-2507": {
|
||||
"description": "Compared to the previous version (Qwen3-30B-A3B), this version shows substantial improvements in overall general capabilities in both Chinese and multilingual contexts. It features specialized optimizations for subjective and open-ended tasks, aligning significantly better with user preferences and providing more helpful responses."
|
||||
},
|
||||
"qwen3-30b-a3b-thinking-2507": {
|
||||
"description": "An open-source thinking mode model based on Qwen3, this version shows significant enhancements over the previous release (Tongyi Qianwen 3-30B-A3B) in logical ability, general capability, knowledge augmentation, and creative capacity. It is suitable for challenging scenarios requiring strong reasoning."
|
||||
},
|
||||
"qwen3-32b": {
|
||||
"description": "Qwen3 is a next-generation model with significantly enhanced capabilities, achieving industry-leading levels in reasoning, general tasks, agent functionality, and multilingual support, while also supporting mode switching."
|
||||
},
|
||||
@@ -2402,12 +2276,6 @@
|
||||
"qwen3-8b": {
|
||||
"description": "Qwen3 is a next-generation model with significantly enhanced capabilities, achieving industry-leading levels in reasoning, general tasks, agent functionality, and multilingual support, while also supporting mode switching."
|
||||
},
|
||||
"qwen3-coder-480b-a35b-instruct": {
|
||||
"description": "Open-source version of Tongyi Qianwen's code model. The latest qwen3-coder-480b-a35b-instruct is a code generation model based on Qwen3, featuring powerful Coding Agent capabilities, proficient in tool invocation and environment interaction, enabling autonomous programming with excellent coding and general capabilities."
|
||||
},
|
||||
"qwen3-coder-plus": {
|
||||
"description": "Tongyi Qianwen's code model. The latest Qwen3-Coder-Plus series models are code generation models based on Qwen3, featuring powerful Coding Agent capabilities, proficient in tool invocation and environment interaction, enabling autonomous programming with excellent coding and general capabilities."
|
||||
},
|
||||
"qwq": {
|
||||
"description": "QwQ is an experimental research model focused on improving AI reasoning capabilities."
|
||||
},
|
||||
@@ -2450,24 +2318,6 @@
|
||||
"sonar-reasoning-pro": {
|
||||
"description": "A new API product powered by the DeepSeek reasoning model."
|
||||
},
|
||||
"stable-diffusion-3-medium": {
|
||||
"description": "The latest text-to-image large model released by Stability AI. This version inherits the advantages of its predecessors and significantly improves image quality, text understanding, and style diversity, enabling more accurate interpretation of complex natural language prompts and generating more precise and diverse images."
|
||||
},
|
||||
"stable-diffusion-3.5-large": {
|
||||
"description": "stable-diffusion-3.5-large is an 800-million-parameter multimodal diffusion transformer (MMDiT) text-to-image generation model, offering excellent image quality and prompt matching. It supports generating high-resolution images up to 1 million pixels and runs efficiently on consumer-grade hardware."
|
||||
},
|
||||
"stable-diffusion-3.5-large-turbo": {
|
||||
"description": "stable-diffusion-3.5-large-turbo is a model based on stable-diffusion-3.5-large that employs adversarial diffusion distillation (ADD) technology, providing faster generation speed."
|
||||
},
|
||||
"stable-diffusion-v1.5": {
|
||||
"description": "stable-diffusion-v1.5 is initialized with weights from the stable-diffusion-v1.2 checkpoint and fine-tuned for 595k steps at 512x512 resolution on \"laion-aesthetics v2 5+\", reducing text conditioning by 10% to improve classifier-free guidance sampling."
|
||||
},
|
||||
"stable-diffusion-xl": {
|
||||
"description": "stable-diffusion-xl features major improvements over v1.5 and achieves results comparable to the current open-source text-to-image SOTA model Midjourney. Key enhancements include a UNet backbone three times larger than before, an added refinement module to improve image quality, and more efficient training techniques."
|
||||
},
|
||||
"stable-diffusion-xl-base-1.0": {
|
||||
"description": "A text-to-image large model developed and open-sourced by Stability AI, leading the industry in creative image generation capabilities. It has excellent instruction understanding and supports inverse prompt definitions for precise content generation."
|
||||
},
|
||||
"step-1-128k": {
|
||||
"description": "Balances performance and cost, suitable for general scenarios."
|
||||
},
|
||||
@@ -2498,12 +2348,6 @@
|
||||
"step-1v-8k": {
|
||||
"description": "A small visual model suitable for basic text and image tasks."
|
||||
},
|
||||
"step-1x-edit": {
|
||||
"description": "This model focuses on image editing tasks, capable of modifying and enhancing images based on user-provided images and text descriptions. It supports multiple input formats, including text descriptions and example images. The model understands user intent and generates image edits that meet the requirements."
|
||||
},
|
||||
"step-1x-medium": {
|
||||
"description": "This model has strong image generation capabilities, supporting text descriptions as input. It natively supports Chinese, better understanding and processing Chinese text descriptions, accurately capturing semantic information and converting it into image features for more precise image generation. The model can generate high-resolution, high-quality images and has some style transfer capabilities."
|
||||
},
|
||||
"step-2-16k": {
|
||||
"description": "Supports large-scale context interactions, suitable for complex dialogue scenarios."
|
||||
},
|
||||
@@ -2513,9 +2357,6 @@
|
||||
"step-2-mini": {
|
||||
"description": "A high-speed large model based on the next-generation self-developed Attention architecture MFA, achieving results similar to step-1 at a very low cost, while maintaining higher throughput and faster response times. It is capable of handling general tasks and has specialized skills in coding."
|
||||
},
|
||||
"step-2x-large": {
|
||||
"description": "Step Star next-generation image generation model, focusing on image generation tasks. It can generate high-quality images based on user-provided text descriptions. The new model produces more realistic textures and stronger Chinese and English text generation capabilities."
|
||||
},
|
||||
"step-r1-v-mini": {
|
||||
"description": "This model is a powerful reasoning model with strong image understanding capabilities, able to process both image and text information, generating text content after deep reasoning. It excels in visual reasoning while also possessing first-tier capabilities in mathematics, coding, and text reasoning. The context length is 100k."
|
||||
},
|
||||
@@ -2591,23 +2432,8 @@
|
||||
"v0-1.5-md": {
|
||||
"description": "The v0-1.5-md model is suitable for everyday tasks and user interface (UI) generation."
|
||||
},
|
||||
"wan2.2-t2i-flash": {
|
||||
"description": "Wanxiang 2.2 Flash version, the latest model currently available. Fully upgraded in creativity, stability, and realism, with fast generation speed and high cost-effectiveness."
|
||||
},
|
||||
"wan2.2-t2i-plus": {
|
||||
"description": "Wanxiang 2.2 Professional version, the latest model currently available. Fully upgraded in creativity, stability, and realism, generating images with rich details."
|
||||
},
|
||||
"wanx-v1": {
|
||||
"description": "Basic text-to-image model corresponding to Tongyi Wanxiang official website's 1.0 general model."
|
||||
},
|
||||
"wanx2.0-t2i-turbo": {
|
||||
"description": "Specializes in textured portraits, with moderate speed and low cost. Corresponds to Tongyi Wanxiang official website's 2.0 turbo model."
|
||||
},
|
||||
"wanx2.1-t2i-plus": {
|
||||
"description": "Fully upgraded version. Generates images with richer details, slightly slower speed. Corresponds to Tongyi Wanxiang official website's 2.1 professional model."
|
||||
},
|
||||
"wanx2.1-t2i-turbo": {
|
||||
"description": "Fully upgraded version. Fast generation speed, comprehensive effects, and high overall cost-effectiveness. Corresponds to Tongyi Wanxiang official website's 2.1 turbo model."
|
||||
"description": "Text-to-image model under Alibaba Cloud Tongyi"
|
||||
},
|
||||
"whisper-1": {
|
||||
"description": "A general-purpose speech recognition model supporting multilingual speech recognition, speech translation, and language identification."
|
||||
@@ -2659,11 +2485,5 @@
|
||||
},
|
||||
"yi-vision-v2": {
|
||||
"description": "A complex visual task model that provides high-performance understanding and analysis capabilities based on multiple images."
|
||||
},
|
||||
"zai-org/GLM-4.5": {
|
||||
"description": "GLM-4.5 is a foundational model designed specifically for agent applications, using a Mixture-of-Experts (MoE) architecture. It is deeply optimized for tool invocation, web browsing, software engineering, and front-end programming, supporting seamless integration with code agents like Claude Code and Roo Code. GLM-4.5 employs a hybrid inference mode, adaptable to complex reasoning and everyday use scenarios."
|
||||
},
|
||||
"zai-org/GLM-4.5-Air": {
|
||||
"description": "GLM-4.5-Air is a foundational model designed specifically for agent applications, using a Mixture-of-Experts (MoE) architecture. It is deeply optimized for tool invocation, web browsing, software engineering, and front-end programming, supporting seamless integration with code agents like Claude Code and Roo Code. GLM-4.5 employs a hybrid inference mode, adaptable to complex reasoning and everyday use scenarios."
|
||||
}
|
||||
}
|
||||
|
||||
@@ -5,9 +5,6 @@
|
||||
"ai360": {
|
||||
"description": "360 AI is an AI model and service platform launched by 360 Company, offering various advanced natural language processing models, including 360GPT2 Pro, 360GPT Pro, 360GPT Turbo, and 360GPT Turbo Responsibility 8K. These models combine large-scale parameters and multimodal capabilities, widely applied in text generation, semantic understanding, dialogue systems, and code generation. With flexible pricing strategies, 360 AI meets diverse user needs, supports developer integration, and promotes the innovation and development of intelligent applications."
|
||||
},
|
||||
"aihubmix": {
|
||||
"description": "AiHubMix provides access to various AI models through a unified API interface."
|
||||
},
|
||||
"anthropic": {
|
||||
"description": "Anthropic is a company focused on AI research and development, offering a range of advanced language models such as Claude 3.5 Sonnet, Claude 3 Sonnet, Claude 3 Opus, and Claude 3 Haiku. These models achieve an ideal balance between intelligence, speed, and cost, suitable for various applications from enterprise workloads to rapid-response scenarios. Claude 3.5 Sonnet, as their latest model, has excelled in multiple evaluations while maintaining a high cost-performance ratio."
|
||||
},
|
||||
|
||||
@@ -535,6 +535,7 @@
|
||||
"experiment": "Experiment",
|
||||
"hotkey": "Hotkeys",
|
||||
"llm": "Language Model",
|
||||
"plugin": "Plugin Management",
|
||||
"provider": "AI Service Provider",
|
||||
"proxy": "Network Proxy",
|
||||
"storage": "Data Storage",
|
||||
|
||||
@@ -189,7 +189,6 @@
|
||||
"aesGcm": "Tu clave y dirección del proxy se cifrarán utilizando el algoritmo de cifrado <1>AES-GCM</1>",
|
||||
"apiKey": {
|
||||
"desc": "Por favor, introduce tu {{name}} API Key",
|
||||
"descWithUrl": "Por favor, introduce tu clave API de {{name}}, <3>haz clic aquí para obtenerla</3>",
|
||||
"placeholder": "{{name}} API Key",
|
||||
"title": "API Key"
|
||||
},
|
||||
|
||||
+5
-185
@@ -32,9 +32,6 @@
|
||||
"4.0Ultra": {
|
||||
"description": "Spark4.0 Ultra es la versión más poderosa de la serie de modelos grandes de Xinghuo, mejorando la comprensión y capacidad de resumen de contenido textual al actualizar la conexión de búsqueda en línea. Es una solución integral para mejorar la productividad en la oficina y responder con precisión a las necesidades, siendo un producto inteligente líder en la industria."
|
||||
},
|
||||
"AnimeSharp": {
|
||||
"description": "AnimeSharp (también conocido como “4x‑AnimeSharp”) es un modelo de superresolución de código abierto desarrollado por Kim2091 basado en la arquitectura ESRGAN, enfocado en la ampliación y el afilado de imágenes con estilo anime. Fue renombrado en febrero de 2022 desde “4x-TextSharpV1”, originalmente también aplicable a imágenes de texto, pero con un rendimiento significativamente optimizado para contenido anime."
|
||||
},
|
||||
"Baichuan2-Turbo": {
|
||||
"description": "Utiliza tecnología de búsqueda mejorada para lograr un enlace completo entre el gran modelo y el conocimiento del dominio, así como el conocimiento de toda la red. Soporta la carga de documentos en PDF, Word y otros formatos, así como la entrada de URL, proporcionando información oportuna y completa, con resultados precisos y profesionales."
|
||||
},
|
||||
@@ -92,9 +89,6 @@
|
||||
"Doubao-pro-4k": {
|
||||
"description": "El modelo principal con mejor rendimiento, adecuado para tareas complejas, con excelentes resultados en preguntas de referencia, resúmenes, creación, clasificación de texto, juegos de rol y otros escenarios. Soporta inferencia y ajuste fino con una ventana de contexto de 4k."
|
||||
},
|
||||
"DreamO": {
|
||||
"description": "DreamO es un modelo de generación de imágenes personalizado de código abierto desarrollado conjuntamente por ByteDance y la Universidad de Pekín, diseñado para soportar generación de imágenes multitarea mediante una arquitectura unificada. Utiliza un método eficiente de modelado combinado para generar imágenes altamente coherentes y personalizadas según múltiples condiciones especificadas por el usuario, como identidad, sujeto, estilo y fondo."
|
||||
},
|
||||
"ERNIE-3.5-128K": {
|
||||
"description": "Modelo de lenguaje a gran escala de primera línea desarrollado por Baidu, que abarca una vasta cantidad de corpus en chino y en inglés, con potentes capacidades generales que pueden satisfacer la mayoría de los requisitos de preguntas y respuestas en diálogos, generación de contenido y aplicaciones de plugins; soporta la integración automática con el plugin de búsqueda de Baidu, garantizando la actualidad de la información en las respuestas."
|
||||
},
|
||||
@@ -128,39 +122,15 @@
|
||||
"ERNIE-Speed-Pro-128K": {
|
||||
"description": "Modelo de lenguaje de alto rendimiento desarrollado por Baidu, lanzado en 2024, con capacidades generales excepcionales, superando a ERNIE Speed, adecuado como modelo base para ajustes finos, manejando mejor problemas en escenarios específicos, y con un rendimiento de inferencia excelente."
|
||||
},
|
||||
"FLUX.1-Kontext-dev": {
|
||||
"description": "FLUX.1-Kontext-dev es un modelo multimodal de generación y edición de imágenes desarrollado por Black Forest Labs, basado en la arquitectura Rectified Flow Transformer, con una escala de 12 mil millones de parámetros. Se especializa en generar, reconstruir, mejorar o editar imágenes bajo condiciones contextuales dadas. Combina las ventajas de generación controlada de modelos de difusión con la capacidad de modelado contextual de Transformers, soportando salidas de alta calidad y aplicándose ampliamente en tareas como restauración de imágenes, completado y reconstrucción de escenas visuales."
|
||||
},
|
||||
"FLUX.1-dev": {
|
||||
"description": "FLUX.1-dev es un modelo multimodal de lenguaje (MLLM) de código abierto desarrollado por Black Forest Labs, optimizado para tareas de texto e imagen, integrando capacidades de comprensión y generación tanto visual como textual. Está basado en avanzados modelos de lenguaje grande (como Mistral-7B) y mediante un codificador visual cuidadosamente diseñado y un ajuste fino por etapas con instrucciones, logra procesamiento colaborativo de texto e imagen y razonamiento para tareas complejas."
|
||||
},
|
||||
"Gryphe/MythoMax-L2-13b": {
|
||||
"description": "MythoMax-L2 (13B) es un modelo innovador, adecuado para aplicaciones en múltiples campos y tareas complejas."
|
||||
},
|
||||
"HelloMeme": {
|
||||
"description": "HelloMeme es una herramienta de IA que puede generar automáticamente memes, GIFs o videos cortos basados en las imágenes o acciones que proporciones. No requiere conocimientos de dibujo o programación; solo necesitas preparar una imagen de referencia y la herramienta te ayudará a crear contenido atractivo, divertido y con estilo coherente."
|
||||
},
|
||||
"HiDream-I1-Full": {
|
||||
"description": "HiDream-E1-Full es un modelo de edición de imágenes multimodal de código abierto lanzado por HiDream.ai, basado en la avanzada arquitectura Diffusion Transformer y potenciado con una fuerte capacidad de comprensión del lenguaje (incorporando LLaMA 3.1-8B-Instruct). Soporta generación de imágenes, transferencia de estilo, edición local y redibujo de contenido mediante instrucciones en lenguaje natural, con excelentes habilidades de comprensión y ejecución texto-imagen."
|
||||
},
|
||||
"HunyuanDiT-v1.2-Diffusers-Distilled": {
|
||||
"description": "hunyuandit-v1.2-distilled es un modelo ligero de generación de imágenes a partir de texto, optimizado mediante destilación para generar imágenes de alta calidad rápidamente, especialmente adecuado para entornos con recursos limitados y tareas de generación en tiempo real."
|
||||
},
|
||||
"InstantCharacter": {
|
||||
"description": "InstantCharacter es un modelo de generación de personajes personalizados sin necesidad de ajuste fino, lanzado por el equipo de IA de Tencent en 2025, diseñado para lograr generación consistente y de alta fidelidad en múltiples escenarios. El modelo permite modelar un personaje basándose únicamente en una imagen de referencia y transferirlo de forma flexible a diversos estilos, acciones y fondos."
|
||||
},
|
||||
"InternVL2-8B": {
|
||||
"description": "InternVL2-8B es un potente modelo de lenguaje visual, que admite el procesamiento multimodal de imágenes y texto, capaz de identificar con precisión el contenido de las imágenes y generar descripciones o respuestas relacionadas."
|
||||
},
|
||||
"InternVL2.5-26B": {
|
||||
"description": "InternVL2.5-26B es un potente modelo de lenguaje visual, que admite el procesamiento multimodal de imágenes y texto, capaz de identificar con precisión el contenido de las imágenes y generar descripciones o respuestas relacionadas."
|
||||
},
|
||||
"Kolors": {
|
||||
"description": "Kolors es un modelo de generación de imágenes a partir de texto desarrollado por el equipo Kolors de Kuaishou. Entrenado con miles de millones de parámetros, destaca en calidad visual, comprensión semántica del chino y renderizado de texto."
|
||||
},
|
||||
"Kwai-Kolors/Kolors": {
|
||||
"description": "Kolors es un modelo de generación de imágenes a partir de texto a gran escala basado en difusión latente, desarrollado por el equipo Kolors de Kuaishou. Entrenado con miles de millones de pares texto-imagen, muestra ventajas significativas en calidad visual, precisión semántica compleja y renderizado de caracteres en chino e inglés. Soporta entradas en ambos idiomas y sobresale en la comprensión y generación de contenido específico en chino."
|
||||
},
|
||||
"Llama-3.2-11B-Vision-Instruct": {
|
||||
"description": "Capacidad de razonamiento de imágenes excepcional en imágenes de alta resolución, adecuada para aplicaciones de comprensión visual."
|
||||
},
|
||||
@@ -194,15 +164,9 @@
|
||||
"MiniMaxAI/MiniMax-M1-80k": {
|
||||
"description": "MiniMax-M1 es un modelo de inferencia de atención mixta a gran escala con pesos de código abierto, que cuenta con 456 mil millones de parámetros, activando aproximadamente 45.9 mil millones de parámetros por token. El modelo soporta de forma nativa contextos ultra largos de hasta 1 millón de tokens y, gracias a su mecanismo de atención relámpago, reduce en un 75 % las operaciones de punto flotante en tareas de generación de 100 mil tokens en comparación con DeepSeek R1. Además, MiniMax-M1 utiliza una arquitectura MoE (Mezcla de Expertos), combinando el algoritmo CISPO y un diseño de atención mixta para un entrenamiento eficiente mediante aprendizaje reforzado, logrando un rendimiento líder en la industria en inferencia con entradas largas y escenarios reales de ingeniería de software."
|
||||
},
|
||||
"Moonshot-Kimi-K2-Instruct": {
|
||||
"description": "Con un total de 1 billón de parámetros y 32 mil millones de parámetros activados, este modelo no reflexivo alcanza niveles de vanguardia en conocimiento avanzado, matemáticas y codificación, destacando en tareas generales de agentes. Optimizado para tareas de agentes, no solo responde preguntas sino que también puede actuar. Ideal para conversaciones improvisadas, chat general y experiencias de agentes, es un modelo de nivel reflexivo que no requiere largos tiempos de pensamiento."
|
||||
},
|
||||
"NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
||||
"description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B) es un modelo de instrucciones de alta precisión, adecuado para cálculos complejos."
|
||||
},
|
||||
"OmniConsistency": {
|
||||
"description": "OmniConsistency mejora la consistencia de estilo y la capacidad de generalización en tareas de imagen a imagen mediante la introducción de grandes Diffusion Transformers (DiTs) y datos estilizados emparejados, evitando la degradación del estilo."
|
||||
},
|
||||
"Phi-3-medium-128k-instruct": {
|
||||
"description": "El mismo modelo Phi-3-medium, pero con un tamaño de contexto más grande para RAG o indicaciones de pocos disparos."
|
||||
},
|
||||
@@ -254,9 +218,6 @@
|
||||
"Pro/deepseek-ai/DeepSeek-V3": {
|
||||
"description": "DeepSeek-V3 es un modelo de lenguaje de expertos mixtos (MoE) con 671 mil millones de parámetros, que utiliza atención potencial de múltiples cabezas (MLA) y la arquitectura DeepSeekMoE, combinando estrategias de balanceo de carga sin pérdidas auxiliares para optimizar la eficiencia de inferencia y entrenamiento. Preentrenado en 14.8 billones de tokens de alta calidad, y ajustado mediante supervisión y aprendizaje por refuerzo, DeepSeek-V3 supera a otros modelos de código abierto y se acerca a los modelos cerrados líderes."
|
||||
},
|
||||
"Pro/moonshotai/Kimi-K2-Instruct": {
|
||||
"description": "Kimi K2 es un modelo base con arquitectura MoE que posee capacidades avanzadas de codificación y agentes, con un total de 1 billón de parámetros y 32 mil millones de parámetros activados. En pruebas de referencia en categorías principales como razonamiento general, programación, matemáticas y agentes, el rendimiento del modelo K2 supera a otros modelos de código abierto populares."
|
||||
},
|
||||
"QwQ-32B-Preview": {
|
||||
"description": "QwQ-32B-Preview es un modelo de procesamiento de lenguaje natural innovador, capaz de manejar de manera eficiente tareas complejas de generación de diálogos y comprensión del contexto."
|
||||
},
|
||||
@@ -317,18 +278,9 @@
|
||||
"Qwen/Qwen3-235B-A22B": {
|
||||
"description": "Qwen3 es un nuevo modelo de Tongyi Qianwen de próxima generación con capacidades significativamente mejoradas, alcanzando niveles líderes en la industria en razonamiento, general, agente y múltiples idiomas, y admite el cambio de modo de pensamiento."
|
||||
},
|
||||
"Qwen/Qwen3-235B-A22B-Instruct-2507": {
|
||||
"description": "Qwen3-235B-A22B-Instruct-2507 es un modelo de lenguaje grande híbrido experto (MoE) de nivel insignia desarrollado por el equipo Tongyi Qianwen de Alibaba Cloud. Cuenta con 235 mil millones de parámetros totales y activa 22 mil millones por inferencia. Es una versión actualizada del modo no reflexivo Qwen3-235B-A22B, enfocada en mejorar significativamente el cumplimiento de instrucciones, razonamiento lógico, comprensión textual, matemáticas, ciencias, programación y uso de herramientas. Además, amplía la cobertura de conocimientos multilingües y mejora la alineación con las preferencias del usuario en tareas subjetivas y abiertas para generar textos más útiles y de alta calidad."
|
||||
},
|
||||
"Qwen/Qwen3-235B-A22B-Thinking-2507": {
|
||||
"description": "Qwen3-235B-A22B-Thinking-2507 es un modelo de lenguaje grande de la serie Qwen3 desarrollado por el equipo Tongyi Qianwen de Alibaba, especializado en tareas complejas de razonamiento avanzado. Basado en arquitectura MoE, cuenta con 235 mil millones de parámetros totales y activa aproximadamente 22 mil millones por token, mejorando la eficiencia computacional sin sacrificar rendimiento. Como modelo dedicado al “pensamiento”, destaca en razonamiento lógico, matemáticas, ciencias, programación y pruebas académicas que requieren conocimiento experto, alcanzando niveles líderes en modelos reflexivos de código abierto. También mejora capacidades generales como cumplimiento de instrucciones, uso de herramientas y generación de texto, y soporta nativamente comprensión de contexto largo de hasta 256K tokens, ideal para escenarios que requieren razonamiento profundo y manejo de documentos extensos."
|
||||
},
|
||||
"Qwen/Qwen3-30B-A3B": {
|
||||
"description": "Qwen3 es un nuevo modelo de Tongyi Qianwen de próxima generación con capacidades significativamente mejoradas, alcanzando niveles líderes en la industria en razonamiento, general, agente y múltiples idiomas, y admite el cambio de modo de pensamiento."
|
||||
},
|
||||
"Qwen/Qwen3-30B-A3B-Instruct-2507": {
|
||||
"description": "Qwen3-30B-A3B-Instruct-2507 es una versión actualizada del modelo Qwen3-30B-A3B en modo no reflexivo. Es un modelo de expertos mixtos (MoE) con un total de 30.5 mil millones de parámetros y 3.3 mil millones de parámetros activados. El modelo ha mejorado significativamente en varios aspectos, incluyendo el seguimiento de instrucciones, razonamiento lógico, comprensión de texto, matemáticas, ciencias, codificación y uso de herramientas. Además, ha logrado avances sustanciales en la cobertura de conocimientos multilingües de cola larga y se alinea mejor con las preferencias del usuario en tareas subjetivas y abiertas, generando respuestas más útiles y textos de mayor calidad. También se ha mejorado la capacidad de comprensión de textos largos hasta 256K. Este modelo solo soporta el modo no reflexivo y no genera etiquetas `<think></think>` en su salida."
|
||||
},
|
||||
"Qwen/Qwen3-32B": {
|
||||
"description": "Qwen3 es un nuevo modelo de Tongyi Qianwen de próxima generación con capacidades significativamente mejoradas, alcanzando niveles líderes en la industria en razonamiento, general, agente y múltiples idiomas, y admite el cambio de modo de pensamiento."
|
||||
},
|
||||
@@ -362,12 +314,6 @@
|
||||
"Qwen2.5-Coder-32B-Instruct": {
|
||||
"description": "Qwen2.5-Coder-32B-Instruct es un modelo de lenguaje grande diseñado específicamente para la generación de código, comprensión de código y escenarios de desarrollo eficiente, con una escala de 32B parámetros, líder en la industria, capaz de satisfacer diversas necesidades de programación."
|
||||
},
|
||||
"Qwen3-235B": {
|
||||
"description": "Qwen3-235B-A22B es un modelo MoE (modelo de expertos mixtos) que introduce el “modo de razonamiento mixto”, permitiendo a los usuarios cambiar sin problemas entre el “modo reflexivo” y el “modo no reflexivo”. Soporta la comprensión y el razonamiento en 119 idiomas y dialectos, y cuenta con una potente capacidad de invocación de herramientas. En pruebas de referencia que evalúan capacidades generales, código y matemáticas, multilingüismo, conocimiento y razonamiento, compite con los principales modelos del mercado como DeepSeek R1, OpenAI o1, o3-mini, Grok 3 y Google Gemini 2.5 Pro."
|
||||
},
|
||||
"Qwen3-32B": {
|
||||
"description": "Qwen3-32B es un modelo denso (Dense Model) que introduce el “modo de razonamiento mixto”, permitiendo a los usuarios cambiar sin problemas entre el “modo reflexivo” y el “modo no reflexivo”. Gracias a mejoras en la arquitectura del modelo, aumento de datos de entrenamiento y métodos de entrenamiento más eficientes, su rendimiento general es comparable al de Qwen2.5-72B."
|
||||
},
|
||||
"SenseChat": {
|
||||
"description": "Modelo de versión básica (V4), longitud de contexto de 4K, con potentes capacidades generales."
|
||||
},
|
||||
@@ -404,12 +350,6 @@
|
||||
"SenseChat-Vision": {
|
||||
"description": "La última versión del modelo (V5.5) admite la entrada de múltiples imágenes, logrando una optimización completa de las capacidades básicas del modelo, con mejoras significativas en el reconocimiento de atributos de objetos, relaciones espaciales, reconocimiento de eventos de acción, comprensión de escenas, reconocimiento de emociones, razonamiento lógico y comprensión y generación de texto."
|
||||
},
|
||||
"SenseNova-V6-5-Pro": {
|
||||
"description": "Mediante una actualización integral de datos multimodales, lingüísticos y de razonamiento, junto con la optimización de estrategias de entrenamiento, el nuevo modelo ha logrado mejoras significativas en el razonamiento multimodal y la capacidad de seguimiento de instrucciones generalizadas. Soporta una ventana de contexto de hasta 128k y destaca en tareas especializadas como OCR y reconocimiento de IP en turismo y cultura."
|
||||
},
|
||||
"SenseNova-V6-5-Turbo": {
|
||||
"description": "Mediante una actualización integral de datos multimodales, lingüísticos y de razonamiento, junto con la optimización de estrategias de entrenamiento, el nuevo modelo ha logrado mejoras significativas en el razonamiento multimodal y la capacidad de seguimiento de instrucciones generalizadas. Soporta una ventana de contexto de hasta 128k y destaca en tareas especializadas como OCR y reconocimiento de IP en turismo y cultura."
|
||||
},
|
||||
"SenseNova-V6-Pro": {
|
||||
"description": "Logra una unificación nativa de capacidades de imagen, texto y video, superando las limitaciones tradicionales de la multimodalidad discreta, y ha ganado el doble campeonato en las evaluaciones de OpenCompass y SuperCLUE."
|
||||
},
|
||||
@@ -1004,9 +944,6 @@
|
||||
"doubao-seed-1.6-thinking": {
|
||||
"description": "El modelo Doubao-Seed-1.6-thinking tiene una capacidad de pensamiento significativamente mejorada. En comparación con Doubao-1.5-thinking-pro, mejora aún más en habilidades básicas como programación, matemáticas y razonamiento lógico, y soporta comprensión visual. Soporta una ventana de contexto de 256k y una longitud máxima de salida de 16k tokens."
|
||||
},
|
||||
"doubao-seedream-3-0-t2i-250415": {
|
||||
"description": "El modelo de generación de imágenes Doubao fue desarrollado por el equipo Seed de ByteDance, soporta entrada de texto e imagen, y ofrece una experiencia de generación de imágenes altamente controlable y de alta calidad. Genera imágenes basadas en indicaciones textuales."
|
||||
},
|
||||
"doubao-vision-lite-32k": {
|
||||
"description": "El modelo Doubao-vision es un modelo multimodal desarrollado por Doubao, con potentes capacidades de comprensión e inferencia de imágenes, así como una precisa comprensión de instrucciones. El modelo muestra un rendimiento destacado en extracción de información texto-imagen y tareas de inferencia basadas en imágenes, aplicable a tareas de preguntas visuales más complejas y amplias."
|
||||
},
|
||||
@@ -1058,9 +995,6 @@
|
||||
"ernie-char-fiction-8k": {
|
||||
"description": "Modelo de lenguaje grande de escenario vertical desarrollado internamente por Baidu, adecuado para aplicaciones como NPC de juegos, diálogos de servicio al cliente y juegos de rol de diálogos, con un estilo de personaje más distintivo y consistente, y una mayor capacidad de seguimiento de instrucciones y rendimiento de inferencia."
|
||||
},
|
||||
"ernie-irag-edit": {
|
||||
"description": "El modelo de edición de imágenes ERNIE iRAG desarrollado por Baidu soporta operaciones como borrar objetos, repintar objetos y generar variaciones basadas en imágenes."
|
||||
},
|
||||
"ernie-lite-8k": {
|
||||
"description": "ERNIE Lite es un modelo de lenguaje grande ligero desarrollado internamente por Baidu, que combina un excelente rendimiento del modelo con una buena capacidad de inferencia, adecuado para su uso en tarjetas de aceleración de IA de bajo consumo."
|
||||
},
|
||||
@@ -1088,27 +1022,12 @@
|
||||
"ernie-x1-turbo-32k": {
|
||||
"description": "Mejora en comparación con ERNIE-X1-32K, con mejores resultados y rendimiento."
|
||||
},
|
||||
"flux-1-schnell": {
|
||||
"description": "Modelo de generación de imágenes a partir de texto con 12 mil millones de parámetros desarrollado por Black Forest Labs, que utiliza tecnología de destilación de difusión adversarial latente, capaz de generar imágenes de alta calidad en 1 a 4 pasos. Su rendimiento es comparable a alternativas propietarias y se publica bajo licencia Apache-2.0, apto para uso personal, investigación y comercial."
|
||||
},
|
||||
"flux-dev": {
|
||||
"description": "FLUX.1 [dev] es un modelo refinado y de pesos abiertos para aplicaciones no comerciales. Mantiene una calidad de imagen y capacidad de seguimiento de instrucciones similar a la versión profesional de FLUX, pero con mayor eficiencia operativa. En comparación con modelos estándar de tamaño similar, es más eficiente en el uso de recursos."
|
||||
},
|
||||
"flux-kontext/dev": {
|
||||
"description": "Modelo de edición de imágenes Frontier."
|
||||
},
|
||||
"flux-merged": {
|
||||
"description": "El modelo FLUX.1-merged combina las características profundas exploradas durante la fase de desarrollo de “DEV” con las ventajas de ejecución rápida representadas por “Schnell”. Esta combinación no solo amplía los límites de rendimiento del modelo, sino que también amplía su rango de aplicaciones."
|
||||
},
|
||||
"flux-pro/kontext": {
|
||||
"description": "FLUX.1 Kontext [pro] puede procesar texto e imágenes de referencia como entrada, logrando sin problemas ediciones locales específicas y transformaciones complejas de escenas completas."
|
||||
},
|
||||
"flux-schnell": {
|
||||
"description": "FLUX.1 [schnell], como el modelo de pocos pasos más avanzado de código abierto actualmente, supera no solo a competidores similares sino también a potentes modelos no refinados como Midjourney v6.0 y DALL·E 3 (HD). Este modelo ha sido ajustado específicamente para conservar toda la diversidad de salida de la etapa de preentrenamiento. En comparación con los modelos más avanzados del mercado, FLUX.1 [schnell] mejora significativamente la calidad visual, el cumplimiento de instrucciones, la variación de tamaño/proporción, el manejo de fuentes y la diversidad de salida, ofreciendo a los usuarios una experiencia de generación de imágenes creativas más rica y variada."
|
||||
},
|
||||
"flux.1-schnell": {
|
||||
"description": "Transformador de flujo rectificado con 12 mil millones de parámetros, capaz de generar imágenes basadas en descripciones textuales."
|
||||
},
|
||||
"flux/schnell": {
|
||||
"description": "FLUX.1 [schnell] es un modelo transformador de flujo con 12 mil millones de parámetros, capaz de generar imágenes de alta calidad a partir de texto en 1 a 4 pasos, adecuado para uso personal y comercial."
|
||||
},
|
||||
@@ -1190,6 +1109,9 @@
|
||||
"gemini-2.5-flash-preview-04-17": {
|
||||
"description": "Gemini 2.5 Flash Preview es el modelo más rentable de Google, que ofrece una funcionalidad completa."
|
||||
},
|
||||
"gemini-2.5-flash-preview-04-17-thinking": {
|
||||
"description": "Gemini 2.5 Flash Preview es el modelo de mejor relación calidad-precio de Google, que ofrece funcionalidades completas."
|
||||
},
|
||||
"gemini-2.5-flash-preview-05-20": {
|
||||
"description": "Gemini 2.5 Flash Preview es el modelo de mejor relación calidad-precio de Google, que ofrece funcionalidades completas."
|
||||
},
|
||||
@@ -1268,21 +1190,6 @@
|
||||
"glm-4.1v-thinking-flashx": {
|
||||
"description": "La serie GLM-4.1V-Thinking es el modelo visual más potente conocido en la categoría de VLMs de 10 mil millones de parámetros, integrando tareas de lenguaje visual de última generación (SOTA) en su nivel, incluyendo comprensión de video, preguntas sobre imágenes, resolución de problemas académicos, reconocimiento OCR, interpretación de documentos y gráficos, agentes GUI, codificación web frontend, grounding, entre otros. En muchas tareas, supera incluso a modelos con 8 veces más parámetros como Qwen2.5-VL-72B. Gracias a técnicas avanzadas de aprendizaje reforzado, el modelo domina el razonamiento mediante cadenas de pensamiento para mejorar la precisión y riqueza de las respuestas, superando significativamente a los modelos tradicionales sin pensamiento en términos de resultados y explicabilidad."
|
||||
},
|
||||
"glm-4.5": {
|
||||
"description": "El último modelo insignia de Zhipu, soporta modo de pensamiento, con capacidades integrales que alcanzan el nivel SOTA de modelos de código abierto y una longitud de contexto de hasta 128K."
|
||||
},
|
||||
"glm-4.5-air": {
|
||||
"description": "Versión ligera de GLM-4.5 que equilibra rendimiento y costo, con capacidad flexible para cambiar entre modelos de pensamiento híbrido."
|
||||
},
|
||||
"glm-4.5-airx": {
|
||||
"description": "Versión ultra rápida de GLM-4.5-Air, con respuesta más rápida, diseñada para demandas de gran escala y alta velocidad."
|
||||
},
|
||||
"glm-4.5-flash": {
|
||||
"description": "Versión gratuita de GLM-4.5, con un desempeño destacado en tareas de inferencia, codificación y agentes inteligentes."
|
||||
},
|
||||
"glm-4.5-x": {
|
||||
"description": "Versión ultra rápida de GLM-4.5, que combina un rendimiento potente con una velocidad de generación de hasta 100 tokens por segundo."
|
||||
},
|
||||
"glm-4v": {
|
||||
"description": "GLM-4V proporciona una poderosa capacidad de comprensión e inferencia de imágenes, soportando diversas tareas visuales."
|
||||
},
|
||||
@@ -1302,7 +1209,7 @@
|
||||
"description": "Inferencia ultrarrápida: con una velocidad de inferencia extremadamente rápida y un potente efecto de razonamiento."
|
||||
},
|
||||
"glm-z1-flash": {
|
||||
"description": "La serie GLM-Z1 posee una fuerte capacidad de razonamiento complejo, destacando en lógica, matemáticas y programación."
|
||||
"description": "La serie GLM-Z1 posee una poderosa capacidad de razonamiento complejo, destacando en áreas como razonamiento lógico, matemáticas y programación. La longitud máxima del contexto es de 32K."
|
||||
},
|
||||
"glm-z1-flashx": {
|
||||
"description": "Alta velocidad y bajo costo: versión mejorada Flash, con velocidad de inferencia ultrarrápida y mejor garantía de concurrencia."
|
||||
@@ -1478,9 +1385,6 @@
|
||||
"grok-2-1212": {
|
||||
"description": "Este modelo ha mejorado en precisión, cumplimiento de instrucciones y capacidades multilingües."
|
||||
},
|
||||
"grok-2-image-1212": {
|
||||
"description": "Nuestro último modelo de generación de imágenes puede crear imágenes vívidas y realistas a partir de indicaciones textuales. Destaca en generación de imágenes para marketing, redes sociales y entretenimiento."
|
||||
},
|
||||
"grok-2-vision-1212": {
|
||||
"description": "Este modelo ha mejorado en precisión, cumplimiento de instrucciones y capacidades multilingües."
|
||||
},
|
||||
@@ -1550,9 +1454,6 @@
|
||||
"hunyuan-t1-20250529": {
|
||||
"description": "Optimiza la creación de textos, redacción de ensayos, mejora habilidades en programación frontend, matemáticas y razonamiento lógico, y aumenta la capacidad de seguir instrucciones."
|
||||
},
|
||||
"hunyuan-t1-20250711": {
|
||||
"description": "Mejora significativa en habilidades avanzadas de matemáticas, lógica y codificación, optimización de la estabilidad de salida del modelo y aumento de la capacidad para textos largos."
|
||||
},
|
||||
"hunyuan-t1-latest": {
|
||||
"description": "El primer modelo de inferencia híbrido de gran escala Hybrid-Transformer-Mamba de la industria, que amplía la capacidad de inferencia, ofrece una velocidad de decodificación excepcional y alinea aún más con las preferencias humanas."
|
||||
},
|
||||
@@ -1601,12 +1502,6 @@
|
||||
"hunyuan-vision": {
|
||||
"description": "El último modelo multimodal de Hunyuan, que admite la entrada de imágenes y texto para generar contenido textual."
|
||||
},
|
||||
"image-01": {
|
||||
"description": "Nuevo modelo de generación de imágenes con detalles finos, soporta generación de imágenes a partir de texto e imagen."
|
||||
},
|
||||
"image-01-live": {
|
||||
"description": "Modelo de generación de imágenes con detalles finos, soporta generación a partir de texto y configuración de estilo artístico."
|
||||
},
|
||||
"imagen-4.0-generate-preview-06-06": {
|
||||
"description": "Serie de modelos de texto a imagen de cuarta generación de Imagen"
|
||||
},
|
||||
@@ -1631,9 +1526,6 @@
|
||||
"internvl3-latest": {
|
||||
"description": "Nuestro modelo multimodal más reciente, que posee una mayor capacidad de comprensión de texto e imagen, así como una comprensión de imágenes a largo plazo, con un rendimiento comparable a los mejores modelos cerrados. Por defecto, apunta a nuestra serie de modelos InternVL más reciente, actualmente apuntando a internvl3-78b."
|
||||
},
|
||||
"irag-1.0": {
|
||||
"description": "iRAG (image based RAG) desarrollado por Baidu es una tecnología de generación de imágenes mejorada con recuperación, que combina los recursos de miles de millones de imágenes de búsqueda de Baidu con potentes capacidades de modelos base para generar imágenes ultra realistas. Su efecto supera ampliamente los sistemas nativos de generación de imágenes, eliminando el aspecto artificial de la IA y con costos muy bajos. iRAG se caracteriza por no generar alucinaciones, ultra realismo y resultados inmediatos."
|
||||
},
|
||||
"jamba-large": {
|
||||
"description": "Nuestro modelo más potente y avanzado, diseñado para manejar tareas complejas a nivel empresarial, con un rendimiento excepcional."
|
||||
},
|
||||
@@ -1643,9 +1535,6 @@
|
||||
"jina-deepsearch-v1": {
|
||||
"description": "La búsqueda profunda combina la búsqueda en la web, la lectura y el razonamiento para realizar investigaciones exhaustivas. Puedes considerarlo como un agente que acepta tus tareas de investigación: realiza una búsqueda amplia y pasa por múltiples iteraciones antes de proporcionar una respuesta. Este proceso implica una investigación continua, razonamiento y resolución de problemas desde diferentes ángulos. Esto es fundamentalmente diferente de los grandes modelos estándar que generan respuestas directamente a partir de datos preentrenados y de los sistemas RAG tradicionales que dependen de búsquedas superficiales únicas."
|
||||
},
|
||||
"kimi-k2": {
|
||||
"description": "Kimi-K2 es un modelo base con arquitectura MoE lanzado por Moonshot AI, con capacidades avanzadas de codificación y agentes, totalizando 1 billón de parámetros y 32 mil millones de parámetros activados. En pruebas de referencia en categorías principales como razonamiento general, programación, matemáticas y agentes, el rendimiento del modelo K2 supera a otros modelos de código abierto populares."
|
||||
},
|
||||
"kimi-k2-0711-preview": {
|
||||
"description": "kimi-k2 es un modelo base con arquitectura MoE que posee capacidades excepcionales en código y agentes, con un total de 1T parámetros y 32B parámetros activados. En pruebas de rendimiento en categorías principales como razonamiento general, programación, matemáticas y agentes, el modelo K2 supera a otros modelos de código abierto populares."
|
||||
},
|
||||
@@ -2039,9 +1928,6 @@
|
||||
"moonshotai/Kimi-Dev-72B": {
|
||||
"description": "Kimi-Dev-72B es un modelo de código abierto de gran escala, optimizado mediante aprendizaje reforzado a gran escala, capaz de generar parches robustos y listos para producción. Este modelo alcanzó un nuevo récord del 60.4 % en SWE-bench Verified, estableciendo un nuevo estándar para modelos de código abierto en tareas automatizadas de ingeniería de software como la corrección de errores y la revisión de código."
|
||||
},
|
||||
"moonshotai/Kimi-K2-Instruct": {
|
||||
"description": "Kimi K2 es un modelo base con arquitectura MoE que posee capacidades avanzadas de codificación y agentes, con un total de 1 billón de parámetros y 32 mil millones de parámetros activados. En pruebas de referencia en categorías principales como razonamiento general, programación, matemáticas y agentes, el rendimiento del modelo K2 supera a otros modelos de código abierto populares."
|
||||
},
|
||||
"moonshotai/kimi-k2-instruct": {
|
||||
"description": "kimi-k2 es un modelo base con arquitectura MoE que cuenta con capacidades avanzadas de código y agentes, con un total de 1T parámetros y 32B parámetros activados. En pruebas de referencia en categorías principales como razonamiento de conocimiento general, programación, matemáticas y agentes, el modelo K2 supera el rendimiento de otros modelos de código abierto populares."
|
||||
},
|
||||
@@ -2378,21 +2264,9 @@
|
||||
"qwen3-235b-a22b": {
|
||||
"description": "Qwen3 es un modelo de nueva generación con capacidades significativamente mejoradas, alcanzando niveles líderes en la industria en razonamiento, generalidad, agentes y multilingüismo, y soporta el cambio de modo de pensamiento."
|
||||
},
|
||||
"qwen3-235b-a22b-instruct-2507": {
|
||||
"description": "Modelo de código abierto basado en Qwen3 en modo no reflexivo, con mejoras leves en capacidad creativa subjetiva y seguridad del modelo respecto a la versión anterior (Tongyi Qianwen 3-235B-A22B)."
|
||||
},
|
||||
"qwen3-235b-a22b-thinking-2507": {
|
||||
"description": "Modelo de código abierto basado en Qwen3 en modo reflexivo, con mejoras significativas en capacidad lógica, general, enriquecimiento de conocimiento y creatividad respecto a la versión anterior (Tongyi Qianwen 3-235B-A22B), adecuado para escenarios de razonamiento complejo y avanzado."
|
||||
},
|
||||
"qwen3-30b-a3b": {
|
||||
"description": "Qwen3 es un modelo de nueva generación con capacidades significativamente mejoradas, alcanzando niveles líderes en la industria en razonamiento, generalidad, agentes y multilingüismo, y soporta el cambio de modo de pensamiento."
|
||||
},
|
||||
"qwen3-30b-a3b-instruct-2507": {
|
||||
"description": "En comparación con la versión anterior (Qwen3-30B-A3B), se ha mejorado considerablemente la capacidad general en chino, inglés y otros idiomas. Se ha optimizado especialmente para tareas subjetivas y abiertas, alineándose mucho mejor con las preferencias del usuario y proporcionando respuestas más útiles."
|
||||
},
|
||||
"qwen3-30b-a3b-thinking-2507": {
|
||||
"description": "Basado en el modelo de código abierto en modo reflexivo de Qwen3, esta versión mejora significativamente la capacidad lógica, la capacidad general, el conocimiento y la creatividad en comparación con la versión anterior (Tongyi Qianwen 3-30B-A3B). Es adecuado para escenarios complejos que requieren un razonamiento avanzado."
|
||||
},
|
||||
"qwen3-32b": {
|
||||
"description": "Qwen3 es un modelo de nueva generación con capacidades significativamente mejoradas, alcanzando niveles líderes en la industria en razonamiento, generalidad, agentes y multilingüismo, y soporta el cambio de modo de pensamiento."
|
||||
},
|
||||
@@ -2402,12 +2276,6 @@
|
||||
"qwen3-8b": {
|
||||
"description": "Qwen3 es un modelo de nueva generación con capacidades significativamente mejoradas, alcanzando niveles líderes en la industria en razonamiento, generalidad, agentes y multilingüismo, y soporta el cambio de modo de pensamiento."
|
||||
},
|
||||
"qwen3-coder-480b-a35b-instruct": {
|
||||
"description": "Versión de código abierto del modelo de código Tongyi Qianwen. El más reciente qwen3-coder-480b-a35b-instruct está basado en Qwen3, con fuertes capacidades de agente de codificación, experto en llamadas a herramientas e interacción con entornos, capaz de programación autónoma y con habilidades sobresalientes de código y capacidades generales."
|
||||
},
|
||||
"qwen3-coder-plus": {
|
||||
"description": "Modelo de código Tongyi Qianwen. La serie más reciente Qwen3-Coder-Plus está basada en Qwen3, con fuertes capacidades de agente de codificación, experto en llamadas a herramientas e interacción con entornos, capaz de programación autónoma y con habilidades sobresalientes de código y capacidades generales."
|
||||
},
|
||||
"qwq": {
|
||||
"description": "QwQ es un modelo de investigación experimental que se centra en mejorar la capacidad de razonamiento de la IA."
|
||||
},
|
||||
@@ -2450,24 +2318,6 @@
|
||||
"sonar-reasoning-pro": {
|
||||
"description": "Un nuevo producto API respaldado por el modelo de razonamiento DeepSeek."
|
||||
},
|
||||
"stable-diffusion-3-medium": {
|
||||
"description": "El último gran modelo de generación de imágenes a partir de texto lanzado por Stability AI. Esta versión mejora significativamente la calidad de imagen, comprensión textual y diversidad de estilos, heredando las ventajas de generaciones anteriores. Puede interpretar con mayor precisión indicaciones complejas en lenguaje natural y generar imágenes más precisas y variadas."
|
||||
},
|
||||
"stable-diffusion-3.5-large": {
|
||||
"description": "stable-diffusion-3.5-large es un modelo generativo multimodal de difusión transformadora (MMDiT) con 800 millones de parámetros, que ofrece calidad de imagen sobresaliente y alta correspondencia con las indicaciones. Soporta generación de imágenes de alta resolución de hasta 1 millón de píxeles y funciona eficientemente en hardware de consumo común."
|
||||
},
|
||||
"stable-diffusion-3.5-large-turbo": {
|
||||
"description": "stable-diffusion-3.5-large-turbo es un modelo basado en stable-diffusion-3.5-large que utiliza tecnología de destilación de difusión adversarial (ADD) para lograr mayor velocidad."
|
||||
},
|
||||
"stable-diffusion-v1.5": {
|
||||
"description": "stable-diffusion-v1.5 se inicializa con pesos del punto de control stable-diffusion-v1.2 y se ajusta finamente durante 595k pasos a resolución 512x512 sobre \"laion-aesthetics v2 5+\", reduciendo en un 10% la condicionamiento textual para mejorar el muestreo guiado sin clasificador."
|
||||
},
|
||||
"stable-diffusion-xl": {
|
||||
"description": "stable-diffusion-xl presenta mejoras significativas respecto a la versión v1.5 y ofrece resultados comparables al modelo SOTA de código abierto midjourney. Las mejoras incluyen un backbone unet tres veces mayor, un módulo de refinamiento para mejorar la calidad de las imágenes generadas y técnicas de entrenamiento más eficientes."
|
||||
},
|
||||
"stable-diffusion-xl-base-1.0": {
|
||||
"description": "Modelo generativo de imágenes a partir de texto desarrollado y liberado por Stability AI, con capacidades creativas líderes en la industria. Posee excelente comprensión de instrucciones y soporta definiciones de contenido mediante prompts inversos para generación precisa."
|
||||
},
|
||||
"step-1-128k": {
|
||||
"description": "Equilibrio entre rendimiento y costo, adecuado para escenarios generales."
|
||||
},
|
||||
@@ -2498,12 +2348,6 @@
|
||||
"step-1v-8k": {
|
||||
"description": "Modelo visual pequeño, adecuado para tareas básicas de texto e imagen."
|
||||
},
|
||||
"step-1x-edit": {
|
||||
"description": "Modelo especializado en tareas de edición de imágenes, capaz de modificar y mejorar imágenes según descripciones textuales e imágenes de ejemplo proporcionadas por el usuario. Entiende la intención del usuario y genera resultados de edición de imagen que cumplen con los requisitos."
|
||||
},
|
||||
"step-1x-medium": {
|
||||
"description": "Modelo con fuerte capacidad de generación de imágenes, que soporta entrada mediante descripciones textuales. Posee soporte nativo para chino, comprendiendo y procesando mejor descripciones en este idioma, capturando con mayor precisión la semántica para convertirla en características visuales y lograr generación de imágenes más precisa. Puede generar imágenes de alta resolución y calidad, con cierta capacidad de transferencia de estilo."
|
||||
},
|
||||
"step-2-16k": {
|
||||
"description": "Soporta interacciones de contexto a gran escala, adecuado para escenarios de diálogo complejos."
|
||||
},
|
||||
@@ -2513,9 +2357,6 @@
|
||||
"step-2-mini": {
|
||||
"description": "Un modelo de gran velocidad basado en la nueva arquitectura de atención autogestionada MFA, que logra efectos similares a los de step1 a un costo muy bajo, manteniendo al mismo tiempo un mayor rendimiento y tiempos de respuesta más rápidos. Capaz de manejar tareas generales, con habilidades destacadas en programación."
|
||||
},
|
||||
"step-2x-large": {
|
||||
"description": "Nueva generación del modelo Step Star para generación de imágenes, enfocado en tareas de generación basadas en texto, capaz de crear imágenes de alta calidad según descripciones proporcionadas por el usuario. El nuevo modelo produce imágenes con texturas más realistas y mejor capacidad para generar texto en chino e inglés."
|
||||
},
|
||||
"step-r1-v-mini": {
|
||||
"description": "Este modelo es un gran modelo de inferencia con una poderosa capacidad de comprensión de imágenes, capaz de procesar información de imágenes y texto, generando contenido textual tras un profundo razonamiento. Este modelo destaca en el campo del razonamiento visual, además de poseer capacidades de razonamiento matemático, de código y textual de primer nivel. La longitud del contexto es de 100k."
|
||||
},
|
||||
@@ -2591,23 +2432,8 @@
|
||||
"v0-1.5-md": {
|
||||
"description": "El modelo v0-1.5-md es adecuado para tareas cotidianas y generación de interfaces de usuario (UI)"
|
||||
},
|
||||
"wan2.2-t2i-flash": {
|
||||
"description": "Versión ultra rápida Wanxiang 2.2, el modelo más reciente. Mejora integral en creatividad, estabilidad y realismo, con velocidad de generación rápida y alta relación calidad-precio."
|
||||
},
|
||||
"wan2.2-t2i-plus": {
|
||||
"description": "Versión profesional Wanxiang 2.2, el modelo más reciente. Mejora integral en creatividad, estabilidad y realismo, con generación de detalles ricos."
|
||||
},
|
||||
"wanx-v1": {
|
||||
"description": "Modelo base de generación de imágenes a partir de texto, correspondiente al modelo general 1.0 del sitio oficial Tongyi Wanxiang."
|
||||
},
|
||||
"wanx2.0-t2i-turbo": {
|
||||
"description": "Especializado en retratos con textura, velocidad media y bajo costo. Corresponde al modelo ultra rápido 2.0 del sitio oficial Tongyi Wanxiang."
|
||||
},
|
||||
"wanx2.1-t2i-plus": {
|
||||
"description": "Versión completamente mejorada. Genera imágenes con detalles más ricos, velocidad ligeramente más lenta. Corresponde al modelo profesional 2.1 del sitio oficial Tongyi Wanxiang."
|
||||
},
|
||||
"wanx2.1-t2i-turbo": {
|
||||
"description": "Versión completamente mejorada. Generación rápida, resultados completos y alta relación calidad-precio. Corresponde al modelo ultra rápido 2.1 del sitio oficial Tongyi Wanxiang."
|
||||
"description": "Modelo de generación de imágenes de texto a imagen de Tongyi de Alibaba Cloud"
|
||||
},
|
||||
"whisper-1": {
|
||||
"description": "Modelo universal de reconocimiento de voz que soporta reconocimiento de voz multilingüe, traducción de voz y detección de idioma."
|
||||
@@ -2659,11 +2485,5 @@
|
||||
},
|
||||
"yi-vision-v2": {
|
||||
"description": "Modelo para tareas visuales complejas, que ofrece capacidades de comprensión y análisis de alto rendimiento basadas en múltiples imágenes."
|
||||
},
|
||||
"zai-org/GLM-4.5": {
|
||||
"description": "GLM-4.5 es un modelo base diseñado para aplicaciones de agentes inteligentes, utilizando arquitectura Mixture-of-Experts (MoE). Está profundamente optimizado para llamadas a herramientas, navegación web, ingeniería de software y programación frontend, soportando integración fluida con agentes de código como Claude Code y Roo Code. GLM-4.5 emplea un modo de inferencia híbrido que se adapta a escenarios de razonamiento complejo y uso cotidiano."
|
||||
},
|
||||
"zai-org/GLM-4.5-Air": {
|
||||
"description": "GLM-4.5-Air es un modelo base diseñado para aplicaciones de agentes inteligentes, utilizando arquitectura Mixture-of-Experts (MoE). Está profundamente optimizado para llamadas a herramientas, navegación web, ingeniería de software y programación frontend, soportando integración fluida con agentes de código como Claude Code y Roo Code. GLM-4.5 emplea un modo de inferencia híbrido que se adapta a escenarios de razonamiento complejo y uso cotidiano."
|
||||
}
|
||||
}
|
||||
|
||||
@@ -5,9 +5,6 @@
|
||||
"ai360": {
|
||||
"description": "360 AI es una plataforma de modelos y servicios de IA lanzada por la empresa 360, que ofrece una variedad de modelos avanzados de procesamiento del lenguaje natural, incluidos 360GPT2 Pro, 360GPT Pro, 360GPT Turbo y 360GPT Turbo Responsibility 8K. Estos modelos combinan parámetros a gran escala y capacidades multimodales, siendo ampliamente utilizados en generación de texto, comprensión semántica, sistemas de diálogo y generación de código. A través de una estrategia de precios flexible, 360 AI satisface diversas necesidades de los usuarios, apoyando la integración de desarrolladores y promoviendo la innovación y desarrollo de aplicaciones inteligentes."
|
||||
},
|
||||
"aihubmix": {
|
||||
"description": "AiHubMix ofrece acceso a múltiples modelos de IA a través de una interfaz API unificada."
|
||||
},
|
||||
"anthropic": {
|
||||
"description": "Anthropic es una empresa centrada en la investigación y desarrollo de inteligencia artificial, que ofrece una serie de modelos de lenguaje avanzados, como Claude 3.5 Sonnet, Claude 3 Sonnet, Claude 3 Opus y Claude 3 Haiku. Estos modelos logran un equilibrio ideal entre inteligencia, velocidad y costo, adecuados para una variedad de escenarios de aplicación, desde cargas de trabajo empresariales hasta respuestas rápidas. Claude 3.5 Sonnet, como su modelo más reciente, ha demostrado un rendimiento excepcional en múltiples evaluaciones, manteniendo una alta relación calidad-precio."
|
||||
},
|
||||
|
||||
@@ -189,7 +189,6 @@
|
||||
"aesGcm": "کلید شما و آدرس پروکسی و غیره با استفاده از <1>AES-GCM</1> رمزگذاری خواهد شد",
|
||||
"apiKey": {
|
||||
"desc": "لطفاً کلید API {{name}} خود را وارد کنید",
|
||||
"descWithUrl": "لطفاً کلید API {{name}} خود را وارد کنید، <3>برای دریافت اینجا کلیک کنید</3>",
|
||||
"placeholder": "{{name}} کلید API",
|
||||
"title": "کلید API"
|
||||
},
|
||||
|
||||
+5
-185
@@ -32,9 +32,6 @@
|
||||
"4.0Ultra": {
|
||||
"description": "Spark Ultra قدرتمندترین نسخه از سری مدلهای بزرگ Spark است که با ارتقاء مسیر جستجوی متصل به شبکه، توانایی درک و خلاصهسازی محتوای متنی را بهبود میبخشد. این یک راهحل جامع برای افزایش بهرهوری در محیط کار و پاسخگویی دقیق به نیازها است و به عنوان یک محصول هوشمند پیشرو در صنعت شناخته میشود."
|
||||
},
|
||||
"AnimeSharp": {
|
||||
"description": "AnimeSharp (که با نام \"4x‑AnimeSharp\" نیز شناخته میشود) یک مدل ابررزولوشن متنباز است که توسط Kim2091 بر اساس معماری ESRGAN توسعه یافته است و بر بزرگنمایی و تیزکردن تصاویر با سبک انیمه تمرکز دارد. این مدل در فوریه ۲۰۲۲ از \"4x-TextSharpV1\" تغییر نام داد و در ابتدا برای تصاویر متنی نیز کاربرد داشت اما عملکرد آن به طور قابل توجهی برای محتوای انیمه بهینه شده است."
|
||||
},
|
||||
"Baichuan2-Turbo": {
|
||||
"description": "با استفاده از فناوری تقویت جستجو، مدل بزرگ را به دانش حوزهای و دانش کل وب متصل میکند. از آپلود انواع اسناد مانند PDF، Word و همچنین وارد کردن آدرسهای وب پشتیبانی میکند. اطلاعات بهموقع و جامع دریافت میشود و نتایج خروجی دقیق و حرفهای هستند."
|
||||
},
|
||||
@@ -92,9 +89,6 @@
|
||||
"Doubao-pro-4k": {
|
||||
"description": "مدل اصلی با بهترین عملکرد، مناسب برای انجام وظایف پیچیده است و در زمینههایی مانند پاسخ به سوالات مرجع، خلاصهسازی، خلق محتوا، دستهبندی متن و نقشآفرینی عملکرد بسیار خوبی دارد. از پنجره متنی 4k برای استدلال و تنظیم دقیق پشتیبانی میکند."
|
||||
},
|
||||
"DreamO": {
|
||||
"description": "DreamO یک مدل تولید تصویر سفارشی متنباز است که توسط شرکت بایتدنس و دانشگاه پکن به صورت مشترک توسعه یافته است و هدف آن پشتیبانی از تولید چندوظیفهای تصویر از طریق معماری یکپارچه است. این مدل از روش مدلسازی ترکیبی کارآمد استفاده میکند و میتواند تصاویر بسیار سازگار و سفارشیشدهای را بر اساس شرایطی مانند هویت، موضوع، سبک و پسزمینه که توسط کاربر تعیین میشود، تولید کند."
|
||||
},
|
||||
"ERNIE-3.5-128K": {
|
||||
"description": "مدل زبان بزرگ پرچمدار توسعهیافته توسط بایدو، که حجم عظیمی از متون چینی و انگلیسی را پوشش میدهد و دارای تواناییهای عمومی قدرتمندی است. این مدل میتواند نیازهای اکثر سناریوهای پرسش و پاسخ، تولید محتوا و استفاده از افزونهها را برآورده کند؛ همچنین از اتصال خودکار به افزونه جستجوی بایدو پشتیبانی میکند تا بهروز بودن اطلاعات پرسش و پاسخ را تضمین کند."
|
||||
},
|
||||
@@ -128,39 +122,15 @@
|
||||
"ERNIE-Speed-Pro-128K": {
|
||||
"description": "مدل زبان بزرگ با عملکرد بالا که در سال 2024 توسط بایدو بهطور مستقل توسعه یافته است. این مدل دارای تواناییهای عمومی برجستهای است و عملکرد بهتری نسبت به ERNIE Speed دارد. مناسب برای استفاده به عنوان مدل پایه برای تنظیم دقیق و حل بهتر مسائل در سناریوهای خاص، همچنین دارای عملکرد استنتاجی بسیار عالی است."
|
||||
},
|
||||
"FLUX.1-Kontext-dev": {
|
||||
"description": "FLUX.1-Kontext-dev یک مدل تولید و ویرایش تصویر چندرسانهای است که توسط Black Forest Labs توسعه یافته و بر اساس معماری Rectified Flow Transformer ساخته شده است. این مدل با 12 میلیارد پارامتر، بر تولید، بازسازی، تقویت یا ویرایش تصاویر تحت شرایط متنی تمرکز دارد. این مدل ترکیبی از مزایای تولید کنترلشده مدلهای انتشار و قابلیت مدلسازی زمینهای ترنسفورمر است و از خروجی تصاویر با کیفیت بالا پشتیبانی میکند و در وظایفی مانند ترمیم تصویر، تکمیل تصویر و بازسازی صحنههای بصری کاربرد گسترده دارد."
|
||||
},
|
||||
"FLUX.1-dev": {
|
||||
"description": "FLUX.1-dev یک مدل زبان چندرسانهای متنباز است که توسط Black Forest Labs توسعه یافته و برای وظایف ترکیبی تصویر و متن بهینه شده است. این مدل بر پایه مدلهای زبان بزرگ پیشرفته مانند Mistral-7B ساخته شده و با استفاده از رمزگذار بصری طراحیشده و تنظیم دقیق چندمرحلهای دستوری، توانایی پردازش همزمان تصویر و متن و استدلال در وظایف پیچیده را دارد."
|
||||
},
|
||||
"Gryphe/MythoMax-L2-13b": {
|
||||
"description": "MythoMax-L2 (13B) یک مدل نوآورانه است که برای کاربردهای چندرشتهای و وظایف پیچیده مناسب است."
|
||||
},
|
||||
"HelloMeme": {
|
||||
"description": "HelloMeme یک ابزار هوش مصنوعی است که میتواند بر اساس تصاویر یا حرکاتی که شما ارائه میدهید، به طور خودکار میم، گیف یا ویدیوهای کوتاه تولید کند. این ابزار نیازی به دانش نقاشی یا برنامهنویسی ندارد و تنها با داشتن تصاویر مرجع، میتواند محتوایی زیبا، سرگرمکننده و با سبک یکپارچه برای شما بسازد."
|
||||
},
|
||||
"HiDream-I1-Full": {
|
||||
"description": "HiDream-E1-Full یک مدل بزرگ ویرایش تصویر چندرسانهای متنباز است که توسط HiDream.ai توسعه یافته است. این مدل بر پایه معماری پیشرفته Diffusion Transformer ساخته شده و با توانایی قوی درک زبان (با LLaMA 3.1-8B-Instruct داخلی) از طریق دستورات زبان طبیعی، تولید تصویر، انتقال سبک، ویرایش موضعی و بازنقاشی محتوا را پشتیبانی میکند و دارای قابلیتهای برجسته در درک و اجرای ترکیب تصویر و متن است."
|
||||
},
|
||||
"HunyuanDiT-v1.2-Diffusers-Distilled": {
|
||||
"description": "hunyuandit-v1.2-distilled یک مدل سبک تولید تصویر از متن است که با استفاده از تکنیک تقطیر بهینه شده و قادر است به سرعت تصاویر با کیفیت بالا تولید کند، به ویژه مناسب محیطهای با منابع محدود و وظایف تولید در زمان واقعی است."
|
||||
},
|
||||
"InstantCharacter": {
|
||||
"description": "InstantCharacter یک مدل تولید شخصیت شخصیسازی شده بدون نیاز به تنظیم دقیق است که توسط تیم هوش مصنوعی Tencent در سال ۲۰۲۵ منتشر شده است. هدف این مدل تولید شخصیتهای با وفاداری بالا و سازگار در صحنههای مختلف است. این مدل تنها با یک تصویر مرجع قادر به مدلسازی شخصیت است و میتواند آن را به سبکها، حرکات و پسزمینههای مختلف به طور انعطافپذیر منتقل کند."
|
||||
},
|
||||
"InternVL2-8B": {
|
||||
"description": "InternVL2-8B یک مدل زبان بصری قدرتمند است که از پردازش چند حالتی تصویر و متن پشتیبانی میکند و قادر است محتوای تصویر را به دقت شناسایی کرده و توصیف یا پاسخهای مرتبط تولید کند."
|
||||
},
|
||||
"InternVL2.5-26B": {
|
||||
"description": "InternVL2.5-26B یک مدل زبان بصری قدرتمند است که از پردازش چند حالتی تصویر و متن پشتیبانی میکند و قادر است محتوای تصویر را به دقت شناسایی کرده و توصیف یا پاسخهای مرتبط تولید کند."
|
||||
},
|
||||
"Kolors": {
|
||||
"description": "Kolors یک مدل تولید تصویر از متن است که توسط تیم Kolors شرکت Kuaishou توسعه یافته است. این مدل با میلیاردها پارامتر آموزش دیده و در کیفیت بصری، درک معنایی زبان چینی و رندر متن عملکرد برجستهای دارد."
|
||||
},
|
||||
"Kwai-Kolors/Kolors": {
|
||||
"description": "Kolors یک مدل بزرگ تولید تصویر از متن مبتنی بر انتشار نهفته است که توسط تیم Kolors شرکت Kuaishou توسعه یافته است. این مدل با آموزش روی میلیاردها جفت متن-تصویر، در کیفیت بصری، دقت معنایی پیچیده و رندر کاراکترهای چینی و انگلیسی عملکرد برجستهای دارد. این مدل نه تنها از ورودیهای چینی و انگلیسی پشتیبانی میکند بلکه در درک و تولید محتوای خاص زبان چینی نیز بسیار توانمند است."
|
||||
},
|
||||
"Llama-3.2-11B-Vision-Instruct": {
|
||||
"description": "توانایی استدلال تصویری عالی در تصاویر با وضوح بالا، مناسب برای برنامههای درک بصری."
|
||||
},
|
||||
@@ -194,15 +164,9 @@
|
||||
"MiniMaxAI/MiniMax-M1-80k": {
|
||||
"description": "MiniMax-M1 یک مدل استنتاج بزرگ با وزنهای متنباز و توجه ترکیبی است که دارای ۴۵۶ میلیارد پارامتر است و هر توکن میتواند حدود ۴۵.۹ میلیارد پارامتر را فعال کند. این مدل به طور بومی از زمینه بسیار طولانی ۱ میلیون توکن پشتیبانی میکند و با مکانیزم توجه سریع، در وظایف تولید ۱۰۰ هزار توکن نسبت به DeepSeek R1، ۷۵٪ از محاسبات نقطه شناور را صرفهجویی میکند. همچنین، MiniMax-M1 از معماری MoE (متخصصان ترکیبی) بهره میبرد و با ترکیب الگوریتم CISPO و طراحی توجه ترکیبی در آموزش تقویتی کارآمد، عملکرد پیشرو در صنعت را در استنتاج ورودیهای طولانی و سناریوهای واقعی مهندسی نرمافزار ارائه میدهد."
|
||||
},
|
||||
"Moonshot-Kimi-K2-Instruct": {
|
||||
"description": "مدل با 1 تریلیون پارامتر کل و 32 میلیارد پارامتر فعال. در میان مدلهای غیرتفکری، در دانش پیشرفته، ریاضیات و برنامهنویسی در سطح برتر قرار دارد و در وظایف عامل عمومی تخصص دارد. به طور ویژه برای وظایف نمایندگی بهینه شده است، نه تنها قادر به پاسخگویی به سوالات بلکه قادر به انجام اقدامات است. بهترین گزینه برای گفتگوهای بداهه، چت عمومی و تجربههای نمایندگی است و یک مدل واکنشی بدون نیاز به تفکر طولانی مدت محسوب میشود."
|
||||
},
|
||||
"NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
||||
"description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B) یک مدل دستورالعمل با دقت بالا است که برای محاسبات پیچیده مناسب است."
|
||||
},
|
||||
"OmniConsistency": {
|
||||
"description": "OmniConsistency با معرفی مدلهای بزرگ Diffusion Transformers (DiTs) و دادههای سبکدار جفتشده، انسجام سبک و قابلیت تعمیم در وظایف تصویر به تصویر (Image-to-Image) را بهبود میبخشد و از افت کیفیت سبک جلوگیری میکند."
|
||||
},
|
||||
"Phi-3-medium-128k-instruct": {
|
||||
"description": "همان مدل Phi-3-medium، اما با اندازه بزرگتر زمینه، مناسب برای RAG یا تعداد کمی از دستورات."
|
||||
},
|
||||
@@ -254,9 +218,6 @@
|
||||
"Pro/deepseek-ai/DeepSeek-V3": {
|
||||
"description": "DeepSeek-V3 یک مدل زبان با 671 میلیارد پارامتر است که از معماری متخصصان ترکیبی (MoE) و توجه چندسر (MLA) استفاده میکند و با استراتژی تعادل بار بدون ضرر کمکی بهینهسازی کارایی استنتاج و آموزش را انجام میدهد. این مدل با پیشآموزش بر روی 14.8 تریلیون توکن با کیفیت بالا و انجام تنظیم دقیق نظارتی و یادگیری تقویتی، در عملکرد از سایر مدلهای متنباز پیشی میگیرد و به مدلهای بسته پیشرو نزدیک میشود."
|
||||
},
|
||||
"Pro/moonshotai/Kimi-K2-Instruct": {
|
||||
"description": "Kimi K2 یک مدل پایه با معماری MoE است که دارای تواناییهای بسیار قوی در کدنویسی و عامل است، با 1 تریلیون پارامتر کل و 32 میلیارد پارامتر فعال. در آزمونهای معیار عملکرد در حوزههای دانش عمومی، برنامهنویسی، ریاضیات و عامل، مدل K2 عملکردی فراتر از سایر مدلهای متنباز اصلی دارد."
|
||||
},
|
||||
"QwQ-32B-Preview": {
|
||||
"description": "QwQ-32B-Preview یک مدل پردازش زبان طبیعی نوآورانه است که قادر به پردازش کارآمد مکالمات پیچیده و درک زمینه است."
|
||||
},
|
||||
@@ -317,18 +278,9 @@
|
||||
"Qwen/Qwen3-235B-A22B": {
|
||||
"description": "Qwen3 یک مدل بزرگ جدید با تواناییهای بهبود یافته است که در استدلال، عمومی، نمایندگی و چند زبانی به سطح پیشرفته صنعت دست یافته و از تغییر حالت تفکر پشتیبانی میکند."
|
||||
},
|
||||
"Qwen/Qwen3-235B-A22B-Instruct-2507": {
|
||||
"description": "Qwen3-235B-A22B-Instruct-2507 یک مدل زبان بزرگ ترکیبی (MoE) پرچمدار از سری Qwen3 است که توسط تیم Tongyi Qianwen شرکت علیبابا توسعه یافته است. این مدل دارای 235 میلیارد پارامتر کل و 22 میلیارد پارامتر فعال در هر استنتاج است. نسخه بهروزشدهای از حالت غیرتفکری Qwen3-235B-A22B است که تمرکز بر بهبود قابل توجه در پیروی از دستورالعملها، استدلال منطقی، درک متن، ریاضیات، علوم، برنامهنویسی و استفاده از ابزارها دارد. همچنین پوشش دانش چندزبانه و ترجیحات کاربر در وظایف ذهنی و باز را بهبود بخشیده تا متنهای مفیدتر و با کیفیت بالاتری تولید کند."
|
||||
},
|
||||
"Qwen/Qwen3-235B-A22B-Thinking-2507": {
|
||||
"description": "Qwen3-235B-A22B-Thinking-2507 عضوی از سری مدلهای بزرگ زبان Qwen3 است که توسط تیم Tongyi Qianwen شرکت علیبابا توسعه یافته و بر وظایف استدلال پیچیده و دشوار تمرکز دارد. این مدل بر پایه معماری MoE با 235 میلیارد پارامتر کل ساخته شده و در هر توکن حدود 22 میلیارد پارامتر فعال میکند که باعث افزایش کارایی محاسباتی در عین حفظ قدرت عملکرد میشود. به عنوان یک مدل اختصاصی \"تفکر\"، در استدلال منطقی، ریاضیات، علوم، برنامهنویسی و آزمونهای علمی که نیازمند تخصص انسانی هستند، عملکرد برجستهای دارد و در میان مدلهای تفکری متنباز در سطح برتر قرار دارد. همچنین تواناییهای عمومی مانند پیروی از دستورالعملها، استفاده از ابزار و تولید متن را تقویت کرده و به طور بومی از درک متنهای طولانی تا 256 هزار توکن پشتیبانی میکند که برای سناریوهای نیازمند استدلال عمیق و پردازش اسناد طولانی بسیار مناسب است."
|
||||
},
|
||||
"Qwen/Qwen3-30B-A3B": {
|
||||
"description": "Qwen3 یک مدل بزرگ جدید با تواناییهای بهبود یافته است که در استدلال، عمومی، نمایندگی و چند زبانی به سطح پیشرفته صنعت دست یافته و از تغییر حالت تفکر پشتیبانی میکند."
|
||||
},
|
||||
"Qwen/Qwen3-30B-A3B-Instruct-2507": {
|
||||
"description": "Qwen3-30B-A3B-Instruct-2507 نسخه بهروزرسانی شده مدل غیرتفکری Qwen3-30B-A3B است. این یک مدل متخصص ترکیبی (MoE) با مجموع ۳۰.۵ میلیارد پارامتر و ۳.۳ میلیارد پارامتر فعال است. این مدل در جنبههای مختلف بهبودهای کلیدی داشته است، از جمله افزایش قابل توجه در پیروی از دستورالعملها، استدلال منطقی، درک متن، ریاضیات، علوم، برنامهنویسی و استفاده از ابزارها. همچنین، پیشرفت قابل توجهی در پوشش دانش چندزبانه و تطابق بهتر با ترجیحات کاربران در وظایف ذهنی و باز دارد، که منجر به تولید پاسخهای مفیدتر و متون با کیفیت بالاتر میشود. علاوه بر این، توانایی درک متنهای بلند این مدل تا ۲۵۶ هزار توکن افزایش یافته است. این مدل فقط از حالت غیرتفکری پشتیبانی میکند و خروجی آن شامل برچسبهای `<think></think>` نخواهد بود."
|
||||
},
|
||||
"Qwen/Qwen3-32B": {
|
||||
"description": "Qwen3 یک مدل بزرگ جدید با تواناییهای بهبود یافته است که در استدلال، عمومی، نمایندگی و چند زبانی به سطح پیشرفته صنعت دست یافته و از تغییر حالت تفکر پشتیبانی میکند."
|
||||
},
|
||||
@@ -362,12 +314,6 @@
|
||||
"Qwen2.5-Coder-32B-Instruct": {
|
||||
"description": "Qwen2.5-Coder-32B-Instruct یک مدل زبان بزرگ است که به طور خاص برای تولید کد، درک کد و سناریوهای توسعه کارآمد طراحی شده است و از مقیاس 32B پارامتر پیشرفته در صنعت بهره میبرد و میتواند نیازهای متنوع برنامهنویسی را برآورده کند."
|
||||
},
|
||||
"Qwen3-235B": {
|
||||
"description": "Qwen3-235B-A22B، مدل MoE (متخصص ترکیبی)، حالت «استدلال ترکیبی» را معرفی کرده است که به کاربران امکان میدهد بهطور یکپارچه بین «حالت تفکر» و «حالت غیرتفکر» جابجا شوند. این مدل از درک و استدلال در ۱۱۹ زبان و گویش پشتیبانی میکند و دارای قابلیتهای قدرتمند فراخوانی ابزار است. در آزمونهای معیار مختلف از جمله تواناییهای جامع، کد نویسی و ریاضیات، چندزبانه، دانش و استدلال، این مدل میتواند با مدلهای پیشرو بازار مانند DeepSeek R1، OpenAI o1، o3-mini، Grok 3 و Google Gemini 2.5 Pro رقابت کند."
|
||||
},
|
||||
"Qwen3-32B": {
|
||||
"description": "Qwen3-32B، مدل متراکم (Dense Model)، حالت «استدلال ترکیبی» را معرفی کرده است که به کاربران امکان میدهد بهطور یکپارچه بین «حالت تفکر» و «حالت غیرتفکر» جابجا شوند. به دلیل بهبود ساختار مدل، افزایش دادههای آموزشی و روشهای مؤثرتر آموزش، عملکرد کلی این مدل با Qwen2.5-72B قابل مقایسه است."
|
||||
},
|
||||
"SenseChat": {
|
||||
"description": "نسخه پایه مدل (V4)، طول متن ۴K، با تواناییهای عمومی قوی"
|
||||
},
|
||||
@@ -404,12 +350,6 @@
|
||||
"SenseChat-Vision": {
|
||||
"description": "مدل جدیدترین نسخه (V5.5) است که از ورودی چند تصویر پشتیبانی میکند و به طور جامع به بهینهسازی تواناییهای پایه مدل پرداخته و در شناسایی ویژگیهای اشیاء، روابط فضایی، شناسایی رویدادهای حرکتی، درک صحنه، شناسایی احساسات، استدلال منطقی و درک و تولید متن بهبودهای قابل توجهی داشته است."
|
||||
},
|
||||
"SenseNova-V6-5-Pro": {
|
||||
"description": "با بهروزرسانی جامع دادههای چندرسانهای، زبانی و استدلالی و بهینهسازی استراتژیهای آموزش، مدل جدید پیشرفت قابل توجهی در استدلال چندرسانهای و توانایی پیروی از دستورالعملهای تعمیمیافته داشته است. این مدل از پنجره متنی تا ۱۲۸ هزار توکن پشتیبانی میکند و در وظایف تخصصی مانند OCR و شناسایی IP گردشگری و فرهنگی عملکرد برجستهای دارد."
|
||||
},
|
||||
"SenseNova-V6-5-Turbo": {
|
||||
"description": "با بهروزرسانی جامع دادههای چندرسانهای، زبانی و استدلالی و بهینهسازی استراتژیهای آموزش، مدل جدید پیشرفت قابل توجهی در استدلال چندرسانهای و توانایی پیروی از دستورالعملهای تعمیمیافته داشته است. این مدل از پنجره متنی تا ۱۲۸ هزار توکن پشتیبانی میکند و در وظایف تخصصی مانند OCR و شناسایی IP گردشگری و فرهنگی عملکرد برجستهای دارد."
|
||||
},
|
||||
"SenseNova-V6-Pro": {
|
||||
"description": "تحقق یکپارچگی بومی قابلیتهای تصویر، متن و ویدیو، عبور از محدودیتهای سنتی چندمدلی، و کسب دو قهرمانی در ارزیابیهای OpenCompass و SuperCLUE."
|
||||
},
|
||||
@@ -1004,9 +944,6 @@
|
||||
"doubao-seed-1.6-thinking": {
|
||||
"description": "مدل Doubao-Seed-1.6-thinking با توانایی تفکر بهطور قابل توجهی تقویت شده است، نسبت به Doubao-1.5-thinking-pro در مهارتهای پایهای مانند برنامهنویسی، ریاضیات و استدلال منطقی پیشرفت داشته و از درک تصویری پشتیبانی میکند. از پنجره متنی ۲۵۶ هزار توکنی پشتیبانی میکند و طول خروجی تا ۱۶ هزار توکن را امکانپذیر میسازد."
|
||||
},
|
||||
"doubao-seedream-3-0-t2i-250415": {
|
||||
"description": "مدل تولید تصویر Doubao توسط تیم Seed شرکت بایتدنس توسعه یافته است و از ورودیهای متن و تصویر پشتیبانی میکند و تجربه تولید تصویر با کنترل بالا و کیفیت عالی را ارائه میدهد. تصاویر بر اساس متن توصیفی تولید میشوند."
|
||||
},
|
||||
"doubao-vision-lite-32k": {
|
||||
"description": "مدل Doubao-vision یک مدل چندرسانهای بزرگ است که توسط Doubao ارائه شده و دارای تواناییهای قوی در درک و استدلال تصاویر و همچنین درک دقیق دستورات است. این مدل در استخراج اطلاعات متنی از تصاویر و وظایف استدلال مبتنی بر تصویر عملکرد قدرتمندی نشان داده و میتواند در وظایف پیچیدهتر و گستردهتر پرسش و پاسخ بصری به کار رود."
|
||||
},
|
||||
@@ -1058,9 +995,6 @@
|
||||
"ernie-char-fiction-8k": {
|
||||
"description": "مدل زبان بزرگ با کاربرد خاص که توسط بایدو توسعه یافته است و برای کاربردهایی مانند NPCهای بازی، مکالمات خدمات مشتری، و نقشآفرینی در مکالمات مناسب است، سبک شخصیت آن واضحتر و یکدستتر است و توانایی پیروی از دستورات و عملکرد استدلال بهتری دارد."
|
||||
},
|
||||
"ernie-irag-edit": {
|
||||
"description": "مدل ویرایش تصویر ERNIE iRAG که توسط بایدو توسعه یافته است، از عملیاتهایی مانند حذف (erase)، بازنقاشی (repaint) و تولید واریاسیون (variation) بر اساس تصویر پشتیبانی میکند."
|
||||
},
|
||||
"ernie-lite-8k": {
|
||||
"description": "ERNIE Lite مدل زبان بزرگ سبک خود توسعه یافته توسط بایدو است که تعادل خوبی بین عملکرد مدل و عملکرد استدلال دارد و برای استفاده در کارتهای تسریع AI با توان محاسباتی پایین مناسب است."
|
||||
},
|
||||
@@ -1088,27 +1022,12 @@
|
||||
"ernie-x1-turbo-32k": {
|
||||
"description": "مدل نسبت به ERNIE-X1-32K از نظر عملکرد و کارایی بهتر است."
|
||||
},
|
||||
"flux-1-schnell": {
|
||||
"description": "مدل تولید تصویر از متن با 12 میلیارد پارامتر که توسط Black Forest Labs توسعه یافته است و از تکنولوژی تقطیر انتشار متخاصم نهفته استفاده میکند و قادر است در 1 تا 4 مرحله تصاویر با کیفیت بالا تولید کند. این مدل عملکردی مشابه نمونههای بسته دارد و تحت مجوز Apache-2.0 برای استفاده شخصی، تحقیقاتی و تجاری منتشر شده است."
|
||||
},
|
||||
"flux-dev": {
|
||||
"description": "FLUX.1 [dev] یک مدل وزن باز و پالایش شده متنباز برای کاربردهای غیرتجاری است. این مدل کیفیت تصویر و پیروی از دستورالعمل را نزدیک به نسخه حرفهای FLUX حفظ کرده و در عین حال کارایی اجرایی بالاتری دارد. نسبت به مدلهای استاندارد با اندازه مشابه، بهرهوری منابع بهتری دارد."
|
||||
},
|
||||
"flux-kontext/dev": {
|
||||
"description": "مدل ویرایش تصویر Frontier."
|
||||
},
|
||||
"flux-merged": {
|
||||
"description": "مدل FLUX.1-merged ترکیبی از ویژگیهای عمیق کشف شده در مرحله توسعه \"DEV\" و مزایای اجرای سریع \"Schnell\" است. این اقدام باعث افزایش مرزهای عملکرد مدل و گسترش دامنه کاربردهای آن شده است."
|
||||
},
|
||||
"flux-pro/kontext": {
|
||||
"description": "FLUX.1 Kontext [pro] قادر است متن و تصاویر مرجع را به عنوان ورودی پردازش کند و ویرایشهای موضعی هدفمند و تغییرات پیچیده در کل صحنه را بهصورت یکپارچه انجام دهد."
|
||||
},
|
||||
"flux-schnell": {
|
||||
"description": "FLUX.1 [schnell] به عنوان پیشرفتهترین مدل متنباز با گامهای کم، نه تنها از رقبا پیشی گرفته بلکه از مدلهای غیرتقطیر قدرتمندی مانند Midjourney v6.0 و DALL·E 3 (HD) نیز بهتر است. این مدل به طور خاص تنظیم شده تا تنوع کامل خروجیهای پیشآموزش را حفظ کند و نسبت به مدلهای پیشرفته بازار، بهبودهای قابل توجهی در کیفیت بصری، پیروی از دستورالعمل، تغییر اندازه/نسبت، پردازش فونت و تنوع خروجی ارائه میدهد و تجربه تولید تصاویر خلاقانه و متنوعتری را برای کاربران فراهم میکند."
|
||||
},
|
||||
"flux.1-schnell": {
|
||||
"description": "ترنسفورمر جریان اصلاحشده با 12 میلیارد پارامتر که قادر است تصاویر را بر اساس توصیف متنی تولید کند."
|
||||
},
|
||||
"flux/schnell": {
|
||||
"description": "FLUX.1 [schnell] یک مدل تبدیل جریانی با 12 میلیارد پارامتر است که میتواند در 1 تا 4 مرحله تصاویر با کیفیت بالا را از متن تولید کند و برای استفاده شخصی و تجاری مناسب است."
|
||||
},
|
||||
@@ -1190,6 +1109,9 @@
|
||||
"gemini-2.5-flash-preview-04-17": {
|
||||
"description": "پیشنمایش فلش Gemini 2.5 مدل با بهترین قیمت و کیفیت گوگل است که امکانات جامع و کاملی را ارائه میدهد."
|
||||
},
|
||||
"gemini-2.5-flash-preview-04-17-thinking": {
|
||||
"description": "Gemini 2.5 Flash Preview مقرونبهصرفهترین مدل گوگل است که امکانات جامع ارائه میدهد."
|
||||
},
|
||||
"gemini-2.5-flash-preview-05-20": {
|
||||
"description": "Gemini 2.5 Flash Preview مقرونبهصرفهترین مدل گوگل است که امکانات جامع ارائه میدهد."
|
||||
},
|
||||
@@ -1268,21 +1190,6 @@
|
||||
"glm-4.1v-thinking-flashx": {
|
||||
"description": "سری مدلهای GLM-4.1V-Thinking قویترین مدلهای زبان تصویری (VLM) در سطح 10 میلیارد پارامتر شناخته شده تا کنون هستند که وظایف زبان تصویری پیشرفته همرده SOTA را شامل میشوند، از جمله درک ویدئو، پرسش و پاسخ تصویری، حل مسائل علمی، شناسایی متن OCR، تفسیر اسناد و نمودارها، عاملهای رابط کاربری گرافیکی، کدنویسی صفحات وب فرانتاند، و گراندینگ. تواناییهای این مدلها حتی از مدل Qwen2.5-VL-72B با 8 برابر پارامتر بیشتر نیز فراتر رفته است. با استفاده از فناوری پیشرفته یادگیری تقویتی، مدل توانسته است با استدلال زنجیره تفکر دقت و غنای پاسخها را افزایش دهد و از نظر نتایج نهایی و قابلیت تبیین به طور قابل توجهی از مدلهای غیرتفکری سنتی پیشی بگیرد."
|
||||
},
|
||||
"glm-4.5": {
|
||||
"description": "جدیدترین مدل پرچمدار Zhizhu که از حالت تفکر پشتیبانی میکند و تواناییهای جامع آن به سطح SOTA مدلهای متنباز رسیده است و طول زمینه تا 128 هزار توکن را پشتیبانی میکند."
|
||||
},
|
||||
"glm-4.5-air": {
|
||||
"description": "نسخه سبک GLM-4.5 که تعادل بین عملکرد و هزینه را حفظ میکند و امکان تغییر انعطافپذیر بین مدلهای تفکر ترکیبی را فراهم میآورد."
|
||||
},
|
||||
"glm-4.5-airx": {
|
||||
"description": "نسخه فوقالعاده سریع GLM-4.5-Air که پاسخگویی سریعتری دارد و برای نیازهای بزرگ و سرعت بالا طراحی شده است."
|
||||
},
|
||||
"glm-4.5-flash": {
|
||||
"description": "نسخه رایگان GLM-4.5 که در وظایفی مانند استنتاج، کدنویسی و عاملها عملکرد خوبی دارد."
|
||||
},
|
||||
"glm-4.5-x": {
|
||||
"description": "نسخه فوقالعاده سریع GLM-4.5 که در کنار قدرت عملکرد، سرعت تولید تا 100 توکن در ثانیه را ارائه میدهد."
|
||||
},
|
||||
"glm-4v": {
|
||||
"description": "GLM-4V قابلیتهای قدرتمندی در درک و استدلال تصویری ارائه میدهد و از وظایف مختلف بصری پشتیبانی میکند."
|
||||
},
|
||||
@@ -1302,7 +1209,7 @@
|
||||
"description": "استدلال فوقالعاده سریع: دارای سرعت استدلال بسیار بالا و عملکرد قوی است."
|
||||
},
|
||||
"glm-z1-flash": {
|
||||
"description": "سری GLM-Z1 دارای تواناییهای قوی در استدلال پیچیده است و در زمینههای استدلال منطقی، ریاضیات و برنامهنویسی عملکرد برجستهای دارد."
|
||||
"description": "سری GLM-Z1 دارای تواناییهای پیچیده استدلال قوی است و در زمینههای استدلال منطقی، ریاضی و برنامهنویسی عملکرد فوقالعادهای دارد. حداکثر طول متن زمینهای 32K است."
|
||||
},
|
||||
"glm-z1-flashx": {
|
||||
"description": "سرعت بالا و قیمت پایین: نسخه تقویتشده Flash با سرعت استنتاج بسیار سریعتر و تضمین همزمانی بالاتر."
|
||||
@@ -1478,9 +1385,6 @@
|
||||
"grok-2-1212": {
|
||||
"description": "این مدل در دقت، پیروی از دستورات و توانایی چند زبانه بهبود یافته است."
|
||||
},
|
||||
"grok-2-image-1212": {
|
||||
"description": "جدیدترین مدل تولید تصویر ما قادر است تصاویر زنده و واقعی را بر اساس متن توصیفی تولید کند. این مدل در زمینه تولید تصویر برای بازاریابی، رسانههای اجتماعی و سرگرمی عملکرد برجستهای دارد."
|
||||
},
|
||||
"grok-2-vision-1212": {
|
||||
"description": "این مدل در دقت، پیروی از دستورات و توانایی چند زبانه بهبود یافته است."
|
||||
},
|
||||
@@ -1550,9 +1454,6 @@
|
||||
"hunyuan-t1-20250529": {
|
||||
"description": "بهینهسازی تولید متن، نوشتن مقاله، بهبود تواناییهای کدنویسی فرانتاند، ریاضیات، استدلال منطقی و علوم پایه، و ارتقاء توانایی پیروی از دستورالعملها."
|
||||
},
|
||||
"hunyuan-t1-20250711": {
|
||||
"description": "افزایش قابل توجه در تواناییهای ریاضی، منطقی و کدنویسی پیچیده، بهینهسازی پایداری خروجی مدل و ارتقاء توانایی مدل در پردازش متون طولانی."
|
||||
},
|
||||
"hunyuan-t1-latest": {
|
||||
"description": "اولین مدل استدلال هیبریدی-ترنسفورمر-مامبا با مقیاس فوقالعاده بزرگ در صنعت، که توانایی استدلال را گسترش میدهد و سرعت رمزگشایی فوقالعادهای دارد و به طور بیشتری با ترجیحات انسانی همراستا میشود."
|
||||
},
|
||||
@@ -1601,12 +1502,6 @@
|
||||
"hunyuan-vision": {
|
||||
"description": "جدیدترین مدل چندوجهی هونیوان، پشتیبانی از ورودی تصویر + متن برای تولید محتوای متنی."
|
||||
},
|
||||
"image-01": {
|
||||
"description": "مدل جدید تولید تصویر با نمایش ظریف و پشتیبانی از تولید تصویر از متن و تصویر."
|
||||
},
|
||||
"image-01-live": {
|
||||
"description": "مدل تولید تصویر با نمایش ظریف که از تولید تصویر از متن پشتیبانی میکند و امکان تنظیم سبک نقاشی را دارد."
|
||||
},
|
||||
"imagen-4.0-generate-preview-06-06": {
|
||||
"description": "سری مدل متن به تصویر نسل چهارم Imagen"
|
||||
},
|
||||
@@ -1631,9 +1526,6 @@
|
||||
"internvl3-latest": {
|
||||
"description": "ما جدیدترین مدل بزرگ چندرسانهای خود را منتشر کردهایم که دارای تواناییهای قویتر در درک متن و تصویر و درک تصاویر در زمانهای طولانی است و عملکرد آن با مدلهای برتر بسته به منبع قابل مقایسه است. به طور پیشفرض به جدیدترین مدلهای سری InternVL ما اشاره دارد که در حال حاضر به internvl3-78b اشاره دارد."
|
||||
},
|
||||
"irag-1.0": {
|
||||
"description": "iRAG (image based RAG) که توسط بایدو توسعه یافته، فناوری تولید تصویر تقویتشده با بازیابی است که منابع میلیاردی تصاویر جستجوی بایدو را با تواناییهای مدل پایه قدرتمند ترکیب میکند تا تصاویر بسیار واقعی تولید کند. این سیستم به طور قابل توجهی از سیستمهای تولید تصویر بومی بهتر است، بدون حس مصنوعی بودن و با هزینه پایین. iRAG ویژگیهایی مانند بدون توهم، فوقالعاده واقعی و آماده تحویل فوری دارد."
|
||||
},
|
||||
"jamba-large": {
|
||||
"description": "قدرتمندترین و پیشرفتهترین مدل ما، که بهطور خاص برای پردازش وظایف پیچیده در سطح سازمانی طراحی شده و دارای عملکرد فوقالعادهای است."
|
||||
},
|
||||
@@ -1643,9 +1535,6 @@
|
||||
"jina-deepsearch-v1": {
|
||||
"description": "جستجوی عمیق ترکیبی از جستجوی اینترنتی، خواندن و استدلال است که میتواند تحقیقات جامع را انجام دهد. میتوانید آن را به عنوان یک نماینده در نظر بگیرید که وظایف تحقیق شما را میپذیرد - این نماینده جستجوی گستردهای انجام میدهد و پس از چندین بار تکرار، پاسخ را ارائه میدهد. این فرآیند شامل تحقیق مداوم، استدلال و حل مسئله از زوایای مختلف است. این با مدلهای بزرگ استاندارد که مستقیماً از دادههای پیشآموزش شده پاسخ تولید میکنند و سیستمهای RAG سنتی که به جستجوی سطحی یکباره وابستهاند، تفاوت اساسی دارد."
|
||||
},
|
||||
"kimi-k2": {
|
||||
"description": "Kimi-K2 یک مدل پایه با معماری MoE است که توسط Moonshot AI ارائه شده و دارای تواناییهای بسیار قوی در کدنویسی و عامل است، با 1 تریلیون پارامتر کل و 32 میلیارد پارامتر فعال. در آزمونهای معیار عملکرد در حوزههای دانش عمومی، برنامهنویسی، ریاضیات و عامل، مدل K2 عملکردی فراتر از سایر مدلهای متنباز اصلی دارد."
|
||||
},
|
||||
"kimi-k2-0711-preview": {
|
||||
"description": "kimi-k2 یک مدل پایه با معماری MoE است که دارای تواناییهای بسیار قوی در کدنویسی و عاملسازی است، با مجموع یک تریلیون پارامتر و 32 میلیارد پارامتر فعال. در تستهای معیار عملکرد در حوزههای دانش عمومی، برنامهنویسی، ریاضیات و عاملها، مدل K2 عملکردی فراتر از سایر مدلهای متنباز اصلی دارد."
|
||||
},
|
||||
@@ -2039,9 +1928,6 @@
|
||||
"moonshotai/Kimi-Dev-72B": {
|
||||
"description": "Kimi-Dev-72B یک مدل بزرگ کد منبع باز است که با یادگیری تقویتی گسترده بهینه شده است و قادر به تولید پچهای پایدار و قابل استفاده مستقیم در تولید میباشد. این مدل در SWE-bench Verified امتیاز جدید ۶۰.۴٪ را کسب کرده و رکورد مدلهای منبع باز را در وظایف مهندسی نرمافزار خودکار مانند رفع اشکال و بازبینی کد شکسته است."
|
||||
},
|
||||
"moonshotai/Kimi-K2-Instruct": {
|
||||
"description": "Kimi K2 یک مدل پایه با معماری MoE است که دارای تواناییهای بسیار قوی در کدنویسی و عامل است، با 1 تریلیون پارامتر کل و 32 میلیارد پارامتر فعال. در آزمونهای معیار عملکرد در حوزههای دانش عمومی، برنامهنویسی، ریاضیات و عامل، مدل K2 عملکردی فراتر از سایر مدلهای متنباز اصلی دارد."
|
||||
},
|
||||
"moonshotai/kimi-k2-instruct": {
|
||||
"description": "kimi-k2 یک مدل پایه با معماری MoE است که دارای تواناییهای بسیار قوی در کدنویسی و عاملها میباشد، با مجموع پارامتر ۱ تریلیون و پارامترهای فعال ۳۲ میلیارد. در آزمونهای معیار عملکرد در دستههای اصلی مانند استدلال دانش عمومی، برنامهنویسی، ریاضیات و عاملها، مدل K2 عملکردی فراتر از سایر مدلهای متنباز رایج دارد."
|
||||
},
|
||||
@@ -2378,21 +2264,9 @@
|
||||
"qwen3-235b-a22b": {
|
||||
"description": "Qwen3 یک مدل جدید نسل جدید با تواناییهای به طور قابل توجهی بهبود یافته است که در استدلال، عمومی، نمایندگی و چند زبانه در چندین توانایی کلیدی به سطح پیشرفته صنعت دست یافته و از جابجایی حالت تفکر پشتیبانی میکند."
|
||||
},
|
||||
"qwen3-235b-a22b-instruct-2507": {
|
||||
"description": "مدل متنباز حالت غیرتفکری مبتنی بر Qwen3 که نسبت به نسخه قبلی (Tongyi Qianwen 3-235B-A22B) در توانایی خلاقیت ذهنی و ایمنی مدل بهبودهای جزئی داشته است."
|
||||
},
|
||||
"qwen3-235b-a22b-thinking-2507": {
|
||||
"description": "مدل متنباز حالت تفکری مبتنی بر Qwen3 که نسبت به نسخه قبلی (Tongyi Qianwen 3-235B-A22B) در تواناییهای منطقی، عمومی، تقویت دانش و خلاقیت بهبودهای قابل توجهی داشته و برای سناریوهای استدلال پیچیده و دشوار مناسب است."
|
||||
},
|
||||
"qwen3-30b-a3b": {
|
||||
"description": "Qwen3 یک مدل جدید نسل جدید با تواناییهای به طور قابل توجهی بهبود یافته است که در استدلال، عمومی، نمایندگی و چند زبانه در چندین توانایی کلیدی به سطح پیشرفته صنعت دست یافته و از جابجایی حالت تفکر پشتیبانی میکند."
|
||||
},
|
||||
"qwen3-30b-a3b-instruct-2507": {
|
||||
"description": "در مقایسه با نسخه قبلی (Qwen3-30B-A3B)، تواناییهای کلی چندزبانه و انگلیسی به طور قابل توجهی بهبود یافته است. بهینهسازی ویژه برای وظایف ذهنی و باز، که به طور قابل توجهی با ترجیحات کاربران هماهنگتر است و پاسخهای مفیدتری ارائه میدهد."
|
||||
},
|
||||
"qwen3-30b-a3b-thinking-2507": {
|
||||
"description": "مدل متنباز حالت تفکر مبتنی بر Qwen3، که نسبت به نسخه قبلی (Tongyi Qianwen 3-30B-A3B) بهبودهای قابل توجهی در تواناییهای منطقی، عمومی، دانش و خلاقیت دارد و برای سناریوهای دشوار و استدلال قوی مناسب است."
|
||||
},
|
||||
"qwen3-32b": {
|
||||
"description": "Qwen3 یک مدل جدید نسل جدید با تواناییهای به طور قابل توجهی بهبود یافته است که در استدلال، عمومی، نمایندگی و چند زبانه در چندین توانایی کلیدی به سطح پیشرفته صنعت دست یافته و از جابجایی حالت تفکر پشتیبانی میکند."
|
||||
},
|
||||
@@ -2402,12 +2276,6 @@
|
||||
"qwen3-8b": {
|
||||
"description": "Qwen3 یک مدل جدید نسل جدید با تواناییهای به طور قابل توجهی بهبود یافته است که در استدلال، عمومی، نمایندگی و چند زبانه در چندین توانایی کلیدی به سطح پیشرفته صنعت دست یافته و از جابجایی حالت تفکر پشتیبانی میکند."
|
||||
},
|
||||
"qwen3-coder-480b-a35b-instruct": {
|
||||
"description": "نسخه متنباز مدل کدنویسی Tongyi Qianwen. جدیدترین مدل qwen3-coder-480b-a35b-instruct مبتنی بر Qwen3 است و دارای تواناییهای قوی عامل کدنویسی، مهارت در فراخوانی ابزارها و تعامل با محیط است و قادر به برنامهنویسی خودکار با توانایی کدنویسی برجسته و همچنین تواناییهای عمومی است."
|
||||
},
|
||||
"qwen3-coder-plus": {
|
||||
"description": "مدل کدنویسی Tongyi Qianwen. جدیدترین سری مدلهای Qwen3-Coder-Plus مبتنی بر Qwen3 است و دارای تواناییهای قوی عامل کدنویسی، مهارت در فراخوانی ابزارها و تعامل با محیط است و قادر به برنامهنویسی خودکار با توانایی کدنویسی برجسته و همچنین تواناییهای عمومی است."
|
||||
},
|
||||
"qwq": {
|
||||
"description": "QwQ یک مدل تحقیقاتی تجربی است که بر بهبود توانایی استدلال AI تمرکز دارد."
|
||||
},
|
||||
@@ -2450,24 +2318,6 @@
|
||||
"sonar-reasoning-pro": {
|
||||
"description": "محصول جدید API که توسط مدل استدلال DeepSeek پشتیبانی میشود."
|
||||
},
|
||||
"stable-diffusion-3-medium": {
|
||||
"description": "جدیدترین مدل بزرگ تولید تصویر از متن که توسط Stability AI ارائه شده است. این نسخه با حفظ مزایای نسلهای قبلی، بهبودهای قابل توجهی در کیفیت تصویر، درک متن و تنوع سبکها دارد و قادر است دستورات پیچیده زبان طبیعی را دقیقتر تفسیر کرده و تصاویر دقیقتر و متنوعتری تولید کند."
|
||||
},
|
||||
"stable-diffusion-3.5-large": {
|
||||
"description": "stable-diffusion-3.5-large یک مدل مولد تصویر از متن مبتنی بر ترنسفورمر انتشار چندرسانهای (MMDiT) با 800 میلیون پارامتر است که کیفیت تصویر عالی و تطابق بالا با دستورات متنی دارد، قادر به تولید تصاویر با وضوح بالا تا 1 میلیون پیکسل است و میتواند به طور کارآمد روی سختافزارهای مصرفی معمول اجرا شود."
|
||||
},
|
||||
"stable-diffusion-3.5-large-turbo": {
|
||||
"description": "stable-diffusion-3.5-large-turbo مدلی است که بر پایه stable-diffusion-3.5-large ساخته شده و با استفاده از تکنولوژی تقطیر انتشار متخاصم (ADD) سرعت بالاتری دارد."
|
||||
},
|
||||
"stable-diffusion-v1.5": {
|
||||
"description": "stable-diffusion-v1.5 با وزنهای نقطه بررسی stable-diffusion-v1.2 آغاز شده و با 595 هزار مرحله تنظیم دقیق روی مجموعه \"laion-aesthetics v2 5+\" با وضوح 512x512 انجام شده است. این مدل 10٪ کاهش شرطبندی متنی دارد تا نمونهبرداری هدایتشده بدون طبقهبندیکننده را بهبود بخشد."
|
||||
},
|
||||
"stable-diffusion-xl": {
|
||||
"description": "stable-diffusion-xl نسبت به نسخه v1.5 بهبودهای قابل توجهی داشته و با مدلهای متنباز پیشرفته مانند midjourney قابل مقایسه است. بهبودها شامل: شبکه اصلی unet بزرگتر که سه برابر نسخه قبلی است؛ افزودن ماژول پالایش برای بهبود کیفیت تصاویر تولید شده؛ و تکنیکهای آموزش بهینهتر."
|
||||
},
|
||||
"stable-diffusion-xl-base-1.0": {
|
||||
"description": "مدل بزرگ تولید تصویر از متن که توسط Stability AI توسعه یافته و متنباز است و در تولید تصاویر خلاقانه در صنعت پیشرو است. دارای توانایی درک دقیق دستورات و پشتیبانی از تعریف معکوس Prompt برای تولید دقیق محتوا است."
|
||||
},
|
||||
"step-1-128k": {
|
||||
"description": "تعادل بین عملکرد و هزینه، مناسب برای سناریوهای عمومی."
|
||||
},
|
||||
@@ -2498,12 +2348,6 @@
|
||||
"step-1v-8k": {
|
||||
"description": "مدل بصری کوچک، مناسب برای وظایف پایهای تصویر و متن."
|
||||
},
|
||||
"step-1x-edit": {
|
||||
"description": "این مدل بر وظایف ویرایش تصویر تمرکز دارد و قادر است بر اساس تصویر و توصیف متنی ارائه شده توسط کاربر، تصویر را اصلاح و بهبود بخشد. از فرمتهای ورودی مختلف از جمله توصیف متنی و تصاویر نمونه پشتیبانی میکند. مدل قادر به درک نیت کاربر و تولید نتایج ویرایش تصویر مطابق با خواستهها است."
|
||||
},
|
||||
"step-1x-medium": {
|
||||
"description": "این مدل دارای توانایی قوی در تولید تصویر است و از توصیف متنی به عنوان ورودی پشتیبانی میکند. پشتیبانی بومی از زبان چینی دارد و میتواند توصیفهای متنی چینی را بهتر درک و پردازش کند و معنای دقیقتر را به ویژگیهای تصویری تبدیل کند تا تولید تصویر دقیقتری داشته باشد. مدل قادر است تصاویر با وضوح و کیفیت بالا تولید کند و توانایی انتقال سبک نیز دارد."
|
||||
},
|
||||
"step-2-16k": {
|
||||
"description": "پشتیبانی از تعاملات متنی گسترده، مناسب برای سناریوهای مکالمه پیچیده."
|
||||
},
|
||||
@@ -2513,9 +2357,6 @@
|
||||
"step-2-mini": {
|
||||
"description": "مدل بزرگ فوقالعاده سریع مبتنی بر معماری توجه MFA که بهطور خودجوش توسعه یافته است، با هزینه بسیار کم به نتایجی مشابه با مرحله ۱ دست مییابد و در عین حال توانایی پردازش بالاتر و زمان پاسخ سریعتری را حفظ میکند. این مدل قادر به انجام وظایف عمومی است و در تواناییهای کدنویسی تخصص دارد."
|
||||
},
|
||||
"step-2x-large": {
|
||||
"description": "مدل نسل جدید Step Star برای تولید تصویر است که بر تولید تصویر بر اساس توصیف متنی کاربر تمرکز دارد و تصاویر با کیفیت بالا تولید میکند. مدل جدید تصاویر با بافت واقعیتر و توانایی تولید متنهای چینی و انگلیسی قویتر دارد."
|
||||
},
|
||||
"step-r1-v-mini": {
|
||||
"description": "این مدل یک مدل استدلال بزرگ با تواناییهای قوی در درک تصویر است که میتواند اطلاعات تصویری و متنی را پردازش کند و پس از تفکر عمیق، متن تولید کند. این مدل در زمینه استدلال بصری عملکرد برجستهای دارد و همچنین دارای تواناییهای ریاضی، کدنویسی و استدلال متنی در سطح اول است. طول متن زمینهای 100k است."
|
||||
},
|
||||
@@ -2591,23 +2432,8 @@
|
||||
"v0-1.5-md": {
|
||||
"description": "مدل v0-1.5-md برای وظایف روزمره و تولید رابط کاربری (UI) مناسب است"
|
||||
},
|
||||
"wan2.2-t2i-flash": {
|
||||
"description": "نسخه سریع Wanxiang 2.2، جدیدترین مدل فعلی. در خلاقیت، پایداری و واقعگرایی به طور کامل ارتقا یافته، سرعت تولید بالا و نسبت قیمت به کیفیت عالی دارد."
|
||||
},
|
||||
"wan2.2-t2i-plus": {
|
||||
"description": "نسخه حرفهای Wanxiang 2.2، جدیدترین مدل فعلی. در خلاقیت، پایداری و واقعگرایی به طور کامل ارتقا یافته و جزئیات تولید شده غنیتر است."
|
||||
},
|
||||
"wanx-v1": {
|
||||
"description": "مدل پایه تولید تصویر از متن. معادل مدل عمومی 1.0 در وبسایت رسمی Tongyi Wanxiang."
|
||||
},
|
||||
"wanx2.0-t2i-turbo": {
|
||||
"description": "متخصص در پرترههای با بافت، سرعت متوسط و هزینه پایین. معادل مدل سریع 2.0 در وبسایت رسمی Tongyi Wanxiang."
|
||||
},
|
||||
"wanx2.1-t2i-plus": {
|
||||
"description": "نسخه ارتقا یافته کامل. جزئیات تصاویر تولید شده غنیتر و سرعت کمی کندتر است. معادل مدل حرفهای 2.1 در وبسایت رسمی Tongyi Wanxiang."
|
||||
},
|
||||
"wanx2.1-t2i-turbo": {
|
||||
"description": "نسخه ارتقا یافته کامل. سرعت تولید بالا، عملکرد جامع و نسبت قیمت به کیفیت عالی. معادل مدل سریع 2.1 در وبسایت رسمی Tongyi Wanxiang."
|
||||
"description": "مدل تولید تصویر مبتنی بر متن زیرمجموعهی علیبابا کلود Tongyi"
|
||||
},
|
||||
"whisper-1": {
|
||||
"description": "مدل شناسایی گفتار عمومی که از شناسایی گفتار چندزبانه، ترجمه گفتار و شناسایی زبان پشتیبانی میکند."
|
||||
@@ -2659,11 +2485,5 @@
|
||||
},
|
||||
"yi-vision-v2": {
|
||||
"description": "مدلهای پیچیده بصری که قابلیتهای درک و تحلیل با عملکرد بالا را بر اساس چندین تصویر ارائه میدهند."
|
||||
},
|
||||
"zai-org/GLM-4.5": {
|
||||
"description": "GLM-4.5 یک مدل پایه طراحی شده برای کاربردهای عامل هوشمند است که از معماری Mixture-of-Experts استفاده میکند. این مدل در زمینههای فراخوانی ابزار، مرور وب، مهندسی نرمافزار و برنامهنویسی فرانتاند بهینهسازی عمیق شده و از ادغام بیوقفه با عاملهای کد مانند Claude Code و Roo Code پشتیبانی میکند. GLM-4.5 از حالت استدلال ترکیبی بهره میبرد و میتواند در سناریوهای استدلال پیچیده و استفاده روزمره به خوبی عمل کند."
|
||||
},
|
||||
"zai-org/GLM-4.5-Air": {
|
||||
"description": "GLM-4.5-Air یک مدل پایه طراحی شده برای کاربردهای عامل هوشمند است که از معماری Mixture-of-Experts استفاده میکند. این مدل در زمینههای فراخوانی ابزار، مرور وب، مهندسی نرمافزار و برنامهنویسی فرانتاند بهینهسازی عمیق شده و از ادغام بیوقفه با عاملهای کد مانند Claude Code و Roo Code پشتیبانی میکند. GLM-4.5 از حالت استدلال ترکیبی بهره میبرد و میتواند در سناریوهای استدلال پیچیده و استفاده روزمره به خوبی عمل کند."
|
||||
}
|
||||
}
|
||||
|
||||
@@ -5,9 +5,6 @@
|
||||
"ai360": {
|
||||
"description": "360 AI پلتفرم مدلها و خدمات هوش مصنوعی شرکت 360 است که مدلهای پیشرفته پردازش زبان طبیعی متعددی از جمله 360GPT2 Pro، 360GPT Pro، 360GPT Turbo و 360GPT Turbo Responsibility 8K را ارائه میدهد. این مدلها با ترکیب پارامترهای بزرگمقیاس و قابلیتهای چندوجهی، به طور گسترده در زمینههای تولید متن، درک معنایی، سیستمهای مکالمه و تولید کد به کار میروند. با استفاده از استراتژیهای قیمتگذاری انعطافپذیر، 360 AI نیازهای متنوع کاربران را برآورده کرده و از یکپارچهسازی توسعهدهندگان پشتیبانی میکند و به نوآوری و توسعه کاربردهای هوشمند کمک میکند."
|
||||
},
|
||||
"aihubmix": {
|
||||
"description": "AiHubMix دسترسی به مدلهای مختلف هوش مصنوعی را از طریق یک رابط برنامهنویسی کاربردی (API) یکپارچه فراهم میکند."
|
||||
},
|
||||
"anthropic": {
|
||||
"description": "Anthropic یک شرکت متمرکز بر تحقیق و توسعه هوش مصنوعی است که مجموعهای از مدلهای پیشرفته زبان مانند Claude 3.5 Sonnet، Claude 3 Sonnet، Claude 3 Opus و Claude 3 Haiku را ارائه میدهد. این مدلها تعادلی ایدهآل بین هوشمندی، سرعت و هزینه برقرار میکنند و برای انواع کاربردها از بارهای کاری در سطح سازمانی تا پاسخهای سریع مناسب هستند. Claude 3.5 Sonnet به عنوان جدیدترین مدل آن، در ارزیابیهای متعدد عملکرد برجستهای داشته و در عین حال نسبت هزینه به عملکرد بالایی را حفظ کرده است."
|
||||
},
|
||||
|
||||
@@ -189,7 +189,6 @@
|
||||
"aesGcm": "Votre clé et votre adresse de proxy seront chiffrées à l'aide de l'algorithme de chiffrement <1>AES-GCM</1>",
|
||||
"apiKey": {
|
||||
"desc": "Veuillez entrer votre {{name}} clé API",
|
||||
"descWithUrl": "Veuillez saisir votre clé API {{name}}, <3>cliquez ici pour l'obtenir</3>",
|
||||
"placeholder": "{{name}} clé API",
|
||||
"title": "Clé API"
|
||||
},
|
||||
|
||||
+5
-185
@@ -32,9 +32,6 @@
|
||||
"4.0Ultra": {
|
||||
"description": "Spark4.0 Ultra est la version la plus puissante de la série de grands modèles Xinghuo, améliorant la compréhension et la capacité de résumé du contenu textuel tout en mettant à jour le lien de recherche en ligne. C'est une solution complète pour améliorer la productivité au bureau et répondre avec précision aux besoins, représentant un produit intelligent de premier plan dans l'industrie."
|
||||
},
|
||||
"AnimeSharp": {
|
||||
"description": "AnimeSharp (également connu sous le nom de « 4x‑AnimeSharp ») est un modèle open source de super-résolution développé par Kim2091, basé sur l'architecture ESRGAN, spécialisé dans l'agrandissement et l'amélioration des images de style anime. Il a été renommé en février 2022 à partir de « 4x-TextSharpV1 », initialement conçu aussi pour les images de texte, mais ses performances ont été largement optimisées pour le contenu anime."
|
||||
},
|
||||
"Baichuan2-Turbo": {
|
||||
"description": "Utilise une technologie d'amélioration de recherche pour relier complètement le grand modèle aux connaissances sectorielles et aux connaissances du web. Supporte le téléchargement de divers documents tels que PDF, Word, et l'entrée d'URL, permettant une acquisition d'informations rapide et complète, avec des résultats précis et professionnels."
|
||||
},
|
||||
@@ -92,9 +89,6 @@
|
||||
"Doubao-pro-4k": {
|
||||
"description": "Modèle principal le plus performant, adapté aux tâches complexes, avec d'excellents résultats dans les domaines des questions-réponses, résumés, création, classification de texte, jeu de rôle, etc. Prend en charge l'inférence et le fine-tuning avec une fenêtre contextuelle de 4k."
|
||||
},
|
||||
"DreamO": {
|
||||
"description": "DreamO est un modèle open source de génération d'images personnalisées développé conjointement par ByteDance et l'Université de Pékin, visant à supporter la génération d'images multitâches via une architecture unifiée. Il utilise une méthode de modélisation combinée efficace, capable de générer des images hautement cohérentes et personnalisées selon plusieurs conditions spécifiées par l'utilisateur telles que l'identité, le sujet, le style et l'arrière-plan."
|
||||
},
|
||||
"ERNIE-3.5-128K": {
|
||||
"description": "Modèle de langage à grande échelle de pointe développé par Baidu, couvrant une vaste quantité de corpus en chinois et en anglais, avec de puissantes capacités générales, capable de répondre à la plupart des exigences en matière de dialogue, de questions-réponses, de création de contenu et d'applications de plugins ; prend en charge l'intégration automatique avec le plugin de recherche Baidu, garantissant la pertinence des informations de réponse."
|
||||
},
|
||||
@@ -128,39 +122,15 @@
|
||||
"ERNIE-Speed-Pro-128K": {
|
||||
"description": "Modèle de langage haute performance développé par Baidu, publié en 2024, avec d'excellentes capacités générales, offrant de meilleures performances que ERNIE Speed, adapté comme modèle de base pour un ajustement fin, permettant de mieux traiter les problèmes de scénarios spécifiques, tout en offrant d'excellentes performances d'inférence."
|
||||
},
|
||||
"FLUX.1-Kontext-dev": {
|
||||
"description": "FLUX.1-Kontext-dev est un modèle multimodal de génération et d'édition d'images développé par Black Forest Labs, basé sur l'architecture Rectified Flow Transformer, avec une échelle de 12 milliards de paramètres. Il se concentre sur la génération, la reconstruction, l'amélioration ou l'édition d'images sous conditions contextuelles données. Ce modèle combine les avantages de génération contrôlée des modèles de diffusion et la capacité de modélisation contextuelle des Transformers, supportant une sortie d'images de haute qualité, applicable à la restauration, au remplissage et à la reconstruction visuelle de scènes."
|
||||
},
|
||||
"FLUX.1-dev": {
|
||||
"description": "FLUX.1-dev est un modèle open source multimodal de langage (Multimodal Language Model, MLLM) développé par Black Forest Labs, optimisé pour les tâches texte-image, intégrant la compréhension et la génération d'images et de textes. Basé sur des modèles de langage avancés tels que Mistral-7B, il utilise un encodeur visuel soigneusement conçu et un affinage par instructions en plusieurs étapes, permettant un traitement collaboratif texte-image et un raisonnement complexe."
|
||||
},
|
||||
"Gryphe/MythoMax-L2-13b": {
|
||||
"description": "MythoMax-L2 (13B) est un modèle innovant, adapté à des applications dans plusieurs domaines et à des tâches complexes."
|
||||
},
|
||||
"HelloMeme": {
|
||||
"description": "HelloMeme est un outil d'IA capable de générer automatiquement des mèmes, GIFs ou courtes vidéos à partir d'images ou d'actions fournies. Il ne nécessite aucune compétence en dessin ou programmation, il suffit de fournir une image de référence pour créer des contenus attrayants, amusants et cohérents en style."
|
||||
},
|
||||
"HiDream-I1-Full": {
|
||||
"description": "HiDream-E1-Full est un grand modèle open source d'édition d'images multimodales lancé par HiDream.ai, basé sur l'architecture avancée Diffusion Transformer et intégrant une puissante capacité de compréhension linguistique (intégrant LLaMA 3.1-8B-Instruct). Il supporte la génération d'images, le transfert de style, l'édition locale et la redéfinition de contenu via des instructions en langage naturel, avec d'excellentes capacités de compréhension et d'exécution texte-image."
|
||||
},
|
||||
"HunyuanDiT-v1.2-Diffusers-Distilled": {
|
||||
"description": "hunyuandit-v1.2-distilled est un modèle léger de génération d'images à partir de texte, optimisé par distillation, capable de générer rapidement des images de haute qualité, particulièrement adapté aux environnements à ressources limitées et aux tâches de génération en temps réel."
|
||||
},
|
||||
"InstantCharacter": {
|
||||
"description": "InstantCharacter est un modèle de génération de personnages personnalisés sans réglage (tuning-free) publié par l'équipe IA de Tencent en 2025, visant une génération cohérente et haute fidélité de personnages à travers différents contextes. Ce modèle permet de modéliser un personnage à partir d'une seule image de référence et de le transférer de manière flexible à divers styles, actions et arrière-plans."
|
||||
},
|
||||
"InternVL2-8B": {
|
||||
"description": "InternVL2-8B est un puissant modèle de langage visuel, prenant en charge le traitement multimodal d'images et de textes, capable de reconnaître avec précision le contenu des images et de générer des descriptions ou des réponses pertinentes."
|
||||
},
|
||||
"InternVL2.5-26B": {
|
||||
"description": "InternVL2.5-26B est un puissant modèle de langage visuel, prenant en charge le traitement multimodal d'images et de textes, capable de reconnaître avec précision le contenu des images et de générer des descriptions ou des réponses pertinentes."
|
||||
},
|
||||
"Kolors": {
|
||||
"description": "Kolors est un modèle de génération d'images à partir de texte développé par l'équipe Kolors de Kuaishou. Entraîné sur des milliards de paramètres, il excelle en qualité visuelle, compréhension sémantique du chinois et rendu de texte."
|
||||
},
|
||||
"Kwai-Kolors/Kolors": {
|
||||
"description": "Kolors est un modèle de génération d'images à partir de texte à grande échelle basé sur la diffusion latente, développé par l'équipe Kolors de Kuaishou. Entraîné sur des milliards de paires texte-image, il présente des avantages significatifs en qualité visuelle, précision sémantique complexe et rendu des caractères chinois et anglais. Il supporte les entrées en chinois et en anglais, avec une excellente compréhension et génération de contenus spécifiques en chinois."
|
||||
},
|
||||
"Llama-3.2-11B-Vision-Instruct": {
|
||||
"description": "Excellentes capacités de raisonnement d'image sur des images haute résolution, adaptées aux applications de compréhension visuelle."
|
||||
},
|
||||
@@ -194,15 +164,9 @@
|
||||
"MiniMaxAI/MiniMax-M1-80k": {
|
||||
"description": "MiniMax-M1 est un modèle d'inférence à attention mixte à grande échelle avec poids open source, comptant 456 milliards de paramètres, activant environ 45,9 milliards de paramètres par token. Le modèle supporte nativement un contexte ultra-long de 1 million de tokens et, grâce au mécanisme d'attention éclair, réduit de 75 % les opérations en virgule flottante lors de tâches de génération de 100 000 tokens par rapport à DeepSeek R1. Par ailleurs, MiniMax-M1 utilise une architecture MoE (Experts Mixtes), combinant l'algorithme CISPO et une conception d'attention mixte pour un entraînement efficace par apprentissage par renforcement, offrant des performances de pointe dans l'inférence sur longues entrées et les scénarios réels d'ingénierie logicielle."
|
||||
},
|
||||
"Moonshot-Kimi-K2-Instruct": {
|
||||
"description": "Avec un total de 1 000 milliards de paramètres et 32 milliards de paramètres activés, ce modèle non cognitif atteint un niveau de pointe en connaissances avancées, mathématiques et codage, excelling dans les tâches d'agents généraux. Optimisé pour les tâches d'agents, il peut non seulement répondre aux questions mais aussi agir. Idéal pour les conversations improvisées, générales et les expériences d'agents, c'est un modèle réflexe ne nécessitant pas de longues réflexions."
|
||||
},
|
||||
"NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
||||
"description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B) est un modèle d'instructions de haute précision, adapté aux calculs complexes."
|
||||
},
|
||||
"OmniConsistency": {
|
||||
"description": "OmniConsistency améliore la cohérence stylistique et la capacité de généralisation dans les tâches image-à-image en introduisant de grands Diffusion Transformers (DiTs) et des données stylisées appariées, évitant ainsi la dégradation du style."
|
||||
},
|
||||
"Phi-3-medium-128k-instruct": {
|
||||
"description": "Même modèle Phi-3-medium, mais avec une taille de contexte plus grande pour RAG ou un prompt à quelques exemples."
|
||||
},
|
||||
@@ -254,9 +218,6 @@
|
||||
"Pro/deepseek-ai/DeepSeek-V3": {
|
||||
"description": "DeepSeek-V3 est un modèle de langage à experts mixtes (MoE) avec 671 milliards de paramètres, utilisant une attention potentielle multi-tête (MLA) et une architecture DeepSeekMoE, combinant une stratégie d'équilibrage de charge sans perte auxiliaire pour optimiser l'efficacité d'inférence et d'entraînement. Pré-entraîné sur 14,8 billions de tokens de haute qualité, et affiné par supervision et apprentissage par renforcement, DeepSeek-V3 surpasse d'autres modèles open source et se rapproche des modèles fermés de premier plan."
|
||||
},
|
||||
"Pro/moonshotai/Kimi-K2-Instruct": {
|
||||
"description": "Kimi K2 est un modèle de base à architecture MoE doté de capacités exceptionnelles en codage et agents, avec 1 000 milliards de paramètres au total et 32 milliards activés. Il surpasse les autres modèles open source majeurs dans les tests de performance sur les connaissances générales, la programmation, les mathématiques et les agents."
|
||||
},
|
||||
"QwQ-32B-Preview": {
|
||||
"description": "QwQ-32B-Preview est un modèle de traitement du langage naturel innovant, capable de gérer efficacement des tâches complexes de génération de dialogues et de compréhension contextuelle."
|
||||
},
|
||||
@@ -317,18 +278,9 @@
|
||||
"Qwen/Qwen3-235B-A22B": {
|
||||
"description": "Qwen3 est un nouveau modèle de Tongyi Qianwen avec des capacités considérablement améliorées, atteignant des niveaux de pointe dans plusieurs compétences clés telles que le raisonnement, l'agent et le multilingue, et prenant en charge le changement de mode de pensée."
|
||||
},
|
||||
"Qwen/Qwen3-235B-A22B-Instruct-2507": {
|
||||
"description": "Qwen3-235B-A22B-Instruct-2507 est un modèle de langage à experts mixtes (MoE) phare de la série Qwen3 développé par l'équipe Tongyi Qianwen d'Aliyun. Avec 235 milliards de paramètres totaux et 22 milliards activés par inférence, il est une version mise à jour du mode non cognitif Qwen3-235B-A22B, améliorant significativement l'adhérence aux instructions, le raisonnement logique, la compréhension textuelle, les mathématiques, les sciences, la programmation et l'utilisation d'outils. Le modèle étend aussi la couverture des connaissances multilingues rares et s'aligne mieux sur les préférences utilisateur pour des tâches subjectives et ouvertes, générant des textes plus utiles et de meilleure qualité."
|
||||
},
|
||||
"Qwen/Qwen3-235B-A22B-Thinking-2507": {
|
||||
"description": "Qwen3-235B-A22B-Thinking-2507 est un modèle de langage volumineux de la série Qwen3 développé par l'équipe Tongyi Qianwen d'Alibaba, spécialisé dans les tâches complexes de raisonnement avancé. Basé sur une architecture MoE, il compte 235 milliards de paramètres totaux avec environ 22 milliards activés par token, optimisant ainsi l'efficacité de calcul tout en maintenant une puissance élevée. En tant que modèle « de réflexion », il excelle dans le raisonnement logique, les mathématiques, les sciences, la programmation et les tests académiques nécessitant une expertise humaine, atteignant un niveau de pointe parmi les modèles open source de réflexion. Il améliore également les capacités générales telles que l'adhérence aux instructions, l'utilisation d'outils et la génération de texte, avec un support natif pour une compréhension de contexte longue de 256K tokens, idéal pour les scénarios nécessitant un raisonnement profond et le traitement de longs documents."
|
||||
},
|
||||
"Qwen/Qwen3-30B-A3B": {
|
||||
"description": "Qwen3 est un nouveau modèle de Tongyi Qianwen avec des capacités considérablement améliorées, atteignant des niveaux de pointe dans plusieurs compétences clés telles que le raisonnement, l'agent et le multilingue, et prenant en charge le changement de mode de pensée."
|
||||
},
|
||||
"Qwen/Qwen3-30B-A3B-Instruct-2507": {
|
||||
"description": "Qwen3-30B-A3B-Instruct-2507 est une version mise à jour du modèle non réflexif Qwen3-30B-A3B. Il s'agit d'un modèle d'experts mixtes (MoE) avec un total de 30,5 milliards de paramètres et 3,3 milliards de paramètres activés. Ce modèle présente des améliorations clés dans plusieurs domaines, notamment une amélioration significative de la conformité aux instructions, du raisonnement logique, de la compréhension du texte, des mathématiques, des sciences, du codage et de l'utilisation des outils. Par ailleurs, il réalise des progrès substantiels dans la couverture des connaissances multilingues à longue traîne et s'aligne mieux avec les préférences des utilisateurs dans les tâches subjectives et ouvertes, ce qui lui permet de générer des réponses plus utiles et des textes de meilleure qualité. De plus, sa capacité de compréhension des textes longs a été étendue à 256K. Ce modèle ne prend en charge que le mode non réflexif et ne génère pas de balises `<think></think>` dans ses sorties."
|
||||
},
|
||||
"Qwen/Qwen3-32B": {
|
||||
"description": "Qwen3 est un nouveau modèle de Tongyi Qianwen avec des capacités considérablement améliorées, atteignant des niveaux de pointe dans plusieurs compétences clés telles que le raisonnement, l'agent et le multilingue, et prenant en charge le changement de mode de pensée."
|
||||
},
|
||||
@@ -362,12 +314,6 @@
|
||||
"Qwen2.5-Coder-32B-Instruct": {
|
||||
"description": "Qwen2.5-Coder-32B-Instruct est un grand modèle de langage conçu pour la génération de code, la compréhension de code et les scénarios de développement efficaces, avec une échelle de 32 milliards de paramètres, répondant à des besoins de programmation variés."
|
||||
},
|
||||
"Qwen3-235B": {
|
||||
"description": "Qwen3-235B-A22B est un modèle MoE (modèle d'experts mixtes) qui introduit un « mode de raisonnement hybride », permettant aux utilisateurs de basculer sans interruption entre le « mode réflexif » et le « mode non réflexif ». Il prend en charge la compréhension et le raisonnement dans 119 langues et dialectes, et dispose de puissantes capacités d'appel d'outils. Sur plusieurs benchmarks, notamment en capacités globales, codage et mathématiques, multilinguisme, connaissances et raisonnement, il rivalise avec les principaux grands modèles du marché tels que DeepSeek R1, OpenAI o1, o3-mini, Grok 3 et Google Gemini 2.5 Pro."
|
||||
},
|
||||
"Qwen3-32B": {
|
||||
"description": "Qwen3-32B est un modèle dense (Dense Model) qui introduit un « mode de raisonnement hybride », permettant aux utilisateurs de basculer sans interruption entre le « mode réflexif » et le « mode non réflexif ». Grâce à des améliorations de l'architecture du modèle, à l'augmentation des données d'entraînement et à des méthodes d'entraînement plus efficaces, ses performances globales sont comparables à celles de Qwen2.5-72B."
|
||||
},
|
||||
"SenseChat": {
|
||||
"description": "Modèle de version de base (V4), longueur de contexte de 4K, avec de puissantes capacités générales."
|
||||
},
|
||||
@@ -404,12 +350,6 @@
|
||||
"SenseChat-Vision": {
|
||||
"description": "Le dernier modèle (V5.5) prend en charge l'entrée de plusieurs images, optimisant les capacités de base du modèle, avec des améliorations significatives dans la reconnaissance des attributs d'objets, les relations spatiales, la reconnaissance d'événements d'action, la compréhension de scènes, la reconnaissance des émotions, le raisonnement de bon sens logique et la compréhension et génération de texte."
|
||||
},
|
||||
"SenseNova-V6-5-Pro": {
|
||||
"description": "Grâce à une mise à jour complète des données multimodales, linguistiques et de raisonnement ainsi qu'à l'optimisation des stratégies d'entraînement, le nouveau modèle réalise des progrès significatifs en matière de raisonnement multimodal et de suivi généralisé des instructions. Il prend en charge une fenêtre contextuelle allant jusqu'à 128k et excelle dans des tâches spécialisées telles que la reconnaissance OCR et l'identification des propriétés intellectuelles dans le secteur du tourisme culturel."
|
||||
},
|
||||
"SenseNova-V6-5-Turbo": {
|
||||
"description": "Grâce à une mise à jour complète des données multimodales, linguistiques et de raisonnement ainsi qu'à l'optimisation des stratégies d'entraînement, le nouveau modèle réalise des progrès significatifs en matière de raisonnement multimodal et de suivi généralisé des instructions. Il prend en charge une fenêtre contextuelle allant jusqu'à 128k et excelle dans des tâches spécialisées telles que la reconnaissance OCR et l'identification des propriétés intellectuelles dans le secteur du tourisme culturel."
|
||||
},
|
||||
"SenseNova-V6-Pro": {
|
||||
"description": "Réaliser une unification native des capacités d'image, de texte et de vidéo, briser les limitations traditionnelles de la multimodalité discrète, remportant le double championnat dans les évaluations OpenCompass et SuperCLUE."
|
||||
},
|
||||
@@ -1004,9 +944,6 @@
|
||||
"doubao-seed-1.6-thinking": {
|
||||
"description": "Le modèle Doubao-Seed-1.6-thinking a une capacité de réflexion considérablement renforcée. Par rapport à Doubao-1.5-thinking-pro, il améliore davantage les compétences fondamentales telles que le codage, les mathématiques et le raisonnement logique, tout en supportant la compréhension visuelle. Il prend en charge une fenêtre contextuelle de 256k et une longueur de sortie maximale de 16k tokens."
|
||||
},
|
||||
"doubao-seedream-3-0-t2i-250415": {
|
||||
"description": "Le modèle de génération d'images Doubao développé par l'équipe Seed de ByteDance supporte les entrées texte et image, offrant une expérience de génération d'images hautement contrôlable et de haute qualité. Il génère des images à partir d'invites textuelles."
|
||||
},
|
||||
"doubao-vision-lite-32k": {
|
||||
"description": "Le modèle Doubao-vision est un grand modèle multimodal développé par Doubao, doté de puissantes capacités de compréhension et de raisonnement d'images, ainsi que d'une compréhension précise des instructions. Il excelle dans l'extraction d'informations texte-image et les tâches de raisonnement basées sur l'image, pouvant être appliqué à des tâches de questions-réponses visuelles plus complexes et étendues."
|
||||
},
|
||||
@@ -1058,9 +995,6 @@
|
||||
"ernie-char-fiction-8k": {
|
||||
"description": "Le modèle de langage pour des scénarios verticaux développé par Baidu, adapté aux dialogues de NPC de jeux, aux dialogues de service client, aux jeux de rôle, avec un style de personnage plus distinct et cohérent, une meilleure capacité de suivi des instructions et des performances d'inférence supérieures."
|
||||
},
|
||||
"ernie-irag-edit": {
|
||||
"description": "Le modèle d'édition d'images ERNIE iRAG développé par Baidu supporte des opérations telles que l'effacement (erase), la redéfinition (repaint) et la variation (variation) basées sur des images."
|
||||
},
|
||||
"ernie-lite-8k": {
|
||||
"description": "ERNIE Lite est un modèle de langage léger développé par Baidu, alliant d'excellentes performances du modèle et performances d'inférence, adapté à une utilisation sur des cartes d'accélération AI à faible puissance."
|
||||
},
|
||||
@@ -1088,27 +1022,12 @@
|
||||
"ernie-x1-turbo-32k": {
|
||||
"description": "Par rapport à ERNIE-X1-32K, le modèle offre de meilleures performances et résultats."
|
||||
},
|
||||
"flux-1-schnell": {
|
||||
"description": "Modèle de génération d'images à partir de texte de 12 milliards de paramètres développé par Black Forest Labs, utilisant la distillation par diffusion antagoniste latente, capable de générer des images de haute qualité en 1 à 4 étapes. Ses performances rivalisent avec des alternatives propriétaires et il est publié sous licence Apache-2.0, adapté à un usage personnel, scientifique et commercial."
|
||||
},
|
||||
"flux-dev": {
|
||||
"description": "FLUX.1 [dev] est un modèle open source affiné destiné à un usage non commercial. Il maintient une qualité d'image et une adhérence aux instructions proches de la version professionnelle FLUX, tout en offrant une efficacité d'exécution supérieure. Par rapport aux modèles standards de même taille, il est plus efficace en termes d'utilisation des ressources."
|
||||
},
|
||||
"flux-kontext/dev": {
|
||||
"description": "Modèle d'édition d'image Frontier."
|
||||
},
|
||||
"flux-merged": {
|
||||
"description": "Le modèle FLUX.1-merged combine les caractéristiques approfondies explorées durant la phase de développement « DEV » et les avantages d'exécution rapide représentés par « Schnell ». Cette fusion améliore non seulement les performances du modèle mais étend également son champ d'application."
|
||||
},
|
||||
"flux-pro/kontext": {
|
||||
"description": "FLUX.1 Kontext [pro] peut traiter du texte et des images de référence en entrée, réalisant de manière fluide des modifications locales ciblées ainsi que des transformations complexes de scènes globales."
|
||||
},
|
||||
"flux-schnell": {
|
||||
"description": "FLUX.1 [schnell], actuellement le modèle open source le plus avancé à faible nombre d'étapes, dépasse non seulement ses concurrents mais aussi des modèles puissants non affinés tels que Midjourney v6.0 et DALL·E 3 (HD). Ce modèle est spécialement affiné pour conserver toute la diversité de sortie de la phase de pré-entraînement. Par rapport aux modèles les plus avancés du marché, FLUX.1 [schnell] améliore significativement la qualité visuelle, l'adhérence aux instructions, la gestion des dimensions/proportions, le traitement des polices et la diversité des sorties, offrant une expérience de génération d'images créatives plus riche et variée."
|
||||
},
|
||||
"flux.1-schnell": {
|
||||
"description": "Transformateur de flux rectifié de 12 milliards de paramètres capable de générer des images à partir de descriptions textuelles."
|
||||
},
|
||||
"flux/schnell": {
|
||||
"description": "FLUX.1 [schnell] est un modèle transformeur en flux avec 12 milliards de paramètres, capable de générer des images de haute qualité à partir de texte en 1 à 4 étapes, adapté à un usage personnel et commercial."
|
||||
},
|
||||
@@ -1190,6 +1109,9 @@
|
||||
"gemini-2.5-flash-preview-04-17": {
|
||||
"description": "Gemini 2.5 Flash Preview est le modèle le plus rentable de Google, offrant des fonctionnalités complètes."
|
||||
},
|
||||
"gemini-2.5-flash-preview-04-17-thinking": {
|
||||
"description": "Gemini 2.5 Flash Preview est le modèle le plus rentable de Google, offrant des fonctionnalités complètes."
|
||||
},
|
||||
"gemini-2.5-flash-preview-05-20": {
|
||||
"description": "Gemini 2.5 Flash Preview est le modèle le plus rentable de Google, offrant des fonctionnalités complètes."
|
||||
},
|
||||
@@ -1268,21 +1190,6 @@
|
||||
"glm-4.1v-thinking-flashx": {
|
||||
"description": "La série GLM-4.1V-Thinking est actuellement le modèle visuel le plus performant connu dans la catégorie des VLM de 10 milliards de paramètres. Elle intègre les meilleures performances SOTA dans diverses tâches de langage visuel, incluant la compréhension vidéo, les questions-réponses sur images, la résolution de problèmes disciplinaires, la reconnaissance OCR, l'interprétation de documents et graphiques, les agents GUI, le codage web frontal, le grounding, etc. Ses capacités surpassent même celles du Qwen2.5-VL-72B, qui possède plus de huit fois plus de paramètres. Grâce à des techniques avancées d'apprentissage par renforcement, le modèle maîtrise le raisonnement par chaîne de pensée, améliorant la précision et la richesse des réponses, surpassant nettement les modèles traditionnels sans mécanisme de pensée en termes de résultats finaux et d'explicabilité."
|
||||
},
|
||||
"glm-4.5": {
|
||||
"description": "Le dernier modèle phare de Zhipu, supportant le mode réflexion, avec des capacités globales atteignant le niveau SOTA des modèles open source, et une longueur de contexte allant jusqu'à 128K tokens."
|
||||
},
|
||||
"glm-4.5-air": {
|
||||
"description": "Version allégée de GLM-4.5, équilibrant performance et rapport qualité-prix, avec une commutation flexible entre modèles de réflexion hybrides."
|
||||
},
|
||||
"glm-4.5-airx": {
|
||||
"description": "Version ultra-rapide de GLM-4.5-Air, offrant une réactivité accrue, conçue pour des besoins à grande échelle et haute vitesse."
|
||||
},
|
||||
"glm-4.5-flash": {
|
||||
"description": "Version gratuite de GLM-4.5, performante dans les tâches d'inférence, de codage et d'agents intelligents."
|
||||
},
|
||||
"glm-4.5-x": {
|
||||
"description": "Version ultra-rapide de GLM-4.5, combinant une forte performance avec une vitesse de génération atteignant 100 tokens par seconde."
|
||||
},
|
||||
"glm-4v": {
|
||||
"description": "GLM-4V offre de puissantes capacités de compréhension et de raisonnement d'image, prenant en charge diverses tâches visuelles."
|
||||
},
|
||||
@@ -1302,7 +1209,7 @@
|
||||
"description": "Raisonnement ultra-rapide : offrant une vitesse de raisonnement extrêmement rapide et des résultats de raisonnement puissants."
|
||||
},
|
||||
"glm-z1-flash": {
|
||||
"description": "La série GLM-Z1 offre de puissantes capacités de raisonnement complexe, avec d'excellentes performances en logique, mathématiques et programmation."
|
||||
"description": "La série GLM-Z1 possède de puissantes capacités de raisonnement complexe, excelling dans des domaines tels que le raisonnement logique, les mathématiques et la programmation. La longueur maximale du contexte est de 32K."
|
||||
},
|
||||
"glm-z1-flashx": {
|
||||
"description": "Haute vitesse et faible coût : version améliorée Flash, vitesse d'inférence ultra-rapide, meilleure garantie de concurrence."
|
||||
@@ -1478,9 +1385,6 @@
|
||||
"grok-2-1212": {
|
||||
"description": "Ce modèle a été amélioré en termes de précision, de respect des instructions et de capacités multilingues."
|
||||
},
|
||||
"grok-2-image-1212": {
|
||||
"description": "Notre dernier modèle de génération d'images peut créer des images vivantes et réalistes à partir d'invites textuelles. Il excelle dans la génération d'images pour le marketing, les réseaux sociaux et le divertissement."
|
||||
},
|
||||
"grok-2-vision-1212": {
|
||||
"description": "Ce modèle a été amélioré en termes de précision, de respect des instructions et de capacités multilingues."
|
||||
},
|
||||
@@ -1550,9 +1454,6 @@
|
||||
"hunyuan-t1-20250529": {
|
||||
"description": "Optimisé pour la création de textes, la rédaction d'essais, ainsi que pour les compétences en codage frontend, mathématiques et raisonnement logique, avec une amélioration de la capacité à suivre les instructions."
|
||||
},
|
||||
"hunyuan-t1-20250711": {
|
||||
"description": "Amélioration significative des capacités en mathématiques complexes, logique et codage, optimisation de la stabilité des sorties du modèle et amélioration des capacités de traitement de longs textes."
|
||||
},
|
||||
"hunyuan-t1-latest": {
|
||||
"description": "Le premier modèle d'inférence Hybrid-Transformer-Mamba à grande échelle de l'industrie, qui étend les capacités d'inférence, offre une vitesse de décodage exceptionnelle et aligne davantage les préférences humaines."
|
||||
},
|
||||
@@ -1601,12 +1502,6 @@
|
||||
"hunyuan-vision": {
|
||||
"description": "Dernier modèle multimodal Hunyuan, prenant en charge l'entrée d'images et de textes pour générer du contenu textuel."
|
||||
},
|
||||
"image-01": {
|
||||
"description": "Nouveau modèle de génération d'images avec des rendus détaillés, supportant la génération d'images à partir de texte et d'images."
|
||||
},
|
||||
"image-01-live": {
|
||||
"description": "Modèle de génération d'images avec rendu détaillé, supportant la génération d'images à partir de texte avec réglage du style artistique."
|
||||
},
|
||||
"imagen-4.0-generate-preview-06-06": {
|
||||
"description": "Série de modèles de génération d'images à partir de texte Imagen 4e génération"
|
||||
},
|
||||
@@ -1631,9 +1526,6 @@
|
||||
"internvl3-latest": {
|
||||
"description": "Nous avons récemment publié un grand modèle multimodal, doté de capacités de compréhension d'images et de textes plus puissantes, ainsi que d'une compréhension d'images sur de longues séquences, dont les performances rivalisent avec celles des meilleurs modèles fermés. Il pointe par défaut vers notre dernier modèle de la série InternVL, actuellement vers internvl3-78b."
|
||||
},
|
||||
"irag-1.0": {
|
||||
"description": "iRAG (image based RAG) développé par Baidu est une technologie de génération d'images assistée par recherche, combinant les ressources d'un milliard d'images de Baidu Search avec la puissance d'un modèle de base avancé, permettant de générer des images ultra-réalistes surpassant largement les systèmes natifs de génération d'images, sans aspect artificiel et à faible coût. iRAG se caractérise par l'absence d'hallucinations, un réalisme extrême et une disponibilité immédiate."
|
||||
},
|
||||
"jamba-large": {
|
||||
"description": "Notre modèle le plus puissant et avancé, conçu pour traiter des tâches complexes de niveau entreprise, offrant des performances exceptionnelles."
|
||||
},
|
||||
@@ -1643,9 +1535,6 @@
|
||||
"jina-deepsearch-v1": {
|
||||
"description": "La recherche approfondie combine la recherche sur le web, la lecture et le raisonnement pour mener des enquêtes complètes. Vous pouvez la considérer comme un agent qui prend en charge vos tâches de recherche - elle effectuera une recherche approfondie et itérative avant de fournir une réponse. Ce processus implique une recherche continue, un raisonnement et une résolution de problèmes sous différents angles. Cela diffère fondamentalement des grands modèles standard qui génèrent des réponses directement à partir de données pré-entraînées et des systèmes RAG traditionnels qui dépendent d'une recherche superficielle unique."
|
||||
},
|
||||
"kimi-k2": {
|
||||
"description": "Kimi-K2 est un modèle de base à architecture MoE lancé par Moonshot AI, doté de capacités exceptionnelles en codage et agents, avec 1 000 milliards de paramètres au total et 32 milliards activés. Il surpasse les autres modèles open source majeurs dans les tests de performance sur les connaissances générales, la programmation, les mathématiques et les agents."
|
||||
},
|
||||
"kimi-k2-0711-preview": {
|
||||
"description": "kimi-k2 est un modèle de base à architecture MoE doté de capacités exceptionnelles en code et Agent, avec un total de 1T de paramètres et 32B de paramètres activés. Dans les tests de performance sur les principales catégories telles que le raisonnement général, la programmation, les mathématiques et les Agents, le modèle K2 surpasse les autres modèles open source majeurs."
|
||||
},
|
||||
@@ -2039,9 +1928,6 @@
|
||||
"moonshotai/Kimi-Dev-72B": {
|
||||
"description": "Kimi-Dev-72B est un grand modèle de code open source, optimisé par un apprentissage par renforcement à grande échelle, capable de générer des correctifs robustes et directement exploitables en production. Ce modèle a atteint un nouveau score record de 60,4 % sur SWE-bench Verified, établissant un nouveau standard pour les modèles open source dans les tâches d'ingénierie logicielle automatisée telles que la correction de bugs et la revue de code."
|
||||
},
|
||||
"moonshotai/Kimi-K2-Instruct": {
|
||||
"description": "Kimi K2 est un modèle de base à architecture MoE doté de capacités exceptionnelles en codage et agents, avec 1 000 milliards de paramètres au total et 32 milliards activés. Il surpasse les autres modèles open source majeurs dans les tests de performance sur les connaissances générales, la programmation, les mathématiques et les agents."
|
||||
},
|
||||
"moonshotai/kimi-k2-instruct": {
|
||||
"description": "kimi-k2 est un modèle de base à architecture MoE doté de capacités exceptionnelles en code et Agent, avec un total de 1T paramètres et 32B paramètres activés. Dans les tests de performance de référence couvrant les principales catégories telles que le raisonnement général, la programmation, les mathématiques et les Agents, le modèle K2 surpasse les autres modèles open source majeurs."
|
||||
},
|
||||
@@ -2378,21 +2264,9 @@
|
||||
"qwen3-235b-a22b": {
|
||||
"description": "Qwen3 est un modèle de nouvelle génération avec des capacités considérablement améliorées, atteignant des niveaux de pointe dans plusieurs compétences clés telles que le raisonnement, l'universalité, l'agent et le multilingue, tout en prenant en charge le changement de mode de pensée."
|
||||
},
|
||||
"qwen3-235b-a22b-instruct-2507": {
|
||||
"description": "Modèle open source en mode non réflexion basé sur Qwen3, avec une légère amélioration des capacités créatives subjectives et de la sécurité du modèle par rapport à la version précédente (Tongyi Qianwen 3-235B-A22B)."
|
||||
},
|
||||
"qwen3-235b-a22b-thinking-2507": {
|
||||
"description": "Modèle open source en mode réflexion basé sur Qwen3, avec des améliorations majeures en logique, capacités générales, enrichissement des connaissances et créativité par rapport à la version précédente (Tongyi Qianwen 3-235B-A22B), adapté aux scénarios complexes nécessitant un raisonnement poussé."
|
||||
},
|
||||
"qwen3-30b-a3b": {
|
||||
"description": "Qwen3 est un modèle de nouvelle génération avec des capacités considérablement améliorées, atteignant des niveaux de pointe dans plusieurs compétences clés telles que le raisonnement, l'universalité, l'agent et le multilingue, tout en prenant en charge le changement de mode de pensée."
|
||||
},
|
||||
"qwen3-30b-a3b-instruct-2507": {
|
||||
"description": "Par rapport à la version précédente (Qwen3-30B-A3B), les capacités générales en anglais, chinois et multilingues ont été considérablement améliorées. Une optimisation spécifique a été réalisée pour les tâches subjectives et ouvertes, rendant les réponses nettement plus conformes aux préférences des utilisateurs et plus utiles."
|
||||
},
|
||||
"qwen3-30b-a3b-thinking-2507": {
|
||||
"description": "Basé sur le modèle open source en mode réflexif Qwen3, cette version améliore considérablement les capacités logiques, générales, les connaissances et la créativité par rapport à la version précédente (Tongyi Qianwen 3-30B-A3B). Elle est adaptée aux scénarios complexes nécessitant un raisonnement approfondi."
|
||||
},
|
||||
"qwen3-32b": {
|
||||
"description": "Qwen3 est un modèle de nouvelle génération avec des capacités considérablement améliorées, atteignant des niveaux de pointe dans plusieurs compétences clés telles que le raisonnement, l'universalité, l'agent et le multilingue, tout en prenant en charge le changement de mode de pensée."
|
||||
},
|
||||
@@ -2402,12 +2276,6 @@
|
||||
"qwen3-8b": {
|
||||
"description": "Qwen3 est un modèle de nouvelle génération avec des capacités considérablement améliorées, atteignant des niveaux de pointe dans plusieurs compétences clés telles que le raisonnement, l'universalité, l'agent et le multilingue, tout en prenant en charge le changement de mode de pensée."
|
||||
},
|
||||
"qwen3-coder-480b-a35b-instruct": {
|
||||
"description": "Version open source du modèle de code Tongyi Qianwen. Le dernier qwen3-coder-480b-a35b-instruct est un modèle de génération de code basé sur Qwen3, doté de puissantes capacités d'agent de codage, expert en appels d'outils et interactions environnementales, capable de programmation autonome avec d'excellentes compétences en code tout en conservant des capacités générales."
|
||||
},
|
||||
"qwen3-coder-plus": {
|
||||
"description": "Modèle de code Tongyi Qianwen. La dernière série Qwen3-Coder-Plus est un modèle de génération de code basé sur Qwen3, doté de puissantes capacités d'agent de codage, expert en appels d'outils et interactions environnementales, capable de programmation autonome avec d'excellentes compétences en code tout en conservant des capacités générales."
|
||||
},
|
||||
"qwq": {
|
||||
"description": "QwQ est un modèle de recherche expérimental, axé sur l'amélioration des capacités de raisonnement de l'IA."
|
||||
},
|
||||
@@ -2450,24 +2318,6 @@
|
||||
"sonar-reasoning-pro": {
|
||||
"description": "Nouveau produit API soutenu par le modèle de raisonnement DeepSeek."
|
||||
},
|
||||
"stable-diffusion-3-medium": {
|
||||
"description": "Le dernier grand modèle de génération d'images à partir de texte lancé par Stability AI. Cette version améliore significativement la qualité d'image, la compréhension du texte et la diversité des styles, tout en héritant des avantages des versions précédentes. Il interprète plus précisément les invites en langage naturel complexes et génère des images plus précises et variées."
|
||||
},
|
||||
"stable-diffusion-3.5-large": {
|
||||
"description": "stable-diffusion-3.5-large est un modèle de génération d'images à partir de texte multimodal à base de transformateur de diffusion (MMDiT) avec 800 millions de paramètres, offrant une qualité d'image exceptionnelle et une correspondance précise aux invites, capable de générer des images haute résolution jusqu'à 1 million de pixels, tout en fonctionnant efficacement sur du matériel grand public."
|
||||
},
|
||||
"stable-diffusion-3.5-large-turbo": {
|
||||
"description": "stable-diffusion-3.5-large-turbo est un modèle basé sur stable-diffusion-3.5-large utilisant la technique de distillation par diffusion antagoniste (ADD), offrant une vitesse accrue."
|
||||
},
|
||||
"stable-diffusion-v1.5": {
|
||||
"description": "stable-diffusion-v1.5 est initialisé avec les poids du checkpoint stable-diffusion-v1.2 et affiné pendant 595k étapes à une résolution de 512x512 sur \"laion-aesthetics v2 5+\", avec une réduction de 10 % de la condition textuelle pour améliorer l'échantillonnage guidé sans classificateur."
|
||||
},
|
||||
"stable-diffusion-xl": {
|
||||
"description": "stable-diffusion-xl apporte des améliorations majeures par rapport à la version v1.5, avec des performances comparables au modèle open source SOTA midjourney. Les améliorations incluent un backbone unet trois fois plus grand, un module de raffinement pour améliorer la qualité des images générées, et des techniques d'entraînement plus efficaces."
|
||||
},
|
||||
"stable-diffusion-xl-base-1.0": {
|
||||
"description": "Grand modèle open source de génération d'images à partir de texte développé par Stability AI, avec des capacités créatives de premier plan dans l'industrie. Il possède une excellente compréhension des instructions et supporte la définition de prompts inversés pour une génération précise du contenu."
|
||||
},
|
||||
"step-1-128k": {
|
||||
"description": "Équilibre entre performance et coût, adapté à des scénarios généraux."
|
||||
},
|
||||
@@ -2498,12 +2348,6 @@
|
||||
"step-1v-8k": {
|
||||
"description": "Modèle visuel compact, adapté aux tâches de base en texte et image."
|
||||
},
|
||||
"step-1x-edit": {
|
||||
"description": "Ce modèle est spécialisé dans les tâches d'édition d'images, capable de modifier et d'améliorer des images selon les descriptions textuelles et les images fournies par l'utilisateur. Il supporte plusieurs formats d'entrée, comprenant descriptions textuelles et images d'exemple. Le modèle comprend l'intention de l'utilisateur et génère des résultats d'édition conformes aux exigences."
|
||||
},
|
||||
"step-1x-medium": {
|
||||
"description": "Ce modèle possède de puissantes capacités de génération d'images, supportant les descriptions textuelles comme entrée. Il offre un support natif du chinois, permettant une meilleure compréhension et traitement des descriptions textuelles en chinois, capturant plus précisément la sémantique pour la transformer en caractéristiques d'image, réalisant ainsi une génération d'images plus précise. Le modèle génère des images haute résolution et de haute qualité, avec une certaine capacité de transfert de style."
|
||||
},
|
||||
"step-2-16k": {
|
||||
"description": "Prend en charge des interactions contextuelles à grande échelle, adapté aux scénarios de dialogue complexes."
|
||||
},
|
||||
@@ -2513,9 +2357,6 @@
|
||||
"step-2-mini": {
|
||||
"description": "Un modèle de grande taille ultra-rapide basé sur la nouvelle architecture d'attention auto-développée MFA, atteignant des résultats similaires à ceux de step1 à un coût très bas, tout en maintenant un débit plus élevé et un temps de réponse plus rapide. Capable de traiter des tâches générales, avec des compétences particulières en matière de codage."
|
||||
},
|
||||
"step-2x-large": {
|
||||
"description": "Modèle de nouvelle génération Step Star, spécialisé dans la génération d'images, capable de créer des images de haute qualité à partir de descriptions textuelles fournies par l'utilisateur. Le nouveau modèle produit des images avec une texture plus réaliste et une meilleure capacité de génération de texte en chinois et en anglais."
|
||||
},
|
||||
"step-r1-v-mini": {
|
||||
"description": "Ce modèle est un grand modèle de raisonnement avec de puissantes capacités de compréhension d'image, capable de traiter des informations visuelles et textuelles, produisant du texte après une réflexion approfondie. Ce modèle se distingue dans le domaine du raisonnement visuel, tout en possédant des capacités de raisonnement mathématique, de code et de texte de premier plan. La longueur du contexte est de 100k."
|
||||
},
|
||||
@@ -2591,23 +2432,8 @@
|
||||
"v0-1.5-md": {
|
||||
"description": "Le modèle v0-1.5-md convient aux tâches quotidiennes et à la génération d'interfaces utilisateur (UI)"
|
||||
},
|
||||
"wan2.2-t2i-flash": {
|
||||
"description": "Version ultra-rapide Wanxiang 2.2, le modèle le plus récent à ce jour. Améliorations globales en créativité, stabilité et réalisme, avec une vitesse de génération rapide et un excellent rapport qualité-prix."
|
||||
},
|
||||
"wan2.2-t2i-plus": {
|
||||
"description": "Version professionnelle Wanxiang 2.2, le modèle le plus récent à ce jour. Améliorations globales en créativité, stabilité et réalisme, avec des détails de génération riches."
|
||||
},
|
||||
"wanx-v1": {
|
||||
"description": "Modèle de base de génération d'images à partir de texte, correspondant au modèle général 1.0 officiel de Tongyi Wanxiang."
|
||||
},
|
||||
"wanx2.0-t2i-turbo": {
|
||||
"description": "Spécialisé dans les portraits réalistes, vitesse moyenne et coût réduit. Correspond au modèle ultra-rapide 2.0 officiel de Tongyi Wanxiang."
|
||||
},
|
||||
"wanx2.1-t2i-plus": {
|
||||
"description": "Version entièrement améliorée. Génère des images avec des détails plus riches, vitesse légèrement plus lente. Correspond au modèle professionnel 2.1 officiel de Tongyi Wanxiang."
|
||||
},
|
||||
"wanx2.1-t2i-turbo": {
|
||||
"description": "Version entièrement améliorée. Vitesse de génération rapide, résultats complets, excellent rapport qualité-prix. Correspond au modèle ultra-rapide 2.1 officiel de Tongyi Wanxiang."
|
||||
"description": "Modèle de génération d'images par texte de Tongyi d'Aliyun"
|
||||
},
|
||||
"whisper-1": {
|
||||
"description": "Modèle universel de reconnaissance vocale, prenant en charge la reconnaissance vocale multilingue, la traduction vocale et la reconnaissance de langue."
|
||||
@@ -2659,11 +2485,5 @@
|
||||
},
|
||||
"yi-vision-v2": {
|
||||
"description": "Modèle pour des tâches visuelles complexes, offrant des capacités de compréhension et d'analyse de haute performance basées sur plusieurs images."
|
||||
},
|
||||
"zai-org/GLM-4.5": {
|
||||
"description": "GLM-4.5 est un modèle de base conçu pour les applications d'agents intelligents, utilisant une architecture Mixture-of-Experts (MoE). Il est profondément optimisé pour l'appel d'outils, la navigation web, l'ingénierie logicielle et la programmation front-end, supportant une intégration transparente avec des agents de code tels que Claude Code et Roo Code. GLM-4.5 utilise un mode d'inférence hybride, adapté à des scénarios variés allant du raisonnement complexe à l'usage quotidien."
|
||||
},
|
||||
"zai-org/GLM-4.5-Air": {
|
||||
"description": "GLM-4.5-Air est un modèle de base conçu pour les applications d'agents intelligents, utilisant une architecture Mixture-of-Experts (MoE). Il est profondément optimisé pour l'appel d'outils, la navigation web, l'ingénierie logicielle et la programmation front-end, supportant une intégration transparente avec des agents de code tels que Claude Code et Roo Code. GLM-4.5 utilise un mode d'inférence hybride, adapté à des scénarios variés allant du raisonnement complexe à l'usage quotidien."
|
||||
}
|
||||
}
|
||||
|
||||
@@ -5,9 +5,6 @@
|
||||
"ai360": {
|
||||
"description": "360 AI est une plateforme de modèles et de services IA lancée par la société 360, offrant divers modèles avancés de traitement du langage naturel, y compris 360GPT2 Pro, 360GPT Pro, 360GPT Turbo et 360GPT Turbo Responsibility 8K. Ces modèles combinent de grands paramètres et des capacités multimodales, largement utilisés dans la génération de texte, la compréhension sémantique, les systèmes de dialogue et la génération de code. Grâce à une stratégie de tarification flexible, 360 AI répond à des besoins variés des utilisateurs, soutenant l'intégration des développeurs et favorisant l'innovation et le développement des applications intelligentes."
|
||||
},
|
||||
"aihubmix": {
|
||||
"description": "AiHubMix offre un accès à divers modèles d'IA via une interface API unifiée."
|
||||
},
|
||||
"anthropic": {
|
||||
"description": "Anthropic est une entreprise axée sur la recherche et le développement en intelligence artificielle, offrant une gamme de modèles linguistiques avancés, tels que Claude 3.5 Sonnet, Claude 3 Sonnet, Claude 3 Opus et Claude 3 Haiku. Ces modèles atteignent un équilibre idéal entre intelligence, rapidité et coût, adaptés à divers scénarios d'application, allant des charges de travail d'entreprise aux réponses rapides. Claude 3.5 Sonnet, en tant que dernier modèle, a excellé dans plusieurs évaluations tout en maintenant un bon rapport qualité-prix."
|
||||
},
|
||||
|
||||
@@ -189,7 +189,6 @@
|
||||
"aesGcm": "La tua chiave e l'indirizzo proxy saranno crittografati utilizzando l'algoritmo di crittografia <1>AES-GCM</1>",
|
||||
"apiKey": {
|
||||
"desc": "Inserisci la tua {{name}} API Key",
|
||||
"descWithUrl": "Per favore inserisci la tua API Key di {{name}}, <3>clicca qui per ottenerla</3>",
|
||||
"placeholder": "{{name}} API Key",
|
||||
"title": "API Key"
|
||||
},
|
||||
|
||||
+5
-185
@@ -32,9 +32,6 @@
|
||||
"4.0Ultra": {
|
||||
"description": "Spark4.0 Ultra è la versione più potente della serie di modelli Spark, migliorando la comprensione e la sintesi del contenuto testuale mentre aggiorna il collegamento alla ricerca online. È una soluzione completa per migliorare la produttività lavorativa e rispondere con precisione alle esigenze, rappresentando un prodotto intelligente all'avanguardia nel settore."
|
||||
},
|
||||
"AnimeSharp": {
|
||||
"description": "AnimeSharp (noto anche come “4x‑AnimeSharp”) è un modello open source di super-risoluzione sviluppato da Kim2091 basato sull'architettura ESRGAN, focalizzato sull'ingrandimento e l'affilatura di immagini in stile anime. Nel febbraio 2022 è stato rinominato da “4x-TextSharpV1”, originariamente adatto anche per immagini di testo, ma con prestazioni ottimizzate significativamente per contenuti anime."
|
||||
},
|
||||
"Baichuan2-Turbo": {
|
||||
"description": "Utilizza tecnologie di ricerca avanzate per collegare completamente il grande modello con la conoscenza di settore e la conoscenza globale. Supporta il caricamento di vari documenti come PDF, Word e l'immissione di URL, con acquisizione di informazioni tempestiva e completa, e risultati di output accurati e professionali."
|
||||
},
|
||||
@@ -92,9 +89,6 @@
|
||||
"Doubao-pro-4k": {
|
||||
"description": "Il modello principale con le migliori prestazioni, adatto per gestire compiti complessi, con ottimi risultati in domande di riferimento, sintesi, creazione, classificazione del testo, role-playing e altri scenari. Supporta inferenza e fine-tuning con una finestra contestuale di 4k."
|
||||
},
|
||||
"DreamO": {
|
||||
"description": "DreamO è un modello open source di generazione di immagini personalizzate sviluppato congiuntamente da ByteDance e l'Università di Pechino, progettato per supportare la generazione di immagini multitasking tramite un'architettura unificata. Utilizza un metodo di modellazione combinata efficiente per generare immagini altamente coerenti e personalizzate in base a molteplici condizioni specificate dall'utente, come identità, soggetto, stile e sfondo."
|
||||
},
|
||||
"ERNIE-3.5-128K": {
|
||||
"description": "Modello di linguaggio di grande scala di punta sviluppato da Baidu, che copre un'enorme quantità di dati in cinese e inglese, con potenti capacità generali, in grado di soddisfare la maggior parte delle esigenze di domande e risposte, generazione creativa e scenari di applicazione dei plugin; supporta l'integrazione automatica con il plugin di ricerca di Baidu, garantendo l'aggiornamento delle informazioni nelle risposte."
|
||||
},
|
||||
@@ -128,39 +122,15 @@
|
||||
"ERNIE-Speed-Pro-128K": {
|
||||
"description": "Modello di linguaggio ad alte prestazioni sviluppato da Baidu, lanciato nel 2024, con capacità generali eccellenti, risultati migliori rispetto a ERNIE Speed, adatto come modello di base per il fine-tuning, per gestire meglio le problematiche di scenari specifici, mantenendo al contempo prestazioni di inferenza eccezionali."
|
||||
},
|
||||
"FLUX.1-Kontext-dev": {
|
||||
"description": "FLUX.1-Kontext-dev è un modello multimodale di generazione e modifica di immagini sviluppato da Black Forest Labs, basato sull'architettura Rectified Flow Transformer, con una scala di 12 miliardi di parametri. Si concentra sulla generazione, ricostruzione, miglioramento o modifica di immagini in base a condizioni contestuali fornite. Combina i vantaggi della generazione controllata dei modelli di diffusione con la capacità di modellazione contestuale dei Transformer, supportando output di alta qualità e applicazioni estese come il restauro, il completamento e la ricostruzione di scene visive."
|
||||
},
|
||||
"FLUX.1-dev": {
|
||||
"description": "FLUX.1-dev è un modello linguistico multimodale open source sviluppato da Black Forest Labs, ottimizzato per compiti testo-immagine, che integra capacità di comprensione e generazione sia visive che testuali. Basato su modelli linguistici avanzati come Mistral-7B, utilizza un codificatore visivo progettato con cura e un raffinamento a più fasi tramite istruzioni per realizzare capacità collaborative testo-immagine e ragionamento su compiti complessi."
|
||||
},
|
||||
"Gryphe/MythoMax-L2-13b": {
|
||||
"description": "MythoMax-L2 (13B) è un modello innovativo, adatto per applicazioni in più settori e compiti complessi."
|
||||
},
|
||||
"HelloMeme": {
|
||||
"description": "HelloMeme è uno strumento AI che genera automaticamente meme, GIF o brevi video basati sulle immagini o azioni fornite dall'utente. Non richiede alcuna competenza in disegno o programmazione; basta fornire un'immagine di riferimento e lo strumento creerà contenuti belli, divertenti e coerenti nello stile."
|
||||
},
|
||||
"HiDream-I1-Full": {
|
||||
"description": "HiDream-E1-Full, lanciato da HiDream.ai, è un modello open source multimodale avanzato per l'editing di immagini, basato sull'architettura Diffusion Transformer e integrato con potenti capacità di comprensione linguistica (incluso LLaMA 3.1-8B-Instruct). Supporta la generazione di immagini, il trasferimento di stile, l'editing locale e la ridipintura tramite comandi in linguaggio naturale, offrendo eccellenti capacità di comprensione ed esecuzione testo-immagine."
|
||||
},
|
||||
"HunyuanDiT-v1.2-Diffusers-Distilled": {
|
||||
"description": "hunyuandit-v1.2-distilled è un modello leggero di generazione di immagini da testo, ottimizzato tramite distillazione per produrre rapidamente immagini di alta qualità, particolarmente adatto a ambienti con risorse limitate e a compiti di generazione in tempo reale."
|
||||
},
|
||||
"InstantCharacter": {
|
||||
"description": "InstantCharacter, rilasciato dal team AI di Tencent nel 2025, è un modello di generazione di personaggi personalizzati senza necessità di tuning, progettato per generare personaggi coerenti e ad alta fedeltà in diversi scenari. Supporta la modellazione del personaggio basata su una singola immagine di riferimento e consente di trasferire il personaggio in vari stili, pose e sfondi in modo flessibile."
|
||||
},
|
||||
"InternVL2-8B": {
|
||||
"description": "InternVL2-8B è un potente modello linguistico visivo, supporta l'elaborazione multimodale di immagini e testo, in grado di riconoscere con precisione il contenuto delle immagini e generare descrizioni o risposte correlate."
|
||||
},
|
||||
"InternVL2.5-26B": {
|
||||
"description": "InternVL2.5-26B è un potente modello linguistico visivo, supporta l'elaborazione multimodale di immagini e testo, in grado di riconoscere con precisione il contenuto delle immagini e generare descrizioni o risposte correlate."
|
||||
},
|
||||
"Kolors": {
|
||||
"description": "Kolors è un modello di generazione di immagini da testo sviluppato dal team Kolors di Kuaishou. Addestrato su miliardi di parametri, eccelle nella qualità visiva, nella comprensione semantica del cinese e nella resa del testo."
|
||||
},
|
||||
"Kwai-Kolors/Kolors": {
|
||||
"description": "Kolors, sviluppato dal team Kolors di Kuaishou, è un modello di generazione di immagini da testo su larga scala basato su diffusione latente. Addestrato su miliardi di coppie testo-immagine, mostra vantaggi significativi nella qualità visiva, accuratezza semantica complessa e resa dei caratteri in cinese e inglese. Supporta input in entrambe le lingue e si distingue nella comprensione e generazione di contenuti specifici in cinese."
|
||||
},
|
||||
"Llama-3.2-11B-Vision-Instruct": {
|
||||
"description": "Eccellenti capacità di ragionamento visivo su immagini ad alta risoluzione, adatte per applicazioni di comprensione visiva."
|
||||
},
|
||||
@@ -194,15 +164,9 @@
|
||||
"MiniMaxAI/MiniMax-M1-80k": {
|
||||
"description": "MiniMax-M1 è un modello di inferenza a grande scala con pesi open source e attenzione mista, con 456 miliardi di parametri, di cui circa 45,9 miliardi attivati per ogni token. Il modello supporta nativamente un contesto ultra-lungo di 1 milione di token e, grazie al meccanismo di attenzione lampo, riduce del 75% il carico computazionale in operazioni floating point rispetto a DeepSeek R1 in compiti di generazione con 100.000 token. Inoltre, MiniMax-M1 adotta un'architettura MoE (Mixture of Experts), combinando l'algoritmo CISPO e un design di attenzione mista per un addestramento efficiente tramite apprendimento rinforzato, raggiungendo prestazioni leader nel settore per inferenze con input lunghi e scenari reali di ingegneria software."
|
||||
},
|
||||
"Moonshot-Kimi-K2-Instruct": {
|
||||
"description": "Con un totale di 1 trilione di parametri e 32 miliardi di parametri attivi, questo modello non pensante raggiunge livelli d'eccellenza in conoscenze all'avanguardia, matematica e programmazione, ed è particolarmente adatto a compiti di agenti generici. Ottimizzato per attività di agenti, non solo risponde a domande ma può anche agire. Ideale per chat improvvisate, conversazioni generiche e esperienze di agenti, è un modello riflessivo che non richiede lunghi tempi di elaborazione."
|
||||
},
|
||||
"NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
||||
"description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B) è un modello di istruzioni ad alta precisione, adatto per calcoli complessi."
|
||||
},
|
||||
"OmniConsistency": {
|
||||
"description": "OmniConsistency migliora la coerenza stilistica e la generalizzazione nei compiti di immagine a immagine introducendo Diffusion Transformers (DiTs) su larga scala e dati stilizzati accoppiati, prevenendo il degrado dello stile."
|
||||
},
|
||||
"Phi-3-medium-128k-instruct": {
|
||||
"description": "Stesso modello Phi-3-medium, ma con una dimensione di contesto più grande per RAG o prompting a pochi colpi."
|
||||
},
|
||||
@@ -254,9 +218,6 @@
|
||||
"Pro/deepseek-ai/DeepSeek-V3": {
|
||||
"description": "DeepSeek-V3 è un modello di linguaggio con 6710 miliardi di parametri, basato su un'architettura di esperti misti (MoE) che utilizza attenzione multilivello (MLA) e la strategia di bilanciamento del carico senza perdite ausiliarie, ottimizzando l'efficienza di inferenza e addestramento. Pre-addestrato su 14,8 trilioni di token di alta qualità e successivamente affinato tramite supervisione e apprendimento per rinforzo, DeepSeek-V3 supera altri modelli open source, avvicinandosi ai modelli chiusi di punta."
|
||||
},
|
||||
"Pro/moonshotai/Kimi-K2-Instruct": {
|
||||
"description": "Kimi K2 è un modello base con architettura MoE dotato di potenti capacità di codice e agenti, con 1 trilione di parametri totali e 32 miliardi di parametri attivi. Nei test di benchmark su ragionamento generale, programmazione, matematica e agenti, il modello K2 supera altri modelli open source principali."
|
||||
},
|
||||
"QwQ-32B-Preview": {
|
||||
"description": "QwQ-32B-Preview è un modello di elaborazione del linguaggio naturale innovativo, in grado di gestire in modo efficiente compiti complessi di generazione di dialoghi e comprensione del contesto."
|
||||
},
|
||||
@@ -317,18 +278,9 @@
|
||||
"Qwen/Qwen3-235B-A22B": {
|
||||
"description": "Qwen3 è un nuovo modello di Tongyi Qianwen con capacità notevolmente migliorate, raggiungendo livelli leader del settore in ragionamento, generico, agenti e multilingue, e supporta il passaggio della modalità di pensiero."
|
||||
},
|
||||
"Qwen/Qwen3-235B-A22B-Instruct-2507": {
|
||||
"description": "Qwen3-235B-A22B-Instruct-2507 è un modello linguistico di grandi dimensioni ibrido esperto (MoE) di punta sviluppato dal team Tongyi Qianwen di Alibaba Cloud. Con 235 miliardi di parametri totali e 22 miliardi attivi per inferenza, è una versione aggiornata del modello non pensante Qwen3-235B-A22B, focalizzata su miglioramenti significativi in aderenza alle istruzioni, ragionamento logico, comprensione testuale, matematica, scienza, programmazione e uso di strumenti. Inoltre, amplia la copertura di conoscenze multilingue e allinea meglio le preferenze degli utenti in compiti soggettivi e aperti, generando testi più utili e di alta qualità."
|
||||
},
|
||||
"Qwen/Qwen3-235B-A22B-Thinking-2507": {
|
||||
"description": "Qwen3-235B-A22B-Thinking-2507 è un modello linguistico di grandi dimensioni della serie Qwen3 sviluppato dal team Tongyi Qianwen di Alibaba, specializzato in compiti di ragionamento complessi. Basato su architettura MoE con 235 miliardi di parametri totali e circa 22 miliardi attivi per token, combina alta efficienza computazionale con prestazioni elevate. Come modello di “pensiero”, eccelle in ragionamento logico, matematica, scienza, programmazione e test accademici, raggiungendo livelli top tra i modelli open source di ragionamento. Migliora anche capacità generali come aderenza alle istruzioni, uso di strumenti e generazione testuale, supportando nativamente contesti lunghi fino a 256K token, ideale per scenari di ragionamento profondo e gestione di documenti estesi."
|
||||
},
|
||||
"Qwen/Qwen3-30B-A3B": {
|
||||
"description": "Qwen3 è un nuovo modello di Tongyi Qianwen con capacità notevolmente migliorate, raggiungendo livelli leader del settore in ragionamento, generico, agenti e multilingue, e supporta il passaggio della modalità di pensiero."
|
||||
},
|
||||
"Qwen/Qwen3-30B-A3B-Instruct-2507": {
|
||||
"description": "Qwen3-30B-A3B-Instruct-2507 è una versione aggiornata della modalità non pensante di Qwen3-30B-A3B. Si tratta di un modello esperto misto (MoE) con un totale di 30,5 miliardi di parametri e 3,3 miliardi di parametri attivi. Il modello presenta miglioramenti chiave in diversi ambiti, tra cui un significativo potenziamento nella capacità di seguire istruzioni, ragionamento logico, comprensione del testo, matematica, scienze, programmazione e utilizzo di strumenti. Inoltre, ha fatto progressi sostanziali nella copertura della conoscenza multilingue a coda lunga e si allinea meglio alle preferenze degli utenti in compiti soggettivi e aperti, permettendo di generare risposte più utili e testi di qualità superiore. La capacità di comprensione di testi lunghi è stata estesa fino a 256K. Questo modello supporta esclusivamente la modalità non pensante e non genera tag `<think></think>` nell'output."
|
||||
},
|
||||
"Qwen/Qwen3-32B": {
|
||||
"description": "Qwen3 è un nuovo modello di Tongyi Qianwen con capacità notevolmente migliorate, raggiungendo livelli leader del settore in ragionamento, generico, agenti e multilingue, e supporta il passaggio della modalità di pensiero."
|
||||
},
|
||||
@@ -362,12 +314,6 @@
|
||||
"Qwen2.5-Coder-32B-Instruct": {
|
||||
"description": "Qwen2.5-Coder-32B-Instruct è un grande modello linguistico progettato per la generazione di codice, la comprensione del codice e scenari di sviluppo efficienti, con una scala di 32 miliardi di parametri all'avanguardia nel settore, in grado di soddisfare esigenze di programmazione diversificate."
|
||||
},
|
||||
"Qwen3-235B": {
|
||||
"description": "Qwen3-235B-A22B è un modello MoE (esperto misto) che introduce la “modalità di ragionamento ibrido”, consentendo agli utenti di passare senza soluzione di continuità tra la modalità “pensante” e quella “non pensante”. Supporta la comprensione e il ragionamento in 119 lingue e dialetti, dispone di potenti capacità di chiamata di strumenti e compete con i principali modelli di mercato come DeepSeek R1, OpenAI o1, o3-mini, Grok 3 e Google Gemini 2.5 Pro in vari benchmark relativi a capacità generali, codice e matematica, competenze multilingue, conoscenza e ragionamento."
|
||||
},
|
||||
"Qwen3-32B": {
|
||||
"description": "Qwen3-32B è un modello denso (Dense Model) che introduce la “modalità di ragionamento ibrido”, permettendo agli utenti di passare senza soluzione di continuità tra la modalità “pensante” e quella “non pensante”. Grazie a miglioramenti nell'architettura del modello, all'aumento dei dati di addestramento e a metodi di training più efficaci, le prestazioni complessive sono comparabili a quelle di Qwen2.5-72B."
|
||||
},
|
||||
"SenseChat": {
|
||||
"description": "Modello di base (V4), lunghezza del contesto di 4K, con potenti capacità generali."
|
||||
},
|
||||
@@ -404,12 +350,6 @@
|
||||
"SenseChat-Vision": {
|
||||
"description": "L'ultima versione del modello (V5.5) supporta l'input di più immagini, ottimizzando le capacità di base del modello, con notevoli miglioramenti nel riconoscimento delle proprietà degli oggetti, nelle relazioni spaziali, nel riconoscimento degli eventi, nella comprensione delle scene, nel riconoscimento delle emozioni, nel ragionamento logico e nella comprensione e generazione del testo."
|
||||
},
|
||||
"SenseNova-V6-5-Pro": {
|
||||
"description": "Attraverso un aggiornamento completo dei dati multimodali, linguistici e di ragionamento e l'ottimizzazione delle strategie di addestramento, il nuovo modello ha ottenuto miglioramenti significativi nelle capacità di ragionamento multimodale e nel seguire istruzioni generalizzate. Supporta una finestra contestuale fino a 128k e si distingue in compiti specializzati come il riconoscimento OCR e l'identificazione di IP culturali e turistici."
|
||||
},
|
||||
"SenseNova-V6-5-Turbo": {
|
||||
"description": "Attraverso un aggiornamento completo dei dati multimodali, linguistici e di ragionamento e l'ottimizzazione delle strategie di addestramento, il nuovo modello ha ottenuto miglioramenti significativi nelle capacità di ragionamento multimodale e nel seguire istruzioni generalizzate. Supporta una finestra contestuale fino a 128k e si distingue in compiti specializzati come il riconoscimento OCR e l'identificazione di IP culturali e turistici."
|
||||
},
|
||||
"SenseNova-V6-Pro": {
|
||||
"description": "Realizza un'unificazione nativa delle capacità di immagini, testi e video, superando i limiti tradizionali della multimodalità disgiunta, e ha conquistato il doppio campionato nelle valutazioni OpenCompass e SuperCLUE."
|
||||
},
|
||||
@@ -1004,9 +944,6 @@
|
||||
"doubao-seed-1.6-thinking": {
|
||||
"description": "Il modello Doubao-Seed-1.6-thinking ha capacità di pensiero notevolmente potenziate; rispetto a Doubao-1.5-thinking-pro, migliora ulteriormente le capacità di base come coding, matematica e ragionamento logico, supportando anche la comprensione visiva. Supporta una finestra contestuale di 256k e una lunghezza massima di output di 16k token."
|
||||
},
|
||||
"doubao-seedream-3-0-t2i-250415": {
|
||||
"description": "Il modello di generazione immagini Doubao è sviluppato dal team Seed di ByteDance, supporta input di testo e immagini, offrendo un'esperienza di generazione immagini altamente controllabile e di alta qualità. Genera immagini basate su prompt testuali."
|
||||
},
|
||||
"doubao-vision-lite-32k": {
|
||||
"description": "Il modello Doubao-vision è un modello multimodale lanciato da Doubao, con potenti capacità di comprensione e ragionamento delle immagini e una precisa comprensione delle istruzioni. Il modello mostra prestazioni eccellenti nell'estrazione di informazioni da testo e immagini e in compiti di ragionamento basati su immagini, applicabile a compiti di domande visive più complessi e ampi."
|
||||
},
|
||||
@@ -1058,9 +995,6 @@
|
||||
"ernie-char-fiction-8k": {
|
||||
"description": "Un modello di linguaggio di grandi dimensioni sviluppato internamente da Baidu, adatto per scenari di applicazione come NPC nei giochi, dialoghi di assistenza clienti e interpretazione di ruoli nei dialoghi, con uno stile di personaggio più distintivo e coerente, capacità di seguire istruzioni più forti e prestazioni di inferenza migliori."
|
||||
},
|
||||
"ernie-irag-edit": {
|
||||
"description": "Il modello di editing immagini ERNIE iRAG sviluppato da Baidu supporta operazioni come cancellazione (erase), ridipintura (repaint) e variazione (variation) basate su immagini."
|
||||
},
|
||||
"ernie-lite-8k": {
|
||||
"description": "ERNIE Lite è un modello di linguaggio di grandi dimensioni sviluppato internamente da Baidu, che bilancia prestazioni eccellenti del modello e prestazioni di inferenza, adatto per l'uso con schede di accelerazione AI a bassa potenza."
|
||||
},
|
||||
@@ -1088,27 +1022,12 @@
|
||||
"ernie-x1-turbo-32k": {
|
||||
"description": "Rispetto a ERNIE-X1-32K, il modello offre prestazioni e risultati migliori."
|
||||
},
|
||||
"flux-1-schnell": {
|
||||
"description": "Modello di generazione immagini da testo con 12 miliardi di parametri sviluppato da Black Forest Labs, che utilizza la tecnologia di distillazione di diffusione antagonista latente, capace di generare immagini di alta qualità in 1-4 passaggi. Le prestazioni sono comparabili a soluzioni proprietarie, rilasciato sotto licenza Apache-2.0 per uso personale, di ricerca e commerciale."
|
||||
},
|
||||
"flux-dev": {
|
||||
"description": "FLUX.1 [dev] è un modello open source raffinato e pesato per uso non commerciale. Mantiene qualità d'immagine e aderenza alle istruzioni simili alla versione professionale FLUX, ma con maggiore efficienza operativa. Rispetto a modelli standard di dimensioni simili, utilizza le risorse in modo più efficiente."
|
||||
},
|
||||
"flux-kontext/dev": {
|
||||
"description": "Modello di editing immagini Frontier."
|
||||
},
|
||||
"flux-merged": {
|
||||
"description": "Il modello FLUX.1-merged combina le caratteristiche approfondite esplorate nella fase di sviluppo \"DEV\" con i vantaggi di esecuzione rapida rappresentati da \"Schnell\". Questa combinazione non solo estende i limiti di prestazione del modello, ma ne amplia anche l'ambito di applicazione."
|
||||
},
|
||||
"flux-pro/kontext": {
|
||||
"description": "FLUX.1 Kontext [pro] è in grado di elaborare testo e immagini di riferimento come input, realizzando senza soluzione di continuità modifiche locali mirate e complesse trasformazioni dell'intera scena."
|
||||
},
|
||||
"flux-schnell": {
|
||||
"description": "FLUX.1 [schnell], attualmente il modello open source più avanzato a pochi passaggi, supera non solo i concorrenti simili ma anche potenti modelli non raffinati come Midjourney v6.0 e DALL·E 3 (HD). Ottimizzato per mantenere tutta la diversità di output della fase di pre-addestramento, migliora significativamente qualità visiva, aderenza alle istruzioni, variazioni di dimensione/proporzione, gestione dei font e diversità di output rispetto ai modelli più avanzati sul mercato, offrendo un'esperienza creativa più ricca e variegata."
|
||||
},
|
||||
"flux.1-schnell": {
|
||||
"description": "Trasformatore di flusso rettificato con 12 miliardi di parametri, capace di generare immagini basate su descrizioni testuali."
|
||||
},
|
||||
"flux/schnell": {
|
||||
"description": "FLUX.1 [schnell] è un modello trasformatore a flusso con 12 miliardi di parametri, capace di generare immagini di alta qualità da testo in 1-4 passaggi, adatto per uso personale e commerciale."
|
||||
},
|
||||
@@ -1190,6 +1109,9 @@
|
||||
"gemini-2.5-flash-preview-04-17": {
|
||||
"description": "Gemini 2.5 Flash Preview è il modello più conveniente di Google, che offre funzionalità complete."
|
||||
},
|
||||
"gemini-2.5-flash-preview-04-17-thinking": {
|
||||
"description": "Gemini 2.5 Flash Preview è il modello Google con il miglior rapporto qualità-prezzo, che offre funzionalità complete."
|
||||
},
|
||||
"gemini-2.5-flash-preview-05-20": {
|
||||
"description": "Gemini 2.5 Flash Preview è il modello Google con il miglior rapporto qualità-prezzo, che offre funzionalità complete."
|
||||
},
|
||||
@@ -1268,21 +1190,6 @@
|
||||
"glm-4.1v-thinking-flashx": {
|
||||
"description": "La serie GLM-4.1V-Thinking è attualmente il modello visivo più performante tra i modelli VLM di livello 10 miliardi di parametri noti, integrando le migliori prestazioni SOTA nelle attività di linguaggio visivo di pari livello, tra cui comprensione video, domande sulle immagini, risoluzione di problemi disciplinari, riconoscimento OCR, interpretazione di documenti e grafici, agent GUI, coding front-end web, grounding e altro. Le capacità in molteplici compiti superano persino il modello Qwen2.5-VL-72B con 8 volte più parametri. Grazie a tecniche avanzate di apprendimento rinforzato, il modello padroneggia il ragionamento tramite catena di pensiero per migliorare accuratezza e ricchezza delle risposte, superando significativamente i modelli tradizionali non-thinking in termini di risultati finali e interpretabilità."
|
||||
},
|
||||
"glm-4.5": {
|
||||
"description": "Ultimo modello di punta di Zhipu, supporta la modalità di pensiero commutabile, con capacità complessive al livello SOTA dei modelli open source e una lunghezza di contesto fino a 128K."
|
||||
},
|
||||
"glm-4.5-air": {
|
||||
"description": "Versione leggera di GLM-4.5, bilancia prestazioni e rapporto qualità-prezzo, con capacità di commutazione flessibile tra modelli di pensiero ibridi."
|
||||
},
|
||||
"glm-4.5-airx": {
|
||||
"description": "Versione ultra-veloce di GLM-4.5-Air, con tempi di risposta più rapidi, progettata per esigenze di grande scala e alta velocità."
|
||||
},
|
||||
"glm-4.5-flash": {
|
||||
"description": "Versione gratuita di GLM-4.5, con ottime prestazioni in inferenza, codice e agenti intelligenti."
|
||||
},
|
||||
"glm-4.5-x": {
|
||||
"description": "Versione ultra-veloce di GLM-4.5, con prestazioni potenti e velocità di generazione fino a 100 token al secondo."
|
||||
},
|
||||
"glm-4v": {
|
||||
"description": "GLM-4V offre potenti capacità di comprensione e ragionamento visivo, supportando vari compiti visivi."
|
||||
},
|
||||
@@ -1302,7 +1209,7 @@
|
||||
"description": "Inferenza ultraveloce: con una velocità di inferenza super rapida e prestazioni di ragionamento potenti."
|
||||
},
|
||||
"glm-z1-flash": {
|
||||
"description": "Serie GLM-Z1 con forti capacità di ragionamento complesso, eccellente in logica, matematica e programmazione."
|
||||
"description": "La serie GLM-Z1 possiede potenti capacità di ragionamento complesso, eccellendo in logica, matematica e programmazione. La lunghezza massima del contesto è di 32K."
|
||||
},
|
||||
"glm-z1-flashx": {
|
||||
"description": "Alta velocità e basso costo: versione potenziata Flash, con velocità di inferenza ultra-rapida e migliore garanzia di concorrenza."
|
||||
@@ -1478,9 +1385,6 @@
|
||||
"grok-2-1212": {
|
||||
"description": "Questo modello ha migliorato l'accuratezza, il rispetto delle istruzioni e le capacità multilingue."
|
||||
},
|
||||
"grok-2-image-1212": {
|
||||
"description": "Il nostro ultimo modello di generazione immagini può creare immagini vivide e realistiche basate su prompt testuali. Eccelle nella generazione di immagini per marketing, social media e intrattenimento."
|
||||
},
|
||||
"grok-2-vision-1212": {
|
||||
"description": "Questo modello ha migliorato l'accuratezza, il rispetto delle istruzioni e le capacità multilingue."
|
||||
},
|
||||
@@ -1550,9 +1454,6 @@
|
||||
"hunyuan-t1-20250529": {
|
||||
"description": "Ottimizzato per la creazione di testi, la scrittura di saggi, il frontend del codice, la matematica, il ragionamento logico e altre competenze scientifiche, con miglioramenti nella capacità di seguire istruzioni."
|
||||
},
|
||||
"hunyuan-t1-20250711": {
|
||||
"description": "Miglioramento significativo delle capacità in matematica avanzata, logica e codice, ottimizzazione della stabilità dell'output e potenziamento della capacità di gestione di testi lunghi."
|
||||
},
|
||||
"hunyuan-t1-latest": {
|
||||
"description": "Il primo modello di inferenza ibrido su larga scala Hybrid-Transformer-Mamba del settore, che espande le capacità di inferenza, offre una velocità di decodifica eccezionale e allinea ulteriormente le preferenze umane."
|
||||
},
|
||||
@@ -1601,12 +1502,6 @@
|
||||
"hunyuan-vision": {
|
||||
"description": "Ultimo modello multimodale di Hunyuan, supporta l'input di immagini e testo per generare contenuti testuali."
|
||||
},
|
||||
"image-01": {
|
||||
"description": "Nuovo modello di generazione immagini con resa dettagliata, supporta generazione da testo a immagine e da immagine a immagine."
|
||||
},
|
||||
"image-01-live": {
|
||||
"description": "Modello di generazione immagini con resa dettagliata, supporta generazione da testo a immagine e impostazioni di stile."
|
||||
},
|
||||
"imagen-4.0-generate-preview-06-06": {
|
||||
"description": "Serie di modelli di generazione di immagini da testo di quarta generazione Imagen"
|
||||
},
|
||||
@@ -1631,9 +1526,6 @@
|
||||
"internvl3-latest": {
|
||||
"description": "Il nostro ultimo modello multimodale, con una maggiore capacità di comprensione delle immagini e del testo, e una comprensione delle immagini a lungo termine, offre prestazioni paragonabili ai migliori modelli closed-source. Punta di default al nostro ultimo modello della serie InternVL, attualmente indirizzato a internvl3-78b."
|
||||
},
|
||||
"irag-1.0": {
|
||||
"description": "iRAG (image based RAG) sviluppato da Baidu è una tecnologia di generazione immagini da testo potenziata da retrieval, che combina risorse di miliardi di immagini di Baidu Search con potenti modelli di base per generare immagini ultra-realistiche, superando di gran lunga i sistemi nativi di generazione da testo a immagine, eliminando l'effetto artificiale AI e mantenendo bassi costi. iRAG è caratterizzato da assenza di allucinazioni, realismo estremo e risultati immediati."
|
||||
},
|
||||
"jamba-large": {
|
||||
"description": "Il nostro modello più potente e avanzato, progettato per gestire compiti complessi a livello aziendale, con prestazioni eccezionali."
|
||||
},
|
||||
@@ -1643,9 +1535,6 @@
|
||||
"jina-deepsearch-v1": {
|
||||
"description": "La ricerca approfondita combina la ricerca online, la lettura e il ragionamento, consentendo indagini complete. Puoi considerarlo come un agente che accetta il tuo compito di ricerca - eseguirà una ricerca approfondita e iterativa prima di fornire una risposta. Questo processo implica una continua ricerca, ragionamento e risoluzione dei problemi da diverse angolazioni. Questo è fondamentalmente diverso dai modelli di grandi dimensioni standard che generano risposte direttamente dai dati pre-addestrati e dai tradizionali sistemi RAG che si basano su ricerche superficiali una tantum."
|
||||
},
|
||||
"kimi-k2": {
|
||||
"description": "Kimi-K2, lanciato da Moonshot AI, è un modello base con architettura MoE dotato di potenti capacità di codice e agenti, con 1 trilione di parametri totali e 32 miliardi di parametri attivi. Nei test di benchmark su ragionamento generale, programmazione, matematica e agenti, il modello K2 supera altri modelli open source principali."
|
||||
},
|
||||
"kimi-k2-0711-preview": {
|
||||
"description": "kimi-k2 è un modello base con architettura MoE dotato di potenti capacità di codice e Agent, con un totale di 1T parametri e 32B parametri attivi. Nei test di benchmark per ragionamento generale, programmazione, matematica e Agent, il modello K2 supera altri modelli open source principali."
|
||||
},
|
||||
@@ -2039,9 +1928,6 @@
|
||||
"moonshotai/Kimi-Dev-72B": {
|
||||
"description": "Kimi-Dev-72B è un modello open source di grandi dimensioni per il codice, ottimizzato tramite apprendimento rinforzato su larga scala, capace di generare patch robuste e pronte per la produzione. Questo modello ha raggiunto un nuovo record del 60,4% su SWE-bench Verified, superando tutti i modelli open source nelle attività di ingegneria del software automatizzata come la correzione di difetti e la revisione del codice."
|
||||
},
|
||||
"moonshotai/Kimi-K2-Instruct": {
|
||||
"description": "Kimi K2 è un modello base con architettura MoE dotato di potenti capacità di codice e agenti, con 1 trilione di parametri totali e 32 miliardi di parametri attivi. Nei test di benchmark su ragionamento generale, programmazione, matematica e agenti, il modello K2 supera altri modelli open source principali."
|
||||
},
|
||||
"moonshotai/kimi-k2-instruct": {
|
||||
"description": "kimi-k2 è un modello di base con architettura MoE dotato di potenti capacità di codice e agenti, con un totale di 1T parametri e 32B parametri attivi. Nei test di benchmark per categorie principali come ragionamento generale, programmazione, matematica e agenti, il modello K2 supera le altre principali soluzioni open source."
|
||||
},
|
||||
@@ -2378,21 +2264,9 @@
|
||||
"qwen3-235b-a22b": {
|
||||
"description": "Qwen3 è un modello di nuova generazione con capacità notevolmente migliorate, raggiungendo livelli leader del settore in inferenza, generazione generale, agenti e multilinguismo, e supporta il passaggio tra modalità di pensiero."
|
||||
},
|
||||
"qwen3-235b-a22b-instruct-2507": {
|
||||
"description": "Modello open source non pensante basato su Qwen3, con miglioramenti lievi nella creatività soggettiva e nella sicurezza rispetto alla versione precedente (Tongyi Qianwen 3-235B-A22B)."
|
||||
},
|
||||
"qwen3-235b-a22b-thinking-2507": {
|
||||
"description": "Modello open source in modalità pensiero basato su Qwen3, con miglioramenti significativi in logica, capacità generali, potenziamento della conoscenza e creatività rispetto alla versione precedente (Tongyi Qianwen 3-235B-A22B), adatto a scenari di ragionamento complessi e impegnativi."
|
||||
},
|
||||
"qwen3-30b-a3b": {
|
||||
"description": "Qwen3 è un modello di nuova generazione con capacità notevolmente migliorate, raggiungendo livelli leader del settore in inferenza, generazione generale, agenti e multilinguismo, e supporta il passaggio tra modalità di pensiero."
|
||||
},
|
||||
"qwen3-30b-a3b-instruct-2507": {
|
||||
"description": "Rispetto alla versione precedente (Qwen3-30B-A3B), le capacità generali in cinese, inglese e multilingue sono state notevolmente migliorate. Ottimizzazione specifica per compiti soggettivi e aperti, con un allineamento molto più marcato alle preferenze degli utenti, in grado di fornire risposte più utili."
|
||||
},
|
||||
"qwen3-30b-a3b-thinking-2507": {
|
||||
"description": "Modello open source in modalità pensante basato su Qwen3, che rispetto alla versione precedente (Tongyi Qianwen 3-30B-A3B) presenta miglioramenti significativi nelle capacità logiche, generali, di conoscenza e creative, adatto a scenari complessi che richiedono un ragionamento avanzato."
|
||||
},
|
||||
"qwen3-32b": {
|
||||
"description": "Qwen3 è un modello di nuova generazione con capacità notevolmente migliorate, raggiungendo livelli leader del settore in inferenza, generazione generale, agenti e multilinguismo, e supporta il passaggio tra modalità di pensiero."
|
||||
},
|
||||
@@ -2402,12 +2276,6 @@
|
||||
"qwen3-8b": {
|
||||
"description": "Qwen3 è un modello di nuova generazione con capacità notevolmente migliorate, raggiungendo livelli leader del settore in inferenza, generazione generale, agenti e multilinguismo, e supporta il passaggio tra modalità di pensiero."
|
||||
},
|
||||
"qwen3-coder-480b-a35b-instruct": {
|
||||
"description": "Versione open source del modello di codice Tongyi Qianwen. L'ultimo qwen3-coder-480b-a35b-instruct è un modello di generazione codice basato su Qwen3, con potenti capacità di Coding Agent, esperto nell'uso di strumenti e interazione ambientale, capace di programmazione autonoma con eccellenti capacità di codice e capacità generali."
|
||||
},
|
||||
"qwen3-coder-plus": {
|
||||
"description": "Modello di codice Tongyi Qianwen. L'ultima serie Qwen3-Coder-Plus è un modello di generazione codice basato su Qwen3, con potenti capacità di Coding Agent, esperto nell'uso di strumenti e interazione ambientale, capace di programmazione autonoma con eccellenti capacità di codice e capacità generali."
|
||||
},
|
||||
"qwq": {
|
||||
"description": "QwQ è un modello di ricerca sperimentale, focalizzato sul miglioramento delle capacità di ragionamento dell'IA."
|
||||
},
|
||||
@@ -2450,24 +2318,6 @@
|
||||
"sonar-reasoning-pro": {
|
||||
"description": "Nuovo prodotto API supportato dal modello di ragionamento DeepSeek."
|
||||
},
|
||||
"stable-diffusion-3-medium": {
|
||||
"description": "Ultimo modello di generazione immagini da testo lanciato da Stability AI. Questa versione migliora significativamente qualità dell'immagine, comprensione testuale e varietà di stili rispetto alle precedenti, interpretando con maggiore precisione prompt linguistici complessi e generando immagini più accurate e diversificate."
|
||||
},
|
||||
"stable-diffusion-3.5-large": {
|
||||
"description": "stable-diffusion-3.5-large è un modello generativo multimodale a diffusione trasformativa (MMDiT) con 800 milioni di parametri, che offre qualità d'immagine eccellente e alta corrispondenza con i prompt, supportando la generazione di immagini ad alta risoluzione fino a 1 milione di pixel, e funzionando efficientemente su hardware consumer standard."
|
||||
},
|
||||
"stable-diffusion-3.5-large-turbo": {
|
||||
"description": "stable-diffusion-3.5-large-turbo è un modello basato su stable-diffusion-3.5-large che utilizza la tecnologia di distillazione di diffusione antagonista (ADD) per una maggiore velocità."
|
||||
},
|
||||
"stable-diffusion-v1.5": {
|
||||
"description": "stable-diffusion-v1.5 è inizializzato con i pesi del checkpoint stable-diffusion-v1.2 e raffinato per 595k passi a risoluzione 512x512 su \"laion-aesthetics v2 5+\", riducendo del 10% la condizionalità testuale per migliorare il campionamento guidato senza classificatore."
|
||||
},
|
||||
"stable-diffusion-xl": {
|
||||
"description": "stable-diffusion-xl presenta miglioramenti significativi rispetto alla versione v1.5 ed è comparabile agli attuali modelli SOTA open source come Midjourney. Le migliorie includono un backbone unet tre volte più grande, un modulo di raffinamento per migliorare la qualità delle immagini generate e tecniche di addestramento più efficienti."
|
||||
},
|
||||
"stable-diffusion-xl-base-1.0": {
|
||||
"description": "Modello di generazione immagini da testo sviluppato e open source da Stability AI, con capacità creative di alto livello nel settore. Offre eccellente comprensione delle istruzioni e supporta definizioni di prompt inversi per generazioni di contenuti precise."
|
||||
},
|
||||
"step-1-128k": {
|
||||
"description": "Equilibrio tra prestazioni e costi, adatto per scenari generali."
|
||||
},
|
||||
@@ -2498,12 +2348,6 @@
|
||||
"step-1v-8k": {
|
||||
"description": "Modello visivo di piccole dimensioni, adatto per compiti di base di testo e immagine."
|
||||
},
|
||||
"step-1x-edit": {
|
||||
"description": "Modello specializzato in compiti di editing immagini, capace di modificare e migliorare immagini basandosi su input di immagini e descrizioni testuali fornite dall'utente. Supporta vari formati di input, inclusi descrizioni testuali e immagini di esempio, comprendendo l'intento dell'utente e generando risultati di editing conformi alle richieste."
|
||||
},
|
||||
"step-1x-medium": {
|
||||
"description": "Modello con potenti capacità di generazione immagini, che supporta input tramite descrizioni testuali. Offre supporto nativo per il cinese, comprendendo e processando meglio descrizioni testuali in cinese, catturando con maggiore precisione il significato semantico e traducendolo in caratteristiche visive per una generazione più accurata. Produce immagini ad alta risoluzione e qualità, con capacità di trasferimento di stile."
|
||||
},
|
||||
"step-2-16k": {
|
||||
"description": "Supporta interazioni di contesto su larga scala, adatto per scenari di dialogo complessi."
|
||||
},
|
||||
@@ -2513,9 +2357,6 @@
|
||||
"step-2-mini": {
|
||||
"description": "Un modello di grandi dimensioni ad alta velocità basato sulla nuova architettura di attenzione auto-sviluppata MFA, in grado di raggiungere risultati simili a quelli di step1 a un costo molto basso, mantenendo al contempo una maggiore capacità di elaborazione e tempi di risposta più rapidi. È in grado di gestire compiti generali, con competenze particolari nella programmazione."
|
||||
},
|
||||
"step-2x-large": {
|
||||
"description": "Nuova generazione del modello Xingchen Step, focalizzato sulla generazione di immagini di alta qualità basate su descrizioni testuali fornite dall'utente. Il nuovo modello produce immagini con texture più realistiche e capacità migliorate nella generazione di testo in cinese e inglese."
|
||||
},
|
||||
"step-r1-v-mini": {
|
||||
"description": "Questo modello è un grande modello di inferenza con potenti capacità di comprensione delle immagini, in grado di gestire informazioni visive e testuali, producendo contenuti testuali dopo un profondo ragionamento. Questo modello si distingue nel campo del ragionamento visivo, mostrando anche capacità di ragionamento matematico, codice e testo di primo livello. La lunghezza del contesto è di 100k."
|
||||
},
|
||||
@@ -2591,23 +2432,8 @@
|
||||
"v0-1.5-md": {
|
||||
"description": "Il modello v0-1.5-md è adatto per compiti quotidiani e generazione di interfacce utente (UI)"
|
||||
},
|
||||
"wan2.2-t2i-flash": {
|
||||
"description": "Versione ultra-veloce Wanxiang 2.2, modello più recente. Miglioramenti completi in creatività, stabilità e realismo, con velocità di generazione elevata e ottimo rapporto qualità-prezzo."
|
||||
},
|
||||
"wan2.2-t2i-plus": {
|
||||
"description": "Versione professionale Wanxiang 2.2, modello più recente. Miglioramenti completi in creatività, stabilità e realismo, con dettagli di generazione ricchi."
|
||||
},
|
||||
"wanx-v1": {
|
||||
"description": "Modello base di generazione immagini da testo, corrispondente al modello generico 1.0 ufficiale di Tongyi Wanxiang."
|
||||
},
|
||||
"wanx2.0-t2i-turbo": {
|
||||
"description": "Specializzato in ritratti realistici, con velocità media e costi contenuti. Corrisponde al modello ultra-veloce 2.0 ufficiale di Tongyi Wanxiang."
|
||||
},
|
||||
"wanx2.1-t2i-plus": {
|
||||
"description": "Versione completamente aggiornata, con dettagli di immagine più ricchi e velocità leggermente inferiore. Corrisponde al modello professionale 2.1 ufficiale di Tongyi Wanxiang."
|
||||
},
|
||||
"wanx2.1-t2i-turbo": {
|
||||
"description": "Versione completamente aggiornata, con velocità elevata, prestazioni complete e ottimo rapporto qualità-prezzo. Corrisponde al modello ultra-veloce 2.1 ufficiale di Tongyi Wanxiang."
|
||||
"description": "Modello di generazione di immagini basato su testo di Tongyi di Alibaba Cloud"
|
||||
},
|
||||
"whisper-1": {
|
||||
"description": "Modello universale di riconoscimento vocale, supporta riconoscimento vocale multilingue, traduzione vocale e identificazione della lingua."
|
||||
@@ -2659,11 +2485,5 @@
|
||||
},
|
||||
"yi-vision-v2": {
|
||||
"description": "Modello per compiti visivi complessi, che offre capacità di comprensione e analisi ad alte prestazioni basate su più immagini."
|
||||
},
|
||||
"zai-org/GLM-4.5": {
|
||||
"description": "GLM-4.5 è un modello base progettato per applicazioni agenti intelligenti, che utilizza un'architettura Mixture-of-Experts (MoE). Ottimizzato profondamente per chiamate a strumenti, navigazione web, ingegneria del software e programmazione frontend, supporta integrazioni fluide con agenti di codice come Claude Code e Roo Code. Adotta una modalità di inferenza ibrida per adattarsi a scenari di ragionamento complessi e uso quotidiano."
|
||||
},
|
||||
"zai-org/GLM-4.5-Air": {
|
||||
"description": "GLM-4.5-Air è un modello base progettato per applicazioni agenti intelligenti, che utilizza un'architettura Mixture-of-Experts (MoE). Ottimizzato profondamente per chiamate a strumenti, navigazione web, ingegneria del software e programmazione frontend, supporta integrazioni fluide con agenti di codice come Claude Code e Roo Code. Adotta una modalità di inferenza ibrida per adattarsi a scenari di ragionamento complessi e uso quotidiano."
|
||||
}
|
||||
}
|
||||
|
||||
@@ -5,9 +5,6 @@
|
||||
"ai360": {
|
||||
"description": "360 AI è una piattaforma di modelli e servizi AI lanciata da 360 Company, che offre vari modelli avanzati di elaborazione del linguaggio naturale, tra cui 360GPT2 Pro, 360GPT Pro, 360GPT Turbo e 360GPT Turbo Responsibility 8K. Questi modelli combinano parametri su larga scala e capacità multimodali, trovando ampio utilizzo in generazione di testo, comprensione semantica, sistemi di dialogo e generazione di codice. Con strategie di prezzo flessibili, 360 AI soddisfa le esigenze diversificate degli utenti, supportando l'integrazione degli sviluppatori e promuovendo l'innovazione e lo sviluppo delle applicazioni intelligenti."
|
||||
},
|
||||
"aihubmix": {
|
||||
"description": "AiHubMix offre l'accesso a diversi modelli di intelligenza artificiale tramite un'interfaccia API unificata."
|
||||
},
|
||||
"anthropic": {
|
||||
"description": "Anthropic è un'azienda focalizzata sulla ricerca e sviluppo dell'intelligenza artificiale, che offre una serie di modelli linguistici avanzati, come Claude 3.5 Sonnet, Claude 3 Sonnet, Claude 3 Opus e Claude 3 Haiku. Questi modelli raggiungono un equilibrio ideale tra intelligenza, velocità e costi, adatti a una varietà di scenari applicativi, dalle operazioni aziendali a risposte rapide. Claude 3.5 Sonnet, il loro modello più recente, ha mostrato prestazioni eccezionali in diverse valutazioni, mantenendo un alto rapporto qualità-prezzo."
|
||||
},
|
||||
|
||||
@@ -189,7 +189,6 @@
|
||||
"aesGcm": "あなたのキーとプロキシアドレスなどは <1>AES-GCM</1> 暗号化アルゴリズムを使用して暗号化されます",
|
||||
"apiKey": {
|
||||
"desc": "あなたの {{name}} API キーを入力してください",
|
||||
"descWithUrl": "あなたの {{name}} APIキーを入力してください。<3>こちらから取得できます</3>",
|
||||
"placeholder": "{{name}} API キー",
|
||||
"title": "API キー"
|
||||
},
|
||||
|
||||
+5
-185
@@ -32,9 +32,6 @@
|
||||
"4.0Ultra": {
|
||||
"description": "Spark4.0 Ultraは星火大モデルシリーズの中で最も強力なバージョンで、ネットワーク検索のリンクをアップグレードし、テキストコンテンツの理解と要約能力を向上させています。これは、オフィスの生産性を向上させ、要求に正確に応えるための全方位のソリューションであり、業界をリードするインテリジェントな製品です。"
|
||||
},
|
||||
"AnimeSharp": {
|
||||
"description": "AnimeSharp(別名「4x‑AnimeSharp」)は、Kim2091がESRGANアーキテクチャを基に開発したオープンソースの超解像モデルで、アニメスタイルの画像の拡大とシャープ化に特化しています。2022年2月に「4x-TextSharpV1」から改名され、元々は文字画像にも対応していましたが、アニメコンテンツ向けに大幅に性能が最適化されています。"
|
||||
},
|
||||
"Baichuan2-Turbo": {
|
||||
"description": "検索強化技術を採用し、大モデルと分野知識、全網知識の全面的なリンクを実現しています。PDF、Wordなどのさまざまな文書のアップロードやURL入力をサポートし、情報取得が迅速かつ包括的で、出力結果は正確かつ専門的です。"
|
||||
},
|
||||
@@ -92,9 +89,6 @@
|
||||
"Doubao-pro-4k": {
|
||||
"description": "最も高性能な主力モデルで、複雑なタスクの処理に適しています。参考質問応答、要約、創作、テキスト分類、ロールプレイなどのシーンで優れた効果を発揮します。4kのコンテキストウィンドウでの推論と微調整をサポートします。"
|
||||
},
|
||||
"DreamO": {
|
||||
"description": "DreamOは、ByteDanceと北京大学が共同開発したオープンソースの画像カスタマイズ生成モデルで、統一されたアーキテクチャにより多様なタスクの画像生成をサポートします。効率的な組み合わせモデリング手法を採用し、ユーザーが指定したアイデンティティ、主体、スタイル、背景など複数の条件に基づき、高度に一貫性のあるカスタマイズ画像を生成可能です。"
|
||||
},
|
||||
"ERNIE-3.5-128K": {
|
||||
"description": "百度が独自に開発したフラッグシップの大規模言語モデルで、膨大な中英語のコーパスをカバーし、強力な汎用能力を持っています。ほとんどの対話型質問応答、創作生成、プラグインアプリケーションの要件を満たすことができます。また、百度検索プラグインとの自動接続をサポートし、質問応答情報のタイムリーさを保証します。"
|
||||
},
|
||||
@@ -128,39 +122,15 @@
|
||||
"ERNIE-Speed-Pro-128K": {
|
||||
"description": "百度が2024年に最新リリースした独自開発の高性能大規模言語モデルで、汎用能力が優れており、ERNIE Speedよりも効果が優れており、基盤モデルとして微調整に適しており、特定のシナリオの問題をより良く処理し、優れた推論性能を持っています。"
|
||||
},
|
||||
"FLUX.1-Kontext-dev": {
|
||||
"description": "FLUX.1-Kontext-devはBlack Forest Labsが開発した、Rectified Flow Transformerアーキテクチャに基づくマルチモーダル画像生成・編集モデルで、120億パラメータ規模を持ち、与えられたコンテキスト条件下で画像の生成、再構築、強化、編集に特化しています。本モデルは拡散モデルの制御可能な生成能力とTransformerのコンテキストモデリング能力を融合し、高品質な画像出力を実現。画像修復、画像補完、視覚シーン再構築など幅広いタスクに適用可能です。"
|
||||
},
|
||||
"FLUX.1-dev": {
|
||||
"description": "FLUX.1-devはBlack Forest Labsが開発したオープンソースのマルチモーダル言語モデル(Multimodal Language Model, MLLM)で、画像と言語の理解と生成能力を融合し、画像と言語のタスクに最適化されています。先進的な大規模言語モデル(例:Mistral-7B)を基盤に、精巧に設計された視覚エンコーダーと多段階の指示微調整を通じて、画像と言語の協調処理と複雑なタスク推論能力を実現しています。"
|
||||
},
|
||||
"Gryphe/MythoMax-L2-13b": {
|
||||
"description": "MythoMax-L2 (13B)は、革新的なモデルであり、多分野のアプリケーションや複雑なタスクに適しています。"
|
||||
},
|
||||
"HelloMeme": {
|
||||
"description": "HelloMemeは、提供された画像や動作に基づいて自動的にミーム画像、GIF、短い動画を生成するAIツールです。絵画やプログラミングの知識は不要で、参考画像を用意するだけで、見栄えが良く面白く、スタイルが一貫したコンテンツを作成できます。"
|
||||
},
|
||||
"HiDream-I1-Full": {
|
||||
"description": "HiDream-E1-Fullは智象未来(HiDream.ai)が提供するオープンソースのマルチモーダル画像編集大規模モデルで、先進的なDiffusion Transformerアーキテクチャを基盤に、強力な言語理解能力(内蔵LLaMA 3.1-8B-Instruct)を組み合わせています。自然言語指示による画像生成、スタイル転送、局所編集、内容の再描画をサポートし、優れた画像と言語の理解と実行能力を備えています。"
|
||||
},
|
||||
"HunyuanDiT-v1.2-Diffusers-Distilled": {
|
||||
"description": "hunyuandit-v1.2-distilledは軽量化されたテキストから画像生成モデルで、蒸留による最適化が施されており、高品質な画像を迅速に生成可能です。特にリソースが限られた環境やリアルタイム生成タスクに適しています。"
|
||||
},
|
||||
"InstantCharacter": {
|
||||
"description": "InstantCharacterはTencent AIチームが2025年にリリースした、微調整不要(tuning-free)のパーソナライズキャラクター生成モデルで、高忠実度かつクロスシーンで一貫したキャラクター生成を目指しています。単一の参照画像のみでキャラクターをモデリングし、そのキャラクターを多様なスタイル、動作、背景に柔軟に適用可能です。"
|
||||
},
|
||||
"InternVL2-8B": {
|
||||
"description": "InternVL2-8Bは、強力な視覚言語モデルで、画像とテキストのマルチモーダル処理をサポートし、画像内容を正確に認識し、関連する説明や回答を生成することができます。"
|
||||
},
|
||||
"InternVL2.5-26B": {
|
||||
"description": "InternVL2.5-26Bは、強力な視覚言語モデルで、画像とテキストのマルチモーダル処理をサポートし、画像内容を正確に認識し、関連する説明や回答を生成することができます。"
|
||||
},
|
||||
"Kolors": {
|
||||
"description": "KolorsはKuaishouのKolorsチームが開発したテキストから画像生成モデルで、数十億のパラメータで訓練されており、視覚品質、中国語の意味理解、テキストレンダリングにおいて顕著な優位性を持ちます。"
|
||||
},
|
||||
"Kwai-Kolors/Kolors": {
|
||||
"description": "KolorsはKuaishouのKolorsチームが開発した潜在拡散に基づく大規模テキストから画像生成モデルです。数十億のテキスト・画像ペアで訓練され、視覚品質、複雑な意味の正確性、中英文字のレンダリングに優れています。中英両言語の入力をサポートし、中国語特有の内容の理解と生成においても高い性能を発揮します。"
|
||||
},
|
||||
"Llama-3.2-11B-Vision-Instruct": {
|
||||
"description": "高解像度画像で優れた画像推論能力を発揮し、視覚理解アプリケーションに適しています。"
|
||||
},
|
||||
@@ -194,15 +164,9 @@
|
||||
"MiniMaxAI/MiniMax-M1-80k": {
|
||||
"description": "MiniMax-M1はオープンソースの重みを持つ大規模混合注意力推論モデルで、4560億のパラメータを有し、各トークンで約459億のパラメータが活性化されます。モデルは100万トークンの超長文コンテキストをネイティブにサポートし、ライトニングアテンション機構により10万トークンの生成タスクでDeepSeek R1と比べて75%の浮動小数点演算量を削減します。また、MiniMax-M1はMoE(混合エキスパート)アーキテクチャを採用し、CISPOアルゴリズムと混合注意力設計による効率的な強化学習トレーニングを組み合わせ、長文入力推論および実際のソフトウェア工学シナリオで業界最高の性能を実現しています。"
|
||||
},
|
||||
"Moonshot-Kimi-K2-Instruct": {
|
||||
"description": "総パラメータ数1兆、活性化パラメータ320億。非思考モデルの中で、先端知識、数学、コーディングにおいてトップレベルの性能を持ち、汎用エージェントタスクに優れています。エージェントタスクに特化して最適化されており、質問に答えるだけでなく行動も可能です。即興的で汎用的なチャットやエージェント体験に最適で、長時間の思考を必要としない反射的モデルです。"
|
||||
},
|
||||
"NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
||||
"description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B)は、高精度の指示モデルであり、複雑な計算に適しています。"
|
||||
},
|
||||
"OmniConsistency": {
|
||||
"description": "OmniConsistencyは大規模なDiffusion Transformers(DiTs)とペアスタイル化データを導入することで、画像から画像へのタスクにおけるスタイルの一貫性と汎化能力を向上させ、スタイルの劣化を防止します。"
|
||||
},
|
||||
"Phi-3-medium-128k-instruct": {
|
||||
"description": "同じPhi-3-mediumモデルですが、RAGまたは少数ショットプロンプティング用により大きなコンテキストサイズを持っています。"
|
||||
},
|
||||
@@ -254,9 +218,6 @@
|
||||
"Pro/deepseek-ai/DeepSeek-V3": {
|
||||
"description": "DeepSeek-V3は、6710億パラメータを持つ混合専門家(MoE)言語モデルで、多頭潜在注意力(MLA)とDeepSeekMoEアーキテクチャを採用し、無補助損失の負荷バランス戦略を組み合わせて推論とトレーニングの効率を最適化しています。14.8兆の高品質トークンで事前トレーニングを行い、監視付き微調整と強化学習を経て、DeepSeek-V3は他のオープンソースモデルを超え、先進的なクローズドモデルに近づいています。"
|
||||
},
|
||||
"Pro/moonshotai/Kimi-K2-Instruct": {
|
||||
"description": "Kimi K2は超強力なコードおよびエージェント能力を持つMoEアーキテクチャの基盤モデルで、総パラメータ数1兆、活性化パラメータ320億です。汎用知識推論、プログラミング、数学、エージェントなど主要カテゴリのベンチマーク性能で他の主流オープンソースモデルを上回っています。"
|
||||
},
|
||||
"QwQ-32B-Preview": {
|
||||
"description": "QwQ-32B-Previewは、複雑な対話生成と文脈理解タスクを効率的に処理できる革新的な自然言語処理モデルです。"
|
||||
},
|
||||
@@ -317,18 +278,9 @@
|
||||
"Qwen/Qwen3-235B-A22B": {
|
||||
"description": "Qwen3は、能力が大幅に向上した新世代の通義千問大モデルであり、推論、一般、エージェント、多言語などの複数のコア能力で業界のリーダーレベルに達し、思考モードの切り替えをサポートしています。"
|
||||
},
|
||||
"Qwen/Qwen3-235B-A22B-Instruct-2507": {
|
||||
"description": "Qwen3シリーズのフラッグシップ混合専門家(MoE)大規模言語モデルで、Alibaba Cloud Tongyi Qianwenチームが開発。総パラメータ2350億、推論時に220億パラメータを活性化します。Qwen3-235B-A22Bの非思考モードのアップデート版で、指示遵守、論理推論、テキスト理解、数学、科学、プログラミング、ツール使用などの汎用能力が大幅に向上。多言語の長尾知識カバーを強化し、主観的かつオープンなタスクにおけるユーザーの好みにより良く整合し、より有用で高品質なテキスト生成を実現します。"
|
||||
},
|
||||
"Qwen/Qwen3-235B-A22B-Thinking-2507": {
|
||||
"description": "Qwen3シリーズの大型言語モデルの一つで、Alibaba Tongyi Qianwenチームが開発。複雑な推論タスクに特化し、混合専門家(MoE)アーキテクチャを採用。総パラメータ2350億、トークンごとに約220億パラメータを活性化し、計算効率を高めつつ強力な性能を維持。論理推論、数学、科学、プログラミング、学術ベンチマークなど専門知識を要するタスクで顕著な性能向上を示し、オープンソースの思考モデルの中でトップレベル。指示遵守、ツール使用、テキスト生成などの汎用能力も強化し、256Kの長文コンテキスト理解をネイティブにサポート。深い推論や長文処理が必要なシナリオに最適です。"
|
||||
},
|
||||
"Qwen/Qwen3-30B-A3B": {
|
||||
"description": "Qwen3は、能力が大幅に向上した新世代の通義千問大モデルであり、推論、一般、エージェント、多言語などの複数のコア能力で業界のリーダーレベルに達し、思考モードの切り替えをサポートしています。"
|
||||
},
|
||||
"Qwen/Qwen3-30B-A3B-Instruct-2507": {
|
||||
"description": "Qwen3-30B-A3B-Instruct-2507は、Qwen3-30B-A3Bの非思考モードのアップデート版です。これは総パラメータ数305億、活性化パラメータ数33億の混合エキスパート(MoE)モデルです。本モデルは指示遵守、論理推論、テキスト理解、数学、科学、コーディング、ツール使用などの汎用能力を大幅に強化しました。また、多言語のロングテール知識カバレッジに実質的な進展を遂げ、主観的かつオープンなタスクにおけるユーザーの好みにより良く適合し、より有用な応答と高品質なテキストを生成できます。さらに、本モデルの長文理解能力は256Kにまで強化されています。本モデルは非思考モードのみをサポートし、出力に`<think></think>`タグは生成されません。"
|
||||
},
|
||||
"Qwen/Qwen3-32B": {
|
||||
"description": "Qwen3は、能力が大幅に向上した新世代の通義千問大モデルであり、推論、一般、エージェント、多言語などの複数のコア能力で業界のリーダーレベルに達し、思考モードの切り替えをサポートしています。"
|
||||
},
|
||||
@@ -362,12 +314,6 @@
|
||||
"Qwen2.5-Coder-32B-Instruct": {
|
||||
"description": "Qwen2.5-Coder-32B-Instructは、コード生成、コード理解、効率的な開発シーンのために設計された大規模言語モデルで、業界をリードする32Bパラメータ規模を採用しており、多様なプログラミングニーズに応えます。"
|
||||
},
|
||||
"Qwen3-235B": {
|
||||
"description": "Qwen3-235B-A22BはMoE(混合エキスパートモデル)で、「混合推論モード」を導入し、ユーザーが「思考モード」と「非思考モード」をシームレスに切り替え可能です。119言語と方言の理解・推論をサポートし、強力なツール呼び出し能力を備えています。総合能力、コード・数学、多言語能力、知識・推論などの複数のベンチマークで、DeepSeek R1、OpenAI o1、o3-mini、Grok 3、Google Gemini 2.5 Proなどの主要な大規模モデルと競合可能です。"
|
||||
},
|
||||
"Qwen3-32B": {
|
||||
"description": "Qwen3-32Bは密モデル(Dense Model)で、「混合推論モード」を導入し、ユーザーが「思考モード」と「非思考モード」をシームレスに切り替え可能です。モデルアーキテクチャの改良、トレーニングデータの増加、より効率的なトレーニング手法により、全体的な性能はQwen2.5-72Bと同等の水準に達しています。"
|
||||
},
|
||||
"SenseChat": {
|
||||
"description": "基本バージョンのモデル (V4)、4Kのコンテキスト長で、汎用能力が強力です。"
|
||||
},
|
||||
@@ -404,12 +350,6 @@
|
||||
"SenseChat-Vision": {
|
||||
"description": "最新バージョンモデル (V5.5) で、複数の画像入力をサポートし、モデルの基本能力の最適化を全面的に実現し、オブジェクト属性認識、空間関係、動作イベント認識、シーン理解、感情認識、論理常識推論、テキスト理解生成において大幅な向上を実現しました。"
|
||||
},
|
||||
"SenseNova-V6-5-Pro": {
|
||||
"description": "多モーダル、言語、推論データの包括的な更新とトレーニング戦略の最適化により、新モデルは多モーダル推論と汎用指示遵守能力で顕著な向上を実現しました。最大128kのコンテキストウィンドウをサポートし、OCRや文化観光IP認識などの専門タスクで卓越した性能を発揮します。"
|
||||
},
|
||||
"SenseNova-V6-5-Turbo": {
|
||||
"description": "多モーダル、言語、推論データの包括的な更新とトレーニング戦略の最適化により、新モデルは多モーダル推論と汎用指示遵守能力で顕著な向上を実現しました。最大128kのコンテキストウィンドウをサポートし、OCRや文化観光IP認識などの専門タスクで卓越した性能を発揮します。"
|
||||
},
|
||||
"SenseNova-V6-Pro": {
|
||||
"description": "画像、テキスト、動画の能力をネイティブに統一し、従来のマルチモーダルの分立的制限を突破し、OpenCompassとSuperCLUEの評価でダブルチャンピオンを獲得しました。"
|
||||
},
|
||||
@@ -1004,9 +944,6 @@
|
||||
"doubao-seed-1.6-thinking": {
|
||||
"description": "Doubao-Seed-1.6-thinking モデルは思考能力が大幅に強化されており、Doubao-1.5-thinking-pro と比較して、コーディング、数学、論理推論などの基礎能力がさらに向上しています。視覚理解もサポートしています。256k のコンテキストウィンドウをサポートし、最大 16k トークンの出力長に対応しています。"
|
||||
},
|
||||
"doubao-seedream-3-0-t2i-250415": {
|
||||
"description": "Doubao画像生成モデルはByteDanceのSeedチームが開発し、テキストと画像の入力をサポートし、高い制御性と高品質な画像生成体験を提供します。テキストプロンプトに基づいて画像を生成します。"
|
||||
},
|
||||
"doubao-vision-lite-32k": {
|
||||
"description": "Doubao-visionモデルは豆包が提供するマルチモーダル大規模モデルで、強力な画像理解と推論能力、正確な指示理解能力を備えています。画像テキスト情報抽出や画像に基づく推論タスクで高い性能を示し、より複雑で幅広い視覚質問応答タスクに応用可能です。"
|
||||
},
|
||||
@@ -1058,9 +995,6 @@
|
||||
"ernie-char-fiction-8k": {
|
||||
"description": "百度が独自に開発した垂直シーン向けの大規模言語モデルで、ゲームのNPC、カスタマーサービスの対話、対話キャラクターの役割演技などのアプリケーションシーンに適しており、キャラクターのスタイルがより鮮明で一貫しており、指示に従う能力が強く、推論性能が優れています。"
|
||||
},
|
||||
"ernie-irag-edit": {
|
||||
"description": "百度が独自開発したERNIE iRAG Edit画像編集モデルは、画像に基づく消去(erase)、再描画(repaint)、バリエーション生成(variation)などの操作をサポートします。"
|
||||
},
|
||||
"ernie-lite-8k": {
|
||||
"description": "ERNIE Liteは、百度が独自に開発した軽量級の大規模言語モデルで、優れたモデル効果と推論性能を兼ね備え、低計算能力のAIアクセラレータカードでの推論使用に適しています。"
|
||||
},
|
||||
@@ -1088,27 +1022,12 @@
|
||||
"ernie-x1-turbo-32k": {
|
||||
"description": "ERNIE-X1-32Kと比較して、モデルの効果と性能が向上しています。"
|
||||
},
|
||||
"flux-1-schnell": {
|
||||
"description": "Black Forest Labsが開発した120億パラメータのテキストから画像生成モデルで、潜在的敵対的拡散蒸留技術を採用し、1~4ステップで高品質な画像を生成可能。閉源の代替品に匹敵する性能を持ち、Apache-2.0ライセンスの下で個人、研究、商用利用に適用可能です。"
|
||||
},
|
||||
"flux-dev": {
|
||||
"description": "FLUX.1 [dev]は非商用用途向けのオープンソースの重み付き精錬モデルで、FLUXプロフェッショナル版に近い画像品質と指示遵守能力を維持しつつ、より高い実行効率を実現。標準モデルと同サイズながらリソース利用効率が向上しています。"
|
||||
},
|
||||
"flux-kontext/dev": {
|
||||
"description": "フロンティアイメージ編集モデル。"
|
||||
},
|
||||
"flux-merged": {
|
||||
"description": "FLUX.1-mergedモデルは、開発段階で探索された「DEV」の深層特性と「Schnell」が示す高速実行の利点を組み合わせています。この取り組みにより、FLUX.1-mergedはモデルの性能限界を押し上げ、応用範囲を拡大しました。"
|
||||
},
|
||||
"flux-pro/kontext": {
|
||||
"description": "FLUX.1 Kontext [pro] はテキストと参照画像を入力として処理し、目的に応じた局所編集や複雑な全体シーンの変換をシームレスに実現します。"
|
||||
},
|
||||
"flux-schnell": {
|
||||
"description": "FLUX.1 [schnell]は現時点で最先端の少ステップモデルであり、同種の競合モデルを凌駕し、Midjourney v6.0やDALL·E 3 (HD)などの強力な非蒸留モデルよりも優れています。専用の微調整により、事前学習段階の出力多様性を完全に保持し、市場の最先端モデルと比較して視覚品質、指示遵守、サイズ・比率変化、フォント処理、出力多様性の面で大幅に向上。ユーザーにより豊かで多様な創造的画像生成体験を提供します。"
|
||||
},
|
||||
"flux.1-schnell": {
|
||||
"description": "120億パラメータを持つ修正フロートランスフォーマーで、テキスト記述に基づいて画像を生成します。"
|
||||
},
|
||||
"flux/schnell": {
|
||||
"description": "FLUX.1 [schnell] は120億パラメータを持つストリーミングトランスフォーマーモデルで、1〜4ステップでテキストから高品質な画像を生成し、個人および商用利用に適しています。"
|
||||
},
|
||||
@@ -1190,6 +1109,9 @@
|
||||
"gemini-2.5-flash-preview-04-17": {
|
||||
"description": "Gemini 2.5 Flash Previewは、Googleのコストパフォーマンスに優れたモデルで、包括的な機能を提供します。"
|
||||
},
|
||||
"gemini-2.5-flash-preview-04-17-thinking": {
|
||||
"description": "Gemini 2.5 Flash PreviewはGoogleのコストパフォーマンスに優れたモデルで、包括的な機能を提供します。"
|
||||
},
|
||||
"gemini-2.5-flash-preview-05-20": {
|
||||
"description": "Gemini 2.5 Flash PreviewはGoogleのコストパフォーマンスに優れたモデルで、包括的な機能を提供します。"
|
||||
},
|
||||
@@ -1268,21 +1190,6 @@
|
||||
"glm-4.1v-thinking-flashx": {
|
||||
"description": "GLM-4.1V-Thinking シリーズモデルは、現時点で知られている10BクラスのVLMモデルの中で最も性能の高い視覚モデルであり、同クラスのSOTAの各種視覚言語タスクを統合しています。これには動画理解、画像質問応答、学科問題解決、OCR文字認識、文書およびグラフ解析、GUIエージェント、フロントエンドウェブコーディング、グラウンディングなどが含まれ、多くのタスク能力は8倍のパラメータを持つQwen2.5-VL-72Bをも上回ります。先進的な強化学習技術により、思考の連鎖推論を通じて回答の正確性と豊かさを向上させ、最終的な成果と説明可能性の両面で従来の非thinkingモデルを大きく凌駕しています。"
|
||||
},
|
||||
"glm-4.5": {
|
||||
"description": "智譜の最新フラッグシップモデルで、思考モードの切り替えをサポートし、総合能力はオープンソースモデルのSOTAレベルに達し、コンテキスト長は最大128Kです。"
|
||||
},
|
||||
"glm-4.5-air": {
|
||||
"description": "GLM-4.5の軽量版で、性能とコストパフォーマンスのバランスを取り、混合思考モデルの柔軟な切り替えが可能です。"
|
||||
},
|
||||
"glm-4.5-airx": {
|
||||
"description": "GLM-4.5-Airの高速版で、応答速度がさらに向上し、大規模かつ高速なニーズに特化しています。"
|
||||
},
|
||||
"glm-4.5-flash": {
|
||||
"description": "GLM-4.5の無料版で、推論、コード生成、エージェントなどのタスクで優れた性能を発揮します。"
|
||||
},
|
||||
"glm-4.5-x": {
|
||||
"description": "GLM-4.5の高速版で、強力な性能を持ちながら、生成速度は100トークン/秒に達します。"
|
||||
},
|
||||
"glm-4v": {
|
||||
"description": "GLM-4Vは強力な画像理解と推論能力を提供し、さまざまな視覚タスクをサポートします。"
|
||||
},
|
||||
@@ -1302,7 +1209,7 @@
|
||||
"description": "超高速推論:非常に速い推論速度と強力な推論効果を持っています。"
|
||||
},
|
||||
"glm-z1-flash": {
|
||||
"description": "GLM-Z1シリーズは強力な複雑推論能力を備え、論理推論、数学、プログラミングなどの分野で優れた性能を示します。"
|
||||
"description": "GLM-Z1シリーズは強力な複雑推論能力を持ち、論理推論、数学、プログラミングなどの分野で優れたパフォーマンスを発揮します。最大コンテキスト長は32Kです。"
|
||||
},
|
||||
"glm-z1-flashx": {
|
||||
"description": "高速かつ低価格:Flash強化版で、超高速推論速度とより速い同時処理を保証します。"
|
||||
@@ -1478,9 +1385,6 @@
|
||||
"grok-2-1212": {
|
||||
"description": "このモデルは、精度、指示の遵守、そして多言語能力において改善されています。"
|
||||
},
|
||||
"grok-2-image-1212": {
|
||||
"description": "最新の画像生成モデルで、テキストプロンプトに基づき生き生きとしたリアルな画像を生成します。マーケティング、ソーシャルメディア、エンターテインメント分野での画像生成に優れた性能を発揮します。"
|
||||
},
|
||||
"grok-2-vision-1212": {
|
||||
"description": "このモデルは、精度、指示の遵守、そして多言語能力において改善されています。"
|
||||
},
|
||||
@@ -1550,9 +1454,6 @@
|
||||
"hunyuan-t1-20250529": {
|
||||
"description": "テキスト作成や作文の最適化、コードのフロントエンド、数学、論理推論など理系能力の強化、指示遵守能力の向上を図っています。"
|
||||
},
|
||||
"hunyuan-t1-20250711": {
|
||||
"description": "高難度の数学、論理、コード能力を大幅に向上させ、モデルの出力安定性を最適化し、長文処理能力を強化しました。"
|
||||
},
|
||||
"hunyuan-t1-latest": {
|
||||
"description": "業界初の超大規模Hybrid-Transformer-Mamba推論モデルであり、推論能力を拡張し、超高速なデコード速度を実現し、人間の好みにさらに整合します。"
|
||||
},
|
||||
@@ -1601,12 +1502,6 @@
|
||||
"hunyuan-vision": {
|
||||
"description": "混元の最新のマルチモーダルモデルで、画像とテキストの入力をサポートし、テキストコンテンツを生成します。"
|
||||
},
|
||||
"image-01": {
|
||||
"description": "新しい画像生成モデルで、繊細な画質を持ち、テキストから画像、画像から画像の生成をサポートします。"
|
||||
},
|
||||
"image-01-live": {
|
||||
"description": "画像生成モデルで、繊細な画質を持ち、テキストから画像生成と画風設定をサポートします。"
|
||||
},
|
||||
"imagen-4.0-generate-preview-06-06": {
|
||||
"description": "Imagen 第4世代テキストから画像へのモデルシリーズ"
|
||||
},
|
||||
@@ -1631,9 +1526,6 @@
|
||||
"internvl3-latest": {
|
||||
"description": "私たちの最新のマルチモーダル大規模モデルは、より強力な画像と言語の理解能力と長期的な画像理解能力を備えており、トップクラスのクローズドソースモデルに匹敵する性能を持っています。デフォルトでは、私たちの最新の InternVL シリーズモデルに指向されており、現在は internvl3-78b に指向しています。"
|
||||
},
|
||||
"irag-1.0": {
|
||||
"description": "百度が独自開発したiRAG(image based RAG)は、検索強化型のテキストから画像生成技術で、百度検索の億単位の画像リソースと強力な基盤モデル能力を組み合わせ、非常にリアルな画像を生成します。従来のテキストから画像生成システムを大きく上回る効果を持ち、AI臭さがなく、コストも低減。iRAGは幻覚がなく、超リアルで即時利用可能な特徴を備えています。"
|
||||
},
|
||||
"jamba-large": {
|
||||
"description": "私たちの最も強力で先進的なモデルで、企業レベルの複雑なタスクを処理するために設計されており、卓越した性能を備えています。"
|
||||
},
|
||||
@@ -1643,9 +1535,6 @@
|
||||
"jina-deepsearch-v1": {
|
||||
"description": "深層検索は、ウェブ検索、読解、推論を組み合わせて、包括的な調査を行います。これは、あなたの研究タスクを受け入れる代理人として考えることができ、広範な検索を行い、何度も反復してから答えを提供します。このプロセスには、継続的な研究、推論、さまざまな視点からの問題解決が含まれます。これは、事前に訓練されたデータから直接答えを生成する標準的な大規模モデルや、一度きりの表面的な検索に依存する従来のRAGシステムとは根本的に異なります。"
|
||||
},
|
||||
"kimi-k2": {
|
||||
"description": "Kimi-K2はMoonshot AIが提供する超強力なコードおよびエージェント能力を持つMoEアーキテクチャ基盤モデルで、総パラメータ1兆、活性化パラメータ320億。汎用知識推論、プログラミング、数学、エージェントなど主要カテゴリのベンチマーク性能で他の主流オープンソースモデルを上回っています。"
|
||||
},
|
||||
"kimi-k2-0711-preview": {
|
||||
"description": "kimi-k2は強力なコードおよびエージェント能力を備えたMoEアーキテクチャの基盤モデルで、総パラメータ数は1兆、活性化パラメータは320億です。一般知識推論、プログラミング、数学、エージェントなどの主要カテゴリのベンチマーク性能テストで、K2モデルは他の主流オープンソースモデルを上回る性能を示しています。"
|
||||
},
|
||||
@@ -2039,9 +1928,6 @@
|
||||
"moonshotai/Kimi-Dev-72B": {
|
||||
"description": "Kimi-Dev-72B はオープンソースの大規模コードモデルであり、大規模な強化学習によって最適化されており、堅牢で直接本番投入可能なパッチを出力できます。このモデルは SWE-bench Verified で 60.4% の新記録を達成し、欠陥修正やコードレビューなどの自動化ソフトウェア工学タスクにおけるオープンソースモデルの記録を更新しました。"
|
||||
},
|
||||
"moonshotai/Kimi-K2-Instruct": {
|
||||
"description": "Kimi K2は超強力なコードおよびエージェント能力を持つMoEアーキテクチャ基盤モデルで、総パラメータ1兆、活性化パラメータ320億。汎用知識推論、プログラミング、数学、エージェントなど主要カテゴリのベンチマーク性能で他の主流オープンソースモデルを上回っています。"
|
||||
},
|
||||
"moonshotai/kimi-k2-instruct": {
|
||||
"description": "kimi-k2 は、強力なコードおよびエージェント機能を備えたMoEアーキテクチャの基盤モデルで、総パラメータ数は1兆、活性化パラメータは320億です。一般的な知識推論、プログラミング、数学、エージェントなどの主要なベンチマーク性能テストにおいて、K2モデルは他の主流のオープンソースモデルを上回る性能を示しています。"
|
||||
},
|
||||
@@ -2378,21 +2264,9 @@
|
||||
"qwen3-235b-a22b": {
|
||||
"description": "Qwen3は能力が大幅に向上した新世代の通義千問大モデルで、推論、一般、エージェント、多言語などの複数のコア能力において業界のリーダーレベルに達し、思考モードの切り替えをサポートしています。"
|
||||
},
|
||||
"qwen3-235b-a22b-instruct-2507": {
|
||||
"description": "Qwen3ベースの非思考モードオープンソースモデルで、前バージョン(通義千問3-235B-A22B)に比べ、主観的創作能力とモデルの安全性がわずかに向上しています。"
|
||||
},
|
||||
"qwen3-235b-a22b-thinking-2507": {
|
||||
"description": "Qwen3ベースの思考モードオープンソースモデルで、前バージョン(通義千問3-235B-A22B)に比べ、論理能力、汎用能力、知識強化、創作能力が大幅に向上し、高難度の強推論シナリオに適しています。"
|
||||
},
|
||||
"qwen3-30b-a3b": {
|
||||
"description": "Qwen3は能力が大幅に向上した新世代の通義千問大モデルで、推論、一般、エージェント、多言語などの複数のコア能力において業界のリーダーレベルに達し、思考モードの切り替えをサポートしています。"
|
||||
},
|
||||
"qwen3-30b-a3b-instruct-2507": {
|
||||
"description": "前バージョン(Qwen3-30B-A3B)に比べて、中国語・英語および多言語の全体的な汎用能力が大幅に向上しました。主観的かつオープンなタスクに特化した最適化により、ユーザーの好みにより適合し、より有用な応答を提供できます。"
|
||||
},
|
||||
"qwen3-30b-a3b-thinking-2507": {
|
||||
"description": "Qwen3の思考モードオープンソースモデルで、前バージョン(通義千問3-30B-A3B)に比べて論理能力、汎用能力、知識強化および創作能力が大幅に向上しており、高難度の強推論シナリオに適しています。"
|
||||
},
|
||||
"qwen3-32b": {
|
||||
"description": "Qwen3は能力が大幅に向上した新世代の通義千問大モデルで、推論、一般、エージェント、多言語などの複数のコア能力において業界のリーダーレベルに達し、思考モードの切り替えをサポートしています。"
|
||||
},
|
||||
@@ -2402,12 +2276,6 @@
|
||||
"qwen3-8b": {
|
||||
"description": "Qwen3は能力が大幅に向上した新世代の通義千問大モデルで、推論、一般、エージェント、多言語などの複数のコア能力において業界のリーダーレベルに達し、思考モードの切り替えをサポートしています。"
|
||||
},
|
||||
"qwen3-coder-480b-a35b-instruct": {
|
||||
"description": "通義千問のコードモデルオープンソース版。最新のqwen3-coder-480b-a35b-instructはQwen3ベースのコード生成モデルで、強力なコーディングエージェント能力を持ち、ツール呼び出しや環境とのインタラクションに優れ、自律的なプログラミングが可能で、コード能力と汎用能力を兼ね備えています。"
|
||||
},
|
||||
"qwen3-coder-plus": {
|
||||
"description": "通義千問のコードモデル。最新のQwen3-Coder-PlusシリーズモデルはQwen3ベースのコード生成モデルで、強力なコーディングエージェント能力を持ち、ツール呼び出しや環境とのインタラクションに優れ、自律的なプログラミングが可能で、コード能力と汎用能力を兼ね備えています。"
|
||||
},
|
||||
"qwq": {
|
||||
"description": "QwQはAIの推論能力を向上させることに特化した実験的研究モデルです。"
|
||||
},
|
||||
@@ -2450,24 +2318,6 @@
|
||||
"sonar-reasoning-pro": {
|
||||
"description": "DeepSeek推論モデルによってサポートされる新しいAPI製品。"
|
||||
},
|
||||
"stable-diffusion-3-medium": {
|
||||
"description": "Stability AIがリリースした最新のテキストから画像生成大規模モデルです。前世代の利点を継承しつつ、画像品質、テキスト理解、スタイル多様性の面で大幅に改善され、複雑な自然言語プロンプトをより正確に解釈し、より精密かつ多様な画像を生成可能です。"
|
||||
},
|
||||
"stable-diffusion-3.5-large": {
|
||||
"description": "stable-diffusion-3.5-largeは8億パラメータを持つマルチモーダル拡散トランスフォーマー(MMDiT)テキストから画像生成モデルで、卓越した画像品質とプロンプト適合性を備え、100万画素の高解像度画像生成をサポートし、一般的な消費者向けハードウェア上で効率的に動作します。"
|
||||
},
|
||||
"stable-diffusion-3.5-large-turbo": {
|
||||
"description": "stable-diffusion-3.5-large-turboはstable-diffusion-3.5-largeを基に、敵対的拡散蒸留(ADD)技術を採用したモデルで、より高速な生成速度を実現しています。"
|
||||
},
|
||||
"stable-diffusion-v1.5": {
|
||||
"description": "stable-diffusion-v1.5はstable-diffusion-v1.2のチェックポイント重みを初期化に使用し、「laion-aesthetics v2 5+」で512x512解像度にて595kステップの微調整を行い、テキスト条件付けを10%削減して無分類器ガイダンスサンプリングを改善しました。"
|
||||
},
|
||||
"stable-diffusion-xl": {
|
||||
"description": "stable-diffusion-xlはv1.5に比べ大幅な改良が施され、現行のオープンソーステキストから画像生成SOTAモデルmidjourneyと同等の効果を持ちます。具体的な改良点は、unetバックボーンが従来の3倍の大きさ、生成画像の品質向上のためのリファインメントモジュール追加、効率的なトレーニング技術の導入などです。"
|
||||
},
|
||||
"stable-diffusion-xl-base-1.0": {
|
||||
"description": "Stability AIが開発しオープンソース化したテキストから画像生成大規模モデルで、業界トップクラスの創造的画像生成能力を持ち、優れた指示理解能力を備え、逆プロンプト定義による精密な内容生成をサポートします。"
|
||||
},
|
||||
"step-1-128k": {
|
||||
"description": "性能とコストのバランスを取り、一般的なシナリオに適しています。"
|
||||
},
|
||||
@@ -2498,12 +2348,6 @@
|
||||
"step-1v-8k": {
|
||||
"description": "小型ビジュアルモデルで、基本的なテキストと画像のタスクに適しています。"
|
||||
},
|
||||
"step-1x-edit": {
|
||||
"description": "本モデルは画像編集タスクに特化しており、ユーザーが提供した画像とテキスト記述に基づき、画像の修正や強化を行います。テキスト記述やサンプル画像など多様な入力形式をサポートし、ユーザーの意図を理解して要求に合致した画像編集結果を生成します。"
|
||||
},
|
||||
"step-1x-medium": {
|
||||
"description": "本モデルは強力な画像生成能力を持ち、テキスト記述を入力としてサポートします。ネイティブの中国語対応により、中国語テキスト記述の理解と処理が向上し、テキストの意味情報をより正確に捉えて画像特徴に変換し、より精密な画像生成を実現します。入力に基づき高解像度かつ高品質な画像を生成し、一定のスタイル転送能力も備えています。"
|
||||
},
|
||||
"step-2-16k": {
|
||||
"description": "大規模なコンテキストインタラクションをサポートし、複雑な対話シナリオに適しています。"
|
||||
},
|
||||
@@ -2513,9 +2357,6 @@
|
||||
"step-2-mini": {
|
||||
"description": "新世代の自社開発のAttentionアーキテクチャMFAに基づく超高速大モデルで、非常に低コストでstep1と同様の効果を達成しつつ、より高いスループットと迅速な応答遅延を維持しています。一般的なタスクを処理でき、コード能力において特長を持っています。"
|
||||
},
|
||||
"step-2x-large": {
|
||||
"description": "階躍星辰の新世代画像生成モデルで、画像生成タスクに特化し、ユーザーが提供したテキスト記述に基づき高品質な画像を生成します。新モデルは画像の質感がよりリアルで、中英両言語の文字生成能力が強化されています。"
|
||||
},
|
||||
"step-r1-v-mini": {
|
||||
"description": "このモデルは強力な画像理解能力を持つ推論大モデルで、画像とテキスト情報を処理し、深い思考の後にテキストを生成します。このモデルは視覚推論分野で優れたパフォーマンスを発揮し、数学、コード、テキスト推論能力も第一級です。コンテキスト長は100kです。"
|
||||
},
|
||||
@@ -2591,23 +2432,8 @@
|
||||
"v0-1.5-md": {
|
||||
"description": "v0-1.5-md モデルは、日常的なタスクやユーザーインターフェース(UI)生成に適しています"
|
||||
},
|
||||
"wan2.2-t2i-flash": {
|
||||
"description": "万相2.2の高速版で、現時点で最新のモデルです。創造性、安定性、写実的質感が全面的にアップグレードされ、生成速度が速く、コストパフォーマンスに優れています。"
|
||||
},
|
||||
"wan2.2-t2i-plus": {
|
||||
"description": "万相2.2のプロフェッショナル版で、現時点で最新のモデルです。創造性、安定性、写実的質感が全面的にアップグレードされ、生成される画像のディテールが豊かです。"
|
||||
},
|
||||
"wanx-v1": {
|
||||
"description": "基礎的なテキストから画像生成モデルで、通義万相公式サイトの1.0汎用モデルに対応しています。"
|
||||
},
|
||||
"wanx2.0-t2i-turbo": {
|
||||
"description": "質感の良い人物画像生成に優れ、速度は中程度でコストが低いモデル。通義万相公式サイトの2.0高速モデルに対応しています。"
|
||||
},
|
||||
"wanx2.1-t2i-plus": {
|
||||
"description": "全面的にアップグレードされたバージョンで、生成画像のディテールがより豊かで、速度はやや遅いです。通義万相公式サイトの2.1プロフェッショナルモデルに対応しています。"
|
||||
},
|
||||
"wanx2.1-t2i-turbo": {
|
||||
"description": "全面的にアップグレードされたバージョンで、生成速度が速く、効果が総合的に優れており、コストパフォーマンスが高いです。通義万相公式サイトの2.1高速モデルに対応しています。"
|
||||
"description": "アリババクラウドのTongyiが提供するテキストから画像生成モデル"
|
||||
},
|
||||
"whisper-1": {
|
||||
"description": "汎用音声認識モデルで、多言語の音声認識、音声翻訳、言語識別をサポートします。"
|
||||
@@ -2659,11 +2485,5 @@
|
||||
},
|
||||
"yi-vision-v2": {
|
||||
"description": "複雑な視覚タスクモデルで、複数の画像に基づく高性能な理解と分析能力を提供します。"
|
||||
},
|
||||
"zai-org/GLM-4.5": {
|
||||
"description": "GLM-4.5はエージェントアプリケーション向けに設計された基盤モデルで、混合専門家(Mixture-of-Experts)アーキテクチャを採用。ツール呼び出し、ウェブブラウジング、ソフトウェア工学、フロントエンドプログラミング分野で深く最適化され、Claude CodeやRoo Codeなどのコードエージェントへのシームレスな統合をサポートします。混合推論モードを採用し、複雑な推論や日常利用など多様なシナリオに適応可能です。"
|
||||
},
|
||||
"zai-org/GLM-4.5-Air": {
|
||||
"description": "GLM-4.5-Airはエージェントアプリケーション向けに設計された基盤モデルで、混合専門家(Mixture-of-Experts)アーキテクチャを採用。ツール呼び出し、ウェブブラウジング、ソフトウェア工学、フロントエンドプログラミング分野で深く最適化され、Claude CodeやRoo Codeなどのコードエージェントへのシームレスな統合をサポートします。混合推論モードを採用し、複雑な推論や日常利用など多様なシナリオに適応可能です。"
|
||||
}
|
||||
}
|
||||
|
||||
@@ -5,9 +5,6 @@
|
||||
"ai360": {
|
||||
"description": "360 AIは、360社が提供するAIモデルとサービスプラットフォームであり、360GPT2 Pro、360GPT Pro、360GPT Turbo、360GPT Turbo Responsibility 8Kなど、さまざまな先進的な自然言語処理モデルを提供しています。これらのモデルは、大規模なパラメータと多モーダル能力を組み合わせており、テキスト生成、意味理解、対話システム、コード生成などの分野で広く使用されています。柔軟な価格戦略を通じて、360 AIは多様なユーザーのニーズに応え、開発者の統合をサポートし、スマートアプリケーションの革新と発展を促進します。"
|
||||
},
|
||||
"aihubmix": {
|
||||
"description": "AiHubMix は統一された API インターフェースを通じて、さまざまな AI モデルへのアクセスを提供します。"
|
||||
},
|
||||
"anthropic": {
|
||||
"description": "Anthropicは、人工知能の研究と開発に特化した企業であり、Claude 3.5 Sonnet、Claude 3 Sonnet、Claude 3 Opus、Claude 3 Haikuなどの先進的な言語モデルを提供しています。これらのモデルは、知性、速度、コストの理想的なバランスを実現しており、企業向けのワークロードから迅速な応答が求められるさまざまなアプリケーションシーンに適しています。Claude 3.5 Sonnetは最新のモデルであり、複数の評価で優れたパフォーマンスを示し、高いコストパフォーマンスを維持しています。"
|
||||
},
|
||||
|
||||
@@ -189,7 +189,6 @@
|
||||
"aesGcm": "귀하의 비밀 키와 프록시 주소 등은 <1>AES-GCM</1> 암호화 알고리즘을 사용하여 암호화됩니다",
|
||||
"apiKey": {
|
||||
"desc": "{{name}} API 키를 입력하세요",
|
||||
"descWithUrl": "{{name}} API 키를 입력하세요. <3>여기를 클릭하여 받기</3>",
|
||||
"placeholder": "{{name}} API 키",
|
||||
"title": "API 키"
|
||||
},
|
||||
|
||||
+5
-185
@@ -32,9 +32,6 @@
|
||||
"4.0Ultra": {
|
||||
"description": "Spark4.0 Ultra는 스타크 대형 모델 시리즈 중 가장 강력한 버전으로, 업그레이드된 네트워크 검색 링크와 함께 텍스트 내용의 이해 및 요약 능력을 향상시킵니다. 사무 생산성을 높이고 정확한 요구에 응답하기 위한 종합 솔루션으로, 업계를 선도하는 스마트 제품입니다."
|
||||
},
|
||||
"AnimeSharp": {
|
||||
"description": "AnimeSharp(일명 “4x‑AnimeSharp”)는 Kim2091이 ESRGAN 아키텍처를 기반으로 개발한 오픈 소스 초해상도 모델로, 애니메이션 스타일 이미지의 확대 및 선명화에 중점을 두고 있습니다. 2022년 2월에 “4x-TextSharpV1”에서 이름이 변경되었으며, 원래는 텍스트 이미지에도 적용 가능했으나 애니메이션 콘텐츠에 맞게 성능이 크게 최적화되었습니다."
|
||||
},
|
||||
"Baichuan2-Turbo": {
|
||||
"description": "검색 강화 기술을 통해 대형 모델과 분야 지식, 전 세계 지식의 완전한 연결을 실현합니다. PDF, Word 등 다양한 문서 업로드 및 웹사이트 입력을 지원하며, 정보 획득이 신속하고 포괄적이며, 출력 결과가 정확하고 전문적입니다."
|
||||
},
|
||||
@@ -92,9 +89,6 @@
|
||||
"Doubao-pro-4k": {
|
||||
"description": "최고 성능의 주력 모델로 복잡한 작업 처리에 적합하며, 참고 질문 답변, 요약, 창작, 텍스트 분류, 역할극 등 다양한 시나리오에서 우수한 성과를 보입니다. 4k 컨텍스트 윈도우 추론 및 미세 조정을 지원합니다."
|
||||
},
|
||||
"DreamO": {
|
||||
"description": "DreamO는 바이트댄스와 베이징대학교가 공동 개발한 오픈 소스 이미지 맞춤 생성 모델로, 통합 아키텍처를 통해 다중 작업 이미지 생성을 지원합니다. 효율적인 조합 모델링 방식을 채택하여 사용자가 지정한 신원, 주체, 스타일, 배경 등 다양한 조건에 따라 일관성 있고 맞춤화된 이미지를 생성할 수 있습니다."
|
||||
},
|
||||
"ERNIE-3.5-128K": {
|
||||
"description": "바이두가 자체 개발한 플래그십 대규모 언어 모델로, 방대한 중문 및 영문 코퍼스를 포함하고 있으며, 강력한 일반 능력을 갖추고 있어 대부분의 대화형 질문 응답, 창작 생성, 플러그인 응용 시나리오 요구를 충족할 수 있습니다. 또한 바이두 검색 플러그인과의 자동 연동을 지원하여 질문 응답 정보의 시의성을 보장합니다."
|
||||
},
|
||||
@@ -128,39 +122,15 @@
|
||||
"ERNIE-Speed-Pro-128K": {
|
||||
"description": "바이두가 2024년에 최신 발표한 자체 개발 고성능 대언어 모델로, 일반 능력이 뛰어나며, ERNIE Speed보다 더 나은 성능을 보여 특정 시나리오 문제를 더 잘 처리하기 위해 기본 모델로 조정하는 데 적합하며, 뛰어난 추론 성능을 갖추고 있습니다."
|
||||
},
|
||||
"FLUX.1-Kontext-dev": {
|
||||
"description": "FLUX.1-Kontext-dev는 Black Forest Labs가 개발한 Rectified Flow Transformer 아키텍처 기반의 다중 모달 이미지 생성 및 편집 모델로, 120억(12B) 파라미터 규모를 갖추고 있습니다. 주어진 컨텍스트 조건 하에서 이미지 생성, 재구성, 향상 또는 편집에 특화되어 있습니다. 이 모델은 확산 모델의 제어 가능한 생성 장점과 Transformer의 컨텍스트 모델링 능력을 결합하여 고품질 이미지 출력을 지원하며, 이미지 복원, 이미지 보완, 시각적 장면 재구성 등 다양한 작업에 널리 활용됩니다."
|
||||
},
|
||||
"FLUX.1-dev": {
|
||||
"description": "FLUX.1-dev는 Black Forest Labs가 개발한 오픈 소스 다중 모달 언어 모델(MLLM)로, 이미지와 텍스트 이해 및 생성 능력을 융합하여 이미지-텍스트 작업에 최적화되어 있습니다. Mistral-7B와 같은 최첨단 대형 언어 모델을 기반으로 정교하게 설계된 시각 인코더와 다단계 명령 미세 조정을 통해 이미지-텍스트 협업 처리 및 복잡한 작업 추론 능력을 구현합니다."
|
||||
},
|
||||
"Gryphe/MythoMax-L2-13b": {
|
||||
"description": "MythoMax-L2 (13B)는 혁신적인 모델로, 다양한 분야의 응용과 복잡한 작업에 적합합니다."
|
||||
},
|
||||
"HelloMeme": {
|
||||
"description": "HelloMeme는 사용자가 제공한 이미지나 동작을 바탕으로 자동으로 밈, GIF 또는 짧은 동영상을 생성하는 AI 도구입니다. 그림 그리기나 프로그래밍 지식이 전혀 없어도 참고 이미지만 준비하면, 보기 좋고 재미있으며 스타일이 일관된 콘텐츠를 만들어 줍니다."
|
||||
},
|
||||
"HiDream-I1-Full": {
|
||||
"description": "HiDream-E1-Full은 지상미래(HiDream.ai)에서 출시한 오픈 소스 다중 모달 이미지 편집 대형 모델로, 최첨단 Diffusion Transformer 아키텍처를 기반으로 강력한 언어 이해 능력(LLaMA 3.1-8B-Instruct 내장)을 결합하여 자연어 명령을 통해 이미지 생성, 스타일 전이, 부분 편집 및 내용 재구성을 지원하며 뛰어난 이미지-텍스트 이해 및 실행 능력을 갖추고 있습니다."
|
||||
},
|
||||
"HunyuanDiT-v1.2-Diffusers-Distilled": {
|
||||
"description": "hunyuandit-v1.2-distilled는 경량화된 텍스트-이미지 생성 모델로, 증류 최적화를 거쳐 빠르게 고품질 이미지를 생성할 수 있어 저자원 환경과 실시간 생성 작업에 특히 적합합니다."
|
||||
},
|
||||
"InstantCharacter": {
|
||||
"description": "InstantCharacter는 텐센트 AI 팀이 2025년에 발표한 튜닝 불필요(tuning-free) 개인화 캐릭터 생성 모델로, 고충실도 및 다양한 장면에서 일관된 캐릭터 생성을 목표로 합니다. 단 한 장의 참조 이미지로 캐릭터를 모델링할 수 있으며, 해당 캐릭터를 다양한 스타일, 동작, 배경에 유연하게 적용할 수 있습니다."
|
||||
},
|
||||
"InternVL2-8B": {
|
||||
"description": "InternVL2-8B는 강력한 비주얼 언어 모델로, 이미지와 텍스트의 다중 모달 처리를 지원하며, 이미지 내용을 정확하게 인식하고 관련 설명이나 답변을 생성할 수 있습니다."
|
||||
},
|
||||
"InternVL2.5-26B": {
|
||||
"description": "InternVL2.5-26B는 강력한 비주얼 언어 모델로, 이미지와 텍스트의 다중 모달 처리를 지원하며, 이미지 내용을 정확하게 인식하고 관련 설명이나 답변을 생성할 수 있습니다."
|
||||
},
|
||||
"Kolors": {
|
||||
"description": "Kolors는 콰이쇼우 Kolors 팀이 개발한 텍스트-이미지 생성 모델로, 수십억 개의 파라미터로 훈련되어 시각 품질, 중국어 의미 이해 및 텍스트 렌더링에서 뛰어난 성능을 보입니다."
|
||||
},
|
||||
"Kwai-Kolors/Kolors": {
|
||||
"description": "Kolors는 콰이쇼우 Kolors 팀이 개발한 잠재 확산 기반 대규모 텍스트-이미지 생성 모델입니다. 수십억 개의 텍스트-이미지 쌍으로 훈련되어 시각 품질, 복잡한 의미 정확성 및 중영문 문자 렌더링에서 탁월한 성능을 발휘합니다. 중영문 입력을 모두 지원하며, 중국어 특정 콘텐츠의 이해 및 생성에서도 뛰어난 성과를 보입니다."
|
||||
},
|
||||
"Llama-3.2-11B-Vision-Instruct": {
|
||||
"description": "고해상도 이미지에서 뛰어난 이미지 추론 능력을 보여주며, 시각적 이해 응용 프로그램에 적합합니다."
|
||||
},
|
||||
@@ -194,15 +164,9 @@
|
||||
"MiniMaxAI/MiniMax-M1-80k": {
|
||||
"description": "MiniMax-M1은 오픈 소스 가중치를 가진 대규모 혼합 주의 추론 모델로, 4,560억 개의 파라미터를 보유하고 있으며, 각 토큰당 약 459억 개의 파라미터가 활성화됩니다. 모델은 100만 토큰의 초장기 문맥을 원활히 지원하며, 번개 주의 메커니즘을 통해 10만 토큰 생성 작업에서 DeepSeek R1 대비 75%의 부동 소수점 연산량을 절감합니다. 또한 MiniMax-M1은 MoE(혼합 전문가) 아키텍처를 채택하고, CISPO 알고리즘과 혼합 주의 설계가 결합된 효율적인 강화 학습 훈련을 통해 긴 입력 추론과 실제 소프트웨어 엔지니어링 환경에서 업계 선도적인 성능을 구현합니다."
|
||||
},
|
||||
"Moonshot-Kimi-K2-Instruct": {
|
||||
"description": "총 파라미터 1조, 활성화 파라미터 320억. 비사고 모델 중에서 최첨단 지식, 수학, 코딩 분야에서 최고 수준을 달성했으며, 범용 에이전트 작업에 더 강합니다. 에이전트 작업에 최적화되어 질문에 답변할 뿐만 아니라 행동도 수행할 수 있습니다. 즉흥적이고 범용적인 대화 및 에이전트 경험에 가장 적합하며, 장시간 사고가 필요 없는 반사 수준 모델입니다."
|
||||
},
|
||||
"NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
||||
"description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B)는 고정밀 지시 모델로, 복잡한 계산에 적합합니다."
|
||||
},
|
||||
"OmniConsistency": {
|
||||
"description": "OmniConsistency는 대규모 Diffusion Transformers(DiTs)와 페어드 스타일 데이터 도입을 통해 이미지-투-이미지 작업에서 스타일 일관성과 일반화 능력을 향상시켜 스타일 저하를 방지합니다."
|
||||
},
|
||||
"Phi-3-medium-128k-instruct": {
|
||||
"description": "같은 Phi-3-medium 모델이지만 RAG 또는 몇 가지 샷 프롬프트를 위한 더 큰 컨텍스트 크기를 가지고 있습니다."
|
||||
},
|
||||
@@ -254,9 +218,6 @@
|
||||
"Pro/deepseek-ai/DeepSeek-V3": {
|
||||
"description": "DeepSeek-V3는 6710억 개의 매개변수를 가진 혼합 전문가(MoE) 언어 모델로, 다중 헤드 잠재 주의(MLA) 및 DeepSeekMoE 아키텍처를 사용하여 보조 손실 없는 부하 균형 전략을 결합하여 추론 및 훈련 효율성을 최적화합니다. 14.8조 개의 고품질 토큰에서 사전 훈련을 수행하고 감독 미세 조정 및 강화 학습을 통해 DeepSeek-V3는 성능 면에서 다른 오픈 소스 모델을 초월하며, 선도적인 폐쇄형 모델에 근접합니다."
|
||||
},
|
||||
"Pro/moonshotai/Kimi-K2-Instruct": {
|
||||
"description": "Kimi K2는 초강력 코드 및 에이전트 능력을 갖춘 MoE 아키텍처 기반 모델로, 총 파라미터 1조, 활성화 파라미터 320억입니다. 범용 지식 추론, 프로그래밍, 수학, 에이전트 등 주요 분야 벤치마크에서 K2 모델은 다른 주류 오픈 소스 모델을 능가하는 성능을 보입니다."
|
||||
},
|
||||
"QwQ-32B-Preview": {
|
||||
"description": "QwQ-32B-Preview는 복잡한 대화 생성 및 맥락 이해 작업을 효율적으로 처리할 수 있는 혁신적인 자연어 처리 모델입니다."
|
||||
},
|
||||
@@ -317,18 +278,9 @@
|
||||
"Qwen/Qwen3-235B-A22B": {
|
||||
"description": "Qwen3는 능력이 크게 향상된 차세대 통의천문 대모델로, 추론, 일반, 에이전트 및 다국어 등 여러 핵심 능력에서 업계 선두 수준에 도달하며 사고 모드 전환을 지원합니다."
|
||||
},
|
||||
"Qwen/Qwen3-235B-A22B-Instruct-2507": {
|
||||
"description": "Qwen3 시리즈의 플래그십 혼합 전문가(MoE) 대형 언어 모델로, 알리바바 클라우드 통의천문 팀이 개발했습니다. 총 2350억 파라미터, 추론 시 220억 파라미터 활성화됩니다. Qwen3-235B-A22B 비사고 모드의 업데이트 버전으로, 명령 준수, 논리 추론, 텍스트 이해, 수학, 과학, 프로그래밍 및 도구 사용 등 범용 능력에서 크게 향상되었습니다. 또한 다국어 롱테일 지식 커버리지를 강화하고, 주관적 및 개방형 작업에서 사용자 선호에 더 잘 맞춰 더 유용하고 고품질의 텍스트를 생성합니다."
|
||||
},
|
||||
"Qwen/Qwen3-235B-A22B-Thinking-2507": {
|
||||
"description": "Qwen3 시리즈의 대형 언어 모델 중 하나로, 고난도 복잡 추론 작업에 특화되어 있습니다. 혼합 전문가(MoE) 아키텍처 기반이며, 총 파라미터 2350억, 토큰 처리 시 약 220억 파라미터만 활성화하여 강력한 성능과 계산 효율성을 동시에 달성했습니다. 전용 '사고' 모델로서 논리 추론, 수학, 과학, 프로그래밍, 학술 벤치마크 등 인간 전문 지식이 필요한 작업에서 뛰어난 성능을 보이며, 오픈 소스 사고 모델 중 최고 수준입니다. 또한 명령 준수, 도구 사용, 텍스트 생성 등 범용 능력을 강화하고, 256K 길이의 긴 문맥 이해를 기본 지원하여 심층 추론 및 장문 처리에 적합합니다."
|
||||
},
|
||||
"Qwen/Qwen3-30B-A3B": {
|
||||
"description": "Qwen3는 능력이 크게 향상된 차세대 통의천문 대모델로, 추론, 일반, 에이전트 및 다국어 등 여러 핵심 능력에서 업계 선두 수준에 도달하며 사고 모드 전환을 지원합니다."
|
||||
},
|
||||
"Qwen/Qwen3-30B-A3B-Instruct-2507": {
|
||||
"description": "Qwen3-30B-A3B-Instruct-2507은 Qwen3-30B-A3B 비사고 모드의 업데이트 버전입니다. 이 모델은 총 305억 개의 파라미터와 33억 개의 활성화 파라미터를 가진 혼합 전문가(MoE) 모델입니다. 이 모델은 지침 준수, 논리 추론, 텍스트 이해, 수학, 과학, 코딩 및 도구 사용 등 여러 측면에서 중요한 향상을 이루었습니다. 또한 다국어 장기 지식 커버리지에서 실질적인 진전을 이루었으며, 주관적이고 개방형 작업에서 사용자 선호도에 더 잘 맞춰져 더 유용한 응답과 높은 품질의 텍스트를 생성할 수 있습니다. 아울러 이 모델의 장문 이해 능력도 256K로 강화되었습니다. 이 모델은 비사고 모드만 지원하며 출력에 `<think></think>` 태그를 생성하지 않습니다."
|
||||
},
|
||||
"Qwen/Qwen3-32B": {
|
||||
"description": "Qwen3는 능력이 크게 향상된 차세대 통의천문 대모델로, 추론, 일반, 에이전트 및 다국어 등 여러 핵심 능력에서 업계 선두 수준에 도달하며 사고 모드 전환을 지원합니다."
|
||||
},
|
||||
@@ -362,12 +314,6 @@
|
||||
"Qwen2.5-Coder-32B-Instruct": {
|
||||
"description": "Qwen2.5-Coder-32B-Instruct는 코드 생성, 코드 이해 및 효율적인 개발 시나리오를 위해 설계된 대형 언어 모델로, 업계 최고의 32B 매개변수 규모를 채택하여 다양한 프로그래밍 요구를 충족합니다."
|
||||
},
|
||||
"Qwen3-235B": {
|
||||
"description": "Qwen3-235B-A22B는 MoE(혼합 전문가 모델)로, '혼합 추론 모드'를 도입하여 사용자가 '사고 모드'와 '비사고 모드' 사이를 원활하게 전환할 수 있습니다. 119개 언어 및 방언의 이해와 추론을 지원하며 강력한 도구 호출 능력을 갖추고 있습니다. 종합 능력, 코드 및 수학, 다국어 능력, 지식 및 추론 등 여러 벤치마크 테스트에서 DeepSeek R1, OpenAI o1, o3-mini, Grok 3, 구글 Gemini 2.5 Pro 등 현재 시장의 주요 대형 모델들과 경쟁할 수 있습니다."
|
||||
},
|
||||
"Qwen3-32B": {
|
||||
"description": "Qwen3-32B는 밀집 모델(Dense Model)로, '혼합 추론 모드'를 도입하여 사용자가 '사고 모드'와 '비사고 모드' 사이를 원활하게 전환할 수 있습니다. 모델 아키텍처 개선, 학습 데이터 증가 및 더 효율적인 학습 방법 덕분에 전체 성능이 Qwen2.5-72B와 유사한 수준입니다."
|
||||
},
|
||||
"SenseChat": {
|
||||
"description": "기본 버전 모델(V4), 4K 컨텍스트 길이, 일반적인 능력이 강력합니다."
|
||||
},
|
||||
@@ -404,12 +350,6 @@
|
||||
"SenseChat-Vision": {
|
||||
"description": "최신 버전 모델(V5.5)로, 다중 이미지 입력을 지원하며, 모델의 기본 능력 최적화를 전면적으로 구현하여 객체 속성 인식, 공간 관계, 동작 사건 인식, 장면 이해, 감정 인식, 논리 상식 추론 및 텍스트 이해 생성에서 큰 향상을 이루었습니다."
|
||||
},
|
||||
"SenseNova-V6-5-Pro": {
|
||||
"description": "다중 모달, 언어 및 추론 데이터의 전면적인 업데이트와 학습 전략 최적화를 통해, 새로운 모델은 다중 모달 추론 및 일반화된 지침 준수 능력에서 현저한 향상을 이루었으며, 최대 128k의 컨텍스트 윈도우를 지원합니다. 또한 OCR 및 문화관광 IP 인식 등 특수 과제에서 뛰어난 성능을 보입니다."
|
||||
},
|
||||
"SenseNova-V6-5-Turbo": {
|
||||
"description": "다중 모달, 언어 및 추론 데이터의 전면적인 업데이트와 학습 전략 최적화를 통해, 새로운 모델은 다중 모달 추론 및 일반화된 지침 준수 능력에서 현저한 향상을 이루었으며, 최대 128k의 컨텍스트 윈도우를 지원합니다. 또한 OCR 및 문화관광 IP 인식 등 특수 과제에서 뛰어난 성능을 보입니다."
|
||||
},
|
||||
"SenseNova-V6-Pro": {
|
||||
"description": "이미지, 텍스트, 비디오 기능의 원주율 통합을 실현하여 전통적인 다중 모드의 분리 한계를 극복하고, OpenCompass와 SuperCLUE 평가에서 두 개의 챔피언을 차지했습니다."
|
||||
},
|
||||
@@ -1004,9 +944,6 @@
|
||||
"doubao-seed-1.6-thinking": {
|
||||
"description": "Doubao-Seed-1.6-thinking 모델은 사고 능력이 크게 강화되어 Doubao-1.5-thinking-pro에 비해 코딩, 수학, 논리 추론 등 기본 능력이 더욱 향상되었으며, 시각 이해도 지원합니다. 256k 컨텍스트 창을 지원하며, 출력 길이는 최대 16k 토큰까지 가능합니다."
|
||||
},
|
||||
"doubao-seedream-3-0-t2i-250415": {
|
||||
"description": "Doubao 이미지 생성 모델은 바이트댄스 Seed 팀이 개발했으며, 텍스트와 이미지 입력을 지원하여 높은 제어력과 고품질 이미지 생성 경험을 제공합니다. 텍스트 프롬프트를 기반으로 이미지를 생성합니다."
|
||||
},
|
||||
"doubao-vision-lite-32k": {
|
||||
"description": "Doubao-vision 모델은 Doubao에서 출시한 다중 모달 대형 모델로, 강력한 이미지 이해 및 추론 능력과 정밀한 명령 이해 능력을 갖추고 있습니다. 이미지 텍스트 정보 추출 및 이미지 기반 추론 작업에서 뛰어난 성능을 보여, 더 복잡하고 광범위한 시각 질문 응답 작업에 적용할 수 있습니다."
|
||||
},
|
||||
@@ -1058,9 +995,6 @@
|
||||
"ernie-char-fiction-8k": {
|
||||
"description": "바이두가 자체 개발한 수직 장면 대형 언어 모델로, 게임 NPC, 고객 서비스 대화, 대화 역할극 등 응용 시나리오에 적합하며, 캐릭터 스타일이 더 뚜렷하고 일관되며, 지시 따르기 능력이 더 강하고 추론 성능이 우수합니다."
|
||||
},
|
||||
"ernie-irag-edit": {
|
||||
"description": "바이두가 자체 개발한 ERNIE iRAG Edit 이미지 편집 모델로, 이미지 기반으로 객체 제거(erase), 재도색(repaint), 변형(variation) 생성 등의 작업을 지원합니다."
|
||||
},
|
||||
"ernie-lite-8k": {
|
||||
"description": "ERNIE Lite는 바이두가 자체 개발한 경량 대형 언어 모델로, 우수한 모델 효과와 추론 성능을 겸비하여 저전력 AI 가속 카드 추론에 적합합니다."
|
||||
},
|
||||
@@ -1088,27 +1022,12 @@
|
||||
"ernie-x1-turbo-32k": {
|
||||
"description": "ERNIE-X1-32K에 비해 모델의 효과와 성능이 더 우수합니다."
|
||||
},
|
||||
"flux-1-schnell": {
|
||||
"description": "Black Forest Labs가 개발한 120억 파라미터 텍스트-이미지 생성 모델로, 잠재적 적대적 확산 증류 기술을 사용하여 1~4단계 내에 고품질 이미지를 생성할 수 있습니다. 이 모델은 폐쇄형 대체품과 견줄 만한 성능을 보이며, Apache-2.0 라이선스 하에 개인, 연구 및 상업적 용도로 공개되어 있습니다."
|
||||
},
|
||||
"flux-dev": {
|
||||
"description": "FLUX.1 [dev]는 비상업적 용도를 위한 오픈 소스 가중치 및 정제 모델입니다. FLUX.1 [dev]는 FLUX 전문판과 유사한 이미지 품질과 명령 준수 능력을 유지하면서도 더 높은 실행 효율성을 갖추고 있습니다. 동일 크기 표준 모델 대비 자원 활용이 더 효율적입니다."
|
||||
},
|
||||
"flux-kontext/dev": {
|
||||
"description": "프론티어 이미지 편집 모델."
|
||||
},
|
||||
"flux-merged": {
|
||||
"description": "FLUX.1-merged 모델은 개발 단계에서 탐색된 \"DEV\"의 심층 특성과 \"Schnell\"이 대표하는 고속 실행 장점을 결합했습니다. 이를 통해 FLUX.1-merged는 모델 성능 한계를 높이고 적용 범위를 확장했습니다."
|
||||
},
|
||||
"flux-pro/kontext": {
|
||||
"description": "FLUX.1 Kontext [pro]는 텍스트와 참조 이미지를 입력으로 처리하여 목표 지향적인 부분 편집과 복잡한 전체 장면 변환을 원활하게 수행할 수 있습니다."
|
||||
},
|
||||
"flux-schnell": {
|
||||
"description": "FLUX.1 [schnell]은 현재 공개된 가장 진보된 소단계 모델로, 동종 경쟁 모델을 능가할 뿐만 아니라 Midjourney v6.0, DALL·E 3 (HD) 같은 강력한 비증류 모델보다도 우수합니다. 이 모델은 사전 학습 단계의 모든 출력 다양성을 유지하도록 특별히 미세 조정되었으며, 시각 품질, 명령 준수, 크기/비율 변화, 글꼴 처리 및 출력 다양성 등에서 현존 최고 모델 대비 현저한 향상을 이루어 사용자에게 더욱 풍부하고 다양한 창의적 이미지 생성 경험을 제공합니다."
|
||||
},
|
||||
"flux.1-schnell": {
|
||||
"description": "120억 파라미터의 수정 흐름 변환기로, 텍스트 설명에 따라 이미지를 생성할 수 있습니다."
|
||||
},
|
||||
"flux/schnell": {
|
||||
"description": "FLUX.1 [schnell]은 120억 개의 매개변수를 가진 스트림 변환기 모델로, 1~4단계 내에 텍스트로부터 고품질 이미지를 생성하며 개인 및 상업적 용도에 적합합니다."
|
||||
},
|
||||
@@ -1190,6 +1109,9 @@
|
||||
"gemini-2.5-flash-preview-04-17": {
|
||||
"description": "Gemini 2.5 Flash Preview는 Google의 가장 가성비 높은 모델로, 포괄적인 기능을 제공합니다."
|
||||
},
|
||||
"gemini-2.5-flash-preview-04-17-thinking": {
|
||||
"description": "Gemini 2.5 Flash Preview는 Google의 최고의 가성비 모델로, 포괄적인 기능을 제공합니다."
|
||||
},
|
||||
"gemini-2.5-flash-preview-05-20": {
|
||||
"description": "Gemini 2.5 Flash Preview는 Google의 최고의 가성비 모델로, 포괄적인 기능을 제공합니다."
|
||||
},
|
||||
@@ -1268,21 +1190,6 @@
|
||||
"glm-4.1v-thinking-flashx": {
|
||||
"description": "GLM-4.1V-Thinking 시리즈 모델은 현재 알려진 10B급 VLM 모델 중 가장 성능이 뛰어난 비주얼 모델로, 동급 SOTA의 다양한 비주얼 언어 작업을 통합합니다. 여기에는 비디오 이해, 이미지 질문응답, 학과 문제 해결, OCR 문자 인식, 문서 및 차트 해석, GUI 에이전트, 프론트엔드 웹 코딩, 그라운딩 등이 포함되며, 여러 작업 능력은 8배 이상의 파라미터를 가진 Qwen2.5-VL-72B를 능가합니다. 선도적인 강화 학습 기술을 통해 사고 사슬 추론 방식을 습득하여 답변의 정확성과 풍부함을 향상시키며, 최종 결과와 해석 가능성 측면에서 전통적인 비사고 모델을 현저히 능가합니다."
|
||||
},
|
||||
"glm-4.5": {
|
||||
"description": "지능형 최신 플래그십 모델로, 사고 모드 전환을 지원하며 종합 능력이 오픈 소스 모델 중 최고 수준(SOTA)에 도달했습니다. 문맥 길이는 최대 128K까지 지원합니다."
|
||||
},
|
||||
"glm-4.5-air": {
|
||||
"description": "GLM-4.5의 경량 버전으로, 성능과 비용 효율성을 균형 있게 갖추었으며 혼합 사고 모델을 유연하게 전환할 수 있습니다."
|
||||
},
|
||||
"glm-4.5-airx": {
|
||||
"description": "GLM-4.5-Air의 초고속 버전으로, 반응 속도가 더 빠르며 대규모 고속 요구에 최적화되었습니다."
|
||||
},
|
||||
"glm-4.5-flash": {
|
||||
"description": "GLM-4.5의 무료 버전으로, 추론, 코딩, 에이전트 등 작업에서 뛰어난 성능을 보입니다."
|
||||
},
|
||||
"glm-4.5-x": {
|
||||
"description": "GLM-4.5의 초고속 버전으로, 강력한 성능과 함께 최대 100 tokens/초의 생성 속도를 자랑합니다."
|
||||
},
|
||||
"glm-4v": {
|
||||
"description": "GLM-4V는 강력한 이미지 이해 및 추론 능력을 제공하며, 다양한 시각적 작업을 지원합니다."
|
||||
},
|
||||
@@ -1302,7 +1209,7 @@
|
||||
"description": "초고속 추론: 매우 빠른 추론 속도와 강력한 추론 효과를 제공합니다."
|
||||
},
|
||||
"glm-z1-flash": {
|
||||
"description": "GLM-Z1 시리즈는 강력한 복잡 추론 능력을 갖추었으며, 논리 추론, 수학, 코딩 등 분야에서 우수한 성과를 보입니다."
|
||||
"description": "GLM-Z1 시리즈는 강력한 복잡한 추론 능력을 갖추고 있으며, 논리 추론, 수학, 프로그래밍 등 분야에서 뛰어난 성능을 발휘합니다. 최대 문맥 길이는 32K입니다."
|
||||
},
|
||||
"glm-z1-flashx": {
|
||||
"description": "고속 저가: Flash 강화 버전으로, 매우 빠른 추론 속도와 더 빠른 동시성 보장을 제공합니다."
|
||||
@@ -1478,9 +1385,6 @@
|
||||
"grok-2-1212": {
|
||||
"description": "이 모델은 정확성, 지시 준수 및 다국어 능력에서 개선되었습니다."
|
||||
},
|
||||
"grok-2-image-1212": {
|
||||
"description": "최신 이미지 생성 모델로, 텍스트 프롬프트에 따라 생생하고 사실적인 이미지를 생성할 수 있습니다. 마케팅, 소셜 미디어, 엔터테인먼트 등 분야에서 뛰어난 이미지 생성 성능을 발휘합니다."
|
||||
},
|
||||
"grok-2-vision-1212": {
|
||||
"description": "이 모델은 정확성, 지시 준수 및 다국어 능력에서 개선되었습니다."
|
||||
},
|
||||
@@ -1550,9 +1454,6 @@
|
||||
"hunyuan-t1-20250529": {
|
||||
"description": "텍스트 창작과 작문을 최적화하고, 코드 프론트엔드, 수학, 논리 추론 등 이공계 능력을 향상시키며, 명령어 준수 능력을 강화합니다."
|
||||
},
|
||||
"hunyuan-t1-20250711": {
|
||||
"description": "고난도 수학, 논리, 코딩 능력을 대폭 향상시키고 모델 출력 안정성을 최적화했으며, 장문 처리 능력을 강화했습니다."
|
||||
},
|
||||
"hunyuan-t1-latest": {
|
||||
"description": "업계 최초의 초대형 Hybrid-Transformer-Mamba 추론 모델로, 추론 능력을 확장하고, 뛰어난 디코딩 속도를 자랑하며, 인간의 선호에 더욱 부합합니다."
|
||||
},
|
||||
@@ -1601,12 +1502,6 @@
|
||||
"hunyuan-vision": {
|
||||
"description": "혼원 최신 다중 모달 모델로, 이미지와 텍스트 입력을 지원하여 텍스트 콘텐츠를 생성합니다."
|
||||
},
|
||||
"image-01": {
|
||||
"description": "새로운 이미지 생성 모델로, 섬세한 화질을 자랑하며 텍스트-이미지 및 이미지-이미지 생성을 지원합니다."
|
||||
},
|
||||
"image-01-live": {
|
||||
"description": "이미지 생성 모델로, 섬세한 화질을 제공하며 텍스트-이미지 생성과 화풍 설정을 지원합니다."
|
||||
},
|
||||
"imagen-4.0-generate-preview-06-06": {
|
||||
"description": "Imagen 4세대 텍스트-이미지 모델 시리즈"
|
||||
},
|
||||
@@ -1631,9 +1526,6 @@
|
||||
"internvl3-latest": {
|
||||
"description": "우리가 최근 발표한 다중 모달 대형 모델로, 더 강력한 이미지 및 텍스트 이해 능력과 장기 이미지 이해 능력을 갖추고 있으며, 성능은 최상급 폐쇄형 모델에 필적합니다. 기본적으로 최신 발표된 InternVL 시리즈 모델을 가리키며, 현재 internvl3-78b를 가리킵니다."
|
||||
},
|
||||
"irag-1.0": {
|
||||
"description": "바이두가 자체 개발한 iRAG(image based RAG)로, 검색 강화 텍스트-이미지 생성 기술입니다. 바이두 검색의 수억 장 이미지 자원과 강력한 기본 모델 능력을 결합하여 매우 사실적인 이미지를 생성하며, 기존 텍스트-이미지 시스템을 훨씬 능가합니다. AI 느낌이 없고 비용도 매우 낮습니다. iRAG는 환각이 없고, 초현실적이며 즉시 사용 가능한 특징을 갖추고 있습니다."
|
||||
},
|
||||
"jamba-large": {
|
||||
"description": "가장 강력하고 진보된 모델로, 기업급 복잡한 작업을 처리하도록 설계되었으며, 뛰어난 성능을 제공합니다."
|
||||
},
|
||||
@@ -1643,9 +1535,6 @@
|
||||
"jina-deepsearch-v1": {
|
||||
"description": "딥 서치는 웹 검색, 독서 및 추론을 결합하여 포괄적인 조사를 수행합니다. 연구 작업을 수용하는 에이전트로 생각할 수 있으며, 광범위한 검색을 수행하고 여러 번 반복한 후에야 답변을 제공합니다. 이 과정은 지속적인 연구, 추론 및 다양한 각도에서 문제를 해결하는 것을 포함합니다. 이는 사전 훈련된 데이터에서 직접 답변을 생성하는 표준 대형 모델 및 일회성 표면 검색에 의존하는 전통적인 RAG 시스템과 근본적으로 다릅니다."
|
||||
},
|
||||
"kimi-k2": {
|
||||
"description": "Kimi-K2는 Moonshot AI가 출시한 초강력 코드 및 에이전트 능력을 갖춘 MoE 아키텍처 기반 모델로, 총 파라미터 1조, 활성화 파라미터 320억입니다. 범용 지식 추론, 프로그래밍, 수학, 에이전트 등 주요 분야 벤치마크에서 K2 모델은 다른 주류 오픈 소스 모델을 능가하는 성능을 보입니다."
|
||||
},
|
||||
"kimi-k2-0711-preview": {
|
||||
"description": "kimi-k2는 강력한 코드 및 에이전트 기능을 갖춘 MoE 아키텍처 기반 모델로, 총 파라미터 1조, 활성화 파라미터 320억을 보유하고 있습니다. 일반 지식 추론, 프로그래밍, 수학, 에이전트 등 주요 분야 벤치마크 성능 테스트에서 K2 모델은 다른 주요 오픈소스 모델을 능가하는 성능을 보여줍니다."
|
||||
},
|
||||
@@ -2039,9 +1928,6 @@
|
||||
"moonshotai/Kimi-Dev-72B": {
|
||||
"description": "Kimi-Dev-72B는 대규모 강화 학습 최적화를 거친 오픈소스 코드 대형 모델로, 안정적이고 바로 생산에 투입 가능한 패치를 출력할 수 있습니다. 이 모델은 SWE-bench Verified에서 60.4%의 신기록을 세우며, 결함 수정, 코드 리뷰 등 자동화 소프트웨어 엔지니어링 작업에서 오픈소스 모델의 기록을 경신했습니다."
|
||||
},
|
||||
"moonshotai/Kimi-K2-Instruct": {
|
||||
"description": "Kimi K2는 초강력 코드 및 에이전트 능력을 갖춘 MoE 아키텍처 기반 모델로, 총 파라미터 1조, 활성화 파라미터 320억입니다. 범용 지식 추론, 프로그래밍, 수학, 에이전트 등 주요 분야 벤치마크에서 K2 모델은 다른 주류 오픈 소스 모델을 능가하는 성능을 보입니다."
|
||||
},
|
||||
"moonshotai/kimi-k2-instruct": {
|
||||
"description": "kimi-k2는 강력한 코드 및 에이전트 기능을 갖춘 MoE 아키텍처 기반 모델로, 총 파라미터 1조, 활성화 파라미터 320억입니다. 일반 지식 추론, 프로그래밍, 수학, 에이전트 등 주요 분야의 벤치마크 성능 테스트에서 K2 모델은 다른 주요 오픈소스 모델을 능가하는 성능을 보입니다."
|
||||
},
|
||||
@@ -2378,21 +2264,9 @@
|
||||
"qwen3-235b-a22b": {
|
||||
"description": "Qwen3는 능력이 대폭 향상된 새로운 세대의 통합 지식 모델로, 추론, 일반, 에이전트 및 다국어 등 여러 핵심 능력에서 업계 선두 수준에 도달하며, 사고 모드 전환을 지원합니다."
|
||||
},
|
||||
"qwen3-235b-a22b-instruct-2507": {
|
||||
"description": "Qwen3 기반 비사고 모드 오픈 소스 모델로, 이전 버전(통의천문3-235B-A22B) 대비 주관적 창작 능력과 모델 안전성이 소폭 향상되었습니다."
|
||||
},
|
||||
"qwen3-235b-a22b-thinking-2507": {
|
||||
"description": "Qwen3 기반 사고 모드 오픈 소스 모델로, 이전 버전(통의천문3-235B-A22B) 대비 논리 능력, 범용 능력, 지식 강화 및 창작 능력이 크게 향상되어 고난도 강추론 시나리오에 적합합니다."
|
||||
},
|
||||
"qwen3-30b-a3b": {
|
||||
"description": "Qwen3는 능력이 대폭 향상된 새로운 세대의 통합 지식 모델로, 추론, 일반, 에이전트 및 다국어 등 여러 핵심 능력에서 업계 선두 수준에 도달하며, 사고 모드 전환을 지원합니다."
|
||||
},
|
||||
"qwen3-30b-a3b-instruct-2507": {
|
||||
"description": "이전 버전(Qwen3-30B-A3B) 대비 중영 및 다국어 전반적인 일반 능력이 크게 향상되었습니다. 주관적이고 개방형 작업에 특화된 최적화로 사용자 선호에 훨씬 더 부합하며, 보다 유용한 응답을 제공할 수 있습니다."
|
||||
},
|
||||
"qwen3-30b-a3b-thinking-2507": {
|
||||
"description": "Qwen3 기반 사고 모드 오픈소스 모델로, 이전 버전(通义千问3-30B-A3B) 대비 논리 능력, 일반 능력, 지식 강화 및 창작 능력이 크게 향상되어 고난도 강력 추론 시나리오에 적합합니다."
|
||||
},
|
||||
"qwen3-32b": {
|
||||
"description": "Qwen3는 능력이 대폭 향상된 새로운 세대의 통합 지식 모델로, 추론, 일반, 에이전트 및 다국어 등 여러 핵심 능력에서 업계 선두 수준에 도달하며, 사고 모드 전환을 지원합니다."
|
||||
},
|
||||
@@ -2402,12 +2276,6 @@
|
||||
"qwen3-8b": {
|
||||
"description": "Qwen3는 능력이 대폭 향상된 새로운 세대의 통합 지식 모델로, 추론, 일반, 에이전트 및 다국어 등 여러 핵심 능력에서 업계 선두 수준에 도달하며, 사고 모드 전환을 지원합니다."
|
||||
},
|
||||
"qwen3-coder-480b-a35b-instruct": {
|
||||
"description": "통의천문 코드 모델 오픈 소스 버전입니다. 최신 qwen3-coder-480b-a35b-instruct는 Qwen3 기반 코드 생성 모델로, 강력한 코딩 에이전트 능력을 갖추고 도구 호출 및 환경 상호작용에 능하며, 자율 프로그래밍과 뛰어난 코드 능력 및 범용 능력을 동시에 구현합니다."
|
||||
},
|
||||
"qwen3-coder-plus": {
|
||||
"description": "통의천문 코드 모델입니다. 최신 Qwen3-Coder-Plus 시리즈 모델은 Qwen3 기반 코드 생성 모델로, 강력한 코딩 에이전트 능력을 갖추고 도구 호출 및 환경 상호작용에 능하며, 자율 프로그래밍과 뛰어난 코드 능력 및 범용 능력을 동시에 구현합니다."
|
||||
},
|
||||
"qwq": {
|
||||
"description": "QwQ는 AI 추론 능력을 향상시키는 데 중점을 둔 실험 연구 모델입니다."
|
||||
},
|
||||
@@ -2450,24 +2318,6 @@
|
||||
"sonar-reasoning-pro": {
|
||||
"description": "DeepSeek 추론 모델이 지원하는 새로운 API 제품입니다."
|
||||
},
|
||||
"stable-diffusion-3-medium": {
|
||||
"description": "Stability AI가 출시한 최신 텍스트-이미지 대형 모델입니다. 이전 버전의 장점을 계승하면서 이미지 품질, 텍스트 이해 및 스타일 다양성 측면에서 크게 개선되어 복잡한 자연어 프롬프트를 더 정확히 해석하고 더욱 정밀하고 다양한 이미지를 생성할 수 있습니다."
|
||||
},
|
||||
"stable-diffusion-3.5-large": {
|
||||
"description": "stable-diffusion-3.5-large는 8억 파라미터를 가진 다중 모달 확산 변환기(MMDiT) 텍스트-이미지 생성 모델로, 뛰어난 이미지 품질과 프롬프트 일치도를 갖추고 있습니다. 최대 100만 픽셀의 고해상도 이미지 생성을 지원하며, 일반 소비자용 하드웨어에서도 효율적으로 작동합니다."
|
||||
},
|
||||
"stable-diffusion-3.5-large-turbo": {
|
||||
"description": "stable-diffusion-3.5-large-turbo는 stable-diffusion-3.5-large를 기반으로 적대적 확산 증류(ADD) 기술을 적용한 모델로, 더 빠른 속도를 자랑합니다."
|
||||
},
|
||||
"stable-diffusion-v1.5": {
|
||||
"description": "stable-diffusion-v1.5는 stable-diffusion-v1.2 체크포인트 가중치를 초기화하고 \"laion-aesthetics v2 5+\" 데이터셋에서 512x512 해상도로 595k 스텝 미세 조정을 거쳤으며, 텍스트 조건화를 10% 줄여 분류기 없는 가이드 샘플링을 향상시켰습니다."
|
||||
},
|
||||
"stable-diffusion-xl": {
|
||||
"description": "stable-diffusion-xl은 v1.5 대비 대대적인 개선이 이루어졌으며, 현재 공개된 텍스트-이미지 SOTA 모델인 midjourney와 유사한 성능을 보입니다. 주요 개선점은 더 큰 unet 백본(기존 대비 3배), 생성 이미지 품질 향상을 위한 정제 모듈 추가, 더 효율적인 훈련 기법 등입니다."
|
||||
},
|
||||
"stable-diffusion-xl-base-1.0": {
|
||||
"description": "Stability AI가 개발하고 오픈 소스로 공개한 텍스트-이미지 대형 모델로, 업계 선두 수준의 창의적 이미지 생성 능력을 갖추고 있습니다. 뛰어난 명령 이해 능력을 보유하며, 역방향 프롬프트 정의를 지원해 정확한 콘텐츠 생성을 가능하게 합니다."
|
||||
},
|
||||
"step-1-128k": {
|
||||
"description": "성능과 비용의 균형을 맞추어 일반적인 시나리오에 적합합니다."
|
||||
},
|
||||
@@ -2498,12 +2348,6 @@
|
||||
"step-1v-8k": {
|
||||
"description": "소형 비주얼 모델로, 기본적인 텍스트 및 이미지 작업에 적합합니다."
|
||||
},
|
||||
"step-1x-edit": {
|
||||
"description": "이 모델은 이미지 편집 작업에 특화되어 있으며, 사용자가 제공한 이미지와 텍스트 설명에 따라 이미지를 수정 및 향상시킬 수 있습니다. 텍스트 설명과 예시 이미지 등 다양한 입력 형식을 지원하며, 사용자의 의도를 이해하고 요구에 부합하는 이미지 편집 결과를 생성합니다."
|
||||
},
|
||||
"step-1x-medium": {
|
||||
"description": "이 모델은 강력한 이미지 생성 능력을 갖추고 있으며, 텍스트 설명을 입력으로 지원합니다. 기본적으로 중국어를 지원하여 중국어 텍스트 설명을 더 잘 이해하고 처리할 수 있으며, 텍스트 설명의 의미를 정확히 포착해 이미지 특징으로 변환하여 보다 정밀한 이미지 생성을 실현합니다. 입력에 따라 고해상도, 고품질 이미지를 생성하며, 일정 수준의 스타일 전이 능력도 갖추고 있습니다."
|
||||
},
|
||||
"step-2-16k": {
|
||||
"description": "대규모 컨텍스트 상호작용을 지원하며, 복잡한 대화 시나리오에 적합합니다."
|
||||
},
|
||||
@@ -2513,9 +2357,6 @@
|
||||
"step-2-mini": {
|
||||
"description": "신세대 자체 개발 Attention 아키텍처인 MFA를 기반으로 한 초고속 대형 모델로, 매우 낮은 비용으로 step1과 유사한 효과를 달성하면서도 더 높은 처리량과 더 빠른 응답 지연을 유지합니다. 일반적인 작업을 처리할 수 있으며, 코드 능력에 있어 특장점을 가지고 있습니다."
|
||||
},
|
||||
"step-2x-large": {
|
||||
"description": "계단별 신성(阶跃星辰) 차세대 이미지 생성 모델로, 텍스트 설명에 따라 고품질 이미지를 생성하는 데 특화되어 있습니다. 새 모델은 이미지 질감이 더욱 사실적이며, 중영문 텍스트 생성 능력이 강화되었습니다."
|
||||
},
|
||||
"step-r1-v-mini": {
|
||||
"description": "이 모델은 강력한 이미지 이해 능력을 갖춘 추론 대모델로, 이미지와 텍스트 정보를 처리하며, 깊은 사고 후 텍스트를 생성합니다. 이 모델은 시각적 추론 분야에서 두드러진 성능을 보이며, 1차 대열의 수학, 코드, 텍스트 추론 능력을 갖추고 있습니다. 문맥 길이는 100k입니다."
|
||||
},
|
||||
@@ -2591,23 +2432,8 @@
|
||||
"v0-1.5-md": {
|
||||
"description": "v0-1.5-md 모델은 일상 작업 및 사용자 인터페이스(UI) 생성에 적합합니다"
|
||||
},
|
||||
"wan2.2-t2i-flash": {
|
||||
"description": "만상2.2 초고속 버전으로, 현재 최신 모델입니다. 창의성, 안정성, 사실적 질감이 전면 업그레이드되었으며, 생성 속도가 빠르고 비용 효율성이 높습니다."
|
||||
},
|
||||
"wan2.2-t2i-plus": {
|
||||
"description": "만상2.2 전문 버전으로, 현재 최신 모델입니다. 창의성, 안정성, 사실적 질감이 전면 업그레이드되었으며, 생성 세부 사항이 풍부합니다."
|
||||
},
|
||||
"wanx-v1": {
|
||||
"description": "기본 텍스트-이미지 생성 모델로, 통의 만상 공식 웹사이트 1.0 범용 모델에 해당합니다."
|
||||
},
|
||||
"wanx2.0-t2i-turbo": {
|
||||
"description": "질감 인물 생성에 능하며, 속도는 중간, 비용은 낮은 편입니다. 통의 만상 공식 웹사이트 2.0 초고속 모델에 해당합니다."
|
||||
},
|
||||
"wanx2.1-t2i-plus": {
|
||||
"description": "전면 업그레이드 버전으로, 생성 이미지 세부 사항이 더욱 풍부하며 속도는 다소 느립니다. 통의 만상 공식 웹사이트 2.1 전문 모델에 해당합니다."
|
||||
},
|
||||
"wanx2.1-t2i-turbo": {
|
||||
"description": "전면 업그레이드 버전으로, 생성 속도가 빠르고 효과가 전반적으로 우수하며 종합 비용 효율성이 높습니다. 통의 만상 공식 웹사이트 2.1 초고속 모델에 해당합니다."
|
||||
"description": "알리클라우드 통의(通义) 산하의 텍스트-이미지 생성 모델"
|
||||
},
|
||||
"whisper-1": {
|
||||
"description": "범용 음성 인식 모델로, 다국어 음성 인식, 음성 번역 및 언어 인식을 지원합니다."
|
||||
@@ -2659,11 +2485,5 @@
|
||||
},
|
||||
"yi-vision-v2": {
|
||||
"description": "복잡한 시각적 작업 모델로, 여러 이미지를 기반으로 한 고성능 이해 및 분석 능력을 제공합니다."
|
||||
},
|
||||
"zai-org/GLM-4.5": {
|
||||
"description": "GLM-4.5는 에이전트 애플리케이션을 위해 설계된 기본 모델로, 혼합 전문가(Mixture-of-Experts) 아키텍처를 사용합니다. 도구 호출, 웹 브라우징, 소프트웨어 엔지니어링, 프론트엔드 프로그래밍 분야에서 깊이 최적화되었으며, Claude Code, Roo Code 등 코드 에이전트에 원활히 통합될 수 있습니다. GLM-4.5는 혼합 추론 모드를 채택하여 복잡한 추론과 일상 사용 등 다양한 응용 시나리오에 적응할 수 있습니다."
|
||||
},
|
||||
"zai-org/GLM-4.5-Air": {
|
||||
"description": "GLM-4.5-Air는 에이전트 애플리케이션을 위해 설계된 기본 모델로, 혼합 전문가(Mixture-of-Experts) 아키텍처를 사용합니다. 도구 호출, 웹 브라우징, 소프트웨어 엔지니어링, 프론트엔드 프로그래밍 분야에서 깊이 최적화되었으며, Claude Code, Roo Code 등 코드 에이전트에 원활히 통합될 수 있습니다. GLM-4.5는 혼합 추론 모드를 채택하여 복잡한 추론과 일상 사용 등 다양한 응용 시나리오에 적응할 수 있습니다."
|
||||
}
|
||||
}
|
||||
|
||||
@@ -5,9 +5,6 @@
|
||||
"ai360": {
|
||||
"description": "360 AI는 360 회사가 출시한 AI 모델 및 서비스 플랫폼으로, 360GPT2 Pro, 360GPT Pro, 360GPT Turbo 및 360GPT Turbo Responsibility 8K를 포함한 다양한 고급 자연어 처리 모델을 제공합니다. 이러한 모델은 대규모 매개변수와 다중 모드 능력을 결합하여 텍스트 생성, 의미 이해, 대화 시스템 및 코드 생성 등 다양한 분야에 널리 사용됩니다. 유연한 가격 전략을 통해 360 AI는 다양한 사용자 요구를 충족하고 개발자가 통합할 수 있도록 지원하여 스마트화 응용 프로그램의 혁신과 발전을 촉진합니다."
|
||||
},
|
||||
"aihubmix": {
|
||||
"description": "AiHubMix는 통합 API 인터페이스를 통해 다양한 AI 모델에 대한 접근을 제공합니다."
|
||||
},
|
||||
"anthropic": {
|
||||
"description": "Anthropic은 인공지능 연구 및 개발에 집중하는 회사로, Claude 3.5 Sonnet, Claude 3 Sonnet, Claude 3 Opus 및 Claude 3 Haiku와 같은 고급 언어 모델을 제공합니다. 이러한 모델은 지능, 속도 및 비용 간의 이상적인 균형을 이루며, 기업급 작업 부하에서부터 빠른 응답이 필요한 다양한 응용 프로그램에 적합합니다. Claude 3.5 Sonnet은 최신 모델로, 여러 평가에서 우수한 성능을 보이며 높은 비용 효율성을 유지하고 있습니다."
|
||||
},
|
||||
|
||||
@@ -189,7 +189,6 @@
|
||||
"aesGcm": "Je sleutel en proxy-adres worden versleuteld met <1>AES-GCM</1> encryptie-algoritme",
|
||||
"apiKey": {
|
||||
"desc": "Vul je {{name}} API-sleutel in",
|
||||
"descWithUrl": "Vul je {{name}} API-sleutel in, <3>klik hier om deze te verkrijgen</3>",
|
||||
"placeholder": "{{name}} API-sleutel",
|
||||
"title": "API-sleutel"
|
||||
},
|
||||
|
||||
+5
-185
@@ -32,9 +32,6 @@
|
||||
"4.0Ultra": {
|
||||
"description": "Spark4.0 Ultra is de krachtigste versie in de Spark-grootmodelserie, die de netwerkintegratie heeft geüpgraded en de tekstbegrip- en samenvattingscapaciteiten heeft verbeterd. Het is een allesomvattende oplossing voor het verbeteren van de kantoorproductiviteit en het nauwkeurig reageren op behoeften, en is een toonaangevend intelligent product in de industrie."
|
||||
},
|
||||
"AnimeSharp": {
|
||||
"description": "AnimeSharp (ook bekend als “4x‑AnimeSharp”) is een open-source superresolutiemodel ontwikkeld door Kim2091, gebaseerd op de ESRGAN-architectuur, gericht op het vergroten en verscherpen van afbeeldingen in anime-stijl. Het werd in februari 2022 hernoemd van “4x-TextSharpV1” en was oorspronkelijk ook geschikt voor tekstafbeeldingen, maar de prestaties zijn sterk geoptimaliseerd voor anime-inhoud."
|
||||
},
|
||||
"Baichuan2-Turbo": {
|
||||
"description": "Maakt gebruik van zoekversterkingstechnologie om een uitgebreide koppeling tussen het grote model en domeinspecifieke kennis en wereldwijde kennis te realiseren. Ondersteunt het uploaden van verschillende documenten zoals PDF en Word, evenals URL-invoer, met tijdige en uitgebreide informatieverzameling en nauwkeurige, professionele output."
|
||||
},
|
||||
@@ -92,9 +89,6 @@
|
||||
"Doubao-pro-4k": {
|
||||
"description": "Het beste hoofdmodel, geschikt voor het verwerken van complexe taken, met uitstekende prestaties in scenario's zoals referentievragen, samenvattingen, creatief schrijven, tekstclassificatie en rollenspellen. Ondersteunt redeneren en fijn afstemmen met een contextvenster van 4k."
|
||||
},
|
||||
"DreamO": {
|
||||
"description": "DreamO is een open-source beeldgeneratiemodel ontwikkeld in samenwerking tussen ByteDance en de Universiteit van Peking, ontworpen om multi-task beeldgeneratie te ondersteunen via een uniforme architectuur. Het maakt gebruik van een efficiënte combinatiemodelmethode om op basis van door de gebruiker gespecificeerde identiteit, onderwerp, stijl, achtergrond en andere voorwaarden zeer consistente en aangepaste beelden te genereren."
|
||||
},
|
||||
"ERNIE-3.5-128K": {
|
||||
"description": "De door Baidu ontwikkelde vlaggenschip grote taalmodel, dat een enorme hoeveelheid Chinese en Engelse gegevens dekt, met krachtige algemene capaciteiten die voldoen aan de meeste eisen voor dialoogvragen, creatieve generatie en plug-in toepassingsscenario's; ondersteunt automatische integratie met de Baidu zoekplug-in, wat de actualiteit van vraag- en antwoordinformatie waarborgt."
|
||||
},
|
||||
@@ -128,39 +122,15 @@
|
||||
"ERNIE-Speed-Pro-128K": {
|
||||
"description": "Het door Baidu in 2024 gepresenteerde nieuwe hoge-prestatie taalmodel, met uitstekende algemene capaciteiten, betere resultaten dan ERNIE Speed, en geschikt als basis model voor fine-tuning, om beter specifieke probleemstellingen aan te pakken, met uitstekende inferentieprestaties."
|
||||
},
|
||||
"FLUX.1-Kontext-dev": {
|
||||
"description": "FLUX.1-Kontext-dev is een multimodaal beeldgeneratie- en bewerkingsmodel ontwikkeld door Black Forest Labs, gebaseerd op de Rectified Flow Transformer-architectuur met 12 miljard parameters. Het richt zich op het genereren, reconstrueren, verbeteren of bewerken van beelden onder gegeven contextuele voorwaarden. Dit model combineert de controleerbare generatievoordelen van diffusie-modellen met de contextuele modellering van Transformers en ondersteunt hoogwaardige beeldoutput, breed toepasbaar voor beeldherstel, beeldaanvulling en visuele scèneherconstructie."
|
||||
},
|
||||
"FLUX.1-dev": {
|
||||
"description": "FLUX.1-dev is een open-source multimodaal taalmodel (Multimodal Language Model, MLLM) ontwikkeld door Black Forest Labs, geoptimaliseerd voor taken met tekst en beeld. Het integreert begrip en generatie van zowel afbeeldingen als tekst. Gebaseerd op geavanceerde grote taalmodellen zoals Mistral-7B, bereikt het door zorgvuldig ontworpen visuele encoders en meervoudige instructiefijnafstelling een vermogen tot gecombineerde tekst-beeldverwerking en complexe taakredenering."
|
||||
},
|
||||
"Gryphe/MythoMax-L2-13b": {
|
||||
"description": "MythoMax-L2 (13B) is een innovatief model, geschikt voor toepassingen in meerdere domeinen en complexe taken."
|
||||
},
|
||||
"HelloMeme": {
|
||||
"description": "HelloMeme is een AI-tool die automatisch memes, GIF's of korte video's genereert op basis van door jou aangeleverde afbeeldingen of acties. Je hebt geen teken- of programmeerkennis nodig; met alleen referentieafbeeldingen helpt het je om aantrekkelijke, leuke en stijlconsistente content te maken."
|
||||
},
|
||||
"HiDream-I1-Full": {
|
||||
"description": "HiDream-E1-Full is een open-source multimodaal beeldbewerkingsmodel uitgebracht door HiDream.ai, gebaseerd op de geavanceerde Diffusion Transformer-architectuur en gecombineerd met krachtige taalbegripsmogelijkheden (ingebouwde LLaMA 3.1-8B-Instruct). Het ondersteunt beeldgeneratie, stijltransfer, lokale bewerking en inhoudshertekening via natuurlijke taalopdrachten en beschikt over uitstekende tekst-beeldbegrip en uitvoeringscapaciteiten."
|
||||
},
|
||||
"HunyuanDiT-v1.2-Diffusers-Distilled": {
|
||||
"description": "hunyuandit-v1.2-distilled is een lichtgewicht tekst-naar-beeldmodel dat door distillatie is geoptimaliseerd om snel hoogwaardige beelden te genereren, bijzonder geschikt voor omgevingen met beperkte middelen en realtime generatie."
|
||||
},
|
||||
"InstantCharacter": {
|
||||
"description": "InstantCharacter is een in 2025 door het Tencent AI-team uitgebracht tuning-vrij gepersonaliseerd karaktergeneratiemodel, gericht op het realiseren van hoge-fideliteit en consistente karaktergeneratie over verschillende scènes. Het model ondersteunt karaktermodellering op basis van slechts één referentieafbeelding en kan dit karakter flexibel overbrengen naar diverse stijlen, houdingen en achtergronden."
|
||||
},
|
||||
"InternVL2-8B": {
|
||||
"description": "InternVL2-8B is een krachtig visueel taalmodel dat multimodale verwerking van afbeeldingen en tekst ondersteunt, in staat om afbeeldingsinhoud nauwkeurig te identificeren en relevante beschrijvingen of antwoorden te genereren."
|
||||
},
|
||||
"InternVL2.5-26B": {
|
||||
"description": "InternVL2.5-26B is een krachtig visueel taalmodel dat multimodale verwerking van afbeeldingen en tekst ondersteunt, in staat om afbeeldingsinhoud nauwkeurig te identificeren en relevante beschrijvingen of antwoorden te genereren."
|
||||
},
|
||||
"Kolors": {
|
||||
"description": "Kolors is een tekst-naar-beeldmodel ontwikkeld door het Kolors-team van Kuaishou. Het is getraind met miljarden parameters en heeft significante voordelen in visuele kwaliteit, Chinees semantisch begrip en tekstrendering."
|
||||
},
|
||||
"Kwai-Kolors/Kolors": {
|
||||
"description": "Kolors is een grootschalig tekst-naar-beeldgeneratiemodel gebaseerd op latente diffusie, ontwikkeld door het Kolors-team van Kuaishou. Het model is getraind op miljarden tekst-beeldparen en toont uitstekende prestaties in visuele kwaliteit, complexe semantische nauwkeurigheid en het renderen van Chinese en Engelse karakters. Het ondersteunt zowel Chinese als Engelse invoer en blinkt uit in het begrijpen en genereren van specifieke Chinese inhoud."
|
||||
},
|
||||
"Llama-3.2-11B-Vision-Instruct": {
|
||||
"description": "Uitstekende beeldredeneringscapaciteiten op hoge resolutie afbeeldingen, geschikt voor visuele begripstoepassingen."
|
||||
},
|
||||
@@ -194,15 +164,9 @@
|
||||
"MiniMaxAI/MiniMax-M1-80k": {
|
||||
"description": "MiniMax-M1 is een open-source gewichtenschaalmodel met gemengde aandacht, met 456 miljard parameters, waarbij elke token ongeveer 45,9 miljard parameters activeert. Het model ondersteunt native een ultralange context van 1 miljoen tokens en bespaart dankzij het bliksemaandachtmechanisme 75% van de floating-point-bewerkingen bij generatietaken van 100.000 tokens vergeleken met DeepSeek R1. Tegelijkertijd maakt MiniMax-M1 gebruik van een MoE (Mixture of Experts) architectuur, gecombineerd met het CISPO-algoritme en een efficiënt versterkend leermodel met gemengde aandacht, wat leidt tot toonaangevende prestaties bij lange invoerredenering en echte software-engineering scenario's."
|
||||
},
|
||||
"Moonshot-Kimi-K2-Instruct": {
|
||||
"description": "Met in totaal 1 biljoen parameters en 32 miljard geactiveerde parameters is dit het toonaangevende niet-denkende model op het gebied van geavanceerde kennis, wiskunde en codering, en is het beter geschikt voor algemene agenttaken. Het is zorgvuldig geoptimaliseerd voor agenttaken, kan niet alleen vragen beantwoorden maar ook acties ondernemen. Ideaal voor improvisatie, algemene chat en agentervaringen, het is een reflexniveau model zonder lange denktijd."
|
||||
},
|
||||
"NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
||||
"description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B) is een hoogprecisie instructiemodel, geschikt voor complexe berekeningen."
|
||||
},
|
||||
"OmniConsistency": {
|
||||
"description": "OmniConsistency verbetert de stijlconsistentie en generalisatie in image-to-image taken door grootschalige Diffusion Transformers (DiTs) en gepaarde gestileerde data te introduceren, waardoor stijldegradatie wordt voorkomen."
|
||||
},
|
||||
"Phi-3-medium-128k-instruct": {
|
||||
"description": "Hetzelfde Phi-3-medium model, maar met een grotere contextgrootte voor RAG of few shot prompting."
|
||||
},
|
||||
@@ -254,9 +218,6 @@
|
||||
"Pro/deepseek-ai/DeepSeek-V3": {
|
||||
"description": "DeepSeek-V3 is een hybride expert (MoE) taalmodel met 6710 miljard parameters, dat gebruikmaakt van multi-head latent attention (MLA) en de DeepSeekMoE-architectuur, gecombineerd met een load balancing-strategie zonder extra verlies, om de inferentie- en trainingsefficiëntie te optimaliseren. Door voorgetraind te worden op 14,8 biljoen hoogwaardige tokens en vervolgens te worden fijngesteld met supervisie en versterkend leren, overtreft DeepSeek-V3 andere open-source modellen in prestaties en komt het dicht in de buurt van toonaangevende gesloten modellen."
|
||||
},
|
||||
"Pro/moonshotai/Kimi-K2-Instruct": {
|
||||
"description": "Kimi K2 is een MoE-architectuurbasis model met krachtige codeer- en agentcapaciteiten, met in totaal 1 biljoen parameters en 32 miljard geactiveerde parameters. In benchmarktests voor algemene kennisredenering, programmeren, wiskunde en agenttaken overtreft het K2-model andere toonaangevende open-source modellen."
|
||||
},
|
||||
"QwQ-32B-Preview": {
|
||||
"description": "QwQ-32B-Preview is een innovatief natuurlijk taalverwerkingsmodel dat efficiënt complexe dialooggeneratie en contextbegripstaken kan verwerken."
|
||||
},
|
||||
@@ -317,18 +278,9 @@
|
||||
"Qwen/Qwen3-235B-A22B": {
|
||||
"description": "Qwen3 is een nieuwe generatie Qwen-model met aanzienlijk verbeterde capaciteiten, die op het gebied van redenering, algemeen gebruik, agent en meertaligheid op een leidende positie in de industrie staat, en ondersteunt de schakel tussen denkmodi."
|
||||
},
|
||||
"Qwen/Qwen3-235B-A22B-Instruct-2507": {
|
||||
"description": "Qwen3-235B-A22B-Instruct-2507 is een vlaggenschip hybride-expert (MoE) groot taalmodel uit de Qwen3-serie, ontwikkeld door het Alibaba Cloud Tongyi Qianwen-team. Het model heeft 235 miljard totale parameters en activeert 22 miljard parameters per inferentie. Het is een update van de niet-denkende modus van Qwen3-235B-A22B, met significante verbeteringen in instructienaleving, logische redenering, tekstbegrip, wiskunde, wetenschap, programmeren en toolgebruik. Daarnaast is de dekking van meertalige lange staartkennis versterkt en is het beter afgestemd op gebruikersvoorkeuren in subjectieve en open taken voor het genereren van nuttigere en kwalitatief betere teksten."
|
||||
},
|
||||
"Qwen/Qwen3-235B-A22B-Thinking-2507": {
|
||||
"description": "Qwen3-235B-A22B-Thinking-2507 is een lid van de Qwen3-serie grote taalmodellen ontwikkeld door Alibaba Tongyi Qianwen, gericht op complexe en moeilijke redeneertaken. Het model is gebaseerd op een hybride-expert (MoE) architectuur met 235 miljard parameters, waarbij per token ongeveer 22 miljard parameters worden geactiveerd, wat zorgt voor hoge prestaties en efficiëntie. Als speciaal 'denk'-model excelleert het in logische redenering, wiskunde, wetenschap, programmeren en academische benchmarks, en bereikt het topniveau onder open-source denkmodellen. Het model versterkt ook algemene capaciteiten zoals instructienaleving, toolgebruik en tekstgeneratie, ondersteunt native 256K lange contexten en is ideaal voor diepgaande redenering en verwerking van lange documenten."
|
||||
},
|
||||
"Qwen/Qwen3-30B-A3B": {
|
||||
"description": "Qwen3 is een nieuwe generatie Qwen-model met aanzienlijk verbeterde capaciteiten, die op het gebied van redenering, algemeen gebruik, agent en meertaligheid op een leidende positie in de industrie staat, en ondersteunt de schakel tussen denkmodi."
|
||||
},
|
||||
"Qwen/Qwen3-30B-A3B-Instruct-2507": {
|
||||
"description": "Qwen3-30B-A3B-Instruct-2507 is een bijgewerkte versie van Qwen3-30B-A3B zonder denkmodus. Dit is een hybride expert (MoE) model met in totaal 30,5 miljard parameters en 3,3 miljard actieve parameters. Het model heeft belangrijke verbeteringen ondergaan op meerdere gebieden, waaronder een aanzienlijke verbetering van het volgen van instructies, logisch redeneren, tekstbegrip, wiskunde, wetenschap, codering en het gebruik van tools. Tegelijkertijd heeft het substantiële vooruitgang geboekt in de dekking van meertalige long-tail kennis en kan het beter afstemmen op de voorkeuren van gebruikers bij subjectieve en open taken, waardoor het nuttigere antwoorden en tekst van hogere kwaliteit kan genereren. Bovendien is het vermogen van het model om lange teksten te begrijpen uitgebreid tot 256K. Dit model ondersteunt alleen de niet-denkmodus en genereert geen `<think></think>` tags in de output."
|
||||
},
|
||||
"Qwen/Qwen3-32B": {
|
||||
"description": "Qwen3 is een nieuwe generatie Qwen-model met aanzienlijk verbeterde capaciteiten, die op het gebied van redenering, algemeen gebruik, agent en meertaligheid op een leidende positie in de industrie staat, en ondersteunt de schakel tussen denkmodi."
|
||||
},
|
||||
@@ -362,12 +314,6 @@
|
||||
"Qwen2.5-Coder-32B-Instruct": {
|
||||
"description": "Qwen2.5-Coder-32B-Instruct is een groot taalmodel dat speciaal is ontworpen voor codegeneratie, codebegrip en efficiënte ontwikkelingsscenario's, met een toonaangevende parameteromvang van 32B, dat kan voldoen aan diverse programmeerbehoeften."
|
||||
},
|
||||
"Qwen3-235B": {
|
||||
"description": "Qwen3-235B-A22B is een MoE (hybride expertmodel) dat de \"hybride redeneermodus\" introduceert, waarmee gebruikers naadloos kunnen schakelen tussen \"denkmodus\" en \"niet-denkmodus\". Het ondersteunt begrip en redenering in 119 talen en dialecten en beschikt over krachtige tool-aanroepmogelijkheden. Op het gebied van algemene vaardigheden, codering en wiskunde, meertalige capaciteiten, kennis en redenering kan het concurreren met toonaangevende grote modellen op de markt zoals DeepSeek R1, OpenAI o1, o3-mini, Grok 3 en Google Gemini 2.5 Pro."
|
||||
},
|
||||
"Qwen3-32B": {
|
||||
"description": "Qwen3-32B is een dense model dat de \"hybride redeneermodus\" introduceert, waarmee gebruikers naadloos kunnen schakelen tussen \"denkmodus\" en \"niet-denkmodus\". Dankzij verbeteringen in de modelarchitectuur, toegenomen trainingsdata en effectievere trainingsmethoden presteert het model in het algemeen vergelijkbaar met Qwen2.5-72B."
|
||||
},
|
||||
"SenseChat": {
|
||||
"description": "Basisversie van het model (V4), met een contextlengte van 4K, heeft sterke algemene capaciteiten."
|
||||
},
|
||||
@@ -404,12 +350,6 @@
|
||||
"SenseChat-Vision": {
|
||||
"description": "De nieuwste versie van het model (V5.5) ondersteunt meerdere afbeeldingen als invoer en heeft aanzienlijke optimalisaties doorgevoerd in de basiscapaciteiten van het model, met verbeteringen in objecteigenschappenherkenning, ruimtelijke relaties, actie-evenementherkenning, scènebegrip, emotieherkenning, logische kennisredenering en tekstbegrip en -generatie."
|
||||
},
|
||||
"SenseNova-V6-5-Pro": {
|
||||
"description": "Door een uitgebreide update van multimodale, taal- en redeneergegevens en optimalisatie van trainingsstrategieën, heeft het nieuwe model aanzienlijke verbeteringen gerealiseerd in multimodale redenering en generalisatie van instructievolging. Het ondersteunt een contextvenster tot 128k en presteert uitstekend in gespecialiseerde taken zoals OCR en herkenning van toeristische IP."
|
||||
},
|
||||
"SenseNova-V6-5-Turbo": {
|
||||
"description": "Door een uitgebreide update van multimodale, taal- en redeneergegevens en optimalisatie van trainingsstrategieën, heeft het nieuwe model aanzienlijke verbeteringen gerealiseerd in multimodale redenering en generalisatie van instructievolging. Het ondersteunt een contextvenster tot 128k en presteert uitstekend in gespecialiseerde taken zoals OCR en herkenning van toeristische IP."
|
||||
},
|
||||
"SenseNova-V6-Pro": {
|
||||
"description": "Realiseert de native integratie van afbeeldingen, tekst en video, doorbreekt de traditionele beperkingen van gescheiden multimodaliteit, en heeft in de OpenCompass en SuperCLUE evaluaties dubbele kampioenstitels behaald."
|
||||
},
|
||||
@@ -1004,9 +944,6 @@
|
||||
"doubao-seed-1.6-thinking": {
|
||||
"description": "Doubao-Seed-1.6-thinking model heeft sterk verbeterde denkvermogens, met verdere verbeteringen in basisvaardigheden zoals coderen, wiskunde en logisch redeneren ten opzichte van Doubao-1.5-thinking-pro, en ondersteunt visueel begrip. Ondersteunt een contextvenster van 256k en een maximale uitvoerlengte van 16k tokens."
|
||||
},
|
||||
"doubao-seedream-3-0-t2i-250415": {
|
||||
"description": "Het Doubao beeldgeneratiemodel is ontwikkeld door het Seed-team van ByteDance en ondersteunt zowel tekst- als beeldinvoer, en biedt een hoog controleerbare en hoogwaardige beeldgeneratie-ervaring. Het genereert beelden op basis van tekstprompts."
|
||||
},
|
||||
"doubao-vision-lite-32k": {
|
||||
"description": "Het Doubao-vision model is een multimodaal groot model van Doubao met krachtige beeldbegrip- en redeneercapaciteiten, evenals nauwkeurige instructiebegrip. Het model presteert sterk bij het extraheren van beeld- en tekstinformatie en bij beeldgebaseerde redeneertaken, en is toepasbaar op complexere en bredere visuele vraag-en-antwoord scenario's."
|
||||
},
|
||||
@@ -1058,9 +995,6 @@
|
||||
"ernie-char-fiction-8k": {
|
||||
"description": "Een door Baidu ontwikkeld groot taalmodel voor verticale scenario's, geschikt voor toepassingen zoals game NPC's, klantenservice dialoog, en rollenspellen, met een duidelijkere en consistentere karakterstijl, sterkere instructievolgcapaciteiten en betere inferentieprestaties."
|
||||
},
|
||||
"ernie-irag-edit": {
|
||||
"description": "Het door Baidu zelf ontwikkelde ERNIE iRAG Edit beeldbewerkingsmodel ondersteunt bewerkingen zoals wissen (erase), hertekenen (repaint) en variatie (variantie genereren) op basis van afbeeldingen."
|
||||
},
|
||||
"ernie-lite-8k": {
|
||||
"description": "ERNIE Lite is een lichtgewicht groot taalmodel dat door Baidu is ontwikkeld, dat uitstekende modelprestaties en inferentiecapaciteiten combineert, geschikt voor gebruik met AI-versnelling kaarten met lage rekencapaciteit."
|
||||
},
|
||||
@@ -1088,27 +1022,12 @@
|
||||
"ernie-x1-turbo-32k": {
|
||||
"description": "In vergelijking met ERNIE-X1-32K biedt dit model betere prestaties en effectiviteit."
|
||||
},
|
||||
"flux-1-schnell": {
|
||||
"description": "Een tekst-naar-beeldmodel met 12 miljard parameters ontwikkeld door Black Forest Labs, gebruikmakend van latente adversariële diffusie-distillatie technologie, dat hoogwaardige beelden kan genereren binnen 1 tot 4 stappen. Dit model presteert vergelijkbaar met gesloten bron alternatieven en wordt uitgebracht onder de Apache-2.0 licentie, geschikt voor persoonlijk, wetenschappelijk en commercieel gebruik."
|
||||
},
|
||||
"flux-dev": {
|
||||
"description": "FLUX.1 [dev] is een open-source gewicht en verfijnd model voor niet-commercieel gebruik. Het behoudt een beeldkwaliteit en instructienaleving vergelijkbaar met de professionele versie van FLUX, maar met een hogere operationele efficiëntie. Vergeleken met standaardmodellen van dezelfde grootte is het efficiënter in het gebruik van middelen."
|
||||
},
|
||||
"flux-kontext/dev": {
|
||||
"description": "Frontier beeldbewerkingsmodel."
|
||||
},
|
||||
"flux-merged": {
|
||||
"description": "Het FLUX.1-merged model combineert de diepgaande kenmerken verkend tijdens de ontwikkelingsfase van \"DEV\" met de hoge uitvoeringssnelheid van \"Schnell\". Deze combinatie verhoogt niet alleen de prestatiegrenzen van het model, maar breidt ook het toepassingsgebied uit."
|
||||
},
|
||||
"flux-pro/kontext": {
|
||||
"description": "FLUX.1 Kontext [pro] kan tekst en referentieafbeeldingen als invoer verwerken, waardoor doelgerichte lokale bewerkingen en complexe algehele scèneveranderingen naadloos mogelijk zijn."
|
||||
},
|
||||
"flux-schnell": {
|
||||
"description": "FLUX.1 [schnell] is momenteel het meest geavanceerde open-source model met weinig stappen, dat niet alleen concurrenten overtreft, maar ook krachtige niet-gedistilleerde modellen zoals Midjourney v6.0 en DALL·E 3 (HD). Het model is speciaal fijn afgesteld om de volledige outputdiversiteit van de pre-trainingsfase te behouden. Vergeleken met de meest geavanceerde modellen op de markt verbetert FLUX.1 [schnell] aanzienlijk de visuele kwaliteit, instructienaleving, schaal/verhouding aanpassing, lettertypeverwerking en outputdiversiteit, wat gebruikers een rijkere en gevarieerdere creatieve beeldgeneratie-ervaring biedt."
|
||||
},
|
||||
"flux.1-schnell": {
|
||||
"description": "Een Rectified Flow Transformer met 12 miljard parameters, in staat om beelden te genereren op basis van tekstbeschrijvingen."
|
||||
},
|
||||
"flux/schnell": {
|
||||
"description": "FLUX.1 [schnell] is een streaming transformer-model met 12 miljard parameters, dat binnen 1 tot 4 stappen hoogwaardige afbeeldingen uit tekst kan genereren, geschikt voor persoonlijk en commercieel gebruik."
|
||||
},
|
||||
@@ -1190,6 +1109,9 @@
|
||||
"gemini-2.5-flash-preview-04-17": {
|
||||
"description": "Gemini 2.5 Flash Preview is het meest kosteneffectieve model van Google, dat uitgebreide functionaliteit biedt."
|
||||
},
|
||||
"gemini-2.5-flash-preview-04-17-thinking": {
|
||||
"description": "Gemini 2.5 Flash Preview is het meest kosteneffectieve model van Google en biedt uitgebreide functionaliteiten."
|
||||
},
|
||||
"gemini-2.5-flash-preview-05-20": {
|
||||
"description": "Gemini 2.5 Flash Preview is het meest kosteneffectieve model van Google en biedt uitgebreide functionaliteiten."
|
||||
},
|
||||
@@ -1268,21 +1190,6 @@
|
||||
"glm-4.1v-thinking-flashx": {
|
||||
"description": "De GLM-4.1V-Thinking serie modellen zijn momenteel de krachtigste visuele modellen binnen de bekende 10 miljard parameter VLM's. Ze integreren state-of-the-art visuele-taaltaakprestaties op hetzelfde niveau, waaronder videoverwerking, beeldvraag-antwoordsystemen, vakinhoudelijke probleemoplossing, OCR-tekstherkenning, document- en grafiekanalyse, GUI-agenten, frontend webcodering en grounding. De capaciteiten van meerdere taken overtreffen zelfs die van Qwen2.5-VL-72B met acht keer zoveel parameters. Door geavanceerde versterkend leren technologie beheerst het model chain-of-thought redenering om de nauwkeurigheid en rijkdom van antwoorden te verbeteren, wat resulteert in aanzienlijk betere eindresultaten en interpretatie dan traditionele niet-thinking modellen."
|
||||
},
|
||||
"glm-4.5": {
|
||||
"description": "Het nieuwste vlaggenschipmodel van Zhizhu, ondersteunt schakeling tussen denkmodi, met een algehele prestatie die het SOTA-niveau van open-source modellen bereikt, en een contextlengte tot 128K."
|
||||
},
|
||||
"glm-4.5-air": {
|
||||
"description": "Een lichtgewicht versie van GLM-4.5, die zowel prestaties als kosteneffectiviteit combineert en flexibel kan schakelen tussen hybride denkmodellen."
|
||||
},
|
||||
"glm-4.5-airx": {
|
||||
"description": "De snelle versie van GLM-4.5-Air, met snellere reactietijden, speciaal ontworpen voor grootschalige en hoge-snelheidsbehoeften."
|
||||
},
|
||||
"glm-4.5-flash": {
|
||||
"description": "De gratis versie van GLM-4.5, met uitstekende prestaties in inferentie, codering en agenttaken."
|
||||
},
|
||||
"glm-4.5-x": {
|
||||
"description": "De snelle versie van GLM-4.5, met krachtige prestaties en een generatie snelheid tot 100 tokens per seconde."
|
||||
},
|
||||
"glm-4v": {
|
||||
"description": "GLM-4V biedt krachtige beeldbegrip- en redeneercapaciteiten, ondersteunt verschillende visuele taken."
|
||||
},
|
||||
@@ -1302,7 +1209,7 @@
|
||||
"description": "Supersnelle redenering: met een extreem snelle redeneringssnelheid en krachtige redeneringseffecten."
|
||||
},
|
||||
"glm-z1-flash": {
|
||||
"description": "De GLM-Z1-serie beschikt over sterke capaciteiten voor complexe redenering en presteert uitstekend in logica, wiskunde en programmeren."
|
||||
"description": "De GLM-Z1 serie beschikt over krachtige complexe redeneringscapaciteiten en presteert uitstekend in logische redenering, wiskunde en programmeren. De maximale contextlengte is 32K."
|
||||
},
|
||||
"glm-z1-flashx": {
|
||||
"description": "Snel en betaalbaar: Flash verbeterde versie met ultrahoge inferentiesnelheid en snellere gelijktijdige verwerking."
|
||||
@@ -1478,9 +1385,6 @@
|
||||
"grok-2-1212": {
|
||||
"description": "Dit model heeft verbeteringen aangebracht in nauwkeurigheid, instructievolging en meertalige capaciteiten."
|
||||
},
|
||||
"grok-2-image-1212": {
|
||||
"description": "Ons nieuwste beeldgeneratiemodel kan levendige en realistische beelden genereren op basis van tekstprompts. Het presteert uitstekend in beeldgeneratie voor marketing, sociale media en entertainment."
|
||||
},
|
||||
"grok-2-vision-1212": {
|
||||
"description": "Dit model heeft verbeteringen aangebracht in nauwkeurigheid, instructievolging en meertalige capaciteiten."
|
||||
},
|
||||
@@ -1550,9 +1454,6 @@
|
||||
"hunyuan-t1-20250529": {
|
||||
"description": "Geoptimaliseerd voor tekstcreatie en essay schrijven, verbeterde vaardigheden in frontend codering, wiskunde en logisch redeneren, en verbeterde instructievolging."
|
||||
},
|
||||
"hunyuan-t1-20250711": {
|
||||
"description": "Significante verbetering van geavanceerde wiskundige, logische en codeervaardigheden, optimalisatie van modeloutputstabiliteit en verbetering van lange-tekstcapaciteiten."
|
||||
},
|
||||
"hunyuan-t1-latest": {
|
||||
"description": "De eerste ultra-grote Hybrid-Transformer-Mamba inferentiemodel in de industrie, dat de inferentiemogelijkheden uitbreidt, met een superieure decodesnelheid en verder afgestemd op menselijke voorkeuren."
|
||||
},
|
||||
@@ -1601,12 +1502,6 @@
|
||||
"hunyuan-vision": {
|
||||
"description": "Het nieuwste multimodale model van Hunyuan, ondersteunt het genereren van tekstinhoud op basis van afbeelding + tekstinvoer."
|
||||
},
|
||||
"image-01": {
|
||||
"description": "Een nieuw beeldgeneratiemodel met fijne beeldweergave, ondersteunt tekst-naar-beeld en beeld-naar-beeld."
|
||||
},
|
||||
"image-01-live": {
|
||||
"description": "Beeldgeneratiemodel met fijne beeldweergave, ondersteunt tekst-naar-beeld en stijlinstellingen."
|
||||
},
|
||||
"imagen-4.0-generate-preview-06-06": {
|
||||
"description": "Imagen 4e generatie tekst-naar-beeld modelserie"
|
||||
},
|
||||
@@ -1631,9 +1526,6 @@
|
||||
"internvl3-latest": {
|
||||
"description": "Ons nieuwste multimodale grote model, met verbeterde beeld- en tekstbegripcapaciteiten en lange termijn beeldbegrip, presteert op het niveau van toonaangevende gesloten modellen. Standaard gericht op ons recentste InternVL-seriemodel, momenteel gericht op internvl3-78b."
|
||||
},
|
||||
"irag-1.0": {
|
||||
"description": "Baidu's zelfontwikkelde iRAG (image based RAG) is een doorzoekversterkte tekst-naar-beeldtechnologie die Baidu's miljarden afbeeldingen combineert met krachtige basismodelcapaciteiten om diverse ultra-realistische beelden te genereren. Het overtreft native tekst-naar-beeldsystemen aanzienlijk, zonder AI-achtige uitstraling en met lage kosten. iRAG kenmerkt zich door geen hallucinaties, ultra-realistische beelden en directe beschikbaarheid."
|
||||
},
|
||||
"jamba-large": {
|
||||
"description": "Ons krachtigste en meest geavanceerde model, speciaal ontworpen voor het verwerken van complexe taken op bedrijfsniveau, met uitstekende prestaties."
|
||||
},
|
||||
@@ -1643,9 +1535,6 @@
|
||||
"jina-deepsearch-v1": {
|
||||
"description": "Diepe zoekopdrachten combineren webzoekopdrachten, lezen en redeneren voor een uitgebreide verkenning. Je kunt het beschouwen als een agent die jouw onderzoeksopdracht aanneemt - het zal een uitgebreide zoektocht uitvoeren en meerdere iteraties doorlopen voordat het een antwoord geeft. Dit proces omvat voortdurende onderzoek, redeneren en het oplossen van problemen vanuit verschillende invalshoeken. Dit is fundamenteel anders dan het rechtstreeks genereren van antwoorden uit voorgetrainde gegevens door standaard grote modellen en het vertrouwen op eenmalige oppervlakkige zoekopdrachten van traditionele RAG-systemen."
|
||||
},
|
||||
"kimi-k2": {
|
||||
"description": "Kimi-K2 is een MoE-architectuurbasis model met krachtige codeer- en agentcapaciteiten, uitgebracht door Moonshot AI, met in totaal 1 biljoen parameters en 32 miljard geactiveerde parameters. In benchmarktests voor algemene kennisredenering, programmeren, wiskunde en agenttaken overtreft het K2-model andere toonaangevende open-source modellen."
|
||||
},
|
||||
"kimi-k2-0711-preview": {
|
||||
"description": "kimi-k2 is een MoE-architectuurbasis model met krachtige codeer- en agentcapaciteiten, met in totaal 1 biljoen parameters en 32 miljard geactiveerde parameters. In benchmarktests voor algemene kennisredenering, programmeren, wiskunde en agenttaken overtreft het K2-model andere toonaangevende open-source modellen."
|
||||
},
|
||||
@@ -2039,9 +1928,6 @@
|
||||
"moonshotai/Kimi-Dev-72B": {
|
||||
"description": "Kimi-Dev-72B is een open source code groot model, geoptimaliseerd door grootschalige versterkte leerprocessen, dat robuuste en direct inzetbare patches kan genereren. Dit model behaalde een nieuwe recordscore van 60,4% op SWE-bench Verified en vestigde daarmee een nieuw hoogtepunt voor open source modellen bij geautomatiseerde software engineering taken zoals defectherstel en code review."
|
||||
},
|
||||
"moonshotai/Kimi-K2-Instruct": {
|
||||
"description": "Kimi K2 is een MoE-architectuurbasis model met krachtige codeer- en agentcapaciteiten, met in totaal 1 biljoen parameters en 32 miljard geactiveerde parameters. In benchmarktests voor algemene kennisredenering, programmeren, wiskunde en agenttaken overtreft het K2-model andere toonaangevende open-source modellen."
|
||||
},
|
||||
"moonshotai/kimi-k2-instruct": {
|
||||
"description": "kimi-k2 is een MoE-architectuurbasis model met krachtige codeer- en agentmogelijkheden, met in totaal 1 biljoen parameters en 32 miljard geactiveerde parameters. In benchmarktests voor algemene kennisredenering, programmeren, wiskunde en agent-gerelateerde categorieën presteert het K2-model beter dan andere gangbare open-source modellen."
|
||||
},
|
||||
@@ -2378,21 +2264,9 @@
|
||||
"qwen3-235b-a22b": {
|
||||
"description": "Qwen3 is een nieuwe generatie van het Qwen grote model met aanzienlijk verbeterde capaciteiten, die de industrie leidende niveaus bereikt in redeneren, algemeen gebruik, agent en meertalige ondersteuning, en ondersteunt de schakeling tussen denkmodi."
|
||||
},
|
||||
"qwen3-235b-a22b-instruct-2507": {
|
||||
"description": "Open-source model in niet-denkende modus gebaseerd op Qwen3, met lichte verbeteringen in subjectieve creativiteit en modelveiligheid ten opzichte van de vorige versie (Tongyi Qianwen 3-235B-A22B)."
|
||||
},
|
||||
"qwen3-235b-a22b-thinking-2507": {
|
||||
"description": "Open-source model in denkmodus gebaseerd op Qwen3, met aanzienlijke verbeteringen in logische vaardigheden, algemene capaciteiten, kennisversterking en creativiteit ten opzichte van de vorige versie (Tongyi Qianwen 3-235B-A22B), geschikt voor complexe en veeleisende redeneerscenario's."
|
||||
},
|
||||
"qwen3-30b-a3b": {
|
||||
"description": "Qwen3 is een nieuwe generatie van het Qwen grote model met aanzienlijk verbeterde capaciteiten, die de industrie leidende niveaus bereikt in redeneren, algemeen gebruik, agent en meertalige ondersteuning, en ondersteunt de schakeling tussen denkmodi."
|
||||
},
|
||||
"qwen3-30b-a3b-instruct-2507": {
|
||||
"description": "In vergelijking met de vorige versie (Qwen3-30B-A3B) is de algemene meertalige en Chinese en Engelse vaardigheid aanzienlijk verbeterd. Er is speciale optimalisatie voor subjectieve en open taken, waardoor het veel beter aansluit bij gebruikersvoorkeuren en nuttigere antwoorden kan bieden."
|
||||
},
|
||||
"qwen3-30b-a3b-thinking-2507": {
|
||||
"description": "Gebaseerd op het open source denkmodusmodel van Qwen3, heeft deze versie ten opzichte van de vorige (Tongyi Qianwen 3-30B-A3B) aanzienlijke verbeteringen in logisch vermogen, algemene vaardigheden, kennisverrijking en creativiteit. Het is geschikt voor complexe scenario's met sterke redeneervaardigheden."
|
||||
},
|
||||
"qwen3-32b": {
|
||||
"description": "Qwen3 is een nieuwe generatie van het Qwen grote model met aanzienlijk verbeterde capaciteiten, die de industrie leidende niveaus bereikt in redeneren, algemeen gebruik, agent en meertalige ondersteuning, en ondersteunt de schakeling tussen denkmodi."
|
||||
},
|
||||
@@ -2402,12 +2276,6 @@
|
||||
"qwen3-8b": {
|
||||
"description": "Qwen3 is een nieuwe generatie van het Qwen grote model met aanzienlijk verbeterde capaciteiten, die de industrie leidende niveaus bereikt in redeneren, algemeen gebruik, agent en meertalige ondersteuning, en ondersteunt de schakeling tussen denkmodi."
|
||||
},
|
||||
"qwen3-coder-480b-a35b-instruct": {
|
||||
"description": "Open-source codeermodel van Tongyi Qianwen. De nieuwste qwen3-coder-480b-a35b-instruct is gebaseerd op Qwen3, met krachtige Coding Agent-capaciteiten, bedreven in toolaanroepen en omgevingsinteractie, en kan zelfstandig programmeren met uitstekende codeervaardigheden en algemene capaciteiten."
|
||||
},
|
||||
"qwen3-coder-plus": {
|
||||
"description": "Codeermodel van Tongyi Qianwen. De nieuwste Qwen3-Coder-Plus serie is gebaseerd op Qwen3, met krachtige Coding Agent-capaciteiten, bedreven in toolaanroepen en omgevingsinteractie, en kan zelfstandig programmeren met uitstekende codeervaardigheden en algemene capaciteiten."
|
||||
},
|
||||
"qwq": {
|
||||
"description": "QwQ is een experimenteel onderzoeksmodel dat zich richt op het verbeteren van de AI-redeneringscapaciteiten."
|
||||
},
|
||||
@@ -2450,24 +2318,6 @@
|
||||
"sonar-reasoning-pro": {
|
||||
"description": "Een nieuw API-product ondersteund door het DeepSeek redeneringsmodel."
|
||||
},
|
||||
"stable-diffusion-3-medium": {
|
||||
"description": "Het nieuwste tekst-naar-beeld groot model uitgebracht door Stability AI. Deze versie bouwt voort op de voordelen van eerdere generaties en verbetert aanzienlijk de beeldkwaliteit, tekstbegrip en stijlvariëteit. Het kan complexe natuurlijke taal prompts nauwkeuriger interpreteren en genereert preciezere en gevarieerdere beelden."
|
||||
},
|
||||
"stable-diffusion-3.5-large": {
|
||||
"description": "stable-diffusion-3.5-large is een multimodale diffusie-transformer (MMDiT) tekst-naar-beeldgeneratiemodel met 800 miljoen parameters, met uitstekende beeldkwaliteit en promptmatching. Het ondersteunt het genereren van hoge-resolutie beelden tot 1 miljoen pixels en kan efficiënt draaien op standaard consumentenhardware."
|
||||
},
|
||||
"stable-diffusion-3.5-large-turbo": {
|
||||
"description": "stable-diffusion-3.5-large-turbo is een model gebaseerd op stable-diffusion-3.5-large, met adversariële diffusie-distillatie (ADD) technologie voor snellere snelheid."
|
||||
},
|
||||
"stable-diffusion-v1.5": {
|
||||
"description": "stable-diffusion-v1.5 is geïnitialiseerd met de stable-diffusion-v1.2 checkpoint gewichten en fijn afgesteld met 595k stappen op \"laion-aesthetics v2 5+\" dataset bij 512x512 resolutie, met 10% minder tekstconditionering om classifier-vrije begeleiding te verbeteren."
|
||||
},
|
||||
"stable-diffusion-xl": {
|
||||
"description": "stable-diffusion-xl heeft aanzienlijke verbeteringen ten opzichte van v1.5 en levert vergelijkbare resultaten als het huidige open-source SOTA tekst-naar-beeld model Midjourney. Verbeteringen omvatten een drie keer grotere UNet backbone, een refinement module voor betere beeldkwaliteit en efficiëntere trainingstechnieken."
|
||||
},
|
||||
"stable-diffusion-xl-base-1.0": {
|
||||
"description": "Een door Stability AI ontwikkeld en open-source groot tekst-naar-beeld model met toonaangevende creatieve beeldgeneratiecapaciteiten. Het beschikt over uitstekende instructiebegrip en ondersteunt omgekeerde promptdefinities voor nauwkeurige inhoudsgeneratie."
|
||||
},
|
||||
"step-1-128k": {
|
||||
"description": "Biedt een balans tussen prestaties en kosten, geschikt voor algemene scenario's."
|
||||
},
|
||||
@@ -2498,12 +2348,6 @@
|
||||
"step-1v-8k": {
|
||||
"description": "Klein visueel model, geschikt voor basis tekst- en afbeeldingtaken."
|
||||
},
|
||||
"step-1x-edit": {
|
||||
"description": "Dit model is gespecialiseerd in beeldbewerkingsopdrachten en kan afbeeldingen aanpassen en verbeteren op basis van door gebruikers aangeleverde afbeeldingen en tekstbeschrijvingen. Het ondersteunt diverse invoerformaten, waaronder tekstbeschrijvingen en voorbeeldafbeeldingen. Het model begrijpt de intentie van de gebruiker en genereert beeldbewerkingsresultaten die aan de eisen voldoen."
|
||||
},
|
||||
"step-1x-medium": {
|
||||
"description": "Dit model heeft krachtige beeldgeneratiecapaciteiten en ondersteunt tekstbeschrijvingen als invoer. Het biedt native ondersteuning voor het Chinees, waardoor het Chinese tekstbeschrijvingen beter kan begrijpen en verwerken. Het kan semantische informatie nauwkeuriger vastleggen en omzetten in beeldkenmerken voor preciezere beeldgeneratie. Het model genereert hoge-resolutie, hoogwaardige beelden en heeft enige stijltransfercapaciteit."
|
||||
},
|
||||
"step-2-16k": {
|
||||
"description": "Ondersteunt grootschalige contextinteracties, geschikt voor complexe gespreksscenario's."
|
||||
},
|
||||
@@ -2513,9 +2357,6 @@
|
||||
"step-2-mini": {
|
||||
"description": "Een razendsnel groot model gebaseerd op de nieuwe generatie zelfontwikkelde Attention-architectuur MFA, dat met zeer lage kosten vergelijkbare resultaten als step1 behaalt, terwijl het een hogere doorvoer en snellere responstijd behoudt. Het kan algemene taken verwerken en heeft speciale vaardigheden op het gebied van codering."
|
||||
},
|
||||
"step-2x-large": {
|
||||
"description": "De nieuwe generatie Step Star beeldgeneratiemodel, gespecialiseerd in beeldgeneratie. Het kan op basis van door gebruikers aangeleverde tekstbeschrijvingen hoogwaardige beelden genereren. Het nieuwe model produceert realistischere texturen en heeft sterkere Chinese en Engelse tekstgeneratiecapaciteiten."
|
||||
},
|
||||
"step-r1-v-mini": {
|
||||
"description": "Dit model is een krachtig redeneringsmodel met sterke beeldbegripcapaciteiten, in staat om beeld- en tekstinformatie te verwerken en tekstinhoud te genereren na diep nadenken. Dit model presteert uitstekend in visuele redenering en heeft eersteklas wiskundige, code- en tekstredeneringscapaciteiten. De contextlengte is 100k."
|
||||
},
|
||||
@@ -2591,23 +2432,8 @@
|
||||
"v0-1.5-md": {
|
||||
"description": "Het v0-1.5-md model is geschikt voor dagelijkse taken en het genereren van gebruikersinterfaces (UI)"
|
||||
},
|
||||
"wan2.2-t2i-flash": {
|
||||
"description": "Wanxiang 2.2 Flash-versie, het nieuwste model. Volledige upgrades in creativiteit, stabiliteit en realistische textuur, met snelle generatie en hoge kosteneffectiviteit."
|
||||
},
|
||||
"wan2.2-t2i-plus": {
|
||||
"description": "Wanxiang 2.2 professionele versie, het nieuwste model. Volledige upgrades in creativiteit, stabiliteit en realistische textuur, met rijke details in de gegenereerde beelden."
|
||||
},
|
||||
"wanx-v1": {
|
||||
"description": "Basis tekst-naar-beeld model, overeenkomend met het Tongyi Wanxiang officiële 1.0 algemene model."
|
||||
},
|
||||
"wanx2.0-t2i-turbo": {
|
||||
"description": "Gespecialiseerd in realistische portretten, met gemiddelde snelheid en lage kosten. Overeenkomend met het Tongyi Wanxiang officiële 2.0 Turbo model."
|
||||
},
|
||||
"wanx2.1-t2i-plus": {
|
||||
"description": "Volledig geüpgraded versie. Genereert beelden met rijkere details, iets langzamere snelheid. Overeenkomend met het Tongyi Wanxiang officiële 2.1 professionele model."
|
||||
},
|
||||
"wanx2.1-t2i-turbo": {
|
||||
"description": "Volledig geüpgraded versie. Snelle generatie, uitgebreide effecten en hoge algehele kosteneffectiviteit. Overeenkomend met het Tongyi Wanxiang officiële 2.1 Turbo model."
|
||||
"description": "Tekst-naar-beeldmodel van Alibaba Cloud Tongyi"
|
||||
},
|
||||
"whisper-1": {
|
||||
"description": "Algemeen spraakherkenningsmodel, ondersteunt meertalige spraakherkenning, spraakvertaling en taalherkenning."
|
||||
@@ -2659,11 +2485,5 @@
|
||||
},
|
||||
"yi-vision-v2": {
|
||||
"description": "Complex visietakenmodel dat hoge prestaties biedt in begrip en analyse op basis van meerdere afbeeldingen."
|
||||
},
|
||||
"zai-org/GLM-4.5": {
|
||||
"description": "GLM-4.5 is een basis model speciaal ontworpen voor agenttoepassingen, gebruikmakend van een Mixture-of-Experts (MoE) architectuur. Het is diep geoptimaliseerd voor toolaanroepen, web browsing, software engineering en frontend programmeren, en ondersteunt naadloze integratie met code-agents zoals Claude Code en Roo Code. GLM-4.5 gebruikt een hybride redeneermodus en is geschikt voor complexe redenering en dagelijks gebruik."
|
||||
},
|
||||
"zai-org/GLM-4.5-Air": {
|
||||
"description": "GLM-4.5-Air is een basis model speciaal ontworpen voor agenttoepassingen, gebruikmakend van een Mixture-of-Experts (MoE) architectuur. Het is diep geoptimaliseerd voor toolaanroepen, web browsing, software engineering en frontend programmeren, en ondersteunt naadloze integratie met code-agents zoals Claude Code en Roo Code. GLM-4.5 gebruikt een hybride redeneermodus en is geschikt voor complexe redenering en dagelijks gebruik."
|
||||
}
|
||||
}
|
||||
|
||||
@@ -5,9 +5,6 @@
|
||||
"ai360": {
|
||||
"description": "360 AI is een AI-model- en serviceplatform gelanceerd door het bedrijf 360, dat verschillende geavanceerde modellen voor natuurlijke taalverwerking biedt, waaronder 360GPT2 Pro, 360GPT Pro, 360GPT Turbo en 360GPT Turbo Responsibility 8K. Deze modellen combineren grootschalige parameters en multimodale capaciteiten, en worden breed toegepast in tekstgeneratie, semantisch begrip, dialoogsystemen en codegeneratie. Met flexibele prijsstrategieën voldoet 360 AI aan diverse gebruikersbehoeften, ondersteunt het ontwikkelaars bij integratie en bevordert het de innovatie en ontwikkeling van intelligente toepassingen."
|
||||
},
|
||||
"aihubmix": {
|
||||
"description": "AiHubMix biedt via een uniforme API-toegang tot diverse AI-modellen."
|
||||
},
|
||||
"anthropic": {
|
||||
"description": "Anthropic is een bedrijf dat zich richt op onderzoek en ontwikkeling van kunstmatige intelligentie, en biedt een reeks geavanceerde taalmodellen aan, zoals Claude 3.5 Sonnet, Claude 3 Sonnet, Claude 3 Opus en Claude 3 Haiku. Deze modellen bereiken een ideale balans tussen intelligentie, snelheid en kosten, en zijn geschikt voor een breed scala aan toepassingen, van bedrijfswerkbelasting tot snelle respons. Claude 3.5 Sonnet, als hun nieuwste model, presteert uitstekend in verschillende evaluaties, terwijl het een hoge kosteneffectiviteit behoudt."
|
||||
},
|
||||
|
||||
@@ -189,7 +189,6 @@
|
||||
"aesGcm": "Twój klucz oraz adres proxy będą szyfrowane za pomocą <1>AES-GCM</1>",
|
||||
"apiKey": {
|
||||
"desc": "Proszę wpisać swój {{name}} klucz API",
|
||||
"descWithUrl": "Proszę wprowadzić swój klucz API {{name}}, <3>kliknij tutaj, aby go uzyskać</3>",
|
||||
"placeholder": "{{name}} klucz API",
|
||||
"title": "Klucz API"
|
||||
},
|
||||
|
||||
+5
-185
@@ -32,9 +32,6 @@
|
||||
"4.0Ultra": {
|
||||
"description": "Spark4.0 Ultra to najsilniejsza wersja w serii modeli Spark, która, oprócz ulepszonego łącza wyszukiwania w sieci, zwiększa zdolność rozumienia i podsumowywania treści tekstowych. Jest to kompleksowe rozwiązanie mające na celu zwiększenie wydajności biurowej i dokładne odpowiadanie na potrzeby, stanowiące inteligentny produkt wiodący w branży."
|
||||
},
|
||||
"AnimeSharp": {
|
||||
"description": "AnimeSharp (znany również jako „4x‑AnimeSharp”) to otwarty model superrozdzielczości opracowany przez Kim2091 na bazie architektury ESRGAN, skoncentrowany na powiększaniu i wyostrzaniu obrazów w stylu anime. W lutym 2022 roku zmieniono jego nazwę z „4x-TextSharpV1”. Początkowo model był również stosowany do obrazów tekstowych, ale jego wydajność została znacznie zoptymalizowana pod kątem treści anime."
|
||||
},
|
||||
"Baichuan2-Turbo": {
|
||||
"description": "Wykorzystuje technologię wzmacniania wyszukiwania, aby połączyć duży model z wiedzą branżową i wiedzą z całej sieci. Obsługuje przesyłanie różnych dokumentów, takich jak PDF, Word, oraz wprowadzanie adresów URL, zapewniając szybki i kompleksowy dostęp do informacji oraz dokładne i profesjonalne wyniki."
|
||||
},
|
||||
@@ -92,9 +89,6 @@
|
||||
"Doubao-pro-4k": {
|
||||
"description": "Najlepszy model główny, odpowiedni do złożonych zadań, osiągający doskonałe wyniki w scenariuszach takich jak pytania i odpowiedzi, streszczenia, twórczość, klasyfikacja tekstu i odgrywanie ról. Obsługuje wnioskowanie i dostrajanie z kontekstem do 4k."
|
||||
},
|
||||
"DreamO": {
|
||||
"description": "DreamO to otwarty model generowania obrazów opracowany wspólnie przez ByteDance i Uniwersytet Pekiński, mający na celu wsparcie wielozadaniowej generacji obrazów w ramach jednolitej architektury. Wykorzystuje efektywną metodę modelowania kombinacyjnego, umożliwiając generowanie spójnych i dostosowanych obrazów na podstawie wielu warunków, takich jak tożsamość, temat, styl czy tło wskazane przez użytkownika."
|
||||
},
|
||||
"ERNIE-3.5-128K": {
|
||||
"description": "Flagowy model dużego języka opracowany przez Baidu, obejmujący ogromne zbiory danych w języku chińskim i angielskim, charakteryzujący się silnymi zdolnościami ogólnymi, zdolny do spełnienia wymagań w większości scenariuszy związanych z pytaniami i odpowiedziami, generowaniem treści oraz aplikacjami wtyczek; wspiera automatyczne połączenie z wtyczką wyszukiwania Baidu, zapewniając aktualność informacji w odpowiedziach."
|
||||
},
|
||||
@@ -128,39 +122,15 @@
|
||||
"ERNIE-Speed-Pro-128K": {
|
||||
"description": "Najnowocześniejszy model dużego języka opracowany przez Baidu w 2024 roku, charakteryzujący się doskonałymi zdolnościami ogólnymi, oferujący lepsze wyniki niż ERNIE Speed, odpowiedni jako model bazowy do dalszego dostosowywania, lepiej radzący sobie z problemami w specyficznych scenariuszach, a także zapewniający doskonałą wydajność wnioskowania."
|
||||
},
|
||||
"FLUX.1-Kontext-dev": {
|
||||
"description": "FLUX.1-Kontext-dev to multimodalny model generowania i edycji obrazów opracowany przez Black Forest Labs, oparty na architekturze Rectified Flow Transformer, posiadający 12 miliardów parametrów. Skupia się na generowaniu, rekonstrukcji, wzmacnianiu i edycji obrazów w oparciu o podane warunki kontekstowe. Model łączy zalety kontrolowanej generacji modeli dyfuzyjnych z możliwościami modelowania kontekstu transformera, oferując wysoką jakość obrazów i szerokie zastosowanie w zadaniach takich jak naprawa, uzupełnianie i rekonstrukcja scen wizualnych."
|
||||
},
|
||||
"FLUX.1-dev": {
|
||||
"description": "FLUX.1-dev to otwarty multimodalny model językowy (MLLM) opracowany przez Black Forest Labs, zoptymalizowany pod kątem zadań tekstowo-obrazowych, łączący zdolności rozumienia i generowania obrazów oraz tekstu. Bazuje na zaawansowanych dużych modelach językowych (np. Mistral-7B) i dzięki starannie zaprojektowanemu enkoderowi wizualnemu oraz wieloetapowemu dostrajaniu instrukcji umożliwia współpracę tekstu i obrazu oraz złożone wnioskowanie."
|
||||
},
|
||||
"Gryphe/MythoMax-L2-13b": {
|
||||
"description": "MythoMax-L2 (13B) to innowacyjny model, idealny do zastosowań w wielu dziedzinach i złożonych zadań."
|
||||
},
|
||||
"HelloMeme": {
|
||||
"description": "HelloMeme to narzędzie AI, które automatycznie generuje memy, animacje lub krótkie filmy na podstawie dostarczonych przez Ciebie obrazów lub ruchów. Nie wymaga żadnych umiejętności rysunkowych ani programistycznych — wystarczy przygotować obraz referencyjny, a narzędzie stworzy atrakcyjne, zabawne i spójne stylistycznie treści."
|
||||
},
|
||||
"HiDream-I1-Full": {
|
||||
"description": "HiDream-E1-Full to otwarty, multimodalny model do edycji obrazów opracowany przez HiDream.ai, oparty na zaawansowanej architekturze Diffusion Transformer i wyposażony w potężne zdolności rozumienia języka (wbudowany LLaMA 3.1-8B-Instruct). Umożliwia generowanie obrazów, transfer stylu, lokalną edycję i przerysowywanie treści za pomocą naturalnych poleceń językowych, oferując doskonałe rozumienie i realizację zadań tekstowo-obrazowych."
|
||||
},
|
||||
"HunyuanDiT-v1.2-Diffusers-Distilled": {
|
||||
"description": "hunyuandit-v1.2-distilled to lekki model generowania obrazów na podstawie tekstu, zoptymalizowany przez destylację, umożliwiający szybkie tworzenie wysokiej jakości obrazów, szczególnie odpowiedni do środowisk o ograniczonych zasobach i zadań generacji w czasie rzeczywistym."
|
||||
},
|
||||
"InstantCharacter": {
|
||||
"description": "InstantCharacter to model generowania spersonalizowanych postaci bez potrzeby dostrajania, wydany przez zespół AI Tencent w 2025 roku. Model umożliwia wierne i spójne generowanie postaci w różnych scenariuszach na podstawie pojedynczego obrazu referencyjnego oraz elastyczne przenoszenie tej postaci do różnych stylów, ruchów i tła."
|
||||
},
|
||||
"InternVL2-8B": {
|
||||
"description": "InternVL2-8B to potężny model językowy wizualny, wspierający przetwarzanie multimodalne obrazów i tekstu, zdolny do precyzyjnego rozpoznawania treści obrazów i generowania odpowiednich opisów lub odpowiedzi."
|
||||
},
|
||||
"InternVL2.5-26B": {
|
||||
"description": "InternVL2.5-26B to potężny model językowy wizualny, wspierający przetwarzanie multimodalne obrazów i tekstu, zdolny do precyzyjnego rozpoznawania treści obrazów i generowania odpowiednich opisów lub odpowiedzi."
|
||||
},
|
||||
"Kolors": {
|
||||
"description": "Kolors to model generowania obrazów na podstawie tekstu opracowany przez zespół Kolors z Kuaishou. Trenowany na miliardach parametrów, wyróżnia się wysoką jakością wizualną, doskonałym rozumieniem semantyki języka chińskiego oraz precyzyjnym renderowaniem tekstu."
|
||||
},
|
||||
"Kwai-Kolors/Kolors": {
|
||||
"description": "Kolors to duży model generowania obrazów na podstawie tekstu oparty na latentnej dyfuzji, opracowany przez zespół Kolors z Kuaishou. Trenowany na miliardach par tekst-obraz, wykazuje znakomitą jakość wizualną, precyzję w rozumieniu złożonych semantyk oraz doskonałe renderowanie znaków chińskich i angielskich. Obsługuje wejścia w języku chińskim i angielskim, a także wyróżnia się w generowaniu specyficznych treści w języku chińskim."
|
||||
},
|
||||
"Llama-3.2-11B-Vision-Instruct": {
|
||||
"description": "Wyróżniające się zdolnościami wnioskowania obrazów na wysokiej rozdzielczości, odpowiednie do zastosowań w rozumieniu wizualnym."
|
||||
},
|
||||
@@ -194,15 +164,9 @@
|
||||
"MiniMaxAI/MiniMax-M1-80k": {
|
||||
"description": "MiniMax-M1 to otwartoźródłowy model inferencyjny o dużej skali z mieszanym mechanizmem uwagi, posiadający 456 miliardów parametrów, z których około 45,9 miliarda jest aktywowanych na każdy token. Model natywnie obsługuje ultra-długi kontekst do 1 miliona tokenów i dzięki mechanizmowi błyskawicznej uwagi oszczędza 75% operacji zmiennoprzecinkowych w zadaniach generowania na 100 tysiącach tokenów w porównaniu do DeepSeek R1. Ponadto MiniMax-M1 wykorzystuje architekturę MoE (mieszani eksperci), łącząc algorytm CISPO z efektywnym treningiem wzmacniającym opartym na mieszanej uwadze, osiągając wiodącą w branży wydajność w inferencji długich wejść i rzeczywistych scenariuszach inżynierii oprogramowania."
|
||||
},
|
||||
"Moonshot-Kimi-K2-Instruct": {
|
||||
"description": "Model o łącznej liczbie parametrów 1 biliona i aktywowanych 32 miliardach parametrów. Wśród modeli nie myślących osiąga czołowe wyniki w wiedzy specjalistycznej, matematyce i kodowaniu, lepiej radząc sobie z zadaniami ogólnymi agenta. Model jest starannie zoptymalizowany pod kątem zadań agenta, potrafi nie tylko odpowiadać na pytania, ale także podejmować działania. Idealny do improwizacji, ogólnej rozmowy i doświadczeń agenta, działający na poziomie refleksu bez potrzeby długiego przetwarzania."
|
||||
},
|
||||
"NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
||||
"description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B) to model poleceń o wysokiej precyzji, idealny do złożonych obliczeń."
|
||||
},
|
||||
"OmniConsistency": {
|
||||
"description": "OmniConsistency poprawia spójność stylu i zdolność generalizacji w zadaniach obraz-do-obrazu (Image-to-Image) poprzez wprowadzenie dużych modeli Diffusion Transformers (DiTs) oraz parowanych danych stylizowanych, zapobiegając degradacji stylu."
|
||||
},
|
||||
"Phi-3-medium-128k-instruct": {
|
||||
"description": "Ten sam model Phi-3-medium, ale z większym rozmiarem kontekstu do RAG lub kilku strzałowego wywoływania."
|
||||
},
|
||||
@@ -254,9 +218,6 @@
|
||||
"Pro/deepseek-ai/DeepSeek-V3": {
|
||||
"description": "DeepSeek-V3 to model językowy z 6710 miliardami parametrów, oparty na architekturze mieszanych ekspertów (MoE), wykorzystujący wielogłowicową potencjalną uwagę (MLA) oraz strategię równoważenia obciążenia bez dodatkowych strat, co optymalizuje wydajność wnioskowania i treningu. Dzięki wstępnemu treningowi na 14,8 bilionach wysokiej jakości tokenów oraz nadzorowanemu dostrajaniu i uczeniu ze wzmocnieniem, DeepSeek-V3 przewyższa inne modele open source, zbliżając się do wiodących modeli zamkniętych."
|
||||
},
|
||||
"Pro/moonshotai/Kimi-K2-Instruct": {
|
||||
"description": "Kimi K2 to podstawowy model architektury MoE o potężnych zdolnościach kodowania i agenta, z łączną liczbą parametrów 1 biliona i 32 miliardami aktywowanych parametrów. W testach wydajności w zakresie ogólnej wiedzy, programowania, matematyki i zadań agenta model K2 przewyższa inne popularne otwarte modele."
|
||||
},
|
||||
"QwQ-32B-Preview": {
|
||||
"description": "QwQ-32B-Preview to innowacyjny model przetwarzania języka naturalnego, który efektywnie radzi sobie z złożonymi zadaniami generowania dialogów i rozumienia kontekstu."
|
||||
},
|
||||
@@ -317,18 +278,9 @@
|
||||
"Qwen/Qwen3-235B-A22B": {
|
||||
"description": "Qwen3 to nowa generacja modelu Qwen, która znacznie zwiększa zdolności w zakresie wnioskowania, ogólnych zadań, agentów i wielojęzyczności, osiągając wiodące w branży wyniki oraz wspierając przełączanie trybu myślenia."
|
||||
},
|
||||
"Qwen/Qwen3-235B-A22B-Instruct-2507": {
|
||||
"description": "Qwen3-235B-A22B-Instruct-2507 to flagowy model dużego języka hybrydowego ekspertów (MoE) z serii Qwen3, opracowany przez zespół Alibaba Cloud Tongyi Qianwen. Model posiada 235 miliardów parametrów ogółem, z 22 miliardami aktywowanymi podczas inferencji. Jest to zaktualizowana wersja trybu nie myślącego Qwen3-235B-A22B, skupiająca się na znaczącej poprawie w zakresie przestrzegania instrukcji, wnioskowania logicznego, rozumienia tekstu, matematyki, nauki, programowania i użycia narzędzi. Model rozszerza pokrycie wiedzy wielojęzycznej i lepiej dostosowuje się do preferencji użytkowników w zadaniach subiektywnych i otwartych, generując bardziej pomocne i wysokiej jakości teksty."
|
||||
},
|
||||
"Qwen/Qwen3-235B-A22B-Thinking-2507": {
|
||||
"description": "Qwen3-235B-A22B-Thinking-2507 to model z serii Qwen3 opracowany przez zespół Alibaba Tongyi Qianwen, skoncentrowany na złożonych zadaniach wymagających zaawansowanego wnioskowania. Model oparty na architekturze hybrydowych ekspertów (MoE) posiada 235 miliardów parametrów, z aktywacją około 22 miliardów parametrów na token, co pozwala na wysoką wydajność przy efektywności obliczeniowej. Jako model „myślący” osiąga czołowe wyniki w zadaniach wymagających wiedzy specjalistycznej, takich jak logika, matematyka, nauka, programowanie i testy akademickie. Ponadto wzmacnia zdolności ogólne, takie jak przestrzeganie instrukcji, użycie narzędzi i generowanie tekstu, oraz natywnie obsługuje kontekst o długości do 256K tokenów, co czyni go idealnym do głębokiego wnioskowania i pracy z długimi dokumentami."
|
||||
},
|
||||
"Qwen/Qwen3-30B-A3B": {
|
||||
"description": "Qwen3 to nowa generacja modelu Qwen, która znacznie zwiększa zdolności w zakresie wnioskowania, ogólnych zadań, agentów i wielojęzyczności, osiągając wiodące w branży wyniki oraz wspierając przełączanie trybu myślenia."
|
||||
},
|
||||
"Qwen/Qwen3-30B-A3B-Instruct-2507": {
|
||||
"description": "Qwen3-30B-A3B-Instruct-2507 to zaktualizowana wersja modelu Qwen3-30B-A3B w trybie bez myślenia. Jest to model ekspertowy mieszany (MoE) z 30,5 miliardami parametrów ogółem i 3,3 miliardami parametrów aktywacyjnych. Model został znacząco ulepszony pod wieloma względami, w tym w zakresie przestrzegania instrukcji, rozumowania logicznego, rozumienia tekstu, matematyki, nauki, kodowania oraz korzystania z narzędzi. Ponadto osiągnął istotny postęp w pokryciu wiedzy wielojęzycznej oraz lepsze dopasowanie do preferencji użytkowników w zadaniach subiektywnych i otwartych, co pozwala generować bardziej pomocne odpowiedzi i teksty wyższej jakości. Dodatkowo zdolność rozumienia długich tekstów została zwiększona do 256K. Model ten obsługuje wyłącznie tryb bez myślenia i nie generuje tagów `<think></think>` w swoich odpowiedziach."
|
||||
},
|
||||
"Qwen/Qwen3-32B": {
|
||||
"description": "Qwen3 to nowa generacja modelu Qwen, która znacznie zwiększa zdolności w zakresie wnioskowania, ogólnych zadań, agentów i wielojęzyczności, osiągając wiodące w branży wyniki oraz wspierając przełączanie trybu myślenia."
|
||||
},
|
||||
@@ -362,12 +314,6 @@
|
||||
"Qwen2.5-Coder-32B-Instruct": {
|
||||
"description": "Qwen2.5-Coder-32B-Instruct to duży model językowy zaprojektowany specjalnie do generowania kodu, rozumienia kodu i efektywnych scenariuszy rozwoju, wykorzystujący wiodącą w branży skalę 32B parametrów, zdolny do zaspokojenia różnorodnych potrzeb programistycznych."
|
||||
},
|
||||
"Qwen3-235B": {
|
||||
"description": "Qwen3-235B-A22B to model MoE (ekspert mieszany), który wprowadza „hybrydowy tryb rozumowania”, umożliwiający użytkownikom płynne przełączanie się między trybem myślenia a trybem bez myślenia. Obsługuje rozumienie i rozumowanie w 119 językach i dialektach oraz posiada zaawansowane możliwości wywoływania narzędzi. W testach porównawczych obejmujących zdolności ogólne, kodowanie, matematykę, wielojęzyczność, wiedzę i rozumowanie konkuruje z czołowymi modelami rynkowymi, takimi jak DeepSeek R1, OpenAI o1, o3-mini, Grok 3 oraz Google Gemini 2.5 Pro."
|
||||
},
|
||||
"Qwen3-32B": {
|
||||
"description": "Qwen3-32B to model gęsty (Dense Model), który wprowadza „hybrydowy tryb rozumowania”, umożliwiający użytkownikom płynne przełączanie się między trybem myślenia a trybem bez myślenia. Dzięki ulepszonej architekturze modelu, zwiększonej ilości danych treningowych oraz bardziej efektywnym metodom treningu, jego ogólna wydajność jest porównywalna z Qwen2.5-72B."
|
||||
},
|
||||
"SenseChat": {
|
||||
"description": "Podstawowa wersja modelu (V4), długość kontekstu 4K, silne zdolności ogólne."
|
||||
},
|
||||
@@ -404,12 +350,6 @@
|
||||
"SenseChat-Vision": {
|
||||
"description": "Najnowsza wersja modelu (V5.5), obsługująca wiele obrazów jako wejście, w pełni optymalizuje podstawowe możliwości modelu, osiągając znaczną poprawę w rozpoznawaniu atrybutów obiektów, relacji przestrzennych, rozpoznawaniu zdarzeń, zrozumieniu scen, rozpoznawaniu emocji, wnioskowaniu logicznym oraz generowaniu i rozumieniu tekstu."
|
||||
},
|
||||
"SenseNova-V6-5-Pro": {
|
||||
"description": "Dzięki kompleksowej aktualizacji danych multimodalnych, językowych i rozumowania oraz optymalizacji strategii treningowej, nowy model osiągnął znaczące ulepszenia w zakresie rozumowania multimodalnego i uniwersalnego przestrzegania instrukcji. Obsługuje kontekst o długości do 128k i wykazuje doskonałe wyniki w specjalistycznych zadaniach, takich jak OCR oraz rozpoznawanie IP w turystyce i kulturze."
|
||||
},
|
||||
"SenseNova-V6-5-Turbo": {
|
||||
"description": "Dzięki kompleksowej aktualizacji danych multimodalnych, językowych i rozumowania oraz optymalizacji strategii treningowej, nowy model osiągnął znaczące ulepszenia w zakresie rozumowania multimodalnego i uniwersalnego przestrzegania instrukcji. Obsługuje kontekst o długości do 128k i wykazuje doskonałe wyniki w specjalistycznych zadaniach, takich jak OCR oraz rozpoznawanie IP w turystyce i kulturze."
|
||||
},
|
||||
"SenseNova-V6-Pro": {
|
||||
"description": "Osiąga natywną jedność zdolności do przetwarzania obrazów, tekstów i wideo, przełamując tradycyjne ograniczenia rozdzielnych modalności, zdobywając podwójne mistrzostwo w ocenach OpenCompass i SuperCLUE."
|
||||
},
|
||||
@@ -1004,9 +944,6 @@
|
||||
"doubao-seed-1.6-thinking": {
|
||||
"description": "Model Doubao-Seed-1.6-thinking ma znacznie wzmocnione zdolności myślenia, w porównaniu do Doubao-1.5-thinking-pro osiąga dalsze ulepszenia w podstawowych umiejętnościach takich jak kodowanie, matematyka i rozumowanie logiczne, wspiera również rozumienie wizualne. Obsługuje kontekst do 256k oraz maksymalną długość wyjścia do 16k tokenów."
|
||||
},
|
||||
"doubao-seedream-3-0-t2i-250415": {
|
||||
"description": "Model generowania obrazów Doubao opracowany przez zespół Seed ByteDance, obsługujący wejścia tekstowe i obrazowe, oferujący wysoką kontrolę i jakość generowanych obrazów. Generuje obrazy na podstawie tekstowych wskazówek."
|
||||
},
|
||||
"doubao-vision-lite-32k": {
|
||||
"description": "Model Doubao-vision to wielomodalny model dużej skali opracowany przez Doubao, oferujący potężne zdolności rozumienia i wnioskowania obrazów oraz precyzyjne rozumienie poleceń. Model wykazuje silne wyniki w ekstrakcji informacji z obrazów i tekstu oraz w zadaniach wnioskowania opartych na obrazach, umożliwiając zastosowanie w bardziej złożonych i szerokich zadaniach wizualnych pytań i odpowiedzi."
|
||||
},
|
||||
@@ -1058,9 +995,6 @@
|
||||
"ernie-char-fiction-8k": {
|
||||
"description": "Model językowy opracowany przez Baidu, skoncentrowany na specyficznych scenariuszach, odpowiedni do zastosowań w grach NPC, dialogach obsługi klienta, odgrywaniu ról w dialogach, charakteryzujący się wyraźnym i spójnym stylem postaci, silniejszą zdolnością do podążania za instrukcjami oraz lepszą wydajnością wnioskowania."
|
||||
},
|
||||
"ernie-irag-edit": {
|
||||
"description": "Model edycji obrazów ERNIE iRAG opracowany przez Baidu, wspierający operacje takie jak usuwanie obiektów (erase), przemalowywanie (repaint) oraz generowanie wariantów (variation) na podstawie obrazów."
|
||||
},
|
||||
"ernie-lite-8k": {
|
||||
"description": "ERNIE Lite to lekki model językowy opracowany przez Baidu, łączący doskonałe wyniki modelu z wydajnością wnioskowania, odpowiedni do użycia na kartach przyspieszających AI o niskiej mocy obliczeniowej."
|
||||
},
|
||||
@@ -1088,27 +1022,12 @@
|
||||
"ernie-x1-turbo-32k": {
|
||||
"description": "Model ma lepsze wyniki i wydajność w porównaniu do ERNIE-X1-32K."
|
||||
},
|
||||
"flux-1-schnell": {
|
||||
"description": "Model generowania obrazów na podstawie tekstu o 12 miliardach parametrów opracowany przez Black Forest Labs, wykorzystujący technikę destylacji latentnej dyfuzji przeciwstawnej, zdolny do generowania wysokiej jakości obrazów w 1 do 4 kroków. Model osiąga wydajność porównywalną z zamkniętymi alternatywami i jest udostępniony na licencji Apache-2.0, odpowiedni do użytku osobistego, badawczego i komercyjnego."
|
||||
},
|
||||
"flux-dev": {
|
||||
"description": "FLUX.1 [dev] to otwarty, dopracowany model o otwartych wagach przeznaczony do zastosowań niekomercyjnych. Zachowuje jakość obrazu i zdolność do przestrzegania instrukcji zbliżoną do wersji profesjonalnej FLUX, oferując jednocześnie wyższą efektywność działania. W porównaniu do standardowych modeli o podobnej wielkości jest bardziej efektywny w wykorzystaniu zasobów."
|
||||
},
|
||||
"flux-kontext/dev": {
|
||||
"description": "Model edycji obrazów Frontier."
|
||||
},
|
||||
"flux-merged": {
|
||||
"description": "Model FLUX.1-merged łączy głębokie cechy eksplorowane podczas fazy rozwojowej „DEV” z zaletami szybkiego wykonania reprezentowanymi przez „Schnell”. Dzięki temu FLUX.1-merged nie tylko przesuwa granice wydajności modelu, ale także rozszerza zakres jego zastosowań."
|
||||
},
|
||||
"flux-pro/kontext": {
|
||||
"description": "FLUX.1 Kontext [pro] potrafi przetwarzać tekst i obrazy referencyjne jako dane wejściowe, umożliwiając płynną, celową edycję lokalną oraz złożone transformacje całych scen."
|
||||
},
|
||||
"flux-schnell": {
|
||||
"description": "FLUX.1 [schnell] to obecnie najbardziej zaawansowany otwarty model o małej liczbie kroków, przewyższający konkurencję, a nawet potężne modele nie destylowane, takie jak Midjourney v6.0 i DALL·E 3 (HD). Model został specjalnie dostrojony, aby zachować pełną różnorodność wyjść z fazy wstępnego treningu. W porównaniu z najlepszymi modelami na rynku FLUX.1 [schnell] znacząco poprawia jakość wizualną, zgodność z instrukcjami, obsługę zmian rozmiaru/proporcji, przetwarzanie czcionek oraz różnorodność generowanych obrazów, oferując użytkownikom bogatsze i bardziej zróżnicowane doświadczenia twórcze."
|
||||
},
|
||||
"flux.1-schnell": {
|
||||
"description": "Transformator przepływu skorygowanego o 12 miliardach parametrów, zdolny do generowania obrazów na podstawie opisów tekstowych."
|
||||
},
|
||||
"flux/schnell": {
|
||||
"description": "FLUX.1 [schnell] to model transformera strumieniowego z 12 miliardami parametrów, zdolny generować wysokiej jakości obrazy z tekstu w 1 do 4 krokach, odpowiedni do użytku osobistego i komercyjnego."
|
||||
},
|
||||
@@ -1190,6 +1109,9 @@
|
||||
"gemini-2.5-flash-preview-04-17": {
|
||||
"description": "Gemini 2.5 Flash Preview to najbardziej opłacalny model Google, oferujący wszechstronne funkcje."
|
||||
},
|
||||
"gemini-2.5-flash-preview-04-17-thinking": {
|
||||
"description": "Gemini 2.5 Flash Preview to najbardziej opłacalny model Google, oferujący wszechstronne funkcje."
|
||||
},
|
||||
"gemini-2.5-flash-preview-05-20": {
|
||||
"description": "Gemini 2.5 Flash Preview to najbardziej opłacalny model Google, oferujący wszechstronne funkcje."
|
||||
},
|
||||
@@ -1268,21 +1190,6 @@
|
||||
"glm-4.1v-thinking-flashx": {
|
||||
"description": "Seria modeli GLM-4.1V-Thinking to najsilniejsze znane modele wizualno-językowe (VLM) na poziomie 10 miliardów parametrów, integrujące najnowocześniejsze zadania wizualno-językowe na tym poziomie, w tym rozumienie wideo, pytania i odpowiedzi na obrazach, rozwiązywanie problemów naukowych, rozpoznawanie tekstu OCR, interpretację dokumentów i wykresów, agenta GUI, kodowanie front-endowe stron internetowych, grounding i inne. Wiele z tych zadań przewyższa możliwości modelu Qwen2.5-VL-72B, który ma ponad 8 razy więcej parametrów. Dzięki zaawansowanym technikom uczenia ze wzmocnieniem model opanował rozumowanie łańcuchowe, co znacząco poprawia dokładność i bogactwo odpowiedzi, przewyższając tradycyjne modele bez mechanizmu thinking pod względem końcowych rezultatów i interpretowalności."
|
||||
},
|
||||
"glm-4.5": {
|
||||
"description": "Najnowszy flagowy model Zhizhu, wspierający tryb myślenia, osiągający poziom SOTA wśród otwartych modeli pod względem wszechstronnych zdolności, z długością kontekstu do 128K tokenów."
|
||||
},
|
||||
"glm-4.5-air": {
|
||||
"description": "Lżejsza wersja GLM-4.5, łącząca wydajność i opłacalność, z możliwością elastycznego przełączania hybrydowego trybu myślenia."
|
||||
},
|
||||
"glm-4.5-airx": {
|
||||
"description": "Ekspresowa wersja GLM-4.5-Air, oferująca szybszy czas reakcji, zaprojektowana do zastosowań wymagających dużej skali i wysokiej prędkości."
|
||||
},
|
||||
"glm-4.5-flash": {
|
||||
"description": "Bezpłatna wersja GLM-4.5, wyróżniająca się doskonałą wydajnością w zadaniach inferencyjnych, kodowania i agentów."
|
||||
},
|
||||
"glm-4.5-x": {
|
||||
"description": "Ekspresowa wersja GLM-4.5, łącząca wysoką wydajność z prędkością generowania do 100 tokenów na sekundę."
|
||||
},
|
||||
"glm-4v": {
|
||||
"description": "GLM-4V oferuje potężne zdolności rozumienia i wnioskowania obrazów, obsługując różne zadania wizualne."
|
||||
},
|
||||
@@ -1302,7 +1209,7 @@
|
||||
"description": "Ekstremalne wnioskowanie: charakteryzujące się ultra szybkim tempem wnioskowania i silnymi efektami wnioskowania."
|
||||
},
|
||||
"glm-z1-flash": {
|
||||
"description": "Seria GLM-Z1 charakteryzuje się silnymi zdolnościami do złożonego wnioskowania, osiągając doskonałe wyniki w logice, matematyce i programowaniu."
|
||||
"description": "Seria GLM-Z1 posiada silne zdolności wnioskowania złożonego, osiągając doskonałe wyniki w dziedzinach takich jak wnioskowanie logiczne, matematyka i programowanie. Maksymalna długość kontekstu wynosi 32K."
|
||||
},
|
||||
"glm-z1-flashx": {
|
||||
"description": "Wysoka prędkość i niska cena: wersja wzbogacona Flash, ultra szybkie tempo inferencji i lepsza obsługa współbieżności."
|
||||
@@ -1478,9 +1385,6 @@
|
||||
"grok-2-1212": {
|
||||
"description": "Model ten poprawił dokładność, przestrzeganie instrukcji oraz zdolności wielojęzyczne."
|
||||
},
|
||||
"grok-2-image-1212": {
|
||||
"description": "Nasz najnowszy model generowania obrazów potrafi tworzyć żywe i realistyczne obrazy na podstawie tekstowych wskazówek. Sprawdza się doskonale w marketingu, mediach społecznościowych i rozrywce."
|
||||
},
|
||||
"grok-2-vision-1212": {
|
||||
"description": "Model ten poprawił dokładność, przestrzeganie instrukcji oraz zdolności wielojęzyczne."
|
||||
},
|
||||
@@ -1550,9 +1454,6 @@
|
||||
"hunyuan-t1-20250529": {
|
||||
"description": "Optymalizacja tworzenia tekstów, pisania esejów, ulepszenie umiejętności w kodowaniu frontendowym, matematyce, rozumowaniu logicznym oraz zwiększenie zdolności do przestrzegania instrukcji."
|
||||
},
|
||||
"hunyuan-t1-20250711": {
|
||||
"description": "Znacząca poprawa zdolności w zakresie zaawansowanej matematyki, logiki i kodowania, optymalizacja stabilności wyjścia modelu oraz zwiększenie zdolności do pracy z długimi tekstami."
|
||||
},
|
||||
"hunyuan-t1-latest": {
|
||||
"description": "Pierwszy na świecie ultra-duży model wnioskowania Hybrid-Transformer-Mamba, rozszerzający zdolności wnioskowania, z niezwykle szybkim dekodowaniem, lepiej dostosowany do ludzkich preferencji."
|
||||
},
|
||||
@@ -1601,12 +1502,6 @@
|
||||
"hunyuan-vision": {
|
||||
"description": "Najnowocześniejszy model multimodalny Hunyuan, wspierający generowanie treści tekstowych na podstawie obrazów i tekstu."
|
||||
},
|
||||
"image-01": {
|
||||
"description": "Nowy model generowania obrazów o delikatnej jakości wizualnej, wspierający generację obrazów na podstawie tekstu oraz obrazów na podstawie obrazów."
|
||||
},
|
||||
"image-01-live": {
|
||||
"description": "Model generowania obrazów o delikatnej jakości wizualnej, wspierający generację obrazów na podstawie tekstu z możliwością ustawienia stylu."
|
||||
},
|
||||
"imagen-4.0-generate-preview-06-06": {
|
||||
"description": "Seria modeli tekst-na-obraz Imagen czwartej generacji"
|
||||
},
|
||||
@@ -1631,9 +1526,6 @@
|
||||
"internvl3-latest": {
|
||||
"description": "Nasz najnowszy model multimodalny, który ma silniejsze zdolności rozumienia tekstu i obrazów oraz długoterminowego rozumienia obrazów, osiągający wyniki porównywalne z najlepszymi modelami zamkniętymi. Domyślnie wskazuje na nasz najnowszy model z serii InternVL, obecnie wskazuje na internvl3-78b."
|
||||
},
|
||||
"irag-1.0": {
|
||||
"description": "Opracowana przez Baidu technologia iRAG (image based RAG) to wzmacniana wyszukiwaniem generacja obrazów na podstawie tekstu, łącząca miliardowe zasoby obrazów Baidu z potężnymi możliwościami modelu bazowego. Pozwala generować niezwykle realistyczne obrazy, znacznie przewyższając natywne systemy generacji tekst-na-obraz, eliminując sztuczny efekt AI i przy niskich kosztach. iRAG cechuje się brakiem halucynacji, ultra-realistycznym wyglądem i natychmiastową dostępnością."
|
||||
},
|
||||
"jamba-large": {
|
||||
"description": "Nasz najsilniejszy i najbardziej zaawansowany model, zaprojektowany do obsługi złożonych zadań na poziomie przedsiębiorstw, oferujący doskonałą wydajność."
|
||||
},
|
||||
@@ -1643,9 +1535,6 @@
|
||||
"jina-deepsearch-v1": {
|
||||
"description": "Głębokie wyszukiwanie łączy wyszukiwanie w sieci, czytanie i wnioskowanie, umożliwiając kompleksowe badania. Możesz to traktować jako agenta, który przyjmuje Twoje zadania badawcze - przeprowadza szerokie poszukiwania i wielokrotne iteracje, zanim poda odpowiedź. Proces ten obejmuje ciągłe badania, wnioskowanie i rozwiązywanie problemów z różnych perspektyw. To zasadniczo różni się od standardowych dużych modeli, które generują odpowiedzi bezpośrednio z wstępnie wytrenowanych danych oraz od tradycyjnych systemów RAG, które polegają na jednorazowym powierzchownym wyszukiwaniu."
|
||||
},
|
||||
"kimi-k2": {
|
||||
"description": "Kimi-K2 to podstawowy model architektury MoE opracowany przez Moonshot AI, wyposażony w potężne zdolności kodowania i agenta, z łączną liczbą parametrów 1 biliona i 32 miliardami aktywowanych parametrów. W testach wydajności w zakresie ogólnej wiedzy, programowania, matematyki i zadań agenta model K2 przewyższa inne popularne otwarte modele."
|
||||
},
|
||||
"kimi-k2-0711-preview": {
|
||||
"description": "kimi-k2 to podstawowy model architektury MoE o potężnych zdolnościach kodowania i agenta, z łączną liczbą parametrów 1T i 32B aktywowanych parametrów. W testach wydajności na benchmarkach obejmujących ogólne rozumowanie, programowanie, matematykę i agentów model K2 przewyższa inne popularne modele open source."
|
||||
},
|
||||
@@ -2039,9 +1928,6 @@
|
||||
"moonshotai/Kimi-Dev-72B": {
|
||||
"description": "Kimi-Dev-72B to otwarty model kodu źródłowego, zoptymalizowany za pomocą zaawansowanego uczenia ze wzmocnieniem, zdolny do generowania stabilnych, gotowych do produkcji poprawek. Model osiągnął nowy rekord 60,4% na SWE-bench Verified, ustanawiając nowy standard w zadaniach automatyzacji inżynierii oprogramowania, takich jak naprawa błędów i przegląd kodu."
|
||||
},
|
||||
"moonshotai/Kimi-K2-Instruct": {
|
||||
"description": "Kimi K2 to podstawowy model architektury MoE o potężnych zdolnościach kodowania i agenta, z łączną liczbą parametrów 1 biliona i 32 miliardami aktywowanych parametrów. W testach wydajności w zakresie ogólnej wiedzy, programowania, matematyki i zadań agenta model K2 przewyższa inne popularne otwarte modele."
|
||||
},
|
||||
"moonshotai/kimi-k2-instruct": {
|
||||
"description": "kimi-k2 to podstawowy model architektury MoE o wyjątkowych zdolnościach w zakresie kodowania i agentów, z łączną liczbą parametrów 1T i 32B aktywnych parametrów. W testach wydajnościowych obejmujących ogólną wiedzę, programowanie, matematykę i agentów, model K2 przewyższa inne popularne modele open source."
|
||||
},
|
||||
@@ -2378,21 +2264,9 @@
|
||||
"qwen3-235b-a22b": {
|
||||
"description": "Qwen3 to nowa generacja modelu Qwen, który znacznie zwiększa możliwości w zakresie wnioskowania, ogólności, agenta i wielojęzyczności, osiągając wiodące w branży wyniki w wielu kluczowych obszarach i wspierając przełączanie trybów myślenia."
|
||||
},
|
||||
"qwen3-235b-a22b-instruct-2507": {
|
||||
"description": "Otwartoźródłowy model trybu nie myślącego oparty na Qwen3, z niewielką poprawą w zakresie kreatywności subiektywnej i bezpieczeństwa modelu w porównaniu do poprzedniej wersji (Tongyi Qianwen 3-235B-A22B)."
|
||||
},
|
||||
"qwen3-235b-a22b-thinking-2507": {
|
||||
"description": "Otwartoźródłowy model trybu myślącego oparty na Qwen3, z dużymi ulepszeniami w zakresie zdolności logicznych, ogólnych, wzbogacenia wiedzy i kreatywności w porównaniu do poprzedniej wersji (Tongyi Qianwen 3-235B-A22B), odpowiedni do zadań wymagających zaawansowanego wnioskowania."
|
||||
},
|
||||
"qwen3-30b-a3b": {
|
||||
"description": "Qwen3 to nowa generacja modelu Qwen, który znacznie zwiększa możliwości w zakresie wnioskowania, ogólności, agenta i wielojęzyczności, osiągając wiodące w branży wyniki w wielu kluczowych obszarach i wspierając przełączanie trybów myślenia."
|
||||
},
|
||||
"qwen3-30b-a3b-instruct-2507": {
|
||||
"description": "W porównaniu z poprzednią wersją (Qwen3-30B-A3B) ogólne zdolności w języku chińskim, angielskim i wielojęzyczne zostały znacznie poprawione. Specjalna optymalizacja dla zadań subiektywnych i otwartych sprawia, że model lepiej odpowiada preferencjom użytkowników i potrafi dostarczać bardziej pomocne odpowiedzi."
|
||||
},
|
||||
"qwen3-30b-a3b-thinking-2507": {
|
||||
"description": "Model open source w trybie myślenia oparty na Qwen3, który w porównaniu z poprzednią wersją (Tongyi Qianwen 3-30B-A3B) wykazuje znaczne ulepszenia w zakresie zdolności logicznych, ogólnych, wzbogacenia wiedzy oraz kreatywności. Nadaje się do trudnych scenariuszy wymagających zaawansowanego rozumowania."
|
||||
},
|
||||
"qwen3-32b": {
|
||||
"description": "Qwen3 to nowa generacja modelu Qwen, który znacznie zwiększa możliwości w zakresie wnioskowania, ogólności, agenta i wielojęzyczności, osiągając wiodące w branży wyniki w wielu kluczowych obszarach i wspierając przełączanie trybów myślenia."
|
||||
},
|
||||
@@ -2402,12 +2276,6 @@
|
||||
"qwen3-8b": {
|
||||
"description": "Qwen3 to nowa generacja modelu Qwen, który znacznie zwiększa możliwości w zakresie wnioskowania, ogólności, agenta i wielojęzyczności, osiągając wiodące w branży wyniki w wielu kluczowych obszarach i wspierając przełączanie trybów myślenia."
|
||||
},
|
||||
"qwen3-coder-480b-a35b-instruct": {
|
||||
"description": "Otwartoźródłowa wersja modelu kodowania Tongyi Qianwen. Najnowszy qwen3-coder-480b-a35b-instruct to model generowania kodu oparty na Qwen3, posiadający potężne zdolności agenta kodującego, specjalizujący się w wywoływaniu narzędzi i interakcji środowiskowej, umożliwiający autonomiczne programowanie z doskonałymi zdolnościami kodowania i ogólnymi."
|
||||
},
|
||||
"qwen3-coder-plus": {
|
||||
"description": "Model kodowania Tongyi Qianwen. Najnowsza seria Qwen3-Coder-Plus to modele generowania kodu oparte na Qwen3, wyposażone w potężne zdolności agenta kodującego, specjalizujące się w wywoływaniu narzędzi i interakcji środowiskowej, umożliwiające autonomiczne programowanie z doskonałymi zdolnościami kodowania i ogólnymi."
|
||||
},
|
||||
"qwq": {
|
||||
"description": "QwQ to eksperymentalny model badawczy, skoncentrowany na zwiększeniu zdolności wnioskowania AI."
|
||||
},
|
||||
@@ -2450,24 +2318,6 @@
|
||||
"sonar-reasoning-pro": {
|
||||
"description": "Nowy produkt API wspierany przez model wnioskowania DeepSeek."
|
||||
},
|
||||
"stable-diffusion-3-medium": {
|
||||
"description": "Najnowszy duży model generowania obrazów na podstawie tekstu wydany przez Stability AI. Ta wersja zachowuje zalety poprzednich generacji, jednocześnie znacząco poprawiając jakość obrazu, rozumienie tekstu i różnorodność stylów. Potrafi dokładniej interpretować złożone naturalne polecenia i generować bardziej precyzyjne oraz zróżnicowane obrazy."
|
||||
},
|
||||
"stable-diffusion-3.5-large": {
|
||||
"description": "stable-diffusion-3.5-large to model multimodalnego dyfuzyjnego transformera (MMDiT) do generowania obrazów na podstawie tekstu, wyposażony w 800 milionów parametrów. Charakteryzuje się doskonałą jakością obrazu i zgodnością z poleceniami, wspiera generowanie obrazów o rozdzielczości do 1 miliona pikseli i działa efektywnie na standardowym sprzęcie konsumenckim."
|
||||
},
|
||||
"stable-diffusion-3.5-large-turbo": {
|
||||
"description": "stable-diffusion-3.5-large-turbo to model oparty na stable-diffusion-3.5-large, wykorzystujący technikę destylacji dyfuzji przeciwstawnej (ADD), oferujący wyższą szybkość działania."
|
||||
},
|
||||
"stable-diffusion-v1.5": {
|
||||
"description": "stable-diffusion-v1.5 to model zainicjowany wagami ze stable-diffusion-v1.2 i dostrojony przez 595 tysięcy kroków na zbiorze \"laion-aesthetics v2 5+\" w rozdzielczości 512x512, z redukcją warunkowania tekstowego o 10% w celu poprawy próbkowania bez klasyfikatora."
|
||||
},
|
||||
"stable-diffusion-xl": {
|
||||
"description": "stable-diffusion-xl wprowadza znaczące ulepszenia w porównaniu do wersji v1.5 i osiąga efekty porównywalne z najlepszymi otwartymi modelami generacji obrazów, takimi jak midjourney. Kluczowe ulepszenia obejmują: trzykrotnie większy unet backbone, dodanie modułu refinacji poprawiającego jakość generowanych obrazów oraz bardziej efektywne techniki treningowe."
|
||||
},
|
||||
"stable-diffusion-xl-base-1.0": {
|
||||
"description": "Duży model generowania obrazów na podstawie tekstu opracowany i udostępniony przez Stability AI, wyróżniający się czołowymi zdolnościami twórczymi. Posiada doskonałe zdolności rozumienia instrukcji i wspiera definiowanie treści za pomocą odwrotnych promptów."
|
||||
},
|
||||
"step-1-128k": {
|
||||
"description": "Równoważy wydajność i koszty, odpowiedni do ogólnych scenariuszy."
|
||||
},
|
||||
@@ -2498,12 +2348,6 @@
|
||||
"step-1v-8k": {
|
||||
"description": "Mały model wizualny, odpowiedni do podstawowych zadań związanych z tekstem i obrazem."
|
||||
},
|
||||
"step-1x-edit": {
|
||||
"description": "Model skoncentrowany na zadaniach edycji obrazów, potrafiący modyfikować i wzmacniać obrazy na podstawie dostarczonych przez użytkownika obrazów i opisów tekstowych. Obsługuje różne formaty wejściowe, w tym opisy tekstowe i obrazy przykładowe. Model rozumie intencje użytkownika i generuje zgodne z nimi wyniki edycji obrazów."
|
||||
},
|
||||
"step-1x-medium": {
|
||||
"description": "Model o silnych zdolnościach generowania obrazów, obsługujący wejścia w postaci opisów tekstowych. Posiada natywną obsługę języka chińskiego, co pozwala lepiej rozumieć i przetwarzać chińskie opisy tekstowe, dokładniej uchwycić ich znaczenie i przekształcić je w cechy obrazu, umożliwiając precyzyjne generowanie obrazów. Model generuje obrazy o wysokiej rozdzielczości i jakości oraz posiada pewne zdolności transferu stylu."
|
||||
},
|
||||
"step-2-16k": {
|
||||
"description": "Obsługuje interakcje z dużą ilością kontekstu, idealny do złożonych scenariuszy dialogowych."
|
||||
},
|
||||
@@ -2513,9 +2357,6 @@
|
||||
"step-2-mini": {
|
||||
"description": "Model oparty na nowej generacji własnej architektury Attention MFA, osiągający podobne wyniki jak step1 przy bardzo niskich kosztach, jednocześnie zapewniając wyższą przepustowość i szybszy czas reakcji. Potrafi obsługiwać ogólne zadania, a w zakresie umiejętności kodowania ma szczególne zdolności."
|
||||
},
|
||||
"step-2x-large": {
|
||||
"description": "Nowa generacja modelu Step Star, skoncentrowana na generowaniu obrazów na podstawie tekstu. Model tworzy obrazy o bardziej realistycznej fakturze i lepszych zdolnościach generowania tekstu w języku chińskim i angielskim."
|
||||
},
|
||||
"step-r1-v-mini": {
|
||||
"description": "Model ten to potężny model wnioskowania z zdolnościami rozumienia obrazów, zdolny do przetwarzania informacji wizualnych i tekstowych, generując tekst po głębokim przemyśleniu. Model ten wyróżnia się w dziedzinie wnioskowania wizualnego, a także posiada pierwszorzędne zdolności wnioskowania matematycznego, kodowania i tekstu. Długość kontekstu wynosi 100k."
|
||||
},
|
||||
@@ -2591,23 +2432,8 @@
|
||||
"v0-1.5-md": {
|
||||
"description": "Model v0-1.5-md jest odpowiedni do codziennych zadań i generowania interfejsu użytkownika (UI)"
|
||||
},
|
||||
"wan2.2-t2i-flash": {
|
||||
"description": "Wersja ekspresowa Wanxiang 2.2, najnowszy model. Kompleksowo ulepszony pod względem kreatywności, stabilności i realizmu, generuje szybko i oferuje wysoką opłacalność."
|
||||
},
|
||||
"wan2.2-t2i-plus": {
|
||||
"description": "Profesjonalna wersja Wanxiang 2.2, najnowszy model. Kompleksowo ulepszony pod względem kreatywności, stabilności i realizmu, generuje obrazy o bogatych detalach."
|
||||
},
|
||||
"wanx-v1": {
|
||||
"description": "Podstawowy model generowania obrazów na podstawie tekstu. Odpowiada uniwersalnemu modelowi 1.0 na oficjalnej stronie Tongyi Wanxiang."
|
||||
},
|
||||
"wanx2.0-t2i-turbo": {
|
||||
"description": "Specjalizuje się w realistycznych portretach, oferuje średnią prędkość i niskie koszty. Odpowiada ekspresowemu modelowi 2.0 na oficjalnej stronie Tongyi Wanxiang."
|
||||
},
|
||||
"wanx2.1-t2i-plus": {
|
||||
"description": "Wersja z kompleksowymi ulepszeniami. Generuje obrazy o bogatszych detalach, z nieco wolniejszą prędkością. Odpowiada profesjonalnemu modelowi 2.1 na oficjalnej stronie Tongyi Wanxiang."
|
||||
},
|
||||
"wanx2.1-t2i-turbo": {
|
||||
"description": "Wersja z kompleksowymi ulepszeniami. Generuje szybko, oferuje wszechstronne efekty i wysoką opłacalność. Odpowiada ekspresowemu modelowi 2.1 na oficjalnej stronie Tongyi Wanxiang."
|
||||
"description": "Model generowania obrazów firmy Alibaba Cloud Tongyi"
|
||||
},
|
||||
"whisper-1": {
|
||||
"description": "Uniwersalny model rozpoznawania mowy, obsługujący wielojęzyczne rozpoznawanie mowy, tłumaczenie mowy oraz identyfikację języka."
|
||||
@@ -2659,11 +2485,5 @@
|
||||
},
|
||||
"yi-vision-v2": {
|
||||
"description": "Model do złożonych zadań wizualnych, oferujący wysokowydajną zdolność rozumienia i analizy na podstawie wielu obrazów."
|
||||
},
|
||||
"zai-org/GLM-4.5": {
|
||||
"description": "GLM-4.5 to podstawowy model zaprojektowany specjalnie do zastosowań agentowych, wykorzystujący architekturę mieszanych ekspertów (Mixture-of-Experts). Model jest głęboko zoptymalizowany pod kątem wywoływania narzędzi, przeglądania stron internetowych, inżynierii oprogramowania i programowania frontendowego, wspierając bezproblemową integrację z inteligentnymi agentami kodu takimi jak Claude Code i Roo Code. GLM-4.5 stosuje hybrydowy tryb wnioskowania, dostosowując się do złożonych i codziennych scenariuszy użycia."
|
||||
},
|
||||
"zai-org/GLM-4.5-Air": {
|
||||
"description": "GLM-4.5-Air to podstawowy model zaprojektowany specjalnie do zastosowań agentowych, wykorzystujący architekturę mieszanych ekspertów (Mixture-of-Experts). Model jest głęboko zoptymalizowany pod kątem wywoływania narzędzi, przeglądania stron internetowych, inżynierii oprogramowania i programowania frontendowego, wspierając bezproblemową integrację z inteligentnymi agentami kodu takimi jak Claude Code i Roo Code. GLM-4.5 stosuje hybrydowy tryb wnioskowania, dostosowując się do złożonych i codziennych scenariuszy użycia."
|
||||
}
|
||||
}
|
||||
|
||||
@@ -5,9 +5,6 @@
|
||||
"ai360": {
|
||||
"description": "360 AI to platforma modeli i usług AI wprowadzona przez firmę 360, oferująca różnorodne zaawansowane modele przetwarzania języka naturalnego, w tym 360GPT2 Pro, 360GPT Pro, 360GPT Turbo i 360GPT Turbo Responsibility 8K. Modele te łączą dużą liczbę parametrów z multimodalnymi zdolnościami, szeroko stosowanymi w generowaniu tekstu, rozumieniu semantycznym, systemach dialogowych i generowaniu kodu. Dzięki elastycznej strategii cenowej, 360 AI zaspokaja zróżnicowane potrzeby użytkowników, wspierając integrację przez deweloperów, co przyczynia się do innowacji i rozwoju aplikacji inteligentnych."
|
||||
},
|
||||
"aihubmix": {
|
||||
"description": "AiHubMix zapewnia dostęp do różnych modeli AI za pośrednictwem zunifikowanego interfejsu API."
|
||||
},
|
||||
"anthropic": {
|
||||
"description": "Anthropic to firma skoncentrowana na badaniach i rozwoju sztucznej inteligencji, oferująca szereg zaawansowanych modeli językowych, takich jak Claude 3.5 Sonnet, Claude 3 Sonnet, Claude 3 Opus i Claude 3 Haiku. Modele te osiągają idealną równowagę między inteligencją, szybkością a kosztami, nadając się do różnych zastosowań, od obciążeń na poziomie przedsiębiorstw po szybkie odpowiedzi. Claude 3.5 Sonnet, jako najnowszy model, wyróżnia się w wielu ocenach, jednocześnie zachowując wysoką opłacalność."
|
||||
},
|
||||
|
||||
@@ -189,7 +189,6 @@
|
||||
"aesGcm": "Sua chave e o endereço do proxy serão criptografados usando o algoritmo de criptografia <1>AES-GCM</1>",
|
||||
"apiKey": {
|
||||
"desc": "Por favor, insira sua {{name}} API Key",
|
||||
"descWithUrl": "Por favor, insira sua chave API do {{name}}, <3>clique aqui para obter</3>",
|
||||
"placeholder": "{{name}} API Key",
|
||||
"title": "API Key"
|
||||
},
|
||||
|
||||
+5
-185
@@ -32,9 +32,6 @@
|
||||
"4.0Ultra": {
|
||||
"description": "Spark4.0 Ultra é a versão mais poderosa da série de grandes modelos Xinghuo, que, ao atualizar a conexão de busca online, melhora a capacidade de compreensão e resumo de conteúdo textual. É uma solução abrangente para aumentar a produtividade no trabalho e responder com precisão às demandas, sendo um produto inteligente líder na indústria."
|
||||
},
|
||||
"AnimeSharp": {
|
||||
"description": "AnimeSharp (também conhecido como “4x‑AnimeSharp”) é um modelo de super-resolução open source desenvolvido por Kim2091 baseado na arquitetura ESRGAN, focado em ampliação e nitidez de imagens no estilo anime. Renomeado em fevereiro de 2022 a partir de “4x-TextSharpV1”, originalmente também aplicável a imagens de texto, mas com desempenho significativamente otimizado para conteúdo de anime."
|
||||
},
|
||||
"Baichuan2-Turbo": {
|
||||
"description": "Utiliza tecnologia de busca aprimorada para conectar completamente o grande modelo com conhecimento de domínio e conhecimento da web. Suporta upload de vários documentos, como PDF e Word, e entrada de URLs, garantindo acesso a informações de forma rápida e abrangente, com resultados precisos e profissionais."
|
||||
},
|
||||
@@ -92,9 +89,6 @@
|
||||
"Doubao-pro-4k": {
|
||||
"description": "Modelo principal com melhor desempenho, adequado para tarefas complexas, apresentando ótimos resultados em perguntas de referência, resumos, criação, classificação de texto, interpretação de papéis e outros cenários. Suporta inferência e fine-tuning com janela de contexto de 4k."
|
||||
},
|
||||
"DreamO": {
|
||||
"description": "DreamO é um modelo open source de geração de imagens customizadas desenvolvido em parceria pela ByteDance e pela Universidade de Pequim, projetado para suportar geração multitarefa de imagens através de uma arquitetura unificada. Utiliza um método eficiente de modelagem combinada para gerar imagens altamente consistentes e personalizadas com base em múltiplas condições especificadas pelo usuário, como identidade, sujeito, estilo e fundo."
|
||||
},
|
||||
"ERNIE-3.5-128K": {
|
||||
"description": "Modelo de linguagem de grande escala desenvolvido pela Baidu, cobrindo uma vasta quantidade de dados em chinês e inglês, com poderosas capacidades gerais, capaz de atender à maioria das demandas de perguntas e respostas em diálogos, geração de conteúdo e aplicações de plugins; suporta integração automática com o plugin de busca da Baidu, garantindo a atualidade das informações nas respostas."
|
||||
},
|
||||
@@ -128,39 +122,15 @@
|
||||
"ERNIE-Speed-Pro-128K": {
|
||||
"description": "Modelo de linguagem de alto desempenho desenvolvido pela Baidu, lançado em 2024, com capacidades gerais excepcionais, apresentando resultados superiores ao ERNIE Speed, adequado como modelo base para ajuste fino, melhorando o tratamento de problemas em cenários específicos, enquanto mantém excelente desempenho de inferência."
|
||||
},
|
||||
"FLUX.1-Kontext-dev": {
|
||||
"description": "FLUX.1-Kontext-dev é um modelo multimodal de geração e edição de imagens desenvolvido pela Black Forest Labs, baseado na arquitetura Rectified Flow Transformer, com 12 bilhões de parâmetros, focado em gerar, reconstruir, aprimorar ou editar imagens sob condições contextuais fornecidas. Combina as vantagens da geração controlada de modelos de difusão com a capacidade de modelagem contextual dos Transformers, suportando saída de imagens de alta qualidade e aplicável a tarefas como restauração, preenchimento e reconstrução visual de cenas."
|
||||
},
|
||||
"FLUX.1-dev": {
|
||||
"description": "FLUX.1-dev é um modelo multimodal de linguagem open source desenvolvido pela Black Forest Labs, otimizado para tarefas de texto e imagem, integrando capacidades de compreensão e geração de imagens e texto. Baseado em avançados modelos de linguagem como Mistral-7B, utiliza codificadores visuais cuidadosamente projetados e ajuste fino em múltiplas etapas para alcançar processamento colaborativo de texto e imagem e raciocínio complexo."
|
||||
},
|
||||
"Gryphe/MythoMax-L2-13b": {
|
||||
"description": "MythoMax-L2 (13B) é um modelo inovador, adequado para aplicações em múltiplas áreas e tarefas complexas."
|
||||
},
|
||||
"HelloMeme": {
|
||||
"description": "HelloMeme é uma ferramenta de IA que gera automaticamente memes, GIFs ou vídeos curtos a partir de imagens ou ações fornecidas por você. Não requer habilidades de desenho ou programação; basta fornecer imagens de referência, e ela cria conteúdos visualmente atraentes, divertidos e com estilo consistente."
|
||||
},
|
||||
"HiDream-I1-Full": {
|
||||
"description": "HiDream-E1-Full é um grande modelo open source de edição multimodal de imagens lançado pela HiDream.ai, baseado na avançada arquitetura Diffusion Transformer e integrado com forte capacidade de compreensão linguística (incorporando LLaMA 3.1-8B-Instruct). Suporta geração de imagens, transferência de estilo, edição local e repintura de conteúdo via comandos em linguagem natural, com excelente compreensão e execução texto-imagem."
|
||||
},
|
||||
"HunyuanDiT-v1.2-Diffusers-Distilled": {
|
||||
"description": "hunyuandit-v1.2-distilled é um modelo leve de geração de imagens a partir de texto, otimizado por destilação para gerar imagens de alta qualidade rapidamente, especialmente adequado para ambientes com recursos limitados e tarefas de geração em tempo real."
|
||||
},
|
||||
"InstantCharacter": {
|
||||
"description": "InstantCharacter é um modelo de geração personalizada de personagens lançado pela equipe de IA da Tencent em 2025, que não requer ajuste fino (tuning-free), visando gerar personagens consistentes e de alta fidelidade em múltiplos cenários. Suporta modelagem de personagens a partir de uma única imagem de referência e permite transferir esses personagens para diversos estilos, ações e fundos de forma flexível."
|
||||
},
|
||||
"InternVL2-8B": {
|
||||
"description": "InternVL2-8B é um poderoso modelo de linguagem visual, que suporta processamento multimodal de imagens e textos, capaz de identificar com precisão o conteúdo da imagem e gerar descrições ou respostas relevantes."
|
||||
},
|
||||
"InternVL2.5-26B": {
|
||||
"description": "InternVL2.5-26B é um poderoso modelo de linguagem visual, que suporta processamento multimodal de imagens e textos, capaz de identificar com precisão o conteúdo da imagem e gerar descrições ou respostas relevantes."
|
||||
},
|
||||
"Kolors": {
|
||||
"description": "Kolors é um modelo de geração de imagens a partir de texto desenvolvido pela equipe Kolors da Kuaishou. Treinado com bilhões de parâmetros, apresenta vantagens significativas em qualidade visual, compreensão semântica do chinês e renderização de texto."
|
||||
},
|
||||
"Kwai-Kolors/Kolors": {
|
||||
"description": "Kolors é um modelo de geração de imagens a partir de texto em larga escala baseado em difusão latente, desenvolvido pela equipe Kolors da Kuaishou. Treinado com bilhões de pares texto-imagem, destaca-se na qualidade visual, precisão semântica complexa e renderização de caracteres em chinês e inglês. Suporta entrada em chinês e inglês, com desempenho excepcional na compreensão e geração de conteúdos específicos em chinês."
|
||||
},
|
||||
"Llama-3.2-11B-Vision-Instruct": {
|
||||
"description": "Capacidade de raciocínio de imagem excepcional em imagens de alta resolução, adequada para aplicações de compreensão visual."
|
||||
},
|
||||
@@ -194,15 +164,9 @@
|
||||
"MiniMaxAI/MiniMax-M1-80k": {
|
||||
"description": "MiniMax-M1 é um modelo de inferência de atenção mista em grande escala com pesos abertos, possuindo 456 bilhões de parâmetros, com cerca de 45,9 bilhões de parâmetros ativados por token. O modelo suporta nativamente contextos ultra longos de 1 milhão de tokens e, graças ao mecanismo de atenção relâmpago, economiza 75% do custo computacional em operações de ponto flutuante em tarefas de geração com 100 mil tokens, em comparação com o DeepSeek R1. Além disso, MiniMax-M1 utiliza a arquitetura MoE (Mistura de Especialistas), combinando o algoritmo CISPO e um design eficiente de atenção mista para treinamento reforçado, alcançando desempenho líder na indústria em inferência de entradas longas e cenários reais de engenharia de software."
|
||||
},
|
||||
"Moonshot-Kimi-K2-Instruct": {
|
||||
"description": "Com 1 trilhão de parâmetros totais e 32 bilhões de parâmetros ativados, este modelo não reflexivo alcança níveis de ponta em conhecimento avançado, matemática e codificação, sendo especialmente apto para tarefas gerais de agentes. Otimizado para tarefas de agentes, não apenas responde perguntas, mas também pode agir. Ideal para conversas improvisadas, experiências gerais de chat e agentes, funcionando como um modelo reflexivo sem necessidade de longos processos de pensamento."
|
||||
},
|
||||
"NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
||||
"description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B) é um modelo de instrução de alta precisão, adequado para cálculos complexos."
|
||||
},
|
||||
"OmniConsistency": {
|
||||
"description": "OmniConsistency melhora a consistência de estilo e a capacidade de generalização em tarefas de imagem para imagem (Image-to-Image) ao introduzir grandes Diffusion Transformers (DiTs) e dados estilizados pareados, evitando a degradação do estilo."
|
||||
},
|
||||
"Phi-3-medium-128k-instruct": {
|
||||
"description": "Mesmo modelo Phi-3-medium, mas com um tamanho de contexto maior para RAG ou prompting de poucos exemplos."
|
||||
},
|
||||
@@ -254,9 +218,6 @@
|
||||
"Pro/deepseek-ai/DeepSeek-V3": {
|
||||
"description": "DeepSeek-V3 é um modelo de linguagem com 671 bilhões de parâmetros, utilizando uma arquitetura de especialistas mistos (MoE) com atenção potencial de múltiplas cabeças (MLA) e uma estratégia de balanceamento de carga sem perda auxiliar, otimizando a eficiência de inferência e treinamento. Pré-treinado em 14,8 trilhões de tokens de alta qualidade, e ajustado por supervisão e aprendizado por reforço, o DeepSeek-V3 supera outros modelos de código aberto, aproximando-se de modelos fechados líderes."
|
||||
},
|
||||
"Pro/moonshotai/Kimi-K2-Instruct": {
|
||||
"description": "Kimi K2 é um modelo base com arquitetura MoE e capacidades avançadas de código e agente, com 1 trilhão de parâmetros totais e 32 bilhões ativados. Em testes de desempenho em raciocínio geral, programação, matemática e agentes, o modelo K2 supera outros modelos open source populares."
|
||||
},
|
||||
"QwQ-32B-Preview": {
|
||||
"description": "O QwQ-32B-Preview é um modelo de processamento de linguagem natural inovador, capaz de lidar eficientemente com tarefas complexas de geração de diálogos e compreensão de contexto."
|
||||
},
|
||||
@@ -317,18 +278,9 @@
|
||||
"Qwen/Qwen3-235B-A22B": {
|
||||
"description": "O Qwen3 é um novo modelo de grande escala da Tongyi Qianwen com capacidades significativamente aprimoradas, alcançando níveis líderes da indústria em raciocínio, tarefas gerais, agentes e multilinguismo, e suporta a alternância de modos de pensamento."
|
||||
},
|
||||
"Qwen/Qwen3-235B-A22B-Instruct-2507": {
|
||||
"description": "Qwen3-235B-A22B-Instruct-2507 é um modelo de linguagem grande híbrido especialista (MoE) flagship da série Qwen3, desenvolvido pela equipe Tongyi Qianwen da Alibaba Cloud. Com 235 bilhões de parâmetros totais e 22 bilhões ativados por inferência, é uma versão atualizada do modo não reflexivo Qwen3-235B-A22B, focada em melhorias significativas em seguimento de instruções, raciocínio lógico, compreensão textual, matemática, ciência, programação e uso de ferramentas. Além disso, amplia a cobertura de conhecimento multilíngue e alinha melhor as preferências do usuário em tarefas subjetivas e abertas para gerar textos mais úteis e de alta qualidade."
|
||||
},
|
||||
"Qwen/Qwen3-235B-A22B-Thinking-2507": {
|
||||
"description": "Qwen3-235B-A22B-Thinking-2507 é um modelo de linguagem grande da série Qwen3, desenvolvido pela equipe Tongyi Qianwen da Alibaba, focado em tarefas complexas de raciocínio avançado. Baseado em arquitetura MoE, possui 235 bilhões de parâmetros totais, ativando cerca de 22 bilhões por token, equilibrando alta performance e eficiência computacional. Como modelo dedicado ao “pensamento”, apresenta melhorias notáveis em raciocínio lógico, matemática, ciência, programação e benchmarks acadêmicos, alcançando o topo entre modelos open source reflexivos. Também aprimora capacidades gerais como seguimento de instruções, uso de ferramentas e geração de texto, com suporte nativo para contexto longo de 256K tokens, ideal para cenários que exigem raciocínio profundo e processamento de documentos extensos."
|
||||
},
|
||||
"Qwen/Qwen3-30B-A3B": {
|
||||
"description": "O Qwen3 é um novo modelo de grande escala da Tongyi Qianwen com capacidades significativamente aprimoradas, alcançando níveis líderes da indústria em raciocínio, tarefas gerais, agentes e multilinguismo, e suporta a alternância de modos de pensamento."
|
||||
},
|
||||
"Qwen/Qwen3-30B-A3B-Instruct-2507": {
|
||||
"description": "Qwen3-30B-A3B-Instruct-2507 é uma versão atualizada do Qwen3-30B-A3B no modo não reflexivo. Este é um modelo de especialista misto (MoE) com um total de 30,5 bilhões de parâmetros e 3,3 bilhões de parâmetros ativados. O modelo apresenta melhorias significativas em vários aspectos, incluindo um aumento notável na capacidade de seguir instruções, raciocínio lógico, compreensão de texto, matemática, ciências, codificação e uso de ferramentas. Além disso, alcança avanços substanciais na cobertura de conhecimento em múltiplos idiomas e melhor alinhamento com as preferências dos usuários em tarefas subjetivas e abertas, permitindo gerar respostas mais úteis e textos de maior qualidade. A capacidade de compreensão de textos longos também foi ampliada para 256K. Este modelo suporta apenas o modo não reflexivo e não gera tags `<think></think>` em sua saída."
|
||||
},
|
||||
"Qwen/Qwen3-32B": {
|
||||
"description": "O Qwen3 é um novo modelo de grande escala da Tongyi Qianwen com capacidades significativamente aprimoradas, alcançando níveis líderes da indústria em raciocínio, tarefas gerais, agentes e multilinguismo, e suporta a alternância de modos de pensamento."
|
||||
},
|
||||
@@ -362,12 +314,6 @@
|
||||
"Qwen2.5-Coder-32B-Instruct": {
|
||||
"description": "Qwen2.5-Coder-32B-Instruct é um grande modelo de linguagem projetado para geração de código, compreensão de código e cenários de desenvolvimento eficiente, com uma escala de 32 bilhões de parâmetros, atendendo a diversas necessidades de programação."
|
||||
},
|
||||
"Qwen3-235B": {
|
||||
"description": "Qwen3-235B-A22B, modelo MoE (especialista misto), introduz o “modo de raciocínio híbrido”, permitindo aos usuários alternar perfeitamente entre os modos “reflexivo” e “não reflexivo”. Suporta compreensão e raciocínio em 119 idiomas e dialetos, além de possuir forte capacidade de chamada de ferramentas. Em testes de benchmark abrangentes, incluindo habilidades gerais, código, matemática, multilinguismo, conhecimento e raciocínio, compete com os principais grandes modelos do mercado, como DeepSeek R1, OpenAI o1, o3-mini, Grok 3 e Google Gemini 2.5 Pro."
|
||||
},
|
||||
"Qwen3-32B": {
|
||||
"description": "Qwen3-32B, modelo denso (Dense Model), introduz o “modo de raciocínio híbrido”, permitindo aos usuários alternar perfeitamente entre os modos “reflexivo” e “não reflexivo”. Graças a melhorias na arquitetura do modelo, aumento dos dados de treinamento e métodos de treinamento mais eficazes, seu desempenho geral é comparável ao do Qwen2.5-72B."
|
||||
},
|
||||
"SenseChat": {
|
||||
"description": "Modelo da versão básica (V4), com comprimento de contexto de 4K, com capacidades gerais poderosas."
|
||||
},
|
||||
@@ -404,12 +350,6 @@
|
||||
"SenseChat-Vision": {
|
||||
"description": "Modelo da versão mais recente (V5.5), suporta entrada de múltiplas imagens, otimizando completamente as capacidades básicas do modelo, com grandes melhorias em reconhecimento de atributos de objetos, relações espaciais, reconhecimento de eventos, compreensão de cenários, reconhecimento de emoções, raciocínio lógico e compreensão e geração de texto."
|
||||
},
|
||||
"SenseNova-V6-5-Pro": {
|
||||
"description": "Com atualizações abrangentes em dados multimodais, linguísticos e de raciocínio, além da otimização das estratégias de treinamento, o novo modelo alcança melhorias significativas em raciocínio multimodal e capacidade de seguir instruções generalizadas. Suporta janelas de contexto de até 128k e apresenta desempenho excepcional em tarefas especializadas como OCR e reconhecimento de IPs culturais e turísticos."
|
||||
},
|
||||
"SenseNova-V6-5-Turbo": {
|
||||
"description": "Com atualizações abrangentes em dados multimodais, linguísticos e de raciocínio, além da otimização das estratégias de treinamento, o novo modelo alcança melhorias significativas em raciocínio multimodal e capacidade de seguir instruções generalizadas. Suporta janelas de contexto de até 128k e apresenta desempenho excepcional em tarefas especializadas como OCR e reconhecimento de IPs culturais e turísticos."
|
||||
},
|
||||
"SenseNova-V6-Pro": {
|
||||
"description": "Realizar a unificação nativa de capacidades de imagem, texto e vídeo, superando as limitações tradicionais da multimodalidade discreta, conquistando o título duplo nas avaliações OpenCompass e SuperCLUE."
|
||||
},
|
||||
@@ -1004,9 +944,6 @@
|
||||
"doubao-seed-1.6-thinking": {
|
||||
"description": "Doubao-Seed-1.6-thinking tem capacidade de pensamento significativamente reforçada, melhorando ainda mais habilidades básicas como codificação, matemática e raciocínio lógico em comparação com Doubao-1.5-thinking-pro, além de suportar compreensão visual. Suporta janela de contexto de 256k e saída de até 16k tokens."
|
||||
},
|
||||
"doubao-seedream-3-0-t2i-250415": {
|
||||
"description": "O modelo de geração de imagens Doubao foi desenvolvido pela equipe Seed da ByteDance, suportando entrada de texto e imagem, oferecendo uma experiência de geração de imagens altamente controlável e de alta qualidade. Gera imagens baseadas em prompts textuais."
|
||||
},
|
||||
"doubao-vision-lite-32k": {
|
||||
"description": "O modelo Doubao-vision é um grande modelo multimodal lançado pela Doubao, com forte capacidade de compreensão e inferência de imagens, além de compreensão precisa de instruções. O modelo demonstra desempenho robusto em extração de informações de texto em imagens e tarefas de inferência baseadas em imagens, podendo ser aplicado a tarefas visuais de perguntas e respostas mais complexas e amplas."
|
||||
},
|
||||
@@ -1058,9 +995,6 @@
|
||||
"ernie-char-fiction-8k": {
|
||||
"description": "Modelo de linguagem de grande escala vertical desenvolvido pela Baidu, adequado para aplicações como NPCs de jogos, diálogos de atendimento ao cliente e interpretação de personagens, com estilo de personagem mais distinto e consistente, capacidade de seguir instruções mais forte e desempenho de inferência superior."
|
||||
},
|
||||
"ernie-irag-edit": {
|
||||
"description": "O modelo de edição de imagens ERNIE iRAG, desenvolvido pela Baidu, suporta operações como apagar objetos (erase), repintar objetos (repaint) e gerar variações (variation) baseadas em imagens."
|
||||
},
|
||||
"ernie-lite-8k": {
|
||||
"description": "ERNIE Lite é um modelo de linguagem de grande escala leve desenvolvido pela Baidu, equilibrando excelente desempenho do modelo e eficiência de inferência, adequado para uso em placas de aceleração de IA de baixa potência."
|
||||
},
|
||||
@@ -1088,27 +1022,12 @@
|
||||
"ernie-x1-turbo-32k": {
|
||||
"description": "Melhor desempenho e eficácia em comparação com o ERNIE-X1-32K."
|
||||
},
|
||||
"flux-1-schnell": {
|
||||
"description": "Modelo de geração de imagens a partir de texto com 12 bilhões de parâmetros desenvolvido pela Black Forest Labs, utilizando técnica de destilação de difusão adversarial latente, capaz de gerar imagens de alta qualidade em 1 a 4 passos. Seu desempenho é comparável a alternativas proprietárias e é lançado sob licença Apache-2.0, adequado para uso pessoal, acadêmico e comercial."
|
||||
},
|
||||
"flux-dev": {
|
||||
"description": "FLUX.1 [dev] é um modelo open source refinado e com pesos voltado para aplicações não comerciais. Mantém qualidade de imagem e capacidade de seguir instruções próximas à versão profissional FLUX, com maior eficiência operacional. Em comparação com modelos padrão de tamanho similar, é mais eficiente no uso de recursos."
|
||||
},
|
||||
"flux-kontext/dev": {
|
||||
"description": "Modelo de edição de imagem Frontier."
|
||||
},
|
||||
"flux-merged": {
|
||||
"description": "O modelo FLUX.1-merged combina as características profundas exploradas na fase de desenvolvimento \"DEV\" com as vantagens de execução rápida representadas por \"Schnell\". Essa combinação não só eleva os limites de desempenho do modelo, como também amplia seu campo de aplicação."
|
||||
},
|
||||
"flux-pro/kontext": {
|
||||
"description": "FLUX.1 Kontext [pro] pode processar texto e imagens de referência como entrada, realizando edições locais direcionadas e transformações complexas de cenas inteiras de forma fluida."
|
||||
},
|
||||
"flux-schnell": {
|
||||
"description": "FLUX.1 [schnell] é atualmente o modelo open source mais avançado de poucos passos, superando concorrentes e até modelos não destilados poderosos como Midjourney v6.0 e DALL·E 3 (HD). Ajustado para preservar toda a diversidade de saída do pré-treinamento, oferece melhorias significativas em qualidade visual, conformidade com instruções, variações de tamanho/proporção, tratamento de fontes e diversidade de saída, proporcionando uma experiência criativa mais rica e variada."
|
||||
},
|
||||
"flux.1-schnell": {
|
||||
"description": "Transformador de fluxo retificado com 12 bilhões de parâmetros, capaz de gerar imagens a partir de descrições textuais."
|
||||
},
|
||||
"flux/schnell": {
|
||||
"description": "FLUX.1 [schnell] é um modelo transformador streaming com 12 bilhões de parâmetros, capaz de gerar imagens de alta qualidade a partir de texto em 1 a 4 passos, adequado para uso pessoal e comercial."
|
||||
},
|
||||
@@ -1190,6 +1109,9 @@
|
||||
"gemini-2.5-flash-preview-04-17": {
|
||||
"description": "O Gemini 2.5 Flash Preview é o modelo mais acessível do Google, oferecendo uma gama completa de funcionalidades."
|
||||
},
|
||||
"gemini-2.5-flash-preview-04-17-thinking": {
|
||||
"description": "Gemini 2.5 Flash Preview é o modelo com melhor custo-benefício do Google, oferecendo funcionalidades abrangentes."
|
||||
},
|
||||
"gemini-2.5-flash-preview-05-20": {
|
||||
"description": "Gemini 2.5 Flash Preview é o modelo com melhor custo-benefício do Google, oferecendo funcionalidades abrangentes."
|
||||
},
|
||||
@@ -1268,21 +1190,6 @@
|
||||
"glm-4.1v-thinking-flashx": {
|
||||
"description": "A série GLM-4.1V-Thinking é atualmente o modelo visual mais potente conhecido na categoria de VLMs de 10 bilhões de parâmetros, integrando tarefas de linguagem visual de ponta no mesmo nível, incluindo compreensão de vídeo, perguntas e respostas sobre imagens, resolução de problemas acadêmicos, reconhecimento óptico de caracteres (OCR), interpretação de documentos e gráficos, agentes GUI, codificação front-end para web, grounding, entre outros. Suas capacidades em várias tarefas superam até modelos com 8 vezes mais parâmetros, como o Qwen2.5-VL-72B. Por meio de técnicas avançadas de aprendizado por reforço, o modelo domina o raciocínio em cadeia para melhorar a precisão e riqueza das respostas, superando significativamente modelos tradicionais sem o mecanismo thinking em termos de resultados finais e interpretabilidade."
|
||||
},
|
||||
"glm-4.5": {
|
||||
"description": "Modelo flagship mais recente da Zhizhu, suporta modo de pensamento alternado, com capacidades abrangentes que alcançam o estado da arte em modelos open source, e contexto de até 128K tokens."
|
||||
},
|
||||
"glm-4.5-air": {
|
||||
"description": "Versão leve do GLM-4.5, equilibrando desempenho e custo-benefício, com capacidade flexível de alternar entre modos híbridos de pensamento."
|
||||
},
|
||||
"glm-4.5-airx": {
|
||||
"description": "Versão ultrarrápida do GLM-4.5-Air, com resposta mais rápida, projetada para demandas de alta velocidade e grande escala."
|
||||
},
|
||||
"glm-4.5-flash": {
|
||||
"description": "Versão gratuita do GLM-4.5, com desempenho destacado em inferência, codificação e agentes inteligentes."
|
||||
},
|
||||
"glm-4.5-x": {
|
||||
"description": "Versão ultrarrápida do GLM-4.5, combinando alto desempenho com velocidade de geração de até 100 tokens por segundo."
|
||||
},
|
||||
"glm-4v": {
|
||||
"description": "O GLM-4V oferece uma forte capacidade de compreensão e raciocínio de imagens, suportando várias tarefas visuais."
|
||||
},
|
||||
@@ -1302,7 +1209,7 @@
|
||||
"description": "Inferência ultrarrápida: com velocidade de inferência super rápida e forte efeito de raciocínio."
|
||||
},
|
||||
"glm-z1-flash": {
|
||||
"description": "Série GLM-Z1 com forte capacidade de raciocínio complexo, destacando-se em lógica, matemática e programação."
|
||||
"description": "A série GLM-Z1 possui forte capacidade de raciocínio complexo, destacando-se em raciocínio lógico, matemática e programação. O comprimento máximo do contexto é de 32K."
|
||||
},
|
||||
"glm-z1-flashx": {
|
||||
"description": "Alta velocidade e baixo custo: versão aprimorada Flash, com inferência ultrarrápida e garantia de concorrência mais rápida."
|
||||
@@ -1478,9 +1385,6 @@
|
||||
"grok-2-1212": {
|
||||
"description": "Este modelo apresenta melhorias em precisão, conformidade com instruções e capacidade multilíngue."
|
||||
},
|
||||
"grok-2-image-1212": {
|
||||
"description": "Nosso mais recente modelo de geração de imagens pode criar imagens vívidas e realistas a partir de prompts textuais. Apresenta excelente desempenho em marketing, mídias sociais e entretenimento."
|
||||
},
|
||||
"grok-2-vision-1212": {
|
||||
"description": "Este modelo apresenta melhorias em precisão, conformidade com instruções e capacidade multilíngue."
|
||||
},
|
||||
@@ -1550,9 +1454,6 @@
|
||||
"hunyuan-t1-20250529": {
|
||||
"description": "Otimizado para criação de textos, redação de ensaios, aprimoramento em front-end de código, matemática, raciocínio lógico e outras habilidades científicas, além de melhorar a capacidade de seguir instruções."
|
||||
},
|
||||
"hunyuan-t1-20250711": {
|
||||
"description": "Melhora significativa em matemática avançada, lógica e habilidades de codificação, otimiza a estabilidade da saída do modelo e aprimora a capacidade de lidar com textos longos."
|
||||
},
|
||||
"hunyuan-t1-latest": {
|
||||
"description": "O primeiro modelo de inferência Hybrid-Transformer-Mamba em larga escala da indústria, que expande a capacidade de inferência, possui uma velocidade de decodificação excepcional e alinha-se ainda mais às preferências humanas."
|
||||
},
|
||||
@@ -1601,12 +1502,6 @@
|
||||
"hunyuan-vision": {
|
||||
"description": "O mais recente modelo multimodal Hunyuan, que suporta a entrada de imagens e texto para gerar conteúdo textual."
|
||||
},
|
||||
"image-01": {
|
||||
"description": "Novo modelo de geração de imagens com detalhes refinados, suportando geração de imagens a partir de texto e de outras imagens."
|
||||
},
|
||||
"image-01-live": {
|
||||
"description": "Modelo de geração de imagens com detalhes refinados, suportando geração a partir de texto e configuração de estilo visual."
|
||||
},
|
||||
"imagen-4.0-generate-preview-06-06": {
|
||||
"description": "Série de modelos de texto para imagem da 4ª geração Imagen"
|
||||
},
|
||||
@@ -1631,9 +1526,6 @@
|
||||
"internvl3-latest": {
|
||||
"description": "Lançamos nosso mais recente modelo multimodal, com habilidades aprimoradas de compreensão de texto e imagem, e capacidade de entender imagens em longas sequências, com desempenho comparável aos melhores modelos fechados. Aponta por padrão para nossa mais recente série de modelos InternVL, atualmente direcionando para internvl3-78b."
|
||||
},
|
||||
"irag-1.0": {
|
||||
"description": "iRAG (image based RAG) desenvolvido pela Baidu, tecnologia de geração de imagens baseada em recuperação, que combina recursos de bilhões de imagens do Baidu Search com poderosos modelos base, gerando imagens ultra-realistas que superam sistemas nativos de geração de imagens, eliminando o aspecto artificial da IA e com baixo custo. iRAG é caracterizado por ausência de alucinações, ultra-realismo e resultados imediatos."
|
||||
},
|
||||
"jamba-large": {
|
||||
"description": "Nosso modelo mais poderoso e avançado, projetado para lidar com tarefas complexas em nível empresarial, com desempenho excepcional."
|
||||
},
|
||||
@@ -1643,9 +1535,6 @@
|
||||
"jina-deepsearch-v1": {
|
||||
"description": "A busca profunda combina pesquisa na web, leitura e raciocínio para realizar investigações abrangentes. Você pode vê-la como um agente que aceita suas tarefas de pesquisa - ela realizará uma busca extensa e passará por várias iterações antes de fornecer uma resposta. Esse processo envolve pesquisa contínua, raciocínio e resolução de problemas sob diferentes ângulos. Isso é fundamentalmente diferente de gerar respostas diretamente a partir de dados pré-treinados de grandes modelos padrão e de sistemas RAG tradicionais que dependem de buscas superficiais únicas."
|
||||
},
|
||||
"kimi-k2": {
|
||||
"description": "Kimi-K2 é um modelo base com arquitetura MoE lançado pela Moonshot AI, com capacidades avançadas de código e agente, totalizando 1 trilhão de parâmetros e 32 bilhões ativados. Em testes de desempenho em raciocínio geral, programação, matemática e agentes, supera outros modelos open source populares."
|
||||
},
|
||||
"kimi-k2-0711-preview": {
|
||||
"description": "kimi-k2 é um modelo base com arquitetura MoE, com capacidades excepcionais em código e agentes, totalizando 1T de parâmetros e 32B de parâmetros ativados. Nos principais benchmarks de raciocínio de conhecimento geral, programação, matemática e agentes, o modelo K2 supera outros modelos open source populares."
|
||||
},
|
||||
@@ -2039,9 +1928,6 @@
|
||||
"moonshotai/Kimi-Dev-72B": {
|
||||
"description": "Kimi-Dev-72B é um modelo de código aberto de grande porte, otimizado por meio de aprendizado reforçado em larga escala, capaz de gerar patches robustos e prontos para produção. Este modelo alcançou uma nova pontuação máxima de 60,4% no SWE-bench Verified, estabelecendo um recorde entre modelos de código aberto em tarefas automatizadas de engenharia de software, como correção de defeitos e revisão de código."
|
||||
},
|
||||
"moonshotai/Kimi-K2-Instruct": {
|
||||
"description": "Kimi K2 é um modelo base com arquitetura MoE e capacidades avançadas de código e agente, com 1 trilhão de parâmetros totais e 32 bilhões ativados. Em testes de desempenho em raciocínio geral, programação, matemática e agentes, o modelo K2 supera outros modelos open source populares."
|
||||
},
|
||||
"moonshotai/kimi-k2-instruct": {
|
||||
"description": "kimi-k2 é um modelo base com arquitetura MoE que possui capacidades avançadas de código e agente, com um total de 1 trilhão de parâmetros e 32 bilhões de parâmetros ativados. Nos testes de desempenho de referência em categorias principais como raciocínio de conhecimento geral, programação, matemática e agentes, o modelo K2 supera outros modelos open source populares."
|
||||
},
|
||||
@@ -2378,21 +2264,9 @@
|
||||
"qwen3-235b-a22b": {
|
||||
"description": "Qwen3 é um novo modelo de linguagem de próxima geração com capacidades significativamente aprimoradas, alcançando níveis líderes da indústria em raciocínio, generalidade, agentes e multilíngue, e suporta a alternância de modos de pensamento."
|
||||
},
|
||||
"qwen3-235b-a22b-instruct-2507": {
|
||||
"description": "Modelo open source no modo não reflexivo baseado no Qwen3, com melhorias modestas em criatividade subjetiva e segurança do modelo em relação à versão anterior (Tongyi Qianwen 3-235B-A22B)."
|
||||
},
|
||||
"qwen3-235b-a22b-thinking-2507": {
|
||||
"description": "Modelo open source no modo reflexivo baseado no Qwen3, com melhorias significativas em lógica, capacidades gerais, enriquecimento de conhecimento e criatividade em relação à versão anterior (Tongyi Qianwen 3-235B-A22B), adequado para cenários de raciocínio complexo e avançado."
|
||||
},
|
||||
"qwen3-30b-a3b": {
|
||||
"description": "Qwen3 é um novo modelo de linguagem de próxima geração com capacidades significativamente aprimoradas, alcançando níveis líderes da indústria em raciocínio, generalidade, agentes e multilíngue, e suporta a alternância de modos de pensamento."
|
||||
},
|
||||
"qwen3-30b-a3b-instruct-2507": {
|
||||
"description": "Em comparação com a versão anterior (Qwen3-30B-A3B), houve um aumento significativo na capacidade geral em chinês, inglês e múltiplos idiomas. Otimizado especialmente para tarefas subjetivas e abertas, alinhando-se muito melhor às preferências dos usuários e fornecendo respostas mais úteis."
|
||||
},
|
||||
"qwen3-30b-a3b-thinking-2507": {
|
||||
"description": "Baseado no modelo open source do modo reflexivo Qwen3, esta versão apresenta melhorias substanciais em lógica, capacidade geral, conhecimento e criatividade em relação à versão anterior (Tongyi Qianwen 3-30B-A3B), sendo adequada para cenários complexos que exigem raciocínio avançado."
|
||||
},
|
||||
"qwen3-32b": {
|
||||
"description": "Qwen3 é um novo modelo de linguagem de próxima geração com capacidades significativamente aprimoradas, alcançando níveis líderes da indústria em raciocínio, generalidade, agentes e multilíngue, e suporta a alternância de modos de pensamento."
|
||||
},
|
||||
@@ -2402,12 +2276,6 @@
|
||||
"qwen3-8b": {
|
||||
"description": "Qwen3 é um novo modelo de linguagem de próxima geração com capacidades significativamente aprimoradas, alcançando níveis líderes da indústria em raciocínio, generalidade, agentes e multilíngue, e suporta a alternância de modos de pensamento."
|
||||
},
|
||||
"qwen3-coder-480b-a35b-instruct": {
|
||||
"description": "Versão open source do modelo de código Tongyi Qianwen. O mais recente qwen3-coder-480b-a35b-instruct é um modelo de geração de código baseado no Qwen3, com forte capacidade de agente de codificação, especializado em chamadas de ferramentas e interação com ambientes, capaz de programação autônoma, combinando excelência em código com capacidades gerais."
|
||||
},
|
||||
"qwen3-coder-plus": {
|
||||
"description": "Modelo de código Tongyi Qianwen. A série mais recente Qwen3-Coder-Plus é baseada no Qwen3, com forte capacidade de agente de codificação, especializada em chamadas de ferramentas e interação com ambientes, permitindo programação autônoma, combinando excelência em código com capacidades gerais."
|
||||
},
|
||||
"qwq": {
|
||||
"description": "QwQ é um modelo de pesquisa experimental, focado em melhorar a capacidade de raciocínio da IA."
|
||||
},
|
||||
@@ -2450,24 +2318,6 @@
|
||||
"sonar-reasoning-pro": {
|
||||
"description": "Um novo produto de API suportado pelo modelo de raciocínio DeepSeek."
|
||||
},
|
||||
"stable-diffusion-3-medium": {
|
||||
"description": "Modelo de geração de imagens a partir de texto mais recente lançado pela Stability AI. Esta versão mantém as vantagens das anteriores e apresenta melhorias significativas na qualidade da imagem, compreensão textual e diversidade de estilos, capaz de interpretar prompts complexos de linguagem natural com maior precisão e gerar imagens mais precisas e variadas."
|
||||
},
|
||||
"stable-diffusion-3.5-large": {
|
||||
"description": "stable-diffusion-3.5-large é um modelo multimodal de difusão transformadora (MMDiT) para geração de imagens a partir de texto com 800 milhões de parâmetros, oferecendo qualidade de imagem excepcional e alta correspondência com prompts, suportando geração de imagens de alta resolução de até 1 milhão de pixels, e operando eficientemente em hardware de consumo comum."
|
||||
},
|
||||
"stable-diffusion-3.5-large-turbo": {
|
||||
"description": "stable-diffusion-3.5-large-turbo é um modelo baseado no stable-diffusion-3.5-large que utiliza a técnica de destilação de difusão adversarial (ADD), oferecendo maior velocidade."
|
||||
},
|
||||
"stable-diffusion-v1.5": {
|
||||
"description": "stable-diffusion-v1.5 é inicializado com pesos do checkpoint stable-diffusion-v1.2 e ajustado por 595k passos em \"laion-aesthetics v2 5+\" com resolução 512x512, reduzindo em 10% a condicionamento textual para melhorar a amostragem guiada sem classificador."
|
||||
},
|
||||
"stable-diffusion-xl": {
|
||||
"description": "stable-diffusion-xl apresenta melhorias significativas em relação à v1.5, com desempenho comparável ao modelo open source SOTA midjourney. As melhorias incluem: backbone unet três vezes maior; módulo de refinamento para melhorar a qualidade da imagem gerada; técnicas de treinamento mais eficientes, entre outras."
|
||||
},
|
||||
"stable-diffusion-xl-base-1.0": {
|
||||
"description": "Grande modelo de geração de imagens a partir de texto desenvolvido e open source pela Stability AI, com capacidade criativa de ponta na indústria. Possui excelente compreensão de instruções e suporta definição de prompts inversos para geração precisa de conteúdo."
|
||||
},
|
||||
"step-1-128k": {
|
||||
"description": "Equilibra desempenho e custo, adequado para cenários gerais."
|
||||
},
|
||||
@@ -2498,12 +2348,6 @@
|
||||
"step-1v-8k": {
|
||||
"description": "Modelo visual compacto, adequado para tarefas básicas de texto e imagem."
|
||||
},
|
||||
"step-1x-edit": {
|
||||
"description": "Modelo focado em tarefas de edição de imagens, capaz de modificar e aprimorar imagens com base em imagens e descrições textuais fornecidas pelo usuário. Suporta múltiplos formatos de entrada, incluindo descrições textuais e imagens de exemplo. O modelo compreende a intenção do usuário e gera resultados de edição de imagem conforme solicitado."
|
||||
},
|
||||
"step-1x-medium": {
|
||||
"description": "Modelo com forte capacidade de geração de imagens, suportando entrada via descrições textuais. Possui suporte nativo ao chinês, compreendendo e processando melhor descrições textuais em chinês, capturando com maior precisão as informações semânticas para convertê-las em características visuais, permitindo geração de imagens mais precisas. Gera imagens de alta resolução e qualidade, com certa capacidade de transferência de estilo."
|
||||
},
|
||||
"step-2-16k": {
|
||||
"description": "Suporta interações de contexto em larga escala, adequado para cenários de diálogo complexos."
|
||||
},
|
||||
@@ -2513,9 +2357,6 @@
|
||||
"step-2-mini": {
|
||||
"description": "Um modelo de grande escala de alta velocidade baseado na nova arquitetura de atenção auto-desenvolvida MFA, alcançando resultados semelhantes ao step1 com um custo muito baixo, enquanto mantém uma maior taxa de transferência e um tempo de resposta mais rápido. Capaz de lidar com tarefas gerais, possui especialização em habilidades de codificação."
|
||||
},
|
||||
"step-2x-large": {
|
||||
"description": "Nova geração do modelo Xingchen Step, focado em geração de imagens, capaz de criar imagens de alta qualidade a partir de descrições textuais fornecidas pelo usuário. O novo modelo gera imagens com textura mais realista e melhor capacidade de geração de texto em chinês e inglês."
|
||||
},
|
||||
"step-r1-v-mini": {
|
||||
"description": "Este modelo é um grande modelo de inferência com forte capacidade de compreensão de imagens, capaz de processar informações de imagem e texto, gerando conteúdo textual após um profundo raciocínio. O modelo se destaca no campo do raciocínio visual, além de possuir habilidades de raciocínio matemático, código e texto de primeira linha. O comprimento do contexto é de 100k."
|
||||
},
|
||||
@@ -2591,23 +2432,8 @@
|
||||
"v0-1.5-md": {
|
||||
"description": "O modelo v0-1.5-md é adequado para tarefas diárias e geração de interfaces de usuário (UI)"
|
||||
},
|
||||
"wan2.2-t2i-flash": {
|
||||
"description": "Versão ultrarrápida Wanxiang 2.2, modelo mais recente. Atualizações abrangentes em criatividade, estabilidade e realismo, com alta velocidade de geração e excelente custo-benefício."
|
||||
},
|
||||
"wan2.2-t2i-plus": {
|
||||
"description": "Versão profissional Wanxiang 2.2, modelo mais recente. Atualizações abrangentes em criatividade, estabilidade e realismo, com geração de detalhes ricos."
|
||||
},
|
||||
"wanx-v1": {
|
||||
"description": "Modelo básico de geração de imagens a partir de texto, correspondente ao modelo geral 1.0 do site oficial Tongyi Wanxiang."
|
||||
},
|
||||
"wanx2.0-t2i-turbo": {
|
||||
"description": "Especializado em retratos com textura, velocidade média e custo baixo. Corresponde ao modelo ultrarrápido 2.0 do site oficial Tongyi Wanxiang."
|
||||
},
|
||||
"wanx2.1-t2i-plus": {
|
||||
"description": "Versão totalmente atualizada. Geração de imagens com detalhes mais ricos, velocidade um pouco mais lenta. Corresponde ao modelo profissional 2.1 do site oficial Tongyi Wanxiang."
|
||||
},
|
||||
"wanx2.1-t2i-turbo": {
|
||||
"description": "Versão totalmente atualizada. Geração rápida, resultados abrangentes e excelente custo-benefício. Corresponde ao modelo ultrarrápido 2.1 do site oficial Tongyi Wanxiang."
|
||||
"description": "Modelo de geração de imagens da Alibaba Cloud Tongyi"
|
||||
},
|
||||
"whisper-1": {
|
||||
"description": "Modelo universal de reconhecimento de voz, suportando reconhecimento de voz multilíngue, tradução de voz e identificação de idioma."
|
||||
@@ -2659,11 +2485,5 @@
|
||||
},
|
||||
"yi-vision-v2": {
|
||||
"description": "Modelo para tarefas visuais complexas, oferecendo alta performance em compreensão e análise baseadas em múltiplas imagens."
|
||||
},
|
||||
"zai-org/GLM-4.5": {
|
||||
"description": "GLM-4.5 é um modelo base projetado para aplicações de agentes inteligentes, utilizando arquitetura Mixture-of-Experts (MoE). Otimizado para chamadas de ferramentas, navegação web, engenharia de software e programação front-end, suporta integração perfeita com agentes de código como Claude Code e Roo Code. Adota modo de raciocínio híbrido, adaptando-se a cenários de raciocínio complexo e uso cotidiano."
|
||||
},
|
||||
"zai-org/GLM-4.5-Air": {
|
||||
"description": "GLM-4.5-Air é um modelo base projetado para aplicações de agentes inteligentes, utilizando arquitetura Mixture-of-Experts (MoE). Otimizado para chamadas de ferramentas, navegação web, engenharia de software e programação front-end, suporta integração perfeita com agentes de código como Claude Code e Roo Code. Adota modo de raciocínio híbrido, adaptando-se a cenários de raciocínio complexo e uso cotidiano."
|
||||
}
|
||||
}
|
||||
|
||||
@@ -5,9 +5,6 @@
|
||||
"ai360": {
|
||||
"description": "360 AI é a plataforma de modelos e serviços de IA lançada pela empresa 360, oferecendo uma variedade de modelos avançados de processamento de linguagem natural, incluindo 360GPT2 Pro, 360GPT Pro, 360GPT Turbo e 360GPT Turbo Responsibility 8K. Esses modelos combinam grandes parâmetros e capacidades multimodais, sendo amplamente aplicados em geração de texto, compreensão semântica, sistemas de diálogo e geração de código. Com uma estratégia de preços flexível, a 360 AI atende a diversas necessidades dos usuários, apoiando a integração de desenvolvedores e promovendo a inovação e o desenvolvimento de aplicações inteligentes."
|
||||
},
|
||||
"aihubmix": {
|
||||
"description": "AiHubMix oferece acesso a diversos modelos de IA por meio de uma API unificada."
|
||||
},
|
||||
"anthropic": {
|
||||
"description": "A Anthropic é uma empresa focada em pesquisa e desenvolvimento de inteligência artificial, oferecendo uma gama de modelos de linguagem avançados, como Claude 3.5 Sonnet, Claude 3 Sonnet, Claude 3 Opus e Claude 3 Haiku. Esses modelos alcançam um equilíbrio ideal entre inteligência, velocidade e custo, adequando-se a uma variedade de cenários de aplicação, desde cargas de trabalho empresariais até respostas rápidas. O Claude 3.5 Sonnet, como seu modelo mais recente, se destacou em várias avaliações, mantendo uma alta relação custo-benefício."
|
||||
},
|
||||
|
||||
@@ -189,7 +189,6 @@
|
||||
"aesGcm": "Ваши ключи и адрес прокси будут зашифрованы с использованием <1>AES-GCM</1>",
|
||||
"apiKey": {
|
||||
"desc": "Пожалуйста, введите ваш {{name}} API Key",
|
||||
"descWithUrl": "Пожалуйста, введите ваш {{name}} API ключ, <3>получить здесь</3>",
|
||||
"placeholder": "{{name}} API Key",
|
||||
"title": "API Key"
|
||||
},
|
||||
|
||||
+5
-185
@@ -32,9 +32,6 @@
|
||||
"4.0Ultra": {
|
||||
"description": "Spark4.0 Ultra — это самая мощная версия в серии больших моделей Xinghuo, которая, обновив сетевые поисковые связи, улучшает понимание и обобщение текстового контента. Это всестороннее решение для повышения производительности в офисе и точного реагирования на запросы, являющееся ведущим интеллектуальным продуктом в отрасли."
|
||||
},
|
||||
"AnimeSharp": {
|
||||
"description": "AnimeSharp (также известный как \"4x‑AnimeSharp\") — это открытая модель сверхразрешения, разработанная Kim2091 на основе архитектуры ESRGAN, ориентированная на увеличение и улучшение изображений в аниме-стиле. В феврале 2022 года модель была переименована из \"4x-TextSharpV1\"; изначально она также применялась для текстовых изображений, но была значительно оптимизирована для аниме-контента."
|
||||
},
|
||||
"Baichuan2-Turbo": {
|
||||
"description": "Использует технологии улучшенного поиска для полной связи между большой моделью и отраслевыми знаниями, а также знаниями из сети. Поддерживает загрузку различных документов, таких как PDF и Word, а также ввод URL, обеспечивая своевременное и полное получение информации с точными и профессиональными результатами."
|
||||
},
|
||||
@@ -92,9 +89,6 @@
|
||||
"Doubao-pro-4k": {
|
||||
"description": "Основная модель с наилучшей производительностью, подходящая для решения сложных задач. Отлично справляется с вопросами-ответами, резюмированием, творческим написанием, классификацией текста, ролевыми играми и другими сценариями. Поддерживает вывод и дообучение с контекстным окном в 4k."
|
||||
},
|
||||
"DreamO": {
|
||||
"description": "DreamO — это открытая модель генерации изображений, разработанная совместно ByteDance и Пекинским университетом, предназначенная для поддержки многозадачной генерации изображений в единой архитектуре. Она использует эффективный метод комбинированного моделирования, позволяющий создавать высоко согласованные и кастомизированные изображения на основе заданных пользователем условий, таких как идентичность, объект, стиль и фон."
|
||||
},
|
||||
"ERNIE-3.5-128K": {
|
||||
"description": "Флагманская крупномасштабная языковая модель, разработанная Baidu, охватывающая огромные объемы китайских и английских текстов, обладающая мощными универсальными возможностями, способная удовлетворить большинство требований к диалоговым ответам, генерации контента и сценариям использования плагинов; поддерживает автоматическую интеграцию с плагином поиска Baidu, обеспечивая актуальность информации в ответах."
|
||||
},
|
||||
@@ -128,39 +122,15 @@
|
||||
"ERNIE-Speed-Pro-128K": {
|
||||
"description": "Новая высокопроизводительная языковая модель, разработанная Baidu в 2024 году, обладающая выдающимися универсальными возможностями, превосходящая ERNIE Speed, подходит для использования в качестве базовой модели для тонкой настройки, лучше справляясь с задачами в специфических сценариях, при этом обладая отличной производительностью вывода."
|
||||
},
|
||||
"FLUX.1-Kontext-dev": {
|
||||
"description": "FLUX.1-Kontext-dev — мультимодальная модель генерации и редактирования изображений, разработанная Black Forest Labs на основе архитектуры Rectified Flow Transformer с масштабом 12 миллиардов параметров. Модель специализируется на генерации, реконструкции, улучшении и редактировании изображений с учётом заданного контекста. Она сочетает преимущества контролируемой генерации диффузионных моделей и контекстного моделирования Transformer, обеспечивая высококачественный вывод и широкое применение в задачах восстановления, дополнения и реконструкции визуальных сцен."
|
||||
},
|
||||
"FLUX.1-dev": {
|
||||
"description": "FLUX.1-dev — это открытая мультимодальная языковая модель (Multimodal Language Model, MLLM), разработанная Black Forest Labs и оптимизированная для задач, связанных с изображениями и текстом. Она объединяет возможности понимания и генерации изображений и текста, построена на основе передовой большой языковой модели (например, Mistral-7B) и использует тщательно разработанный визуальный кодировщик и многоступенчатую инструкционную донастройку для совместной обработки изображений и текста, а также сложного вывода."
|
||||
},
|
||||
"Gryphe/MythoMax-L2-13b": {
|
||||
"description": "MythoMax-L2 (13B) — это инновационная модель, подходящая для многообластных приложений и сложных задач."
|
||||
},
|
||||
"HelloMeme": {
|
||||
"description": "HelloMeme — это AI-инструмент, который автоматически создаёт мемы, анимированные изображения или короткие видео на основе предоставленных вами картинок или действий. Для работы не требуется навыков рисования или программирования — достаточно подготовить референсное изображение, и инструмент поможет создать привлекательный, забавный и стилистически единый контент."
|
||||
},
|
||||
"HiDream-I1-Full": {
|
||||
"description": "HiDream-E1-Full — это открытая мультимодальная модель редактирования изображений, выпущенная HiDream.ai, основанная на передовой архитектуре Diffusion Transformer и обладающая мощными возможностями понимания языка (встроенный LLaMA 3.1-8B-Instruct). Модель поддерживает генерацию изображений, перенос стиля, локальное редактирование и перерисовку контента по естественным языковым инструкциям, демонстрируя выдающиеся способности в понимании и выполнении текстово-графических задач."
|
||||
},
|
||||
"HunyuanDiT-v1.2-Diffusers-Distilled": {
|
||||
"description": "hunyuandit-v1.2-distilled — это облегчённая модель генерации изображений из текста, оптимизированная с помощью дистилляции для быстрой генерации высококачественных изображений, особенно подходящая для условий с ограниченными ресурсами и задач реального времени."
|
||||
},
|
||||
"InstantCharacter": {
|
||||
"description": "InstantCharacter — персонализированная модель генерации персонажей без необходимости дообучения, выпущенная командой Tencent AI в 2025 году. Модель обеспечивает высокую точность и согласованность персонажей в различных сценах, позволяя создавать модели персонажей на основе одной референсной фотографии и гибко переносить их в разные стили, позы и фоны."
|
||||
},
|
||||
"InternVL2-8B": {
|
||||
"description": "InternVL2-8B — это мощная визуально-языковая модель, поддерживающая многомодальную обработку изображений и текста, способная точно распознавать содержимое изображений и генерировать соответствующие описания или ответы."
|
||||
},
|
||||
"InternVL2.5-26B": {
|
||||
"description": "InternVL2.5-26B — это мощная визуально-языковая модель, поддерживающая многомодальную обработку изображений и текста, способная точно распознавать содержимое изображений и генерировать соответствующие описания или ответы."
|
||||
},
|
||||
"Kolors": {
|
||||
"description": "Kolors — модель генерации изображений из текста, разработанная командой Kolors компании Kuaishou. Обученная на миллиардах параметров, она демонстрирует значительные преимущества в визуальном качестве, понимании китайской семантики и рендеринге текста."
|
||||
},
|
||||
"Kwai-Kolors/Kolors": {
|
||||
"description": "Kolors — масштабная модель генерации изображений из текста на основе латентного диффузионного процесса, разработанная командой Kolors компании Kuaishou. Обученная на миллиардах пар текст-изображение, модель демонстрирует выдающиеся результаты в визуальном качестве, точности сложной семантики и рендеринге китайских и английских символов. Она поддерживает ввод на китайском и английском языках и особенно хорошо справляется с пониманием и генерацией специфического китайского контента."
|
||||
},
|
||||
"Llama-3.2-11B-Vision-Instruct": {
|
||||
"description": "Отличные способности к визуальному выводу на изображениях высокого разрешения, подходящие для приложений визуального понимания."
|
||||
},
|
||||
@@ -194,15 +164,9 @@
|
||||
"MiniMaxAI/MiniMax-M1-80k": {
|
||||
"description": "MiniMax-M1 — это масштабная модель вывода с гибридным вниманием и открытыми весами, содержащая 456 миллиардов параметров, при этом каждый токен активирует около 45,9 миллиарда параметров. Модель изначально поддерживает сверхдлинный контекст до 1 миллиона токенов и благодаря механизму молниеносного внимания экономит 75% вычислительных операций с плавающей точкой в задачах генерации на 100 тысяч токенов по сравнению с DeepSeek R1. Кроме того, MiniMax-M1 использует архитектуру MoE (смешанные эксперты), сочетая алгоритм CISPO и эффективное обучение с подкреплением с гибридным вниманием, достигая ведущих в отрасли показателей при выводе на длинных входах и в реальных сценариях программной инженерии."
|
||||
},
|
||||
"Moonshot-Kimi-K2-Instruct": {
|
||||
"description": "Общая численность параметров — 1 триллион, активируемых параметров — 32 миллиарда. Среди немыслящих моделей достигает передовых результатов в области актуальных знаний, математики и программирования, особенно эффективна для универсальных агентских задач. Модель тщательно оптимизирована для агентских задач, способна не только отвечать на вопросы, но и предпринимать действия. Идеально подходит для импровизационного, универсального общения и агентских сценариев, являясь моделью рефлекторного уровня без необходимости длительного обдумывания."
|
||||
},
|
||||
"NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
||||
"description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B) — это высокоточная модель команд, подходящая для сложных вычислений."
|
||||
},
|
||||
"OmniConsistency": {
|
||||
"description": "OmniConsistency повышает согласованность стиля и обобщающую способность в задачах преобразования изображений (Image-to-Image) за счёт внедрения масштабных Diffusion Transformers (DiTs) и парных стилизованных данных, предотвращая деградацию стиля."
|
||||
},
|
||||
"Phi-3-medium-128k-instruct": {
|
||||
"description": "Та же модель Phi-3-medium, но с большим размером контекста для RAG или нескольких подсказок."
|
||||
},
|
||||
@@ -254,9 +218,6 @@
|
||||
"Pro/deepseek-ai/DeepSeek-V3": {
|
||||
"description": "DeepSeek-V3 — это языковая модель с 6710 миллиардами параметров, использующая архитектуру смешанных экспертов (MoE) и многофункциональное внимание (MLA), в сочетании с стратегией балансировки нагрузки без вспомогательных потерь, оптимизирующая эффективность вывода и обучения. После предобучения на 14.8 триллионах высококачественных токенов и последующей контролируемой донастройки и обучения с подкреплением, DeepSeek-V3 превосходит другие открытые модели и приближается к ведущим закрытым моделям."
|
||||
},
|
||||
"Pro/moonshotai/Kimi-K2-Instruct": {
|
||||
"description": "Kimi K2 — базовая модель на архитектуре MoE с выдающимися возможностями в кодировании и агентских задачах, общим числом параметров 1 триллион и 32 миллиардами активируемых параметров. В тестах на универсальное знание, программирование, математику и агентские задачи производительность модели K2 превосходит другие ведущие открытые модели."
|
||||
},
|
||||
"QwQ-32B-Preview": {
|
||||
"description": "QwQ-32B-Preview — это инновационная модель обработки естественного языка, способная эффективно обрабатывать сложные задачи генерации диалогов и понимания контекста."
|
||||
},
|
||||
@@ -317,18 +278,9 @@
|
||||
"Qwen/Qwen3-235B-A22B": {
|
||||
"description": "Qwen3 — это новая генерация модели Qwen с значительно улучшенными возможностями, достигнувшими ведущих позиций в отрасли по нескольким ключевым направлениям, включая рассуждение, общие задачи, агентские функции и многоязычность, а также поддерживающей переключение режимов размышления."
|
||||
},
|
||||
"Qwen/Qwen3-235B-A22B-Instruct-2507": {
|
||||
"description": "Qwen3-235B-A22B-Instruct-2507 — флагманская модель серии Qwen3 с архитектурой смешанных экспертов (MoE), разработанная командой Alibaba Cloud Tongyi Qianwen. Модель содержит 235 миллиардов параметров, из которых при каждом выводе активируется 22 миллиарда. Это обновлённая версия Qwen3-235B-A22B в неразмышляющем режиме, с улучшениями в следовании инструкциям, логическом выводе, понимании текста, математике, науке, программировании и использовании инструментов. Модель расширяет покрытие многоязычных знаний и лучше согласуется с пользовательскими предпочтениями в субъективных и открытых задачах, обеспечивая более полезный и качественный текст."
|
||||
},
|
||||
"Qwen/Qwen3-235B-A22B-Thinking-2507": {
|
||||
"description": "Qwen3-235B-A22B-Thinking-2507 — крупная языковая модель серии Qwen3, разработанная командой Alibaba Tongyi Qianwen, ориентированная на сложные задачи рассуждения. Модель построена на архитектуре смешанных экспертов (MoE) с общим числом параметров 235 миллиардов и активацией около 22 миллиардов параметров на токен, что обеспечивает высокую производительность при эффективном использовании ресурсов. Как специализированная \"мыслящая\" модель, она демонстрирует выдающиеся результаты в логическом выводе, математике, науке, программировании и академических тестах, достигая топовых показателей среди открытых моделей. Модель также улучшает универсальные способности, такие как следование инструкциям, использование инструментов и генерация текста, и нативно поддерживает контекст длиной до 256K токенов, что делает её идеальной для глубокого анализа и обработки длинных документов."
|
||||
},
|
||||
"Qwen/Qwen3-30B-A3B": {
|
||||
"description": "Qwen3 — это новая генерация модели Qwen с значительно улучшенными возможностями, достигнувшими ведущих позиций в отрасли по нескольким ключевым направлениям, включая рассуждение, общие задачи, агентские функции и многоязычность, а также поддерживающей переключение режимов размышления."
|
||||
},
|
||||
"Qwen/Qwen3-30B-A3B-Instruct-2507": {
|
||||
"description": "Qwen3-30B-A3B-Instruct-2507 — это обновленная версия модели Qwen3-30B-A3B в режиме без размышлений. Это модель с гибридными экспертами (MoE), имеющая в общей сложности 30,5 миллиарда параметров и 3,3 миллиарда активных параметров. Модель получила ключевые улучшения во многих аспектах, включая значительное повышение способности следовать инструкциям, логического мышления, понимания текста, математики, науки, программирования и использования инструментов. Кроме того, она достигла существенного прогресса в покрытии многоязычных редких знаний и лучше согласуется с предпочтениями пользователей в субъективных и открытых задачах, что позволяет генерировать более полезные ответы и тексты высокого качества. Также улучшена способность к пониманию длинных текстов — теперь до 256K. Эта модель поддерживает только режим без размышлений и не генерирует теги `<think></think>` в выводе."
|
||||
},
|
||||
"Qwen/Qwen3-32B": {
|
||||
"description": "Qwen3 — это новая генерация модели Qwen с значительно улучшенными возможностями, достигнувшими ведущих позиций в отрасли по нескольким ключевым направлениям, включая рассуждение, общие задачи, агентские функции и многоязычность, а также поддерживающей переключение режимов размышления."
|
||||
},
|
||||
@@ -362,12 +314,6 @@
|
||||
"Qwen2.5-Coder-32B-Instruct": {
|
||||
"description": "Qwen2.5-Coder-32B-Instruct — это крупная языковая модель, специально разработанная для генерации кода, понимания кода и эффективных сценариев разработки, с передовым масштабом параметров 32B, способная удовлетворить разнообразные потребности программирования."
|
||||
},
|
||||
"Qwen3-235B": {
|
||||
"description": "Qwen3-235B-A22B — модель MoE (гибридных экспертов), которая внедрила «гибридный режим рассуждений», позволяющий пользователям бесшовно переключаться между режимами «размышления» и «без размышлений». Поддерживает понимание и рассуждение на 119 языках и диалектах, обладает мощными возможностями вызова инструментов. По совокупности способностей, кода, математики, многоязычия, знаний и рассуждений модель конкурирует с ведущими современными крупными моделями на рынке, такими как DeepSeek R1, OpenAI o1, o3-mini, Grok 3 и Google Gemini 2.5 Pro."
|
||||
},
|
||||
"Qwen3-32B": {
|
||||
"description": "Qwen3-32B — плотная модель (Dense Model), внедрившая «гибридный режим рассуждений», позволяющий пользователям бесшовно переключаться между режимами «размышления» и «без размышлений». Благодаря улучшениям архитектуры модели, увеличению объема обучающих данных и более эффективным методам обучения, общая производительность сопоставима с Qwen2.5-72B."
|
||||
},
|
||||
"SenseChat": {
|
||||
"description": "Базовая версия модели (V4), длина контекста 4K, обладает мощными универсальными возможностями."
|
||||
},
|
||||
@@ -404,12 +350,6 @@
|
||||
"SenseChat-Vision": {
|
||||
"description": "Последняя версия модели (V5.5) поддерживает ввод нескольких изображений, полностью реализует оптимизацию базовых возможностей модели и значительно улучшила распознавание свойств объектов, пространственные отношения, распознавание событий, понимание сцен, распознавание эмоций, логическое рассуждение и понимание текста."
|
||||
},
|
||||
"SenseNova-V6-5-Pro": {
|
||||
"description": "Благодаря всестороннему обновлению мультимодальных, языковых и рассуждательных данных, а также оптимизации стратегий обучения, новая модель значительно улучшила мультимодальные рассуждения и способность следовать универсальным инструкциям. Поддерживает контекстное окно до 128k и демонстрирует выдающиеся результаты в специализированных задачах, таких как OCR и распознавание туристических IP."
|
||||
},
|
||||
"SenseNova-V6-5-Turbo": {
|
||||
"description": "Благодаря всестороннему обновлению мультимодальных, языковых и рассуждательных данных, а также оптимизации стратегий обучения, новая модель значительно улучшила мультимодальные рассуждения и способность следовать универсальным инструкциям. Поддерживает контекстное окно до 128k и демонстрирует выдающиеся результаты в специализированных задачах, таких как OCR и распознавание туристических IP."
|
||||
},
|
||||
"SenseNova-V6-Pro": {
|
||||
"description": "Реализует родное единство возможностей изображений, текста и видео, преодолевая традиционные ограничения раздельных мультимодальных систем, завоевав двойное чемпионство в оценках OpenCompass и SuperCLUE."
|
||||
},
|
||||
@@ -1004,9 +944,6 @@
|
||||
"doubao-seed-1.6-thinking": {
|
||||
"description": "Модель Doubao-Seed-1.6-thinking значительно улучшена в плане мышления, по сравнению с Doubao-1.5-thinking-pro дополнительно повышены базовые способности в программировании, математике и логическом рассуждении, поддерживается визуальное понимание. Поддерживает контекстное окно 256k и максимальную длину вывода до 16k токенов."
|
||||
},
|
||||
"doubao-seedream-3-0-t2i-250415": {
|
||||
"description": "Модель генерации изображений Doubao разработана командой Seed компании ByteDance, поддерживает ввод текста и изображений, обеспечивая высококонтролируемый и качественный опыт генерации изображений на основе текстовых подсказок."
|
||||
},
|
||||
"doubao-vision-lite-32k": {
|
||||
"description": "Модель Doubao-vision — мультимодальная крупная модель от Doubao, обладающая мощными возможностями понимания и вывода по изображениям, а также точным пониманием инструкций. Модель демонстрирует высокую производительность в задачах извлечения информации из изображений и текстов, а также в задачах вывода на основе изображений, что позволяет применять её в более сложных и широких визуальных вопросах."
|
||||
},
|
||||
@@ -1058,9 +995,6 @@
|
||||
"ernie-char-fiction-8k": {
|
||||
"description": "Специализированная большая языковая модель, разработанная Baidu, подходящая для применения в игровых NPC, диалогах службы поддержки, ролевых играх и других сценариях, с более ярким и последовательным стилем персонажей, более высокой способностью следовать инструкциям и лучшей производительностью вывода."
|
||||
},
|
||||
"ernie-irag-edit": {
|
||||
"description": "Собственная модель редактирования изображений ERNIE iRAG от Baidu поддерживает операции удаления объектов (erase), перерисовки (repaint) и вариаций (variation) на основе изображений."
|
||||
},
|
||||
"ernie-lite-8k": {
|
||||
"description": "ERNIE Lite — это легковесная большая языковая модель, разработанная Baidu, которая сочетает в себе отличные результаты модели и производительность вывода, подходит для использования на AI-ускорителях с низкой вычислительной мощностью."
|
||||
},
|
||||
@@ -1088,27 +1022,12 @@
|
||||
"ernie-x1-turbo-32k": {
|
||||
"description": "Модель имеет лучшие результаты и производительность по сравнению с ERNIE-X1-32K."
|
||||
},
|
||||
"flux-1-schnell": {
|
||||
"description": "Модель генерации изображений из текста с 12 миллиардами параметров, разработанная Black Forest Labs, использующая технологию латентного контрольно-диффузионного дистиллята. Способна генерировать высококачественные изображения за 1–4 шага. Производительность сопоставима с закрытыми аналогами. Распространяется под лицензией Apache-2.0, подходит для личного, научного и коммерческого использования."
|
||||
},
|
||||
"flux-dev": {
|
||||
"description": "FLUX.1 [dev] — открытая модель с весами и оптимизациями для некоммерческого использования. Обеспечивает качество изображений и следование инструкциям, близкие к профессиональной версии FLUX, при более высокой эффективности работы и лучшем использовании ресурсов по сравнению с моделями того же размера."
|
||||
},
|
||||
"flux-kontext/dev": {
|
||||
"description": "Модель редактирования изображений Frontier."
|
||||
},
|
||||
"flux-merged": {
|
||||
"description": "Модель FLUX.1-merged объединяет глубокие особенности, исследованные в фазе разработки \"DEV\", и преимущества высокой скорости исполнения, представленные в \"Schnell\". Это позволяет расширить границы производительности модели и увеличить её применимость."
|
||||
},
|
||||
"flux-pro/kontext": {
|
||||
"description": "FLUX.1 Kontext [pro] способен обрабатывать текст и эталонные изображения в качестве входных данных, обеспечивая бесшовное целенаправленное локальное редактирование и сложные преобразования всей сцены."
|
||||
},
|
||||
"flux-schnell": {
|
||||
"description": "FLUX.1 [schnell] — самая передовая открытая модель с малым числом шагов генерации, превосходящая конкурентов и даже такие мощные не дистиллированные модели, как Midjourney v6.0 и DALL·E 3 (HD). Модель специально донастроена для сохранения всего разнообразия выходных данных, достигнутого на этапе предобучения. По сравнению с современными топовыми моделями на рынке, FLUX.1 [schnell] значительно улучшает визуальное качество, следование инструкциям, изменение размеров и пропорций, обработку шрифтов и разнообразие выходных данных, обеспечивая пользователям более богатый и разнообразный творческий опыт генерации изображений."
|
||||
},
|
||||
"flux.1-schnell": {
|
||||
"description": "Исправленный потоковый трансформер с 12 миллиардами параметров, способный генерировать изображения на основе текстовых описаний."
|
||||
},
|
||||
"flux/schnell": {
|
||||
"description": "FLUX.1 [schnell] — это потоковая трансформерная модель с 12 миллиардами параметров, способная генерировать высококачественные изображения из текста за 1–4 шага, подходит для личного и коммерческого использования."
|
||||
},
|
||||
@@ -1190,6 +1109,9 @@
|
||||
"gemini-2.5-flash-preview-04-17": {
|
||||
"description": "Gemini 2.5 Flash Preview — это наиболее выгодная модель от Google, предлагающая широкий спектр возможностей."
|
||||
},
|
||||
"gemini-2.5-flash-preview-04-17-thinking": {
|
||||
"description": "Gemini 2.5 Flash Preview — самая экономичная модель Google с полным набором функций."
|
||||
},
|
||||
"gemini-2.5-flash-preview-05-20": {
|
||||
"description": "Gemini 2.5 Flash Preview — самая экономичная модель Google с полным набором функций."
|
||||
},
|
||||
@@ -1268,21 +1190,6 @@
|
||||
"glm-4.1v-thinking-flashx": {
|
||||
"description": "Серия моделей GLM-4.1V-Thinking является самой производительной визуальной моделью уровня 10B VLM на сегодняшний день, объединяя передовые SOTA возможности в задачах визуально-языкового понимания, включая понимание видео, вопросы по изображениям, решение предметных задач, распознавание текста OCR, интерпретацию документов и графиков, GUI-агентов, фронтенд веб-кодинг, Grounding и другие. Во многих задачах её возможности превосходят Qwen2.5-VL-72B с параметрами в 8 раз больше. Благодаря передовым методам обучения с подкреплением модель овладела рассуждениями через цепочку мышления, что значительно повышает точность и полноту ответов, превосходя традиционные модели без thinking с точки зрения конечных результатов и интерпретируемости."
|
||||
},
|
||||
"glm-4.5": {
|
||||
"description": "Последняя флагманская модель Zhizhu, поддерживающая режимы размышления, достигающая уровня SOTA среди открытых моделей по совокупным способностям, с длиной контекста до 128K токенов."
|
||||
},
|
||||
"glm-4.5-air": {
|
||||
"description": "Лёгкая версия GLM-4.5, сочетающая производительность и экономичность, с возможностью гибкого переключения между смешанными режимами размышления."
|
||||
},
|
||||
"glm-4.5-airx": {
|
||||
"description": "Ускоренная версия GLM-4.5-Air с более быстрой реакцией, созданная для масштабных задач с высокими требованиями к скорости."
|
||||
},
|
||||
"glm-4.5-flash": {
|
||||
"description": "Бесплатная версия GLM-4.5, демонстрирующая отличные результаты в задачах вывода, программирования и работы с агентами."
|
||||
},
|
||||
"glm-4.5-x": {
|
||||
"description": "Ускоренная версия GLM-4.5 с высокой производительностью и скоростью генерации до 100 токенов в секунду."
|
||||
},
|
||||
"glm-4v": {
|
||||
"description": "GLM-4V предлагает мощные способности понимания и вывода изображений, поддерживает множество визуальных задач."
|
||||
},
|
||||
@@ -1302,7 +1209,7 @@
|
||||
"description": "Супербыстрый вывод: обладает сверхбыстрой скоростью вывода и мощными результатами вывода."
|
||||
},
|
||||
"glm-z1-flash": {
|
||||
"description": "Серия GLM-Z1 обладает мощными возможностями сложного рассуждения, демонстрируя выдающиеся результаты в логике, математике и программировании."
|
||||
"description": "Серия GLM-Z1 обладает мощными способностями к сложному выводу, демонстрируя отличные результаты в логическом выводе, математике и программировании. Максимальная длина контекста составляет 32K."
|
||||
},
|
||||
"glm-z1-flashx": {
|
||||
"description": "Высокая скорость и низкая цена: улучшенная версия Flash с сверхбыстрой скоростью вывода и повышенной поддержкой параллельных запросов."
|
||||
@@ -1478,9 +1385,6 @@
|
||||
"grok-2-1212": {
|
||||
"description": "Модель улучшена в точности, соблюдении инструкций и многоязычных возможностях."
|
||||
},
|
||||
"grok-2-image-1212": {
|
||||
"description": "Наша новейшая модель генерации изображений способна создавать живые и реалистичные изображения на основе текстовых подсказок. Она отлично подходит для маркетинга, социальных сетей и развлекательных приложений."
|
||||
},
|
||||
"grok-2-vision-1212": {
|
||||
"description": "Модель улучшена в точности, соблюдении инструкций и многоязычных возможностях."
|
||||
},
|
||||
@@ -1550,9 +1454,6 @@
|
||||
"hunyuan-t1-20250529": {
|
||||
"description": "Оптимизация создания текстов и написания сочинений, улучшение навыков программирования, математики и логического мышления, повышение способности следовать инструкциям."
|
||||
},
|
||||
"hunyuan-t1-20250711": {
|
||||
"description": "Значительное улучшение способностей в сложной математике, логике и программировании, оптимизация стабильности вывода модели и повышение возможностей работы с длинными текстами."
|
||||
},
|
||||
"hunyuan-t1-latest": {
|
||||
"description": "Первый в отрасли сверхмасштабный гибридный трансформер-Mamba для вывода, расширяющий возможности вывода, обладающий высокой скоростью декодирования и лучше соответствующий человеческим предпочтениям."
|
||||
},
|
||||
@@ -1601,12 +1502,6 @@
|
||||
"hunyuan-vision": {
|
||||
"description": "Последняя многомодальная модель Hunyuan, поддерживающая ввод изображений и текста для генерации текстового контента."
|
||||
},
|
||||
"image-01": {
|
||||
"description": "Новая модель генерации изображений с детальной прорисовкой, поддерживающая генерацию из текста и преобразование изображений."
|
||||
},
|
||||
"image-01-live": {
|
||||
"description": "Модель генерации изображений с детальной прорисовкой, поддерживающая генерацию из текста и настройку стиля изображения."
|
||||
},
|
||||
"imagen-4.0-generate-preview-06-06": {
|
||||
"description": "Серия моделей Imagen 4-го поколения для преобразования текста в изображение"
|
||||
},
|
||||
@@ -1631,9 +1526,6 @@
|
||||
"internvl3-latest": {
|
||||
"description": "Мы выпустили нашу последнюю многомодальную большую модель, обладающую более сильными способностями к пониманию текстов и изображений, а также к пониманию длинных последовательностей изображений, производительность которой сопоставима с ведущими закрытыми моделями. По умолчанию указывает на нашу последнюю выпущенную серию моделей InternVL, в настоящее время указывает на internvl3-78b."
|
||||
},
|
||||
"irag-1.0": {
|
||||
"description": "Собственная технология Baidu iRAG (image based RAG) — это метод генерации изображений с усилением поиска, который объединяет миллиардные ресурсы изображений Baidu Search с мощными базовыми моделями, позволяя создавать сверхреалистичные изображения, значительно превосходящие традиционные системы генерации изображений. Модель отличается отсутствием артефактов AI, высокой реалистичностью и мгновенной доступностью при низких затратах."
|
||||
},
|
||||
"jamba-large": {
|
||||
"description": "Наша самая мощная и передовая модель, разработанная для решения сложных задач корпоративного уровня, обладающая выдающейся производительностью."
|
||||
},
|
||||
@@ -1643,9 +1535,6 @@
|
||||
"jina-deepsearch-v1": {
|
||||
"description": "Глубокий поиск сочетает в себе сетевой поиск, чтение и рассуждение, позволяя проводить всесторонние исследования. Вы можете рассматривать его как агента, который принимает ваши исследовательские задачи — он проводит обширный поиск и проходит через множество итераций, прежде чем предоставить ответ. Этот процесс включает в себя постоянные исследования, рассуждения и решение проблем с разных точек зрения. Это принципиально отличается от стандартных больших моделей, которые генерируют ответы непосредственно из предобученных данных, и от традиционных систем RAG, полагающихся на одноразовый поверхностный поиск."
|
||||
},
|
||||
"kimi-k2": {
|
||||
"description": "Kimi-K2 — базовая модель на архитектуре MoE с выдающимися возможностями в кодировании и агентских задачах, выпущенная Moonshot AI, с общим числом параметров 1 триллион и 32 миллиардами активируемых параметров. В тестах на универсальное знание, программирование, математику и агентские задачи производительность модели K2 превосходит другие ведущие открытые модели."
|
||||
},
|
||||
"kimi-k2-0711-preview": {
|
||||
"description": "kimi-k2 — базовая модель с архитектурой MoE, обладающая мощными возможностями кода и агента, с общим числом параметров 1 триллион и 32 миллиарда активных параметров. В тестах производительности по основным категориям, таким как универсальное знание, программирование, математика и агенты, модель K2 превосходит другие ведущие открытые модели."
|
||||
},
|
||||
@@ -2039,9 +1928,6 @@
|
||||
"moonshotai/Kimi-Dev-72B": {
|
||||
"description": "Kimi-Dev-72B — это крупная модель с открытым исходным кодом, оптимизированная с помощью масштабного обучения с подкреплением, способная выдавать надежные патчи, готовые к непосредственному внедрению. Эта модель достигла нового рекордного результата 60,4 % на SWE-bench Verified, обновив рекорды открытых моделей в автоматизированных задачах программной инженерии, таких как исправление ошибок и код-ревью."
|
||||
},
|
||||
"moonshotai/Kimi-K2-Instruct": {
|
||||
"description": "Kimi K2 — базовая модель на архитектуре MoE с выдающимися возможностями в кодировании и агентских задачах, с общим числом параметров 1 триллион и 32 миллиардами активируемых параметров. В тестах на универсальное знание, программирование, математику и агентские задачи производительность модели K2 превосходит другие ведущие открытые модели."
|
||||
},
|
||||
"moonshotai/kimi-k2-instruct": {
|
||||
"description": "kimi-k2 — базовая модель на архитектуре MoE с мощными возможностями кода и агента, общий объем параметров 1 триллион, активные параметры 32 миллиарда. В тестах производительности по основным категориям, таким как общие знания, программирование, математика и агенты, модель K2 превосходит другие популярные открытые модели."
|
||||
},
|
||||
@@ -2378,21 +2264,9 @@
|
||||
"qwen3-235b-a22b": {
|
||||
"description": "Qwen3 — это новое поколение модели Qwen с значительно улучшенными возможностями, достигнувшими ведущих позиций в отрасли в области вывода, универсальности, агентов и многоязычности, а также поддерживающей переключение режимов размышления."
|
||||
},
|
||||
"qwen3-235b-a22b-instruct-2507": {
|
||||
"description": "Открытая модель на базе Qwen3 в неразмышляющем режиме, с небольшими улучшениями в творческих способностях и безопасности по сравнению с предыдущей версией (Tongyi Qianwen 3-235B-A22B)."
|
||||
},
|
||||
"qwen3-235b-a22b-thinking-2507": {
|
||||
"description": "Открытая модель на базе Qwen3 в режиме размышления, с существенными улучшениями в логических способностях, универсальности, расширении знаний и творчестве по сравнению с предыдущей версией (Tongyi Qianwen 3-235B-A22B), предназначенная для сложных задач с интенсивным рассуждением."
|
||||
},
|
||||
"qwen3-30b-a3b": {
|
||||
"description": "Qwen3 — это новое поколение модели Qwen с значительно улучшенными возможностями, достигнувшими ведущих позиций в отрасли в области вывода, универсальности, агентов и многоязычности, а также поддерживающей переключение режимов размышления."
|
||||
},
|
||||
"qwen3-30b-a3b-instruct-2507": {
|
||||
"description": "По сравнению с предыдущей версией (Qwen3-30B-A3B) значительно улучшены общие способности на английском, китайском и других языках. Специальная оптимизация для субъективных и открытых задач, что заметно лучше соответствует предпочтениям пользователей и позволяет предоставлять более полезные ответы."
|
||||
},
|
||||
"qwen3-30b-a3b-thinking-2507": {
|
||||
"description": "Открытая модель в режиме размышлений на базе Qwen3, которая по сравнению с предыдущей версией (Tongyi Qianwen 3-30B-A3B) значительно улучшила логические способности, общие навыки, знания и творческие возможности. Подходит для сложных задач с интенсивным рассуждением."
|
||||
},
|
||||
"qwen3-32b": {
|
||||
"description": "Qwen3 — это новое поколение модели Qwen с значительно улучшенными возможностями, достигнувшими ведущих позиций в отрасли в области вывода, универсальности, агентов и многоязычности, а также поддерживающей переключение режимов размышления."
|
||||
},
|
||||
@@ -2402,12 +2276,6 @@
|
||||
"qwen3-8b": {
|
||||
"description": "Qwen3 — это новое поколение модели Qwen с значительно улучшенными возможностями, достигнувшими ведущих позиций в отрасли в области вывода, универсальности, агентов и многоязычности, а также поддерживающей переключение режимов размышления."
|
||||
},
|
||||
"qwen3-coder-480b-a35b-instruct": {
|
||||
"description": "Открытая версия модели кода Tongyi Qianwen. Последняя модель qwen3-coder-480b-a35b-instruct основана на Qwen3 и обладает мощными возможностями Coding Agent, хорошо справляется с вызовом инструментов и взаимодействием с окружением, обеспечивая автономное программирование с выдающимися кодовыми и универсальными способностями."
|
||||
},
|
||||
"qwen3-coder-plus": {
|
||||
"description": "Модель кода Tongyi Qianwen. Последняя серия моделей Qwen3-Coder-Plus основана на Qwen3 и обладает мощными возможностями Coding Agent, хорошо справляется с вызовом инструментов и взаимодействием с окружением, обеспечивая автономное программирование с выдающимися кодовыми и универсальными способностями."
|
||||
},
|
||||
"qwq": {
|
||||
"description": "QwQ — это экспериментальная исследовательская модель, сосредоточенная на повышении возможностей вывода ИИ."
|
||||
},
|
||||
@@ -2450,24 +2318,6 @@
|
||||
"sonar-reasoning-pro": {
|
||||
"description": "Новый API продукт, поддерживаемый моделью вывода DeepSeek."
|
||||
},
|
||||
"stable-diffusion-3-medium": {
|
||||
"description": "Последняя крупная модель генерации изображений из текста от Stability AI. Эта версия сохраняет преимущества предыдущих поколений и значительно улучшает качество изображений, понимание текста и разнообразие стилей, позволяя точнее интерпретировать сложные естественные языковые подсказки и создавать более точные и разнообразные изображения."
|
||||
},
|
||||
"stable-diffusion-3.5-large": {
|
||||
"description": "stable-diffusion-3.5-large — это модель генерации изображений из текста с 800 миллионами параметров на основе мультимодального диффузионного трансформера (MMDiT), обладающая выдающимся качеством изображений и соответствием подсказкам. Поддерживает генерацию изображений с разрешением до 1 миллиона пикселей и эффективно работает на обычном потребительском оборудовании."
|
||||
},
|
||||
"stable-diffusion-3.5-large-turbo": {
|
||||
"description": "stable-diffusion-3.5-large-turbo — модель, основанная на stable-diffusion-3.5-large с применением технологии адверсариального диффузионного дистиллята (ADD), обеспечивающая более высокую скорость генерации."
|
||||
},
|
||||
"stable-diffusion-v1.5": {
|
||||
"description": "stable-diffusion-v1.5 инициализирована весами контрольной точки stable-diffusion-v1.2 и дообучена на \"laion-aesthetics v2 5+\" с разрешением 512x512 в течение 595 тысяч шагов, с уменьшением текстовой кондиционированности на 10% для улучшения безклассификаторного направленного сэмплинга."
|
||||
},
|
||||
"stable-diffusion-xl": {
|
||||
"description": "stable-diffusion-xl значительно улучшена по сравнению с версией v1.5 и сопоставима по качеству с текущими передовыми открытыми моделями генерации изображений, такими как midjourney. Основные улучшения включают: увеличенный в 3 раза unet-бэкбон, добавление модуля уточнения для улучшения качества изображений и более эффективные методы обучения."
|
||||
},
|
||||
"stable-diffusion-xl-base-1.0": {
|
||||
"description": "Крупная модель генерации изображений из текста, разработанная и открытая Stability AI, обладающая передовыми возможностями творческой генерации изображений. Отличается превосходным пониманием инструкций и поддержкой обратных подсказок для точного создания контента."
|
||||
},
|
||||
"step-1-128k": {
|
||||
"description": "Балансирует производительность и стоимость, подходит для общих сценариев."
|
||||
},
|
||||
@@ -2498,12 +2348,6 @@
|
||||
"step-1v-8k": {
|
||||
"description": "Небольшая визуальная модель, подходящая для базовых задач с текстом и изображениями."
|
||||
},
|
||||
"step-1x-edit": {
|
||||
"description": "Модель, ориентированная на задачи редактирования изображений, способная изменять и улучшать изображения на основе предоставленных пользователем изображений и текстовых описаний. Поддерживает различные форматы ввода, включая текстовые описания и примеры изображений. Модель понимает намерения пользователя и генерирует соответствующие результаты редактирования."
|
||||
},
|
||||
"step-1x-medium": {
|
||||
"description": "Модель с мощными возможностями генерации изображений, поддерживающая ввод в виде текстовых описаний. Обладает нативной поддержкой китайского языка, что позволяет лучше понимать и обрабатывать китайские текстовые описания, точнее улавливать семантику и преобразовывать её в визуальные характеристики для более точной генерации изображений. Модель способна создавать изображения высокого разрешения и качества, а также обладает некоторыми возможностями переноса стиля."
|
||||
},
|
||||
"step-2-16k": {
|
||||
"description": "Поддерживает масштабные взаимодействия контекста, подходит для сложных диалоговых сценариев."
|
||||
},
|
||||
@@ -2513,9 +2357,6 @@
|
||||
"step-2-mini": {
|
||||
"description": "Супербыстрая большая модель на основе новой самодельной архитектуры внимания MFA, достигающая аналогичных результатов, как step1, при очень низких затратах, одновременно обеспечивая более высокую пропускную способность и более быстрое время отклика. Способна обрабатывать общие задачи и обладает особыми навыками в кодировании."
|
||||
},
|
||||
"step-2x-large": {
|
||||
"description": "Новая модель Step Star следующего поколения, ориентированная на генерацию изображений. Модель способна создавать высококачественные изображения на основе текстовых описаний пользователя. Новая версия обеспечивает более реалистичную текстуру изображений и улучшенные возможности генерации текста на китайском и английском языках."
|
||||
},
|
||||
"step-r1-v-mini": {
|
||||
"description": "Эта модель является мощной моделью вывода с сильными способностями к пониманию изображений, способной обрабатывать информацию из изображений и текста, выводя текст после глубокого размышления. Эта модель демонстрирует выдающиеся результаты в области визуального вывода, а также обладает первоклассными способностями в математике, коде и текстовом выводе. Длина контекста составляет 100k."
|
||||
},
|
||||
@@ -2591,23 +2432,8 @@
|
||||
"v0-1.5-md": {
|
||||
"description": "Модель v0-1.5-md подходит для повседневных задач и генерации пользовательского интерфейса (UI)"
|
||||
},
|
||||
"wan2.2-t2i-flash": {
|
||||
"description": "Экспресс-версия Wanxiang 2.2 — самая новая модель на данный момент. Полное обновление в креативности, стабильности и реалистичности, высокая скорость генерации и отличное соотношение цена-качество."
|
||||
},
|
||||
"wan2.2-t2i-plus": {
|
||||
"description": "Профессиональная версия Wanxiang 2.2 — самая новая модель на данный момент. Полное обновление в креативности, стабильности и реалистичности, с более детальной проработкой изображений."
|
||||
},
|
||||
"wanx-v1": {
|
||||
"description": "Базовая модель генерации изображений из текста. Соответствует универсальной модели версии 1.0 на официальном сайте Tongyi Wanxiang."
|
||||
},
|
||||
"wanx2.0-t2i-turbo": {
|
||||
"description": "Специализирована на реалистичных портретах, средняя скорость и низкая стоимость. Соответствует экспресс-модели версии 2.0 на официальном сайте Tongyi Wanxiang."
|
||||
},
|
||||
"wanx2.1-t2i-plus": {
|
||||
"description": "Полностью обновлённая версия с более детальной проработкой изображений, немного более медленная скорость. Соответствует профессиональной модели версии 2.1 на официальном сайте Tongyi Wanxiang."
|
||||
},
|
||||
"wanx2.1-t2i-turbo": {
|
||||
"description": "Полностью обновлённая версия с высокой скоростью генерации, всесторонним качеством и отличным соотношением цена-качество. Соответствует экспресс-модели версии 2.1 на официальном сайте Tongyi Wanxiang."
|
||||
"description": "Модель генерации изображений от Alibaba Cloud Tongyi"
|
||||
},
|
||||
"whisper-1": {
|
||||
"description": "Универсальная модель распознавания речи, поддерживающая многоязычное распознавание речи, перевод речи и идентификацию языка."
|
||||
@@ -2659,11 +2485,5 @@
|
||||
},
|
||||
"yi-vision-v2": {
|
||||
"description": "Модель для сложных визуальных задач, обеспечивающая высокопроизводительное понимание и анализ на основе нескольких изображений."
|
||||
},
|
||||
"zai-org/GLM-4.5": {
|
||||
"description": "GLM-4.5 — базовая модель, специально созданная для приложений с агентами, использующая архитектуру смешанных экспертов (Mixture-of-Experts). Модель глубоко оптимизирована для вызова инструментов, веб-браузинга, программной инженерии и фронтенд-разработки, поддерживает бесшовную интеграцию с кодовыми агентами, такими как Claude Code и Roo Code. GLM-4.5 использует смешанный режим вывода, адаптируясь к сложным рассуждениям и повседневным задачам."
|
||||
},
|
||||
"zai-org/GLM-4.5-Air": {
|
||||
"description": "GLM-4.5-Air — базовая модель, специально созданная для приложений с агентами, использующая архитектуру смешанных экспертов (Mixture-of-Experts). Модель глубоко оптимизирована для вызова инструментов, веб-браузинга, программной инженерии и фронтенд-разработки, поддерживает бесшовную интеграцию с кодовыми агентами, такими как Claude Code и Roo Code. GLM-4.5 использует смешанный режим вывода, адаптируясь к сложным рассуждениям и повседневным задачам."
|
||||
}
|
||||
}
|
||||
|
||||
@@ -5,9 +5,6 @@
|
||||
"ai360": {
|
||||
"description": "360 AI — это платформа AI-моделей и услуг, запущенная компанией 360, предлагающая множество передовых моделей обработки естественного языка, включая 360GPT2 Pro, 360GPT Pro, 360GPT Turbo и 360GPT Turbo Responsibility 8K. Эти модели сочетают в себе масштабные параметры и мультимодальные возможности, широко применяются в генерации текста, семантическом понимании, диалоговых системах и генерации кода. Благодаря гибкой ценовой политике 360 AI удовлетворяет разнообразные потребности пользователей, поддерживает интеграцию разработчиков и способствует инновациям и развитию интеллектуальных приложений."
|
||||
},
|
||||
"aihubmix": {
|
||||
"description": "AiHubMix предоставляет доступ к различным AI-моделям через единый API-интерфейс."
|
||||
},
|
||||
"anthropic": {
|
||||
"description": "Anthropic — это компания, сосредоточенная на исследованиях и разработке искусственного интеллекта, предлагающая ряд передовых языковых моделей, таких как Claude 3.5 Sonnet, Claude 3 Sonnet, Claude 3 Opus и Claude 3 Haiku. Эти модели достигают идеального баланса между интеллектом, скоростью и стоимостью, подходя для различных сценариев применения, от корпоративных рабочих нагрузок до быстрого реагирования. Claude 3.5 Sonnet, как их последняя модель, показала отличные результаты в нескольких оценках, сохраняя при этом высокую стоимость-эффективность."
|
||||
},
|
||||
|
||||
@@ -189,7 +189,6 @@
|
||||
"aesGcm": "Anahtarınız ve proxy adresi gibi bilgiler <1>AES-GCM</1> şifreleme algoritması ile şifrelenecektir",
|
||||
"apiKey": {
|
||||
"desc": "{{name}} API Anahtarınızı girin",
|
||||
"descWithUrl": "Lütfen {{name}} API Anahtarınızı girin, <3>buraya tıklayarak alın</3>",
|
||||
"placeholder": "{{name}} API Anahtarı",
|
||||
"title": "API Anahtarı"
|
||||
},
|
||||
|
||||
+5
-185
@@ -32,9 +32,6 @@
|
||||
"4.0Ultra": {
|
||||
"description": "Spark4.0 Ultra, Xinghuo büyük model serisinin en güçlü versiyonudur, çevrimiçi arama bağlantısını yükseltirken, metin içeriğini anlama ve özetleme yeteneğini artırır. Ofis verimliliğini artırmak ve taleplere doğru yanıt vermek için kapsamlı bir çözüm sunar, sektördeki akıllı ürünlerin öncüsüdür."
|
||||
},
|
||||
"AnimeSharp": {
|
||||
"description": "AnimeSharp (diğer adıyla “4x‑AnimeSharp”), Kim2091 tarafından ESRGAN mimarisi temel alınarak geliştirilen açık kaynaklı bir süper çözünürlük modelidir ve anime tarzı görüntülerin büyütülmesi ve keskinleştirilmesine odaklanır. Şubat 2022'de “4x-TextSharpV1” olarak yeniden adlandırılmıştır; başlangıçta metin görüntüleri için de uygundu ancak performansı anime içeriği için önemli ölçüde optimize edilmiştir."
|
||||
},
|
||||
"Baichuan2-Turbo": {
|
||||
"description": "Arama artırma teknolojisi kullanarak büyük model ile alan bilgisi ve tüm ağ bilgisi arasında kapsamlı bir bağlantı sağlar. PDF, Word gibi çeşitli belge yüklemelerini ve URL girişini destekler, bilgi edinimi zamanında ve kapsamlıdır, çıktı sonuçları doğru ve profesyoneldir."
|
||||
},
|
||||
@@ -92,9 +89,6 @@
|
||||
"Doubao-pro-4k": {
|
||||
"description": "En etkili ana model olup, karmaşık görevlerin işlenmesi için uygundur. Referans soru-cevap, özet çıkarma, yaratıcı yazım, metin sınıflandırma, rol yapma gibi senaryolarda mükemmel performans gösterir. 4k bağlam penceresi ile çıkarım ve ince ayar desteği sağlar."
|
||||
},
|
||||
"DreamO": {
|
||||
"description": "DreamO, ByteDance ve Pekin Üniversitesi iş birliğiyle geliştirilen açık kaynaklı, çok görevli görüntü üretim modelidir. Birleşik mimari sayesinde kullanıcı tarafından belirtilen kimlik, konu, stil, arka plan gibi çoklu koşullara göre yüksek tutarlılıkta ve özelleştirilmiş görüntüler oluşturabilir."
|
||||
},
|
||||
"ERNIE-3.5-128K": {
|
||||
"description": "Baidu'nun kendi geliştirdiği, büyük ölçekli bir dil modeli olan ERNIE-3.5, geniş bir Çin ve İngilizce veri kümesini kapsar. Güçlü genel yeteneklere sahip olup, çoğu diyalog, soru-cevap, yaratıcı içerik üretimi ve eklenti uygulama senaryolarını karşılayabilir; ayrıca, Baidu arama eklentisi ile otomatik entegrasyonu destekleyerek, soru-cevap bilgilerinin güncelliğini sağlar."
|
||||
},
|
||||
@@ -128,39 +122,15 @@
|
||||
"ERNIE-Speed-Pro-128K": {
|
||||
"description": "Baidu'nun 2024 yılında piyasaya sürdüğü kendi geliştirdiği yüksek performanslı büyük dil modeli, genel yetenekleri mükemmel olup, ERNIE Speed'den daha iyi sonuçlar verir, belirli senaryo sorunlarını daha iyi işlemek için temel model olarak ince ayar yapmak için uygundur ve mükemmel çıkarım performansına sahiptir."
|
||||
},
|
||||
"FLUX.1-Kontext-dev": {
|
||||
"description": "FLUX.1-Kontext-dev, Black Forest Labs tarafından geliştirilen, Rectified Flow Transformer mimarisine dayanan çok modlu görüntü oluşturma ve düzenleme modelidir. 12 milyar parametreye sahip olup, verilen bağlam koşullarında görüntü oluşturma, yeniden yapılandırma, iyileştirme ve düzenleme işlemlerine odaklanır. Model, difüzyon modellerinin kontrollü üretim avantajlarını ve Transformer'ın bağlam modelleme yeteneklerini birleştirerek yüksek kaliteli görüntü çıktısı sağlar ve görüntü onarımı, tamamlama, görsel sahne yeniden yapılandırma gibi görevlerde geniş uygulama alanına sahiptir."
|
||||
},
|
||||
"FLUX.1-dev": {
|
||||
"description": "FLUX.1-dev, Black Forest Labs tarafından geliştirilen açık kaynaklı çok modlu dil modelidir (Multimodal Language Model, MLLM). Görüntü ve metin anlama ile üretim yeteneklerini birleştirerek görsel ve metin görevleri için optimize edilmiştir. Mistral-7B gibi gelişmiş büyük dil modelleri temel alınarak, özenle tasarlanmış görsel kodlayıcı ve çok aşamalı talimat ince ayarı ile görsel-metinsel işbirliği ve karmaşık görev çıkarımı sağlar."
|
||||
},
|
||||
"Gryphe/MythoMax-L2-13b": {
|
||||
"description": "MythoMax-L2 (13B), çok alanlı uygulamalar ve karmaşık görevler için uygun yenilikçi bir modeldir."
|
||||
},
|
||||
"HelloMeme": {
|
||||
"description": "HelloMeme, sağladığınız resim veya hareketlere dayanarak otomatik olarak meme, GIF veya kısa video oluşturabilen bir yapay zeka aracıdır. Hiçbir çizim veya programlama bilgisi gerektirmez; sadece referans resim hazırlamanız yeterlidir, böylece size güzel, eğlenceli ve tutarlı tarzda içerikler oluşturur."
|
||||
},
|
||||
"HiDream-I1-Full": {
|
||||
"description": "HiDream-E1-Full, ZhiXiang Future (HiDream.ai) tarafından geliştirilen açık kaynaklı çok modlu görüntü düzenleme büyük modelidir. Gelişmiş Diffusion Transformer mimarisi ve güçlü dil anlama yeteneği (gömülü LLaMA 3.1-8B-Instruct) ile doğal dil komutlarıyla görüntü oluşturma, stil transferi, yerel düzenleme ve içerik yeniden çizim desteği sunar; üstün görsel-metinsel anlama ve yürütme kabiliyetine sahiptir."
|
||||
},
|
||||
"HunyuanDiT-v1.2-Diffusers-Distilled": {
|
||||
"description": "hunyuandit-v1.2-distilled, damıtma optimizasyonu ile hafifletilmiş, hızlı yüksek kaliteli görüntü üretebilen bir metinden görüntüye modeldir. Özellikle düşük kaynaklı ortamlar ve gerçek zamanlı üretim görevleri için uygundur."
|
||||
},
|
||||
"InstantCharacter": {
|
||||
"description": "InstantCharacter, Tencent AI ekibi tarafından 2025 yılında yayınlanan, ince ayar gerektirmeyen (tuning-free) kişiselleştirilmiş karakter oluşturma modelidir. Yüksek doğrulukta ve sahneler arası tutarlı karakter üretmeyi hedefler. Sadece bir referans görüntüye dayanarak karakter modellemesi yapabilir ve bu karakteri farklı stiller, hareketler ve arka planlara esnek şekilde taşıyabilir."
|
||||
},
|
||||
"InternVL2-8B": {
|
||||
"description": "InternVL2-8B, güçlü bir görsel dil modelidir. Görüntü ve metinlerin çok modlu işlenmesini destekler, görüntü içeriğini hassas bir şekilde tanıyabilir ve ilgili açıklamalar veya yanıtlar üretebilir."
|
||||
},
|
||||
"InternVL2.5-26B": {
|
||||
"description": "InternVL2.5-26B, güçlü bir görsel dil modelidir. Görüntü ve metinlerin çok modlu işlenmesini destekler, görüntü içeriğini hassas bir şekilde tanıyabilir ve ilgili açıklamalar veya yanıtlar üretebilir."
|
||||
},
|
||||
"Kolors": {
|
||||
"description": "Kolors, Kuaishou Kolors ekibi tarafından geliştirilen metinden görüntüye modeldir. Milyarlarca parametre ile eğitilmiş olup, görsel kalite, Çince anlamsal anlama ve metin işleme konularında belirgin avantajlara sahiptir."
|
||||
},
|
||||
"Kwai-Kolors/Kolors": {
|
||||
"description": "Kolors, Kuaishou Kolors ekibi tarafından geliştirilen, latent difüzyon tabanlı büyük ölçekli metinden görüntüye üretim modelidir. Milyarlarca metin-görüntü çiftinden eğitilerek görsel kalite, karmaşık anlamsal doğruluk ve Çince-İngilizce karakter işleme alanlarında üstün performans gösterir. Hem Çince hem İngilizce girişleri destekler ve özellikle Çince içerik anlama ve üretiminde başarılıdır."
|
||||
},
|
||||
"Llama-3.2-11B-Vision-Instruct": {
|
||||
"description": "Yüksek çözünürlüklü görüntülerde mükemmel görüntü akıl yürütme yeteneği, görsel anlama uygulamaları için uygundur."
|
||||
},
|
||||
@@ -194,15 +164,9 @@
|
||||
"MiniMaxAI/MiniMax-M1-80k": {
|
||||
"description": "MiniMax-M1, açık kaynak ağırlıklı büyük ölçekli karma dikkat çıkarım modeli olup, 456 milyar parametreye sahiptir ve her Token yaklaşık 45.9 milyar parametreyi aktive eder. Model, doğal olarak 1 milyon Token uzunluğunda bağlamı destekler ve şimşek dikkat mekanizması sayesinde 100 bin Token üretim görevlerinde DeepSeek R1'e kıyasla %75 daha az kayan nokta işlemi kullanır. Ayrıca, MiniMax-M1 MoE (karışık uzman) mimarisini, CISPO algoritması ve karma dikkat tasarımı ile verimli pekiştirmeli öğrenme eğitimiyle birleştirerek uzun giriş çıkarımı ve gerçek yazılım mühendisliği senaryolarında sektör lideri performans sunar."
|
||||
},
|
||||
"Moonshot-Kimi-K2-Instruct": {
|
||||
"description": "Toplam 1 trilyon parametre, 32 milyar aktif parametreye sahip. Düşünme modeli olmayanlar arasında, güncel bilgi, matematik ve kodlama alanlarında en üst düzeyde performans gösterir ve genel ajan görevlerinde daha yetkindir. Ajan görevleri için optimize edilmiştir; sadece soruları yanıtlamakla kalmaz, aynı zamanda eylem de gerçekleştirebilir. Doğaçlama, genel sohbet ve ajan deneyimleri için en uygunudur; uzun düşünme gerektirmeyen refleks seviyesinde bir modeldir."
|
||||
},
|
||||
"NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
||||
"description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B), karmaşık hesaplamalar için yüksek hassasiyetli bir talimat modelidir."
|
||||
},
|
||||
"OmniConsistency": {
|
||||
"description": "OmniConsistency, büyük ölçekli Difüzyon Transformerlar (DiTs) ve eşleştirilmiş stilize veri kullanarak görüntüden görüntüye (Image-to-Image) görevlerinde stil tutarlılığı ve genelleme yeteneğini artırır, stil bozulmasını önler."
|
||||
},
|
||||
"Phi-3-medium-128k-instruct": {
|
||||
"description": "Aynı Phi-3-medium modeli, ancak RAG veya az sayıda örnek isteme için daha büyük bir bağlam boyutuna sahiptir."
|
||||
},
|
||||
@@ -254,9 +218,6 @@
|
||||
"Pro/deepseek-ai/DeepSeek-V3": {
|
||||
"description": "DeepSeek-V3, 6710 milyar parametreye sahip bir karma uzman (MoE) dil modelidir ve çok başlı potansiyel dikkat (MLA) ve DeepSeekMoE mimarisini kullanarak, yardımcı kayıplar olmadan yük dengeleme stratejileri ile çıkarım ve eğitim verimliliğini optimize etmektedir. 14.8 trilyon yüksek kaliteli token üzerinde önceden eğitilmiş ve denetimli ince ayar ve güçlendirilmiş öğrenme ile, DeepSeek-V3 performans açısından diğer açık kaynak modelleri geride bırakmakta ve lider kapalı kaynak modellere yaklaşmaktadır."
|
||||
},
|
||||
"Pro/moonshotai/Kimi-K2-Instruct": {
|
||||
"description": "Kimi K2, güçlü kodlama ve ajan yeteneklerine sahip MoE mimarili temel modeldir; toplam 1 trilyon parametre, 32 milyar aktif parametreye sahiptir. Genel bilgi çıkarımı, programlama, matematik ve ajan gibi ana kategorilerdeki kıyaslama testlerinde K2 modeli diğer önde gelen açık kaynak modelleri geride bırakır."
|
||||
},
|
||||
"QwQ-32B-Preview": {
|
||||
"description": "QwQ-32B-Preview, karmaşık diyalog oluşturma ve bağlam anlama görevlerini etkili bir şekilde işleyebilen yenilikçi bir doğal dil işleme modelidir."
|
||||
},
|
||||
@@ -317,18 +278,9 @@
|
||||
"Qwen/Qwen3-235B-A22B": {
|
||||
"description": "Qwen3, akıl yürütme, genel, Ajan ve çok dilli gibi birçok temel yetenekte önemli ölçüde geliştirilmiş yeni nesil Tongyi Qianwen büyük modelidir ve düşünme modu geçişini destekler."
|
||||
},
|
||||
"Qwen/Qwen3-235B-A22B-Instruct-2507": {
|
||||
"description": "Qwen3 serisinden, Alibaba Cloud Tongyi Qianwen ekibi tarafından geliştirilen amiral gemisi hibrit uzman (MoE) büyük dil modelidir. Toplam 235 milyar parametreye, her çıkarımda 22 milyar aktif parametreye sahiptir. Qwen3-235B-A22B'nin düşünme modu olmayan güncellenmiş versiyonudur; talimat uyumu, mantıksal çıkarım, metin anlama, matematik, bilim, programlama ve araç kullanımı gibi genel yeteneklerde önemli iyileştirmeler sunar. Ayrıca çok dilli uzun kuyruk bilgisi kapsamını artırır ve kullanıcıların öznel ve açık uçlu görev tercihlerine daha iyi uyum sağlayarak daha faydalı ve kaliteli metinler üretir."
|
||||
},
|
||||
"Qwen/Qwen3-235B-A22B-Thinking-2507": {
|
||||
"description": "Alibaba Tongyi Qianwen ekibi tarafından geliştirilen Qwen3 serisinden büyük dil modelidir ve karmaşık yüksek zorlukta çıkarım görevlerine odaklanır. MoE mimarisi temel alınmış olup toplam 235 milyar parametreye sahiptir; her token işlenirken yaklaşık 22 milyar parametre aktif olur, böylece güçlü performansla birlikte hesaplama verimliliği sağlanır. Özel bir \"düşünme\" modeli olarak, mantıksal çıkarım, matematik, bilim, programlama ve akademik kıyaslama testlerinde insan uzmanlığı gerektiren görevlerde üstün performans gösterir ve açık kaynak düşünme modelleri arasında en üst seviyededir. Ayrıca talimat uyumu, araç kullanımı ve metin üretimi gibi genel yetenekleri geliştirir ve 256K uzun bağlam anlama desteği ile derin çıkarım ve uzun belge işleme senaryoları için idealdir."
|
||||
},
|
||||
"Qwen/Qwen3-30B-A3B": {
|
||||
"description": "Qwen3, akıl yürütme, genel, Ajan ve çok dilli gibi birçok temel yetenekte önemli ölçüde geliştirilmiş yeni nesil Tongyi Qianwen büyük modelidir ve düşünme modu geçişini destekler."
|
||||
},
|
||||
"Qwen/Qwen3-30B-A3B-Instruct-2507": {
|
||||
"description": "Qwen3-30B-A3B-Instruct-2507, Qwen3-30B-A3B'nin düşünme modu olmayan güncellenmiş bir versiyonudur. Bu, toplam 30,5 milyar parametre ve 3,3 milyar aktif parametreye sahip bir Hibrit Uzman (MoE) modelidir. Model, talimat takibi, mantıksal akıl yürütme, metin anlama, matematik, bilim, kodlama ve araç kullanımı gibi genel yeteneklerde önemli geliştirmeler içermektedir. Ayrıca, çok dilli uzun kuyruk bilgi kapsamı açısından kayda değer ilerlemeler kaydetmiş ve kullanıcıların öznel ve açık uçlu görevlerdeki tercihlerine daha iyi uyum sağlayarak daha faydalı yanıtlar ve daha yüksek kaliteli metinler üretebilmektedir. Buna ek olarak, modelin uzun metin anlama kapasitesi 256K'ya kadar artırılmıştır. Bu model yalnızca düşünme modu dışındadır ve çıktılarında `<think></think>` etiketleri oluşturmaz."
|
||||
},
|
||||
"Qwen/Qwen3-32B": {
|
||||
"description": "Qwen3, akıl yürütme, genel, Ajan ve çok dilli gibi birçok temel yetenekte önemli ölçüde geliştirilmiş yeni nesil Tongyi Qianwen büyük modelidir ve düşünme modu geçişini destekler."
|
||||
},
|
||||
@@ -362,12 +314,6 @@
|
||||
"Qwen2.5-Coder-32B-Instruct": {
|
||||
"description": "Qwen2.5-Coder-32B-Instruct, kod üretimi, kod anlama ve verimli geliştirme senaryoları için tasarlanmış büyük bir dil modelidir. Sektördeki en ileri 32B parametre ölçeğini kullanarak çeşitli programlama ihtiyaçlarını karşılayabilir."
|
||||
},
|
||||
"Qwen3-235B": {
|
||||
"description": "Qwen3-235B-A22B, MoE (Hibrit Uzman Modeli) modelidir ve \"Hibrit Akıl Yürütme Modu\"nu tanıtmaktadır. Kullanıcıların \"düşünme modu\" ile \"düşünme modu dışı\" arasında kesintisiz geçiş yapmasını destekler, 119 dil ve lehçede anlama ve akıl yürütme yeteneğine sahiptir ve güçlü araç çağırma kapasitesine sahiptir. Kapsamlı yetenekler, kodlama ve matematik, çok dilli yetenekler, bilgi ve akıl yürütme gibi çeşitli kıyaslama testlerinde, DeepSeek R1, OpenAI o1, o3-mini, Grok 3 ve Google Gemini 2.5 Pro gibi piyasadaki önde gelen büyük modellerle rekabet edebilmektedir."
|
||||
},
|
||||
"Qwen3-32B": {
|
||||
"description": "Qwen3-32B, Yoğun Model (Dense Model) olup \"Hibrit Akıl Yürütme Modu\"nu tanıtmaktadır. Kullanıcıların \"düşünme modu\" ile \"düşünme modu dışı\" arasında kesintisiz geçiş yapmasını destekler. Model mimarisi iyileştirmeleri, artırılmış eğitim verisi ve daha etkili eğitim yöntemleri sayesinde genel performansı Qwen2.5-72B ile karşılaştırılabilir düzeydedir."
|
||||
},
|
||||
"SenseChat": {
|
||||
"description": "Temel sürüm model (V4), 4K bağlam uzunluğu ile genel yetenekleri güçlüdür."
|
||||
},
|
||||
@@ -404,12 +350,6 @@
|
||||
"SenseChat-Vision": {
|
||||
"description": "En son versiyon modeli (V5.5), çoklu görsel girişi destekler, modelin temel yetenek optimizasyonunu tamamen gerçekleştirir; nesne özellik tanıma, mekansal ilişkiler, hareket olayları tanıma, sahne anlama, duygu tanıma, mantıksal bilgi çıkarımı ve metin anlama üretimi gibi alanlarda önemli gelişmeler sağlamıştır."
|
||||
},
|
||||
"SenseNova-V6-5-Pro": {
|
||||
"description": "Çok modlu, dil ve akıl yürütme verilerinin kapsamlı güncellenmesi ve eğitim stratejilerinin optimize edilmesiyle, yeni model çok modlu akıl yürütme ve genel talimat takibi yeteneklerinde önemli gelişmeler sağlamıştır. 128k'ya kadar bağlam penceresini destekler ve OCR ile kültürel turizm IP tanıma gibi özel görevlerde üstün performans gösterir."
|
||||
},
|
||||
"SenseNova-V6-5-Turbo": {
|
||||
"description": "Çok modlu, dil ve akıl yürütme verilerinin kapsamlı güncellenmesi ve eğitim stratejilerinin optimize edilmesiyle, yeni model çok modlu akıl yürütme ve genel talimat takibi yeteneklerinde önemli gelişmeler sağlamıştır. 128k'ya kadar bağlam penceresini destekler ve OCR ile kültürel turizm IP tanıma gibi özel görevlerde üstün performans gösterir."
|
||||
},
|
||||
"SenseNova-V6-Pro": {
|
||||
"description": "Görüntü, metin ve video yeteneklerinin yerel birliğini sağlar, geleneksel çok modlu ayrım sınırlamalarını aşar, OpenCompass ve SuperCLUE değerlendirmelerinde çift şampiyonluk kazanmıştır."
|
||||
},
|
||||
@@ -1004,9 +944,6 @@
|
||||
"doubao-seed-1.6-thinking": {
|
||||
"description": "Doubao-Seed-1.6-thinking modeli düşünme yeteneğinde büyük gelişme göstermiştir, Doubao-1.5-thinking-pro ile karşılaştırıldığında Kodlama, Matematik ve mantıksal akıl yürütme gibi temel yeteneklerde daha da iyileşmiştir, görsel anlayışı destekler. 256k bağlam penceresini destekler ve çıktı uzunluğu maksimum 16k token olabilir."
|
||||
},
|
||||
"doubao-seedream-3-0-t2i-250415": {
|
||||
"description": "Doubao görüntü oluşturma modeli, ByteDance Seed ekibi tarafından geliştirilmiştir; metin ve görüntü girişlerini destekler ve yüksek kontrol edilebilirlik ile yüksek kaliteli görüntü üretimi sunar. Metin istemlerine dayalı görüntü oluşturur."
|
||||
},
|
||||
"doubao-vision-lite-32k": {
|
||||
"description": "Doubao-vision modeli, Doubao tarafından geliştirilen çok modlu büyük bir modeldir. Güçlü görüntü anlama ve çıkarım yeteneklerine ve hassas komut anlama becerisine sahiptir. Model, görüntü metin bilgisi çıkarımı ve görüntü tabanlı çıkarım görevlerinde güçlü performans sergiler ve daha karmaşık, geniş kapsamlı görsel soru-cevap görevlerinde kullanılabilir."
|
||||
},
|
||||
@@ -1058,9 +995,6 @@
|
||||
"ernie-char-fiction-8k": {
|
||||
"description": "Baidu tarafından geliştirilen dikey senaryo büyük dil modeli, oyun NPC'leri, müşteri hizmetleri diyalogları, diyalog karakter rolü gibi uygulama senaryolarına uygundur, karakter tarzı daha belirgin ve tutarlıdır, talimat takibi yeteneği daha güçlü, çıkarım performansı daha iyidir."
|
||||
},
|
||||
"ernie-irag-edit": {
|
||||
"description": "Baidu tarafından geliştirilen ERNIE iRAG Edit görüntü düzenleme modeli, görüntü tabanlı silme (erase), yeniden boyama (repaint) ve varyasyon (variation) gibi işlemleri destekler."
|
||||
},
|
||||
"ernie-lite-8k": {
|
||||
"description": "ERNIE Lite, Baidu tarafından geliştirilen hafif büyük dil modelidir, mükemmel model performansı ve çıkarım yeteneği ile düşük hesaplama gücüne sahip AI hızlandırıcı kartları için uygundur."
|
||||
},
|
||||
@@ -1088,27 +1022,12 @@
|
||||
"ernie-x1-turbo-32k": {
|
||||
"description": "ERNIE-X1-32K ile karşılaştırıldığında, modelin etkisi ve performansı daha iyidir."
|
||||
},
|
||||
"flux-1-schnell": {
|
||||
"description": "Black Forest Labs tarafından geliştirilen 12 milyar parametreli metinden görüntüye modeldir. Latent adversarial diffusion distillation teknolojisi kullanır ve 1 ila 4 adımda yüksek kaliteli görüntüler oluşturabilir. Performansı kapalı kaynak alternatiflerle karşılaştırılabilir ve Apache-2.0 lisansı altında kişisel, akademik ve ticari kullanıma uygundur."
|
||||
},
|
||||
"flux-dev": {
|
||||
"description": "FLUX.1 [dev], ticari olmayan uygulamalar için açık kaynaklı ağırlık ve rafine modeldir. FLUX.1 [dev], FLUX profesyonel sürümüne yakın görüntü kalitesi ve talimat uyumu sağlarken daha yüksek çalışma verimliliğine sahiptir. Aynı boyuttaki standart modellere kıyasla kaynak kullanımı açısından daha etkilidir."
|
||||
},
|
||||
"flux-kontext/dev": {
|
||||
"description": "Frontier görüntü düzenleme modeli."
|
||||
},
|
||||
"flux-merged": {
|
||||
"description": "FLUX.1-merged modeli, geliştirme aşamasında \"DEV\" tarafından keşfedilen derin özellikler ile \"Schnell\" in yüksek hızlı yürütme avantajlarını birleştirir. Bu sayede model performans sınırlarını artırır ve uygulama alanlarını genişletir."
|
||||
},
|
||||
"flux-pro/kontext": {
|
||||
"description": "FLUX.1 Kontext [pro], metin ve referans görüntüleri girdi olarak işleyebilir, hedefe yönelik yerel düzenlemeler ve karmaşık genel sahne dönüşümlerini sorunsuz bir şekilde gerçekleştirebilir."
|
||||
},
|
||||
"flux-schnell": {
|
||||
"description": "FLUX.1 [schnell], şu anda açık kaynaklı en gelişmiş az adımlı modeldir; benzer rakiplerini aşmakla kalmaz, Midjourney v6.0 ve DALL·E 3 (HD) gibi güçlü damıtılmamış modellerden bile üstündür. Model, ön eğitim aşamasındaki tüm çıktı çeşitliliğini koruyacak şekilde özel olarak ince ayar yapılmıştır. Piyasadaki en gelişmiş modellere kıyasla görsel kalite, talimat uyumu, boyut/oran değişiklikleri, yazı tipi işleme ve çıktı çeşitliliği gibi alanlarda belirgin iyileştirmeler sunar ve kullanıcılara daha zengin ve çeşitli yaratıcı görüntü üretim deneyimi sağlar."
|
||||
},
|
||||
"flux.1-schnell": {
|
||||
"description": "120 milyar parametreli düzeltilmiş akış dönüştürücüsüdür ve metin açıklamalarına göre görüntü oluşturabilir."
|
||||
},
|
||||
"flux/schnell": {
|
||||
"description": "FLUX.1 [schnell], 12 milyar parametreye sahip bir akış dönüştürücü modelidir ve metinden 1 ila 4 adımda yüksek kaliteli görüntüler üretebilir; kişisel ve ticari kullanım için uygundur."
|
||||
},
|
||||
@@ -1190,6 +1109,9 @@
|
||||
"gemini-2.5-flash-preview-04-17": {
|
||||
"description": "Gemini 2.5 Flash Önizleme, Google'ın en iyi fiyat-performans oranına sahip modelidir ve kapsamlı özellikler sunar."
|
||||
},
|
||||
"gemini-2.5-flash-preview-04-17-thinking": {
|
||||
"description": "Gemini 2.5 Flash Önizleme, Google'ın en yüksek maliyet-performans modelidir ve kapsamlı özellikler sunar."
|
||||
},
|
||||
"gemini-2.5-flash-preview-05-20": {
|
||||
"description": "Gemini 2.5 Flash Önizleme, Google'ın en yüksek maliyet-performans modelidir ve kapsamlı özellikler sunar."
|
||||
},
|
||||
@@ -1268,21 +1190,6 @@
|
||||
"glm-4.1v-thinking-flashx": {
|
||||
"description": "GLM-4.1V-Thinking serisi modeller, bilinen 10 milyar parametre seviyesindeki VLM modelleri arasında en güçlü görsel modellerdir. Aynı seviyedeki SOTA görsel dil görevlerini birleştirir; video anlama, görsel soru-cevap, akademik problem çözme, OCR metin tanıma, belge ve grafik yorumlama, GUI ajanı, ön uç web kodlama, grounding gibi birçok görevde 8 kat daha büyük parametreli Qwen2.5-VL-72B modelini bile aşan performans gösterir. Önde gelen pekiştirmeli öğrenme teknikleri sayesinde, düşünce zinciri akıl yürütme yoluyla cevapların doğruluğu ve zenginliği artırılmıştır; nihai sonuçlar ve açıklanabilirlik açısından geleneksel düşünce zinciri olmayan modellerin çok ötesindedir."
|
||||
},
|
||||
"glm-4.5": {
|
||||
"description": "Zhipu'nun en yeni amiral gemisi modeli, düşünme modu geçişini destekler ve genel yetenekleri açık kaynak modeller arasında SOTA seviyesine ulaşmıştır; bağlam uzunluğu 128K'ya kadar çıkabilir."
|
||||
},
|
||||
"glm-4.5-air": {
|
||||
"description": "GLM-4.5'in hafif versiyonu olup performans ve maliyet etkinliğini dengeler; hibrit düşünme modeli olarak esnek geçiş sağlar."
|
||||
},
|
||||
"glm-4.5-airx": {
|
||||
"description": "GLM-4.5-Air'in ultra hızlı versiyonu olup daha hızlı yanıt süresi sunar ve büyük ölçekli yüksek hız gereksinimleri için tasarlanmıştır."
|
||||
},
|
||||
"glm-4.5-flash": {
|
||||
"description": "GLM-4.5'in ücretsiz versiyonu olup çıkarım, kodlama ve ajan görevlerinde üstün performans gösterir."
|
||||
},
|
||||
"glm-4.5-x": {
|
||||
"description": "GLM-4.5'in ultra hızlı versiyonu olup güçlü performansla birlikte saniyede 100 token üretim hızına ulaşır."
|
||||
},
|
||||
"glm-4v": {
|
||||
"description": "GLM-4V, güçlü görüntü anlama ve akıl yürütme yetenekleri sunar, çeşitli görsel görevleri destekler."
|
||||
},
|
||||
@@ -1302,7 +1209,7 @@
|
||||
"description": "Hızlı çıkarım: Süper hızlı çıkarım hızı ve güçlü çıkarım etkisi sunar."
|
||||
},
|
||||
"glm-z1-flash": {
|
||||
"description": "GLM-Z1 serisi, karmaşık çıkarım yeteneklerine sahiptir ve mantıksal çıkarım, matematik, programlama gibi alanlarda üstün performans gösterir."
|
||||
"description": "GLM-Z1 serisi, karmaşık çıkarım yeteneklerine sahiptir, mantıksal çıkarım, matematik, programlama gibi alanlarda mükemmel performans gösterir. Maksimum bağlam uzunluğu 32K'dır."
|
||||
},
|
||||
"glm-z1-flashx": {
|
||||
"description": "Yüksek hız ve düşük maliyet: Flash geliştirilmiş versiyon, ultra hızlı çıkarım hızı ve daha hızlı eşzamanlılık garantisi sunar."
|
||||
@@ -1478,9 +1385,6 @@
|
||||
"grok-2-1212": {
|
||||
"description": "Bu model, doğruluk, talimat takibi ve çok dilli yetenekler açısından geliştirilmiştir."
|
||||
},
|
||||
"grok-2-image-1212": {
|
||||
"description": "En yeni görüntü oluşturma modelimiz, metin istemlerine dayanarak canlı ve gerçekçi görüntüler oluşturabilir. Pazarlama, sosyal medya ve eğlence gibi alanlarda görüntü üretiminde mükemmel performans sergiler."
|
||||
},
|
||||
"grok-2-vision-1212": {
|
||||
"description": "Bu model, doğruluk, talimat takibi ve çok dilli yetenekler açısından geliştirilmiştir."
|
||||
},
|
||||
@@ -1550,9 +1454,6 @@
|
||||
"hunyuan-t1-20250529": {
|
||||
"description": "Metin oluşturma ve kompozisyon yazımını optimize eder; kod ön yüzü, matematik, mantıksal çıkarım gibi fen bilimleri yeteneklerini geliştirir ve talimatlara uyum yeteneğini artırır."
|
||||
},
|
||||
"hunyuan-t1-20250711": {
|
||||
"description": "Zorlu matematik, mantık ve kodlama yeteneklerinde büyük iyileştirmeler sağlar, model çıktı kararlılığını optimize eder ve uzun metin işleme kapasitesini artırır."
|
||||
},
|
||||
"hunyuan-t1-latest": {
|
||||
"description": "Sektördeki ilk ultra büyük ölçekli Hybrid-Transformer-Mamba çıkarım modeli, çıkarım yeteneklerini genişletir, yüksek çözümleme hızı sunar ve insan tercihleri ile daha iyi hizalanır."
|
||||
},
|
||||
@@ -1601,12 +1502,6 @@
|
||||
"hunyuan-vision": {
|
||||
"description": "Hunyuan'ın en son çok modlu modeli, resim + metin girişi ile metin içeriği oluşturmayı destekler."
|
||||
},
|
||||
"image-01": {
|
||||
"description": "Yepyeni görüntü oluşturma modeli, ince detaylı görseller sunar; metinden görüntü ve görüntüden görüntü desteği vardır."
|
||||
},
|
||||
"image-01-live": {
|
||||
"description": "Görüntü oluşturma modeli, ince detaylı görseller sunar; metinden görüntü oluşturmayı ve stil ayarlarını destekler."
|
||||
},
|
||||
"imagen-4.0-generate-preview-06-06": {
|
||||
"description": "Imagen 4. nesil metinden görüntüye model serisi"
|
||||
},
|
||||
@@ -1631,9 +1526,6 @@
|
||||
"internvl3-latest": {
|
||||
"description": "En son yayımladığımız çok modlu büyük model, daha güçlü metin-görüntü anlama yeteneği ve uzun süreli görüntü anlama yeteneğine sahiptir; performansı en iyi kapalı kaynak modellerle karşılaştırılabilir. Varsayılan olarak en son yayımladığımız InternVL serisi modele işaret eder, şu anda internvl3-78b'ye işaret ediyor."
|
||||
},
|
||||
"irag-1.0": {
|
||||
"description": "Baidu tarafından geliştirilen iRAG (image based RAG), arama destekli metinden görüntü oluşturma teknolojisidir. Baidu'nun milyarlarca görsel kaynağı ile güçlü temel model yeteneklerini birleştirerek çok gerçekçi görüntüler oluşturur. Genel performansı metinden görüntü oluşturma sistemlerinin çok ötesindedir, yapay zeka izini ortadan kaldırır ve maliyeti düşürür. iRAG, halüsinasyon yapmama, ultra gerçekçilik ve anında erişim özelliklerine sahiptir."
|
||||
},
|
||||
"jamba-large": {
|
||||
"description": "En güçlü ve en gelişmiş modelimiz, kurumsal düzeyde karmaşık görevleri işlemek için tasarlanmıştır ve olağanüstü performans sunar."
|
||||
},
|
||||
@@ -1643,9 +1535,6 @@
|
||||
"jina-deepsearch-v1": {
|
||||
"description": "Derin arama, web araması, okuma ve akıl yürütmeyi birleştirerek kapsamlı bir araştırma yapar. Bunu, araştırma görevlerinizi kabul eden bir ajan olarak düşünebilirsiniz - geniş bir arama yapar ve birden fazla yineleme ile cevap verir. Bu süreç, sürekli araştırma, akıl yürütme ve sorunları çeşitli açılardan çözmeyi içerir. Bu, doğrudan önceden eğitilmiş verilerden cevaplar üreten standart büyük modellerle ve tek seferlik yüzey aramasına dayanan geleneksel RAG sistemleriyle temelde farklıdır."
|
||||
},
|
||||
"kimi-k2": {
|
||||
"description": "Kimi-K2, Moonshot AI tarafından geliştirilen, güçlü kodlama ve ajan yeteneklerine sahip MoE mimarili temel modeldir; toplam 1 trilyon parametre, 32 milyar aktif parametreye sahiptir. Genel bilgi çıkarımı, programlama, matematik ve ajan gibi ana kategorilerdeki kıyaslama testlerinde K2 modeli diğer önde gelen açık kaynak modelleri geride bırakır."
|
||||
},
|
||||
"kimi-k2-0711-preview": {
|
||||
"description": "kimi-k2, son derece güçlü kodlama ve Agent yeteneklerine sahip MoE mimarili temel bir modeldir. Toplam parametre sayısı 1T, aktif parametre sayısı 32B'dir. Genel bilgi çıkarımı, programlama, matematik, Agent gibi ana kategorilerde yapılan kıyaslama testlerinde K2 modeli, diğer önde gelen açık kaynak modelleri geride bırakmıştır."
|
||||
},
|
||||
@@ -2039,9 +1928,6 @@
|
||||
"moonshotai/Kimi-Dev-72B": {
|
||||
"description": "Kimi-Dev-72B, büyük ölçekli pekiştirmeli öğrenme ile optimize edilmiş açık kaynaklı bir kod modeli olup, sağlam ve doğrudan üretime uygun yamalar üretebilir. Bu model, SWE-bench Verified üzerinde %60,4 ile yeni bir rekor kırarak, açık kaynak modeller arasında hata düzeltme, kod incelemesi gibi otomatik yazılım mühendisliği görevlerinde en yüksek puanı elde etmiştir."
|
||||
},
|
||||
"moonshotai/Kimi-K2-Instruct": {
|
||||
"description": "Kimi K2, güçlü kodlama ve ajan yeteneklerine sahip MoE mimarili temel modeldir; toplam 1 trilyon parametre, 32 milyar aktif parametreye sahiptir. Genel bilgi çıkarımı, programlama, matematik ve ajan gibi ana kategorilerdeki kıyaslama testlerinde K2 modeli diğer önde gelen açık kaynak modelleri geride bırakır."
|
||||
},
|
||||
"moonshotai/kimi-k2-instruct": {
|
||||
"description": "kimi-k2, güçlü kodlama ve Ajan yeteneklerine sahip MoE mimarili temel bir modeldir, toplam parametre sayısı 1T, aktif parametre sayısı 32B'dir. Genel bilgi çıkarımı, programlama, matematik ve Ajan gibi ana kategorilerde yapılan kıyaslama testlerinde, K2 modeli diğer önde gelen açık kaynak modellerini geride bırakmaktadır."
|
||||
},
|
||||
@@ -2378,21 +2264,9 @@
|
||||
"qwen3-235b-a22b": {
|
||||
"description": "Qwen3, akıl yürütme, genel, Ajan ve çok dilli gibi birçok temel yetenekte endüstri lideri seviyesine ulaşan yeni nesil bir modeldir ve düşünme modu geçişini destekler."
|
||||
},
|
||||
"qwen3-235b-a22b-instruct-2507": {
|
||||
"description": "Qwen3 tabanlı düşünme modu olmayan açık kaynak modelidir; önceki sürüme (Tongyi Qianwen 3-235B-A22B) kıyasla öznel yaratıcı yetenekler ve model güvenliği açısından hafif iyileştirmeler içerir."
|
||||
},
|
||||
"qwen3-235b-a22b-thinking-2507": {
|
||||
"description": "Qwen3 tabanlı düşünme modu açık kaynak modelidir; önceki sürüme (Tongyi Qianwen 3-235B-A22B) kıyasla mantıksal yetenekler, genel yetenekler, bilgi artırımı ve yaratıcı yeteneklerde büyük gelişmeler sağlar ve yüksek zorlukta güçlü çıkarım senaryoları için uygundur."
|
||||
},
|
||||
"qwen3-30b-a3b": {
|
||||
"description": "Qwen3, akıl yürütme, genel, Ajan ve çok dilli gibi birçok temel yetenekte endüstri lideri seviyesine ulaşan yeni nesil bir modeldir ve düşünme modu geçişini destekler."
|
||||
},
|
||||
"qwen3-30b-a3b-instruct-2507": {
|
||||
"description": "Önceki sürüme (Qwen3-30B-A3B) kıyasla, hem İngilizce hem de çok dilli genel yeteneklerde büyük gelişmeler sağlanmıştır. Öznel ve açık uçlu görevler için özel optimizasyon yapılmış olup, kullanıcı tercihleriyle belirgin şekilde daha uyumludur ve daha faydalı yanıtlar sunabilir."
|
||||
},
|
||||
"qwen3-30b-a3b-thinking-2507": {
|
||||
"description": "Qwen3 tabanlı düşünme modu açık kaynak modeli olup, önceki sürüme (Tongyi Qianwen 3-30B-A3B) kıyasla mantık yeteneği, genel yetenekler, bilgi artırımı ve yaratıcı yeteneklerde önemli gelişmeler göstermektedir. Zorlu ve güçlü akıl yürütme gerektiren senaryolar için uygundur."
|
||||
},
|
||||
"qwen3-32b": {
|
||||
"description": "Qwen3, akıl yürütme, genel, Ajan ve çok dilli gibi birçok temel yetenekte endüstri lideri seviyesine ulaşan yeni nesil bir modeldir ve düşünme modu geçişini destekler."
|
||||
},
|
||||
@@ -2402,12 +2276,6 @@
|
||||
"qwen3-8b": {
|
||||
"description": "Qwen3, akıl yürütme, genel, Ajan ve çok dilli gibi birçok temel yetenekte endüstri lideri seviyesine ulaşan yeni nesil bir modeldir ve düşünme modu geçişini destekler."
|
||||
},
|
||||
"qwen3-coder-480b-a35b-instruct": {
|
||||
"description": "Tongyi Qianwen kod modeli açık kaynak versiyonudur. En yeni qwen3-coder-480b-a35b-instruct, Qwen3 tabanlı kod oluşturma modelidir; güçlü Kodlama Ajanı yeteneklerine sahiptir, araç çağrısı ve ortam etkileşiminde uzmandır, otonom programlama yapabilir ve üstün kodlama yetenekleri ile genel yetenekleri bir arada sunar."
|
||||
},
|
||||
"qwen3-coder-plus": {
|
||||
"description": "Tongyi Qianwen kod modelidir. En yeni Qwen3-Coder-Plus serisi modeller, Qwen3 tabanlı kod oluşturma modelleridir; güçlü Kodlama Ajanı yeteneklerine sahiptir, araç çağrısı ve ortam etkileşiminde uzmandır, otonom programlama yapabilir ve üstün kodlama yetenekleri ile genel yetenekleri bir arada sunar."
|
||||
},
|
||||
"qwq": {
|
||||
"description": "QwQ, AI akıl yürütme yeteneklerini artırmaya odaklanan deneysel bir araştırma modelidir."
|
||||
},
|
||||
@@ -2450,24 +2318,6 @@
|
||||
"sonar-reasoning-pro": {
|
||||
"description": "DeepSeek'in akıl yürütme modeli tarafından desteklenen yeni API ürünü."
|
||||
},
|
||||
"stable-diffusion-3-medium": {
|
||||
"description": "Stability AI tarafından geliştirilen en yeni metinden görüntü oluşturma büyük modelidir. Önceki sürümlerin avantajlarını koruyarak, görüntü kalitesi, metin anlama ve stil çeşitliliği alanlarında önemli iyileştirmeler sunar. Karmaşık doğal dil istemlerini daha doğru yorumlayabilir ve daha kesin, çeşitli görüntüler oluşturabilir."
|
||||
},
|
||||
"stable-diffusion-3.5-large": {
|
||||
"description": "stable-diffusion-3.5-large, 800 milyon parametreli çok modlu difüzyon dönüştürücü (MMDiT) metinden görüntü oluşturma modelidir. Üstün görüntü kalitesi ve istem uyumu sağlar, 1 milyon piksel yüksek çözünürlüklü görüntüler oluşturabilir ve sıradan tüketici donanımında verimli çalışabilir."
|
||||
},
|
||||
"stable-diffusion-3.5-large-turbo": {
|
||||
"description": "stable-diffusion-3.5-large-turbo, stable-diffusion-3.5-large temel alınarak adversarial diffusion distillation (ADD) teknolojisi ile hızlandırılmış modeldir."
|
||||
},
|
||||
"stable-diffusion-v1.5": {
|
||||
"description": "stable-diffusion-v1.5, stable-diffusion-v1.2 kontrol noktası ağırlıkları ile başlatılmış ve \"laion-aesthetics v2 5+\" üzerinde 512x512 çözünürlükte 595k adım ince ayar yapılmıştır. %10 daha az metin koşullandırması ile sınıflandırıcı olmayan rehberli örnekleme geliştirilmiştir."
|
||||
},
|
||||
"stable-diffusion-xl": {
|
||||
"description": "stable-diffusion-xl, v1.5'e kıyasla önemli geliştirmeler içerir ve mevcut açık kaynak metinden görüntü oluşturma SOTA modeli midjourney ile benzer performans gösterir. Gelişmeler şunlardır: daha büyük unet omurgası (öncekinden 3 kat büyük); görüntü kalitesini artırmak için iyileştirme modülü eklenmesi; daha verimli eğitim teknikleri."
|
||||
},
|
||||
"stable-diffusion-xl-base-1.0": {
|
||||
"description": "Stability AI tarafından geliştirilen ve açık kaynaklı metinden görüntü oluşturma büyük modelidir. Yaratıcı görüntü oluşturma yetenekleri sektörde öncüdür. Üstün talimat anlama yeteneğine sahiptir ve ters prompt tanımlamayı destekleyerek içeriği hassas şekilde oluşturabilir."
|
||||
},
|
||||
"step-1-128k": {
|
||||
"description": "Performans ve maliyet arasında denge sağlar, genel senaryolar için uygundur."
|
||||
},
|
||||
@@ -2498,12 +2348,6 @@
|
||||
"step-1v-8k": {
|
||||
"description": "Küçük görsel model, temel metin ve görsel görevler için uygundur."
|
||||
},
|
||||
"step-1x-edit": {
|
||||
"description": "Bu model, görüntü düzenleme görevlerine odaklanır ve kullanıcı tarafından sağlanan görüntü ve metin açıklamalarına göre görüntüyü değiştirip iyileştirebilir. Metin açıklamaları ve örnek görüntüler dahil olmak üzere çeşitli giriş formatlarını destekler. Model, kullanıcı niyetini anlayarak istenen düzenleme sonuçlarını üretir."
|
||||
},
|
||||
"step-1x-medium": {
|
||||
"description": "Bu model güçlü görüntü oluşturma yeteneklerine sahiptir ve metin açıklamalarını giriş olarak destekler. Yerel Çince desteği ile Çince metin açıklamalarını daha iyi anlar ve işler, metin anlamını daha doğru yakalayarak görüntü özelliklerine dönüştürür ve böylece daha hassas görüntü oluşturma sağlar. Model, yüksek çözünürlüklü ve kaliteli görüntüler oluşturabilir ve belirli ölçüde stil transferi yeteneğine sahiptir."
|
||||
},
|
||||
"step-2-16k": {
|
||||
"description": "Büyük ölçekli bağlam etkileşimlerini destekler, karmaşık diyalog senaryoları için uygundur."
|
||||
},
|
||||
@@ -2513,9 +2357,6 @@
|
||||
"step-2-mini": {
|
||||
"description": "Yeni nesil kendi geliştirdiğimiz MFA Attention mimarisine dayanan hızlı büyük model, çok düşük maliyetle step1 ile benzer sonuçlar elde ederken, daha yüksek bir throughput ve daha hızlı yanıt süresi sağlıyor. Genel görevleri işleyebilme yeteneğine sahip olup, kodlama yeteneklerinde uzmanlık gösteriyor."
|
||||
},
|
||||
"step-2x-large": {
|
||||
"description": "Jieyue Xingchen'in yeni nesil görüntü oluşturma modelidir. Model, kullanıcı tarafından sağlanan metin açıklamalarına göre yüksek kaliteli görüntüler oluşturur. Yeni model, daha gerçekçi doku ve hem Çince hem İngilizce metin oluşturma yeteneklerinde gelişmiş performans sunar."
|
||||
},
|
||||
"step-r1-v-mini": {
|
||||
"description": "Bu model, güçlü görüntü anlama yeteneğine sahip bir çıkarım büyük modelidir, görüntü ve metin bilgilerini işleyebilir, derin düşünme sonrası metin oluşturma çıktısı verebilir. Bu model, görsel çıkarım alanında öne çıkarken, birinci sınıf matematik, kod ve metin çıkarım yeteneklerine de sahiptir. Bağlam uzunluğu 100k'dır."
|
||||
},
|
||||
@@ -2591,23 +2432,8 @@
|
||||
"v0-1.5-md": {
|
||||
"description": "v0-1.5-md modeli, günlük görevler ve kullanıcı arayüzü (UI) oluşturma için uygundur"
|
||||
},
|
||||
"wan2.2-t2i-flash": {
|
||||
"description": "Wanxiang 2.2 hızlı sürüm, mevcut en yeni modeldir. Yaratıcılık, kararlılık ve gerçekçilikte kapsamlı yükseltmeler sunar; hızlı üretim hızı ve yüksek maliyet performansı sağlar."
|
||||
},
|
||||
"wan2.2-t2i-plus": {
|
||||
"description": "Wanxiang 2.2 profesyonel sürüm, mevcut en yeni modeldir. Yaratıcılık, kararlılık ve gerçekçilikte kapsamlı yükseltmeler sunar; detaylı ve zengin görüntüler üretir."
|
||||
},
|
||||
"wanx-v1": {
|
||||
"description": "Temel metinden görüntü oluşturma modelidir. Tongyi Wanxiang resmi web sitesindeki 1.0 genel modeline karşılık gelir."
|
||||
},
|
||||
"wanx2.0-t2i-turbo": {
|
||||
"description": "Doku ve portrelerde uzmandır; orta hızda ve düşük maliyetlidir. Tongyi Wanxiang resmi web sitesindeki 2.0 hızlı modele karşılık gelir."
|
||||
},
|
||||
"wanx2.1-t2i-plus": {
|
||||
"description": "Kapsamlı yükseltilmiş versiyondur. Üretilen görüntü detayları daha zengindir, hız biraz daha yavaştır. Tongyi Wanxiang resmi web sitesindeki 2.1 profesyonel modele karşılık gelir."
|
||||
},
|
||||
"wanx2.1-t2i-turbo": {
|
||||
"description": "Kapsamlı yükseltilmiş versiyondur. Üretim hızı hızlı, etkisi kapsamlı ve genel maliyet performansı yüksektir. Tongyi Wanxiang resmi web sitesindeki 2.1 hızlı modele karşılık gelir."
|
||||
"description": "Alibaba Cloud Tongyi tarafından geliştirilen metinden görsele model"
|
||||
},
|
||||
"whisper-1": {
|
||||
"description": "Genel amaçlı konuşma tanıma modeli olup, çok dilli konuşma tanıma, konuşma çevirisi ve dil tanıma destekler."
|
||||
@@ -2659,11 +2485,5 @@
|
||||
},
|
||||
"yi-vision-v2": {
|
||||
"description": "Karmaşık görsel görevler için model, birden fazla resme dayalı yüksek performanslı anlama ve analiz yetenekleri sunar."
|
||||
},
|
||||
"zai-org/GLM-4.5": {
|
||||
"description": "GLM-4.5, akıllı ajan uygulamaları için tasarlanmış temel modeldir ve Mixture-of-Experts (MoE) mimarisi kullanır. Araç çağrısı, web tarama, yazılım mühendisliği ve ön uç programlama alanlarında derin optimizasyonlar içerir. Claude Code, Roo Code gibi kod ajanlarına sorunsuz entegrasyon destekler. GLM-4.5, karmaşık çıkarım ve günlük kullanım gibi çeşitli senaryolara uyum sağlayan hibrit çıkarım moduna sahiptir."
|
||||
},
|
||||
"zai-org/GLM-4.5-Air": {
|
||||
"description": "GLM-4.5-Air, akıllı ajan uygulamaları için tasarlanmış temel modeldir ve Mixture-of-Experts (MoE) mimarisi kullanır. Araç çağrısı, web tarama, yazılım mühendisliği ve ön uç programlama alanlarında derin optimizasyonlar içerir. Claude Code, Roo Code gibi kod ajanlarına sorunsuz entegrasyon destekler. GLM-4.5, karmaşık çıkarım ve günlük kullanım gibi çeşitli senaryolara uyum sağlayan hibrit çıkarım moduna sahiptir."
|
||||
}
|
||||
}
|
||||
|
||||
@@ -5,9 +5,6 @@
|
||||
"ai360": {
|
||||
"description": "360 AI, 360 şirketi tarafından sunulan yapay zeka modeli ve hizmet platformudur. 360GPT2 Pro, 360GPT Pro, 360GPT Turbo ve 360GPT Turbo Responsibility 8K gibi çeşitli gelişmiş doğal dil işleme modelleri sunmaktadır. Bu modeller, büyük ölçekli parametreler ve çok modlu yetenekleri birleştirerek metin üretimi, anlamsal anlama, diyalog sistemleri ve kod üretimi gibi alanlarda geniş bir uygulama yelpazesine sahiptir. Esnek fiyatlandırma stratejileri ile 360 AI, çeşitli kullanıcı ihtiyaçlarını karşılamakta ve geliştiricilerin entegrasyonunu destekleyerek akıllı uygulamaların yenilik ve gelişimini teşvik etmektedir."
|
||||
},
|
||||
"aihubmix": {
|
||||
"description": "AiHubMix, çeşitli yapay zeka modellerine tek bir API arayüzü üzerinden erişim sağlar."
|
||||
},
|
||||
"anthropic": {
|
||||
"description": "Anthropic, yapay zeka araştırma ve geliştirmeye odaklanan bir şirkettir. Claude 3.5 Sonnet, Claude 3 Sonnet, Claude 3 Opus ve Claude 3 Haiku gibi bir dizi gelişmiş dil modeli sunmaktadır. Bu modeller, zeka, hız ve maliyet arasında ideal bir denge sağlamaktadır ve kurumsal düzeydeki iş yüklerinden hızlı yanıt gerektiren çeşitli uygulama senaryolarına kadar geniş bir yelpazede kullanılmaktadır. Claude 3.5 Sonnet, en son modeli olarak, birçok değerlendirmede mükemmel performans sergilemekte ve yüksek maliyet etkinliğini korumaktadır."
|
||||
},
|
||||
|
||||
@@ -189,7 +189,6 @@
|
||||
"aesGcm": "Khóa của bạn và địa chỉ proxy sẽ được mã hóa bằng thuật toán <1>AES-GCM</1>",
|
||||
"apiKey": {
|
||||
"desc": "Vui lòng nhập {{name}} API Key của bạn",
|
||||
"descWithUrl": "Vui lòng nhập {{name}} API Key của bạn, <3>nhấn vào đây để lấy</3>",
|
||||
"placeholder": "{{name}} API Key",
|
||||
"title": "API Key"
|
||||
},
|
||||
|
||||
+5
-185
@@ -32,9 +32,6 @@
|
||||
"4.0Ultra": {
|
||||
"description": "Spark4.0 Ultra là phiên bản mạnh mẽ nhất trong dòng mô hình lớn Xinghuo, nâng cao khả năng hiểu và tóm tắt nội dung văn bản trong khi nâng cấp liên kết tìm kiếm trực tuyến. Đây là giải pháp toàn diện nhằm nâng cao năng suất văn phòng và đáp ứng chính xác nhu cầu, là sản phẩm thông minh dẫn đầu ngành."
|
||||
},
|
||||
"AnimeSharp": {
|
||||
"description": "AnimeSharp (còn gọi là “4x‑AnimeSharp”) là mô hình siêu phân giải mã nguồn mở do Kim2091 phát triển dựa trên kiến trúc ESRGAN, tập trung vào phóng to và làm sắc nét hình ảnh phong cách anime. Nó được đổi tên từ “4x-TextSharpV1” vào tháng 2 năm 2022, ban đầu cũng phù hợp với hình ảnh văn bản nhưng đã được tối ưu đáng kể cho nội dung anime."
|
||||
},
|
||||
"Baichuan2-Turbo": {
|
||||
"description": "Sử dụng công nghệ tăng cường tìm kiếm để kết nối toàn diện giữa mô hình lớn và kiến thức lĩnh vực, kiến thức toàn cầu. Hỗ trợ tải lên nhiều loại tài liệu như PDF, Word và nhập URL, thông tin được thu thập kịp thời và toàn diện, kết quả đầu ra chính xác và chuyên nghiệp."
|
||||
},
|
||||
@@ -92,9 +89,6 @@
|
||||
"Doubao-pro-4k": {
|
||||
"description": "Mô hình chủ lực với hiệu quả tốt nhất, phù hợp xử lý các nhiệm vụ phức tạp, có hiệu quả xuất sắc trong các kịch bản như hỏi đáp tham khảo, tóm tắt, sáng tạo, phân loại văn bản, nhập vai. Hỗ trợ suy luận và tinh chỉnh với cửa sổ ngữ cảnh 4k."
|
||||
},
|
||||
"DreamO": {
|
||||
"description": "DreamO là mô hình tạo hình ảnh tùy chỉnh mã nguồn mở do ByteDance và Đại học Bắc Kinh hợp tác phát triển, nhằm hỗ trợ tạo hình ảnh đa nhiệm thông qua kiến trúc thống nhất. Nó sử dụng phương pháp mô hình hóa kết hợp hiệu quả, có thể tạo ra hình ảnh nhất quán và tùy chỉnh cao dựa trên các điều kiện như danh tính, chủ thể, phong cách, nền do người dùng chỉ định."
|
||||
},
|
||||
"ERNIE-3.5-128K": {
|
||||
"description": "Mô hình ngôn ngữ quy mô lớn hàng đầu do Baidu tự phát triển, bao phủ một lượng lớn tài liệu tiếng Trung và tiếng Anh, có khả năng tổng quát mạnh mẽ, có thể đáp ứng hầu hết các yêu cầu về đối thoại, hỏi đáp, sáng tạo nội dung và các tình huống ứng dụng plugin; hỗ trợ tự động kết nối với plugin tìm kiếm của Baidu, đảm bảo thông tin hỏi đáp luôn được cập nhật kịp thời."
|
||||
},
|
||||
@@ -128,39 +122,15 @@
|
||||
"ERNIE-Speed-Pro-128K": {
|
||||
"description": "Mô hình ngôn ngữ quy mô lớn hiệu suất cao do Baidu phát hành vào năm 2024, có khả năng tổng quát xuất sắc, hiệu quả tốt hơn ERNIE Speed, phù hợp làm mô hình nền để tinh chỉnh, xử lý tốt hơn các vấn đề trong các tình huống cụ thể, đồng thời có khả năng suy diễn tuyệt vời."
|
||||
},
|
||||
"FLUX.1-Kontext-dev": {
|
||||
"description": "FLUX.1-Kontext-dev là mô hình tạo và chỉnh sửa hình ảnh đa phương thức dựa trên kiến trúc Rectified Flow Transformer do Black Forest Labs phát triển, với quy mô 12 tỷ tham số, tập trung vào việc tạo, tái cấu trúc, nâng cao hoặc chỉnh sửa hình ảnh dựa trên điều kiện ngữ cảnh cho trước. Mô hình kết hợp ưu điểm tạo có kiểm soát của mô hình khuếch tán và khả năng mô hình hóa ngữ cảnh của Transformer, hỗ trợ xuất hình ảnh chất lượng cao, ứng dụng rộng rãi trong sửa chữa hình ảnh, hoàn thiện hình ảnh, tái cấu trúc cảnh quan trực quan."
|
||||
},
|
||||
"FLUX.1-dev": {
|
||||
"description": "FLUX.1-dev là mô hình ngôn ngữ đa phương thức mã nguồn mở do Black Forest Labs phát triển, tối ưu cho các tác vụ kết hợp hình ảnh và văn bản. Nó tích hợp khả năng hiểu và tạo hình ảnh cùng văn bản, xây dựng trên nền tảng các mô hình ngôn ngữ lớn tiên tiến như Mistral-7B, thông qua bộ mã hóa thị giác thiết kế tinh vi và điều chỉnh chỉ dẫn đa giai đoạn, đạt được khả năng xử lý phối hợp hình ảnh-văn bản và suy luận tác vụ phức tạp."
|
||||
},
|
||||
"Gryphe/MythoMax-L2-13b": {
|
||||
"description": "MythoMax-L2 (13B) là một mô hình sáng tạo, phù hợp cho nhiều lĩnh vực ứng dụng và nhiệm vụ phức tạp."
|
||||
},
|
||||
"HelloMeme": {
|
||||
"description": "HelloMeme là công cụ AI có thể tự động tạo meme, ảnh động hoặc video ngắn dựa trên hình ảnh hoặc hành động bạn cung cấp. Bạn không cần có kỹ năng vẽ hay lập trình, chỉ cần chuẩn bị hình ảnh tham khảo, nó sẽ giúp bạn tạo ra nội dung đẹp mắt, thú vị và đồng nhất về phong cách."
|
||||
},
|
||||
"HiDream-I1-Full": {
|
||||
"description": "HiDream-E1-Full là mô hình chỉnh sửa hình ảnh đa phương thức mã nguồn mở do HiDream.ai phát triển, dựa trên kiến trúc Diffusion Transformer tiên tiến và kết hợp khả năng hiểu ngôn ngữ mạnh mẽ (tích hợp LLaMA 3.1-8B-Instruct). Mô hình hỗ trợ tạo hình ảnh, chuyển đổi phong cách, chỉnh sửa cục bộ và vẽ lại nội dung qua chỉ dẫn ngôn ngữ tự nhiên, có khả năng hiểu và thực thi tốt giữa hình ảnh và văn bản."
|
||||
},
|
||||
"HunyuanDiT-v1.2-Diffusers-Distilled": {
|
||||
"description": "hunyuandit-v1.2-distilled là mô hình tạo hình ảnh từ văn bản nhẹ, được tối ưu qua kỹ thuật chưng cất, có khả năng tạo hình ảnh chất lượng cao nhanh chóng, đặc biệt phù hợp với môi trường tài nguyên thấp và các tác vụ tạo hình ảnh thời gian thực."
|
||||
},
|
||||
"InstantCharacter": {
|
||||
"description": "InstantCharacter là mô hình tạo nhân vật cá nhân hóa không cần tinh chỉnh do đội AI Tencent phát hành năm 2025, nhằm đạt được tạo nhân vật nhất quán, độ trung thực cao và đa cảnh. Mô hình hỗ trợ xây dựng nhân vật chỉ dựa trên một hình ảnh tham khảo và có thể linh hoạt chuyển nhân vật đó sang nhiều phong cách, hành động và nền khác nhau."
|
||||
},
|
||||
"InternVL2-8B": {
|
||||
"description": "InternVL2-8B là một mô hình ngôn ngữ hình ảnh mạnh mẽ, hỗ trợ xử lý đa phương tiện giữa hình ảnh và văn bản, có khả năng nhận diện chính xác nội dung hình ảnh và tạo ra mô tả hoặc câu trả lời liên quan."
|
||||
},
|
||||
"InternVL2.5-26B": {
|
||||
"description": "InternVL2.5-26B là một mô hình ngôn ngữ hình ảnh mạnh mẽ, hỗ trợ xử lý đa phương tiện giữa hình ảnh và văn bản, có khả năng nhận diện chính xác nội dung hình ảnh và tạo ra mô tả hoặc câu trả lời liên quan."
|
||||
},
|
||||
"Kolors": {
|
||||
"description": "Kolors là mô hình tạo hình ảnh từ văn bản do nhóm Kolors của Kuaishou phát triển. Được huấn luyện trên hàng tỷ tham số, nổi bật về chất lượng hình ảnh, hiểu ngữ nghĩa tiếng Trung và khả năng hiển thị văn bản."
|
||||
},
|
||||
"Kwai-Kolors/Kolors": {
|
||||
"description": "Kolors là mô hình tạo hình ảnh từ văn bản quy mô lớn dựa trên khuếch tán tiềm ẩn do nhóm Kolors của Kuaishou phát triển. Mô hình được huấn luyện trên hàng tỷ cặp văn bản-hình ảnh, thể hiện ưu thế rõ rệt về chất lượng hình ảnh, độ chính xác ngữ nghĩa phức tạp và khả năng hiển thị ký tự tiếng Trung và tiếng Anh. Nó hỗ trợ đầu vào tiếng Trung và tiếng Anh, đồng thời thể hiện xuất sắc trong việc hiểu và tạo nội dung đặc thù tiếng Trung."
|
||||
},
|
||||
"Llama-3.2-11B-Vision-Instruct": {
|
||||
"description": "Khả năng suy luận hình ảnh xuất sắc trên hình ảnh độ phân giải cao, phù hợp cho các ứng dụng hiểu biết thị giác."
|
||||
},
|
||||
@@ -194,15 +164,9 @@
|
||||
"MiniMaxAI/MiniMax-M1-80k": {
|
||||
"description": "MiniMax-M1 là mô hình suy luận chú ý hỗn hợp quy mô lớn với trọng số mã nguồn mở, sở hữu 456 tỷ 600 triệu tham số, mỗi Token có thể kích hoạt khoảng 45,9 tỷ tham số. Mô hình hỗ trợ ngữ cảnh siêu dài lên đến 1 triệu Token một cách nguyên bản, và thông qua cơ chế chú ý chớp nhoáng, trong các tác vụ sinh 100.000 Token tiết kiệm 75% lượng phép tính dấu chấm động so với DeepSeek R1. Đồng thời, MiniMax-M1 áp dụng kiến trúc MoE (chuyên gia hỗn hợp), kết hợp thuật toán CISPO và thiết kế chú ý hỗn hợp trong huấn luyện tăng cường hiệu quả, đạt hiệu suất hàng đầu trong ngành khi suy luận đầu vào dài và các kịch bản kỹ thuật phần mềm thực tế."
|
||||
},
|
||||
"Moonshot-Kimi-K2-Instruct": {
|
||||
"description": "Tổng tham số 1T, tham số kích hoạt 32B. Trong các mô hình không suy nghĩ, đạt trình độ hàng đầu về kiến thức tiên tiến, toán học và lập trình, đặc biệt phù hợp với các tác vụ đại lý chung. Được tối ưu kỹ lưỡng cho tác vụ đại lý, không chỉ trả lời câu hỏi mà còn có thể thực hiện hành động. Phù hợp nhất cho trò chuyện ứng biến, trải nghiệm đại lý chung, là mô hình phản xạ không cần suy nghĩ lâu."
|
||||
},
|
||||
"NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
||||
"description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B) là mô hình chỉ dẫn chính xác cao, phù hợp cho tính toán phức tạp."
|
||||
},
|
||||
"OmniConsistency": {
|
||||
"description": "OmniConsistency nâng cao tính nhất quán phong cách và khả năng tổng quát hóa trong các tác vụ hình ảnh sang hình ảnh (Image-to-Image) bằng cách giới thiệu các Diffusion Transformers (DiTs) quy mô lớn và dữ liệu phong cách ghép đôi, tránh suy giảm phong cách."
|
||||
},
|
||||
"Phi-3-medium-128k-instruct": {
|
||||
"description": "Mô hình Phi-3-medium giống nhau, nhưng với kích thước ngữ cảnh lớn hơn cho RAG hoặc gợi ý ít."
|
||||
},
|
||||
@@ -254,9 +218,6 @@
|
||||
"Pro/deepseek-ai/DeepSeek-V3": {
|
||||
"description": "DeepSeek-V3 là một mô hình ngôn ngữ hỗn hợp chuyên gia (MoE) với 6710 tỷ tham số, sử dụng chú ý tiềm ẩn đa đầu (MLA) và kiến trúc DeepSeekMoE, kết hợp chiến lược cân bằng tải không có tổn thất phụ trợ, tối ưu hóa hiệu suất suy diễn và đào tạo. Thông qua việc được tiền huấn luyện trên 14.8 triệu tỷ token chất lượng cao, và thực hiện tinh chỉnh giám sát và học tăng cường, DeepSeek-V3 vượt trội hơn các mô hình mã nguồn mở khác, gần với các mô hình đóng kín hàng đầu."
|
||||
},
|
||||
"Pro/moonshotai/Kimi-K2-Instruct": {
|
||||
"description": "Kimi K2 là mô hình nền tảng kiến trúc MoE với khả năng mã hóa và đại lý vượt trội, tổng tham số 1T, tham số kích hoạt 32B. Trong các bài kiểm tra chuẩn về suy luận kiến thức chung, lập trình, toán học và đại lý, hiệu suất của mô hình K2 vượt trội so với các mô hình mã nguồn mở phổ biến khác."
|
||||
},
|
||||
"QwQ-32B-Preview": {
|
||||
"description": "QwQ-32B-Preview là một mô hình xử lý ngôn ngữ tự nhiên độc đáo, có khả năng xử lý hiệu quả các nhiệm vụ tạo đối thoại phức tạp và hiểu ngữ cảnh."
|
||||
},
|
||||
@@ -317,18 +278,9 @@
|
||||
"Qwen/Qwen3-235B-A22B": {
|
||||
"description": "Qwen3 là một mô hình lớn thế hệ mới của Tongyi Qianwen với khả năng nâng cao đáng kể, đạt được trình độ hàng đầu trong nhiều khả năng cốt lõi như suy luận, tổng quát, đại lý và đa ngôn ngữ, đồng thời hỗ trợ chuyển đổi chế độ suy nghĩ."
|
||||
},
|
||||
"Qwen/Qwen3-235B-A22B-Instruct-2507": {
|
||||
"description": "Qwen3-235B-A22B-Instruct-2507 là mô hình ngôn ngữ lớn chuyên gia hỗn hợp (MoE) hàng đầu trong dòng Qwen3 do đội ngũ Aliyun Tongyi Qianwen phát triển. Mô hình có tổng 235 tỷ tham số, mỗi lần suy luận kích hoạt 22 tỷ tham số. Đây là phiên bản cập nhật của Qwen3-235B-A22B không ở chế độ suy nghĩ, tập trung cải thiện đáng kể khả năng tuân thủ chỉ dẫn, suy luận logic, hiểu văn bản, toán học, khoa học, lập trình và sử dụng công cụ. Ngoài ra, mô hình tăng cường bao phủ kiến thức đa ngôn ngữ và điều chỉnh tốt hơn sở thích người dùng trong các tác vụ chủ quan và mở, tạo ra văn bản hữu ích và chất lượng cao hơn."
|
||||
},
|
||||
"Qwen/Qwen3-235B-A22B-Thinking-2507": {
|
||||
"description": "Qwen3-235B-A22B-Thinking-2507 là thành viên trong dòng mô hình ngôn ngữ lớn Qwen3 do đội ngũ Alibaba Tongyi Qianwen phát triển, tập trung vào các tác vụ suy luận phức tạp và khó khăn. Mô hình dựa trên kiến trúc chuyên gia hỗn hợp (MoE), tổng tham số 235 tỷ, mỗi token kích hoạt khoảng 22 tỷ tham số, giúp tăng hiệu quả tính toán trong khi duy trì hiệu suất mạnh mẽ. Là mô hình “suy nghĩ” chuyên biệt, nó cải thiện đáng kể khả năng suy luận logic, toán học, khoa học, lập trình và các bài kiểm tra học thuật, đạt trình độ hàng đầu trong các mô hình suy nghĩ mã nguồn mở. Mô hình cũng tăng cường khả năng chung như tuân thủ chỉ dẫn, sử dụng công cụ và tạo văn bản, hỗ trợ ngữ cảnh dài 256K token, rất phù hợp cho các kịch bản cần suy luận sâu và xử lý tài liệu dài."
|
||||
},
|
||||
"Qwen/Qwen3-30B-A3B": {
|
||||
"description": "Qwen3 là một mô hình lớn thế hệ mới của Tongyi Qianwen với khả năng nâng cao đáng kể, đạt được trình độ hàng đầu trong nhiều khả năng cốt lõi như suy luận, tổng quát, đại lý và đa ngôn ngữ, đồng thời hỗ trợ chuyển đổi chế độ suy nghĩ."
|
||||
},
|
||||
"Qwen/Qwen3-30B-A3B-Instruct-2507": {
|
||||
"description": "Qwen3-30B-A3B-Instruct-2507 là phiên bản cập nhật của Qwen3-30B-A3B ở chế độ không suy nghĩ. Đây là một mô hình chuyên gia hỗn hợp (MoE) với tổng cộng 30,5 tỷ tham số và 3,3 tỷ tham số kích hoạt. Mô hình này đã được cải tiến quan trọng ở nhiều khía cạnh, bao gồm nâng cao đáng kể khả năng tuân thủ chỉ dẫn, suy luận logic, hiểu văn bản, toán học, khoa học, lập trình và sử dụng công cụ. Đồng thời, nó đạt được tiến bộ thực chất trong việc bao phủ kiến thức đa ngôn ngữ và có khả năng điều chỉnh tốt hơn với sở thích của người dùng trong các nhiệm vụ chủ quan và mở, từ đó tạo ra các phản hồi hữu ích hơn và văn bản chất lượng cao hơn. Ngoài ra, khả năng hiểu văn bản dài của mô hình cũng được nâng lên đến 256K. Mô hình này chỉ hỗ trợ chế độ không suy nghĩ và không tạo ra thẻ `<think></think>` trong đầu ra."
|
||||
},
|
||||
"Qwen/Qwen3-32B": {
|
||||
"description": "Qwen3 là một mô hình lớn thế hệ mới của Tongyi Qianwen với khả năng nâng cao đáng kể, đạt được trình độ hàng đầu trong nhiều khả năng cốt lõi như suy luận, tổng quát, đại lý và đa ngôn ngữ, đồng thời hỗ trợ chuyển đổi chế độ suy nghĩ."
|
||||
},
|
||||
@@ -362,12 +314,6 @@
|
||||
"Qwen2.5-Coder-32B-Instruct": {
|
||||
"description": "Qwen2.5-Coder-32B-Instruct là một mô hình ngôn ngữ lớn được thiết kế đặc biệt cho việc tạo mã, hiểu mã và các tình huống phát triển hiệu quả, với quy mô 32B tham số hàng đầu trong ngành, có thể đáp ứng nhu cầu lập trình đa dạng."
|
||||
},
|
||||
"Qwen3-235B": {
|
||||
"description": "Qwen3-235B-A22B là mô hình MoE (mô hình chuyên gia hỗn hợp), giới thiệu “chế độ suy luận hỗn hợp”, cho phép người dùng chuyển đổi liền mạch giữa “chế độ suy nghĩ” và “chế độ không suy nghĩ”. Mô hình hỗ trợ hiểu và suy luận bằng 119 ngôn ngữ và phương ngữ, đồng thời có khả năng gọi công cụ mạnh mẽ. Trong các bài kiểm tra chuẩn về năng lực tổng hợp, mã hóa và toán học, đa ngôn ngữ, kiến thức và suy luận, mô hình có thể cạnh tranh với các mô hình lớn hàng đầu trên thị trường hiện nay như DeepSeek R1, OpenAI o1, o3-mini, Grok 3 và Google Gemini 2.5 Pro."
|
||||
},
|
||||
"Qwen3-32B": {
|
||||
"description": "Qwen3-32B là mô hình đặc (Dense Model), giới thiệu “chế độ suy luận hỗn hợp”, cho phép người dùng chuyển đổi liền mạch giữa “chế độ suy nghĩ” và “chế độ không suy nghĩ”. Nhờ cải tiến kiến trúc mô hình, tăng dữ liệu huấn luyện và phương pháp huấn luyện hiệu quả hơn, hiệu suất tổng thể tương đương với Qwen2.5-72B."
|
||||
},
|
||||
"SenseChat": {
|
||||
"description": "Mô hình phiên bản cơ bản (V4), độ dài ngữ cảnh 4K, khả năng tổng quát mạnh mẽ."
|
||||
},
|
||||
@@ -404,12 +350,6 @@
|
||||
"SenseChat-Vision": {
|
||||
"description": "Mô hình phiên bản mới nhất (V5.5), hỗ trợ đầu vào nhiều hình ảnh, hoàn thiện khả năng cơ bản của mô hình, đạt được sự cải thiện lớn trong nhận diện thuộc tính đối tượng, mối quan hệ không gian, nhận diện sự kiện hành động, hiểu cảnh, nhận diện cảm xúc, suy luận kiến thức logic và hiểu sinh ra văn bản."
|
||||
},
|
||||
"SenseNova-V6-5-Pro": {
|
||||
"description": "Thông qua việc cập nhật toàn diện dữ liệu đa phương thức, ngôn ngữ và suy luận cùng với tối ưu hóa chiến lược huấn luyện, mô hình mới đạt được sự cải thiện đáng kể trong suy luận đa phương thức và khả năng tuân theo chỉ dẫn tổng quát, hỗ trợ cửa sổ ngữ cảnh lên đến 128k và thể hiện xuất sắc trong các nhiệm vụ chuyên biệt như nhận dạng OCR và nhận diện IP du lịch văn hóa."
|
||||
},
|
||||
"SenseNova-V6-5-Turbo": {
|
||||
"description": "Thông qua việc cập nhật toàn diện dữ liệu đa phương thức, ngôn ngữ và suy luận cùng với tối ưu hóa chiến lược huấn luyện, mô hình mới đạt được sự cải thiện đáng kể trong suy luận đa phương thức và khả năng tuân theo chỉ dẫn tổng quát, hỗ trợ cửa sổ ngữ cảnh lên đến 128k và thể hiện xuất sắc trong các nhiệm vụ chuyên biệt như nhận dạng OCR và nhận diện IP du lịch văn hóa."
|
||||
},
|
||||
"SenseNova-V6-Pro": {
|
||||
"description": "Thực hiện sự thống nhất nguyên bản giữa hình ảnh, văn bản và video, vượt qua giới hạn phân tách đa phương thức truyền thống, giành được hai giải vô địch trong các đánh giá OpenCompass và SuperCLUE."
|
||||
},
|
||||
@@ -1004,9 +944,6 @@
|
||||
"doubao-seed-1.6-thinking": {
|
||||
"description": "Mô hình Doubao-Seed-1.6-thinking có khả năng suy nghĩ được tăng cường đáng kể, so với Doubao-1.5-thinking-pro, nâng cao hơn nữa các năng lực cơ bản như lập trình, toán học, suy luận logic, đồng thời hỗ trợ hiểu hình ảnh. Hỗ trợ cửa sổ ngữ cảnh 256k, độ dài đầu ra tối đa 16k tokens."
|
||||
},
|
||||
"doubao-seedream-3-0-t2i-250415": {
|
||||
"description": "Mô hình tạo hình ảnh Doubao do đội Seed của ByteDance phát triển, hỗ trợ đầu vào văn bản và hình ảnh, mang lại trải nghiệm tạo hình ảnh chất lượng cao và kiểm soát tốt. Tạo hình ảnh dựa trên từ khóa văn bản."
|
||||
},
|
||||
"doubao-vision-lite-32k": {
|
||||
"description": "Mô hình Doubao-vision là mô hình đa phương thức lớn do Doubao phát triển, có khả năng hiểu và suy luận hình ảnh mạnh mẽ, cùng khả năng hiểu chỉ dẫn chính xác. Mô hình thể hiện hiệu suất vượt trội trong việc trích xuất thông tin văn bản từ hình ảnh và các nhiệm vụ suy luận dựa trên hình ảnh, có thể ứng dụng trong các nhiệm vụ hỏi đáp thị giác phức tạp và đa dạng hơn."
|
||||
},
|
||||
@@ -1058,9 +995,6 @@
|
||||
"ernie-char-fiction-8k": {
|
||||
"description": "Mô hình ngôn ngữ lớn theo ngữ cảnh tự phát triển của Baidu, phù hợp cho các ứng dụng như NPC trong trò chơi, đối thoại dịch vụ khách hàng, và vai trò trong đối thoại, có phong cách nhân vật rõ ràng và nhất quán, khả năng tuân theo lệnh mạnh mẽ, hiệu suất suy luận tốt hơn."
|
||||
},
|
||||
"ernie-irag-edit": {
|
||||
"description": "Mô hình chỉnh sửa hình ảnh ERNIE iRAG do Baidu tự phát triển hỗ trợ các thao tác như xóa (erase), tô lại (repaint), tạo biến thể (variation) dựa trên hình ảnh."
|
||||
},
|
||||
"ernie-lite-8k": {
|
||||
"description": "ERNIE Lite là mô hình ngôn ngữ lớn nhẹ tự phát triển của Baidu, kết hợp hiệu suất mô hình xuất sắc với hiệu suất suy luận, phù hợp cho việc sử dụng trên thẻ tăng tốc AI với công suất thấp."
|
||||
},
|
||||
@@ -1088,27 +1022,12 @@
|
||||
"ernie-x1-turbo-32k": {
|
||||
"description": "So với ERNIE-X1-32K, mô hình này có hiệu suất và hiệu quả tốt hơn."
|
||||
},
|
||||
"flux-1-schnell": {
|
||||
"description": "Mô hình tạo hình ảnh từ văn bản 12 tỷ tham số do Black Forest Labs phát triển, sử dụng kỹ thuật chưng cất khuếch tán đối kháng tiềm ẩn, có thể tạo hình ảnh chất lượng cao trong 1 đến 4 bước. Mô hình có hiệu suất tương đương các sản phẩm đóng nguồn và được phát hành dưới giấy phép Apache-2.0, phù hợp cho cá nhân, nghiên cứu và thương mại."
|
||||
},
|
||||
"flux-dev": {
|
||||
"description": "FLUX.1 [dev] là mô hình tinh luyện mã nguồn mở dành cho ứng dụng phi thương mại. FLUX.1 [dev] duy trì chất lượng hình ảnh và khả năng tuân thủ chỉ dẫn gần tương đương phiên bản chuyên nghiệp FLUX, đồng thời có hiệu suất vận hành cao hơn. So với mô hình chuẩn cùng kích thước, nó sử dụng tài nguyên hiệu quả hơn."
|
||||
},
|
||||
"flux-kontext/dev": {
|
||||
"description": "Mô hình chỉnh sửa hình ảnh Frontier."
|
||||
},
|
||||
"flux-merged": {
|
||||
"description": "Mô hình FLUX.1-merged kết hợp các đặc tính sâu sắc được khám phá trong giai đoạn phát triển của \"DEV\" và ưu thế thực thi nhanh của \"Schnell\". Qua đó, FLUX.1-merged không chỉ nâng cao giới hạn hiệu suất mà còn mở rộng phạm vi ứng dụng."
|
||||
},
|
||||
"flux-pro/kontext": {
|
||||
"description": "FLUX.1 Kontext [pro] có khả năng xử lý văn bản và hình ảnh tham khảo làm đầu vào, thực hiện chỉnh sửa cục bộ có mục tiêu và biến đổi cảnh tổng thể phức tạp một cách liền mạch."
|
||||
},
|
||||
"flux-schnell": {
|
||||
"description": "FLUX.1 [schnell] là mô hình ít bước tiên tiến nhất mã nguồn mở hiện nay, vượt trội so với các đối thủ cùng loại và thậm chí hơn cả các mô hình không tinh luyện mạnh như Midjourney v6.0 và DALL·E 3 (HD). Mô hình được tinh chỉnh đặc biệt để giữ lại toàn bộ đa dạng đầu ra giai đoạn tiền huấn luyện, so với các mô hình tiên tiến trên thị trường, FLUX.1 [schnell] cải thiện đáng kể chất lượng hình ảnh, tuân thủ chỉ dẫn, thay đổi kích thước/tỷ lệ, xử lý phông chữ và đa dạng đầu ra, mang đến trải nghiệm tạo hình ảnh sáng tạo phong phú hơn cho người dùng."
|
||||
},
|
||||
"flux.1-schnell": {
|
||||
"description": "Bộ biến đổi luồng hiệu chỉnh với 12 tỷ tham số, có khả năng tạo hình ảnh dựa trên mô tả văn bản."
|
||||
},
|
||||
"flux/schnell": {
|
||||
"description": "FLUX.1 [schnell] là mô hình bộ chuyển đổi dòng với 12 tỷ tham số, có thể tạo ra hình ảnh chất lượng cao từ văn bản trong 1 đến 4 bước, phù hợp cho mục đích cá nhân và thương mại."
|
||||
},
|
||||
@@ -1190,6 +1109,9 @@
|
||||
"gemini-2.5-flash-preview-04-17": {
|
||||
"description": "Gemini 2.5 Flash Preview là mô hình có giá trị tốt nhất của Google, cung cấp đầy đủ các tính năng."
|
||||
},
|
||||
"gemini-2.5-flash-preview-04-17-thinking": {
|
||||
"description": "Gemini 2.5 Flash Preview là mô hình có hiệu suất chi phí tốt nhất của Google, cung cấp các tính năng toàn diện."
|
||||
},
|
||||
"gemini-2.5-flash-preview-05-20": {
|
||||
"description": "Gemini 2.5 Flash Preview là mô hình có hiệu suất chi phí tốt nhất của Google, cung cấp các tính năng toàn diện."
|
||||
},
|
||||
@@ -1268,21 +1190,6 @@
|
||||
"glm-4.1v-thinking-flashx": {
|
||||
"description": "Dòng mô hình GLM-4.1V-Thinking là mô hình VLM cấp 10 tỷ tham số mạnh nhất hiện biết, tích hợp các nhiệm vụ ngôn ngữ thị giác SOTA cùng cấp, bao gồm hiểu video, hỏi đáp hình ảnh, giải bài tập chuyên ngành, nhận dạng ký tự quang học (OCR), phân tích tài liệu và biểu đồ, tác nhân GUI, lập trình giao diện web frontend, định vị (Grounding) và nhiều nhiệm vụ khác, với khả năng vượt trội so với Qwen2.5-VL-72B có tham số gấp 8 lần. Thông qua công nghệ học tăng cường tiên tiến, mô hình nắm vững phương pháp suy luận chuỗi tư duy để nâng cao độ chính xác và sự phong phú của câu trả lời, vượt trội rõ rệt so với các mô hình truyền thống không có tính năng thinking về hiệu quả cuối cùng và khả năng giải thích."
|
||||
},
|
||||
"glm-4.5": {
|
||||
"description": "Mô hình hàng đầu mới nhất của Zhipu, hỗ trợ chuyển đổi chế độ suy nghĩ, đạt trình độ SOTA trong các mô hình mã nguồn mở, với độ dài ngữ cảnh lên đến 128K."
|
||||
},
|
||||
"glm-4.5-air": {
|
||||
"description": "Phiên bản nhẹ của GLM-4.5, cân bằng giữa hiệu suất và chi phí, có thể linh hoạt chuyển đổi mô hình suy nghĩ hỗn hợp."
|
||||
},
|
||||
"glm-4.5-airx": {
|
||||
"description": "Phiên bản tốc độ cao của GLM-4.5-Air, phản hồi nhanh hơn, thiết kế cho nhu cầu quy mô lớn và tốc độ cao."
|
||||
},
|
||||
"glm-4.5-flash": {
|
||||
"description": "Phiên bản miễn phí của GLM-4.5, thể hiện tốt trong các tác vụ suy luận, lập trình và tác nhân."
|
||||
},
|
||||
"glm-4.5-x": {
|
||||
"description": "Phiên bản tốc độ cao của GLM-4.5, vừa mạnh mẽ về hiệu suất, vừa đạt tốc độ tạo 100 token/giây."
|
||||
},
|
||||
"glm-4v": {
|
||||
"description": "GLM-4V cung cấp khả năng hiểu và suy luận hình ảnh mạnh mẽ, hỗ trợ nhiều nhiệm vụ hình ảnh."
|
||||
},
|
||||
@@ -1302,7 +1209,7 @@
|
||||
"description": "Suy luận siêu tốc: có tốc độ suy luận cực nhanh và hiệu quả suy luận mạnh mẽ."
|
||||
},
|
||||
"glm-z1-flash": {
|
||||
"description": "Dòng GLM-Z1 có khả năng suy luận phức tạp mạnh mẽ, thể hiện xuất sắc trong các lĩnh vực suy luận logic, toán học và lập trình."
|
||||
"description": "Dòng GLM-Z1 có khả năng suy luận phức tạp mạnh mẽ, thể hiện xuất sắc trong các lĩnh vực suy luận logic, toán học, lập trình. Độ dài ngữ cảnh tối đa là 32K."
|
||||
},
|
||||
"glm-z1-flashx": {
|
||||
"description": "Tốc độ cao, giá thấp: Phiên bản tăng cường Flash, tốc độ suy luận siêu nhanh, đảm bảo đồng thời nhanh hơn."
|
||||
@@ -1478,9 +1385,6 @@
|
||||
"grok-2-1212": {
|
||||
"description": "Mô hình này đã được cải thiện về độ chính xác, khả năng tuân thủ hướng dẫn và khả năng đa ngôn ngữ."
|
||||
},
|
||||
"grok-2-image-1212": {
|
||||
"description": "Mô hình tạo hình ảnh mới nhất của chúng tôi có thể tạo ra hình ảnh sống động và chân thực dựa trên gợi ý văn bản. Nó thể hiện xuất sắc trong các lĩnh vực marketing, mạng xã hội và giải trí."
|
||||
},
|
||||
"grok-2-vision-1212": {
|
||||
"description": "Mô hình này đã được cải thiện về độ chính xác, khả năng tuân thủ hướng dẫn và khả năng đa ngôn ngữ."
|
||||
},
|
||||
@@ -1550,9 +1454,6 @@
|
||||
"hunyuan-t1-20250529": {
|
||||
"description": "Tối ưu hóa sáng tạo văn bản, viết luận, cải thiện khả năng lập trình frontend, toán học, suy luận logic và các kỹ năng khoa học tự nhiên, nâng cao khả năng tuân thủ chỉ dẫn."
|
||||
},
|
||||
"hunyuan-t1-20250711": {
|
||||
"description": "Nâng cao đáng kể khả năng toán học, logic và mã hóa khó, tối ưu độ ổn định đầu ra mô hình, cải thiện khả năng xử lý văn bản dài."
|
||||
},
|
||||
"hunyuan-t1-latest": {
|
||||
"description": "Mô hình suy luận Hybrid-Transformer-Mamba quy mô siêu lớn đầu tiên trong ngành, mở rộng khả năng suy luận, tốc độ giải mã cực nhanh, và tiếp tục điều chỉnh theo sở thích của con người."
|
||||
},
|
||||
@@ -1601,12 +1502,6 @@
|
||||
"hunyuan-vision": {
|
||||
"description": "Mô hình đa phương thức mới nhất của Hunyuan, hỗ trợ đầu vào hình ảnh + văn bản để tạo ra nội dung văn bản."
|
||||
},
|
||||
"image-01": {
|
||||
"description": "Mô hình tạo hình ảnh hoàn toàn mới, thể hiện hình ảnh tinh tế, hỗ trợ tạo hình ảnh từ văn bản và hình ảnh."
|
||||
},
|
||||
"image-01-live": {
|
||||
"description": "Mô hình tạo hình ảnh với chất lượng tinh tế, hỗ trợ tạo hình ảnh từ văn bản và thiết lập phong cách hình ảnh."
|
||||
},
|
||||
"imagen-4.0-generate-preview-06-06": {
|
||||
"description": "Dòng mô hình chuyển đổi văn bản thành hình ảnh thế hệ thứ 4 của Imagen"
|
||||
},
|
||||
@@ -1631,9 +1526,6 @@
|
||||
"internvl3-latest": {
|
||||
"description": "Chúng tôi vừa phát hành mô hình lớn đa phương thức mới nhất, có khả năng hiểu hình ảnh và văn bản mạnh mẽ hơn, khả năng hiểu hình ảnh theo chuỗi thời gian dài, hiệu suất tương đương với các mô hình đóng nguồn hàng đầu. Mặc định chỉ đến mô hình InternVL mới nhất của chúng tôi, hiện tại chỉ đến internvl3-78b."
|
||||
},
|
||||
"irag-1.0": {
|
||||
"description": "iRAG (image based RAG) do Baidu tự phát triển, công nghệ tạo hình ảnh từ văn bản tăng cường truy xuất, kết hợp kho ảnh hàng trăm triệu của Baidu Search với khả năng mô hình nền tảng mạnh mẽ, tạo ra các hình ảnh siêu thực đa dạng, vượt trội so với hệ thống tạo hình ảnh gốc, loại bỏ cảm giác AI và chi phí thấp. iRAG có đặc điểm không ảo giác, siêu thực và có thể sử dụng ngay."
|
||||
},
|
||||
"jamba-large": {
|
||||
"description": "Mô hình mạnh mẽ và tiên tiến nhất của chúng tôi, được thiết kế đặc biệt để xử lý các nhiệm vụ phức tạp cấp doanh nghiệp, với hiệu suất xuất sắc."
|
||||
},
|
||||
@@ -1643,9 +1535,6 @@
|
||||
"jina-deepsearch-v1": {
|
||||
"description": "Tìm kiếm sâu kết hợp tìm kiếm trên mạng, đọc và suy luận, có thể thực hiện điều tra toàn diện. Bạn có thể coi nó như một đại lý, nhận nhiệm vụ nghiên cứu của bạn - nó sẽ thực hiện tìm kiếm rộng rãi và qua nhiều lần lặp lại trước khi đưa ra câu trả lời. Quá trình này liên quan đến nghiên cứu liên tục, suy luận và giải quyết vấn đề từ nhiều góc độ. Điều này khác biệt hoàn toàn với việc tạo ra câu trả lời trực tiếp từ dữ liệu đã được huấn luyện trước của các mô hình lớn tiêu chuẩn và các hệ thống RAG truyền thống dựa vào tìm kiếm bề mặt một lần."
|
||||
},
|
||||
"kimi-k2": {
|
||||
"description": "Kimi-K2 là mô hình nền tảng kiến trúc MoE do Moonshot AI phát hành, có khả năng mã hóa và đại lý vượt trội, tổng tham số 1T, tham số kích hoạt 32B. Trong các bài kiểm tra chuẩn về suy luận kiến thức chung, lập trình, toán học và đại lý, hiệu suất của mô hình K2 vượt trội so với các mô hình mã nguồn mở phổ biến khác."
|
||||
},
|
||||
"kimi-k2-0711-preview": {
|
||||
"description": "kimi-k2 là mô hình cơ sở kiến trúc MoE với khả năng mã hóa và Agent cực mạnh, tổng số tham số 1T, tham số kích hoạt 32B. Trong các bài kiểm tra hiệu năng chuẩn về suy luận kiến thức chung, lập trình, toán học, Agent và các lĩnh vực chính khác, mô hình K2 vượt trội hơn các mô hình mã nguồn mở phổ biến khác."
|
||||
},
|
||||
@@ -2039,9 +1928,6 @@
|
||||
"moonshotai/Kimi-Dev-72B": {
|
||||
"description": "Kimi-Dev-72B là một mô hình mã nguồn mở lớn, được tối ưu hóa qua học tăng cường quy mô lớn, có khả năng tạo ra các bản vá ổn định và có thể triển khai trực tiếp. Mô hình này đã đạt điểm cao kỷ lục 60,4% trên SWE-bench Verified, phá vỡ các kỷ lục của mô hình mã nguồn mở trong các nhiệm vụ kỹ thuật phần mềm tự động như sửa lỗi và đánh giá mã."
|
||||
},
|
||||
"moonshotai/Kimi-K2-Instruct": {
|
||||
"description": "Kimi K2 là mô hình nền tảng kiến trúc MoE có khả năng mã hóa và đại lý vượt trội, tổng tham số 1T, tham số kích hoạt 32B. Trong các bài kiểm tra chuẩn về suy luận kiến thức chung, lập trình, toán học và đại lý, hiệu suất của mô hình K2 vượt trội so với các mô hình mã nguồn mở phổ biến khác."
|
||||
},
|
||||
"moonshotai/kimi-k2-instruct": {
|
||||
"description": "kimi-k2 là mô hình cơ sở kiến trúc MoE với khả năng mã hóa và Agent cực mạnh, tổng số tham số 1T, tham số kích hoạt 32B. Trong các bài kiểm tra hiệu năng chuẩn về suy luận kiến thức chung, lập trình, toán học, Agent và các loại chính khác, mô hình K2 vượt trội hơn các mô hình mã nguồn mở phổ biến khác."
|
||||
},
|
||||
@@ -2378,21 +2264,9 @@
|
||||
"qwen3-235b-a22b": {
|
||||
"description": "Qwen3 là một mô hình lớn thế hệ mới với khả năng vượt trội, đạt được trình độ hàng đầu trong nhiều khả năng cốt lõi như suy luận, tổng quát, đại lý và đa ngôn ngữ, đồng thời hỗ trợ chuyển đổi chế độ suy nghĩ."
|
||||
},
|
||||
"qwen3-235b-a22b-instruct-2507": {
|
||||
"description": "Mô hình mã nguồn mở không ở chế độ suy nghĩ dựa trên Qwen3, so với phiên bản trước (Tongyi Qianwen 3-235B-A22B) có cải thiện nhẹ về khả năng sáng tạo chủ quan và an toàn mô hình."
|
||||
},
|
||||
"qwen3-235b-a22b-thinking-2507": {
|
||||
"description": "Mô hình mã nguồn mở ở chế độ suy nghĩ dựa trên Qwen3, so với phiên bản trước (Tongyi Qianwen 3-235B-A22B) có cải thiện lớn về khả năng logic, năng lực chung, tăng cường kiến thức và khả năng sáng tạo, phù hợp cho các kịch bản suy luận phức tạp và khó."
|
||||
},
|
||||
"qwen3-30b-a3b": {
|
||||
"description": "Qwen3 là một mô hình lớn thế hệ mới với khả năng vượt trội, đạt được trình độ hàng đầu trong nhiều khả năng cốt lõi như suy luận, tổng quát, đại lý và đa ngôn ngữ, đồng thời hỗ trợ chuyển đổi chế độ suy nghĩ."
|
||||
},
|
||||
"qwen3-30b-a3b-instruct-2507": {
|
||||
"description": "So với phiên bản trước (Qwen3-30B-A3B), khả năng tổng quát của mô hình trong tiếng Trung, tiếng Anh và đa ngôn ngữ đã được cải thiện đáng kể. Mô hình được tối ưu hóa đặc biệt cho các nhiệm vụ mở và chủ quan, phù hợp hơn với sở thích người dùng và có thể cung cấp các phản hồi hữu ích hơn."
|
||||
},
|
||||
"qwen3-30b-a3b-thinking-2507": {
|
||||
"description": "Dựa trên mô hình mã nguồn mở chế độ suy nghĩ của Qwen3, so với phiên bản trước (通义千问3-30B-A3B), khả năng logic, năng lực tổng quát, kiến thức được tăng cường và khả năng sáng tạo đều được cải thiện đáng kể, phù hợp cho các kịch bản suy luận phức tạp và khó khăn."
|
||||
},
|
||||
"qwen3-32b": {
|
||||
"description": "Qwen3 là một mô hình lớn thế hệ mới với khả năng vượt trội, đạt được trình độ hàng đầu trong nhiều khả năng cốt lõi như suy luận, tổng quát, đại lý và đa ngôn ngữ, đồng thời hỗ trợ chuyển đổi chế độ suy nghĩ."
|
||||
},
|
||||
@@ -2402,12 +2276,6 @@
|
||||
"qwen3-8b": {
|
||||
"description": "Qwen3 là một mô hình lớn thế hệ mới với khả năng vượt trội, đạt được trình độ hàng đầu trong nhiều khả năng cốt lõi như suy luận, tổng quát, đại lý và đa ngôn ngữ, đồng thời hỗ trợ chuyển đổi chế độ suy nghĩ."
|
||||
},
|
||||
"qwen3-coder-480b-a35b-instruct": {
|
||||
"description": "Phiên bản mã nguồn mở của mô hình mã hóa Tongyi Qianwen. Mô hình qwen3-coder-480b-a35b-instruct mới nhất dựa trên Qwen3, có khả năng Coding Agent mạnh mẽ, thành thạo gọi công cụ và tương tác môi trường, có thể lập trình tự chủ, vừa xuất sắc về mã hóa vừa có năng lực chung."
|
||||
},
|
||||
"qwen3-coder-plus": {
|
||||
"description": "Mô hình mã hóa Tongyi Qianwen. Dòng mô hình Qwen3-Coder-Plus mới nhất dựa trên Qwen3, có khả năng Coding Agent mạnh mẽ, thành thạo gọi công cụ và tương tác môi trường, có thể lập trình tự chủ, vừa xuất sắc về mã hóa vừa có năng lực chung."
|
||||
},
|
||||
"qwq": {
|
||||
"description": "QwQ là một mô hình nghiên cứu thử nghiệm, tập trung vào việc nâng cao khả năng suy luận của AI."
|
||||
},
|
||||
@@ -2450,24 +2318,6 @@
|
||||
"sonar-reasoning-pro": {
|
||||
"description": "Sản phẩm API mới được hỗ trợ bởi mô hình suy diễn DeepSeek."
|
||||
},
|
||||
"stable-diffusion-3-medium": {
|
||||
"description": "Mô hình tạo hình ảnh từ văn bản mới nhất do Stability AI phát hành. Phiên bản này kế thừa ưu điểm của thế hệ trước, cải tiến đáng kể về chất lượng hình ảnh, hiểu văn bản và đa dạng phong cách, có thể giải thích chính xác các gợi ý ngôn ngữ tự nhiên phức tạp và tạo ra hình ảnh chính xác, đa dạng hơn."
|
||||
},
|
||||
"stable-diffusion-3.5-large": {
|
||||
"description": "stable-diffusion-3.5-large là mô hình tạo hình ảnh từ văn bản đa phương thức khuếch tán biến áp (MMDiT) với 800 triệu tham số, có chất lượng hình ảnh xuất sắc và độ khớp gợi ý cao, hỗ trợ tạo hình ảnh độ phân giải cao 1 triệu pixel, đồng thời vận hành hiệu quả trên phần cứng tiêu dùng phổ thông."
|
||||
},
|
||||
"stable-diffusion-3.5-large-turbo": {
|
||||
"description": "stable-diffusion-3.5-large-turbo là mô hình dựa trên stable-diffusion-3.5-large, sử dụng kỹ thuật chưng cất khuếch tán đối kháng (ADD), có tốc độ nhanh hơn."
|
||||
},
|
||||
"stable-diffusion-v1.5": {
|
||||
"description": "stable-diffusion-v1.5 được khởi tạo từ trọng số checkpoint stable-diffusion-v1.2, được tinh chỉnh 595k bước ở độ phân giải 512x512 trên \"laion-aesthetics v2 5+\", giảm 10% điều kiện hóa văn bản để cải thiện lấy mẫu hướng dẫn không bộ phân loại."
|
||||
},
|
||||
"stable-diffusion-xl": {
|
||||
"description": "stable-diffusion-xl có cải tiến lớn so với v1.5 và đạt hiệu quả tương đương mô hình SOTA mã nguồn mở hiện tại như midjourney. Cải tiến cụ thể bao gồm: unet backbone lớn hơn gấp 3 lần; thêm module tinh chỉnh để cải thiện chất lượng hình ảnh tạo ra; kỹ thuật huấn luyện hiệu quả hơn."
|
||||
},
|
||||
"stable-diffusion-xl-base-1.0": {
|
||||
"description": "Mô hình tạo hình ảnh từ văn bản quy mô lớn do Stability AI phát triển và mã nguồn mở, có khả năng tạo hình ảnh sáng tạo đứng đầu ngành. Có khả năng hiểu chỉ dẫn xuất sắc, hỗ trợ định nghĩa prompt ngược để tạo nội dung chính xác."
|
||||
},
|
||||
"step-1-128k": {
|
||||
"description": "Cân bằng hiệu suất và chi phí, phù hợp cho các tình huống chung."
|
||||
},
|
||||
@@ -2498,12 +2348,6 @@
|
||||
"step-1v-8k": {
|
||||
"description": "Mô hình thị giác nhỏ, phù hợp cho các nhiệm vụ cơ bản về văn bản và hình ảnh."
|
||||
},
|
||||
"step-1x-edit": {
|
||||
"description": "Mô hình tập trung vào tác vụ chỉnh sửa hình ảnh, có thể sửa đổi và nâng cao hình ảnh dựa trên hình ảnh và mô tả văn bản do người dùng cung cấp. Hỗ trợ nhiều định dạng đầu vào, bao gồm mô tả văn bản và hình ảnh mẫu. Mô hình hiểu ý định người dùng và tạo ra kết quả chỉnh sửa hình ảnh phù hợp."
|
||||
},
|
||||
"step-1x-medium": {
|
||||
"description": "Mô hình có khả năng tạo hình ảnh mạnh mẽ, hỗ trợ đầu vào mô tả văn bản. Hỗ trợ tiếng Trung bản địa, có thể hiểu và xử lý mô tả văn bản tiếng Trung tốt hơn, nắm bắt chính xác thông tin ngữ nghĩa trong mô tả và chuyển đổi thành đặc trưng hình ảnh, từ đó tạo hình ảnh chính xác hơn. Mô hình có thể tạo hình ảnh độ phân giải cao, chất lượng tốt và có khả năng chuyển đổi phong cách nhất định."
|
||||
},
|
||||
"step-2-16k": {
|
||||
"description": "Hỗ trợ tương tác ngữ cảnh quy mô lớn, phù hợp cho các tình huống đối thoại phức tạp."
|
||||
},
|
||||
@@ -2513,9 +2357,6 @@
|
||||
"step-2-mini": {
|
||||
"description": "Mô hình lớn siêu tốc dựa trên kiến trúc Attention tự nghiên cứu thế hệ mới MFA, đạt được hiệu quả tương tự như step1 với chi phí rất thấp, đồng thời duy trì thông lượng cao hơn và độ trễ phản hồi nhanh hơn. Có khả năng xử lý các nhiệm vụ chung, đặc biệt có năng lực trong lập trình."
|
||||
},
|
||||
"step-2x-large": {
|
||||
"description": "Mô hình tạo hình ảnh thế hệ mới của Step Star, tập trung vào tác vụ tạo hình ảnh, có thể tạo ra hình ảnh chất lượng cao dựa trên mô tả văn bản do người dùng cung cấp. Mô hình mới tạo ra hình ảnh có cảm giác thực hơn, khả năng tạo chữ tiếng Trung và tiếng Anh mạnh hơn."
|
||||
},
|
||||
"step-r1-v-mini": {
|
||||
"description": "Mô hình này là một mô hình suy luận lớn với khả năng hiểu hình ảnh mạnh mẽ, có thể xử lý thông tin hình ảnh và văn bản, và xuất ra nội dung văn bản sau khi suy nghĩ sâu. Mô hình này thể hiện xuất sắc trong lĩnh vực suy luận hình ảnh, đồng thời có khả năng toán học, mã và suy luận văn bản hàng đầu. Độ dài ngữ cảnh là 100k."
|
||||
},
|
||||
@@ -2591,23 +2432,8 @@
|
||||
"v0-1.5-md": {
|
||||
"description": "Mô hình v0-1.5-md phù hợp cho các nhiệm vụ hàng ngày và tạo giao diện người dùng (UI)"
|
||||
},
|
||||
"wan2.2-t2i-flash": {
|
||||
"description": "Phiên bản tốc độ cao Wanxiang 2.2, là mô hình mới nhất hiện nay. Nâng cấp toàn diện về sáng tạo, ổn định và cảm giác thực, tốc độ tạo nhanh, hiệu quả chi phí cao."
|
||||
},
|
||||
"wan2.2-t2i-plus": {
|
||||
"description": "Phiên bản chuyên nghiệp Wanxiang 2.2, là mô hình mới nhất hiện nay. Nâng cấp toàn diện về sáng tạo, ổn định và cảm giác thực, tạo chi tiết phong phú."
|
||||
},
|
||||
"wanx-v1": {
|
||||
"description": "Mô hình tạo hình ảnh từ văn bản cơ bản, tương ứng với mô hình chung 1.0 trên trang chính thức Tongyi Wanxiang."
|
||||
},
|
||||
"wanx2.0-t2i-turbo": {
|
||||
"description": "Chuyên về chân dung có cảm giác thực, tốc độ trung bình, chi phí thấp. Tương ứng với mô hình tốc độ cao 2.0 trên trang chính thức Tongyi Wanxiang."
|
||||
},
|
||||
"wanx2.1-t2i-plus": {
|
||||
"description": "Phiên bản nâng cấp toàn diện, tạo hình ảnh chi tiết phong phú hơn, tốc độ hơi chậm. Tương ứng với mô hình chuyên nghiệp 2.1 trên trang chính thức Tongyi Wanxiang."
|
||||
},
|
||||
"wanx2.1-t2i-turbo": {
|
||||
"description": "Phiên bản nâng cấp toàn diện, tốc độ tạo nhanh, hiệu quả toàn diện, chi phí tổng hợp cao. Tương ứng với mô hình tốc độ cao 2.1 trên trang chính thức Tongyi Wanxiang."
|
||||
"description": "Mô hình tạo hình ảnh từ văn bản thuộc Alibaba Cloud Tongyi"
|
||||
},
|
||||
"whisper-1": {
|
||||
"description": "Mô hình nhận dạng giọng nói đa năng, hỗ trợ nhận dạng giọng nói đa ngôn ngữ, dịch giọng nói và nhận diện ngôn ngữ."
|
||||
@@ -2659,11 +2485,5 @@
|
||||
},
|
||||
"yi-vision-v2": {
|
||||
"description": "Mô hình nhiệm vụ thị giác phức tạp, cung cấp khả năng hiểu và phân tích hiệu suất cao dựa trên nhiều hình ảnh."
|
||||
},
|
||||
"zai-org/GLM-4.5": {
|
||||
"description": "GLM-4.5 là mô hình nền tảng dành cho ứng dụng tác nhân thông minh, sử dụng kiến trúc chuyên gia hỗn hợp (Mixture-of-Experts). Được tối ưu sâu trong các lĩnh vực gọi công cụ, duyệt web, kỹ thuật phần mềm và lập trình front-end, hỗ trợ tích hợp liền mạch vào các tác nhân mã như Claude Code, Roo Code. GLM-4.5 sử dụng chế độ suy luận hỗn hợp, thích ứng với nhiều kịch bản ứng dụng như suy luận phức tạp và sử dụng hàng ngày."
|
||||
},
|
||||
"zai-org/GLM-4.5-Air": {
|
||||
"description": "GLM-4.5-Air là mô hình nền tảng dành cho ứng dụng tác nhân thông minh, sử dụng kiến trúc chuyên gia hỗn hợp (Mixture-of-Experts). Được tối ưu sâu trong các lĩnh vực gọi công cụ, duyệt web, kỹ thuật phần mềm và lập trình front-end, hỗ trợ tích hợp liền mạch vào các tác nhân mã như Claude Code, Roo Code. GLM-4.5 sử dụng chế độ suy luận hỗn hợp, thích ứng với nhiều kịch bản ứng dụng như suy luận phức tạp và sử dụng hàng ngày."
|
||||
}
|
||||
}
|
||||
|
||||
@@ -5,9 +5,6 @@
|
||||
"ai360": {
|
||||
"description": "360 AI là nền tảng mô hình và dịch vụ AI do công ty 360 phát hành, cung cấp nhiều mô hình xử lý ngôn ngữ tự nhiên tiên tiến, bao gồm 360GPT2 Pro, 360GPT Pro, 360GPT Turbo và 360GPT Turbo Responsibility 8K. Những mô hình này kết hợp giữa tham số quy mô lớn và khả năng đa phương thức, được ứng dụng rộng rãi trong tạo văn bản, hiểu ngữ nghĩa, hệ thống đối thoại và tạo mã. Thông qua chiến lược giá linh hoạt, 360 AI đáp ứng nhu cầu đa dạng của người dùng, hỗ trợ nhà phát triển tích hợp, thúc đẩy sự đổi mới và phát triển ứng dụng thông minh."
|
||||
},
|
||||
"aihubmix": {
|
||||
"description": "AiHubMix cung cấp truy cập đến nhiều mô hình AI thông qua một giao diện API thống nhất."
|
||||
},
|
||||
"anthropic": {
|
||||
"description": "Anthropic là một công ty tập trung vào nghiên cứu và phát triển trí tuệ nhân tạo, cung cấp một loạt các mô hình ngôn ngữ tiên tiến như Claude 3.5 Sonnet, Claude 3 Sonnet, Claude 3 Opus và Claude 3 Haiku. Những mô hình này đạt được sự cân bằng lý tưởng giữa trí thông minh, tốc độ và chi phí, phù hợp cho nhiều ứng dụng từ khối lượng công việc doanh nghiệp đến phản hồi nhanh. Claude 3.5 Sonnet, là mô hình mới nhất của họ, thể hiện xuất sắc trong nhiều đánh giá, đồng thời duy trì tỷ lệ hiệu suất cao."
|
||||
},
|
||||
|
||||
@@ -189,7 +189,6 @@
|
||||
"aesGcm": "您的秘钥与代理地址等将使用 <1>AES-GCM</1> 加密算法进行加密",
|
||||
"apiKey": {
|
||||
"desc": "请填写你的 {{name}} API Key",
|
||||
"descWithUrl": "请填写你的 {{name}} API Key,<3>点此获取</3>",
|
||||
"placeholder": "{{name}} API Key",
|
||||
"title": "API Key"
|
||||
},
|
||||
|
||||
+5
-185
@@ -32,9 +32,6 @@
|
||||
"4.0Ultra": {
|
||||
"description": "Spark Ultra 是星火大模型系列中最为强大的版本,在升级联网搜索链路同时,提升对文本内容的理解和总结能力。它是用于提升办公生产力和准确响应需求的全方位解决方案,是引领行业的智能产品。"
|
||||
},
|
||||
"AnimeSharp": {
|
||||
"description": "AnimeSharp(又名 “4x‑AnimeSharp”) 是 Kim2091 基于 ESRGAN 架构开发的开源超分辨率模型,专注于动漫风格图像的放大与锐化。它于 2022 年 2 月重命名自 “4x-TextSharpV1”,原本也适用于文字图像但性能针对动漫内容进行了大幅优化"
|
||||
},
|
||||
"Baichuan2-Turbo": {
|
||||
"description": "采用搜索增强技术实现大模型与领域知识、全网知识的全面链接。支持PDF、Word等多种文档上传及网址输入,信息获取及时、全面,输出结果准确、专业。"
|
||||
},
|
||||
@@ -92,9 +89,6 @@
|
||||
"Doubao-pro-4k": {
|
||||
"description": "效果最好的主力模型,适合处理复杂任务,在参考问答、总结摘要、创作、文本分类、角色扮演等场景都有很好的效果。支持4k上下文窗口的推理和精调。"
|
||||
},
|
||||
"DreamO": {
|
||||
"description": "DreamO 是由字节跳动与北京大学联合研发的开源图像定制生成模型,旨在通过统一架构支持多任务图像生成。它采用高效的组合建模方法,可根据用户指定的身份、主体、风格、背景等多个条件生成高度一致且定制化的图像。"
|
||||
},
|
||||
"ERNIE-3.5-128K": {
|
||||
"description": "百度自研的旗舰级大规模⼤语⾔模型,覆盖海量中英文语料,具有强大的通用能力,可满足绝大部分对话问答、创作生成、插件应用场景要求;支持自动对接百度搜索插件,保障问答信息时效。"
|
||||
},
|
||||
@@ -128,39 +122,15 @@
|
||||
"ERNIE-Speed-Pro-128K": {
|
||||
"description": "百度2024年最新发布的自研高性能大语言模型,通用能力优异,效果比ERNIE Speed更优,适合作为基座模型进行精调,更好地处理特定场景问题,同时具备极佳的推理性能。"
|
||||
},
|
||||
"FLUX.1-Kontext-dev": {
|
||||
"description": "FLUX.1-Kontext-dev 是由 Black Forest Labs 开发的一款基于 Rectified Flow Transformer 架构 的多模态图像生成与编辑模型,拥有 12B(120 亿)参数规模,专注于在给定上下文条件下生成、重构、增强或编辑图像。该模型结合了扩散模型的可控生成优势与 Transformer 的上下文建模能力,支持高质量图像输出,广泛适用于图像修复、图像补全、视觉场景重构等任务。"
|
||||
},
|
||||
"FLUX.1-dev": {
|
||||
"description": "FLUX.1-dev 是由 Black Forest Labs 开发的一款开源 多模态语言模型(Multimodal Language Model, MLLM),专为图文任务优化,融合了图像和文本的理解与生成能力。它建立在先进的大语言模型(如 Mistral-7B)基础上,通过精心设计的视觉编码器与多阶段指令微调,实现了图文协同处理与复杂任务推理的能力。"
|
||||
},
|
||||
"Gryphe/MythoMax-L2-13b": {
|
||||
"description": "MythoMax-L2 (13B) 是一种创新模型,适合多领域应用和复杂任务。"
|
||||
},
|
||||
"HelloMeme": {
|
||||
"description": "HelloMeme 是一个可以根据你提供的图片或动作,自动生成表情包、动图或短视频的 AI 工具。它不需要你有任何绘画或编程基础,只需要准备好参考图片,它就能帮你做出好看、有趣、风格一致的内容。"
|
||||
},
|
||||
"HiDream-I1-Full": {
|
||||
"description": "HiDream-E1-Full 是由智象未来(HiDream.ai)推出的一款 开源多模态图像编辑大模型,基于先进的 Diffusion Transformer 架构,并结合强大的语言理解能力(内嵌 LLaMA 3.1-8B-Instruct),支持通过自然语言指令进行图像生成、风格迁移、局部编辑和内容重绘,具备出色的图文理解与执行能力。"
|
||||
},
|
||||
"HunyuanDiT-v1.2-Diffusers-Distilled": {
|
||||
"description": "hunyuandit-v1.2-distilled 是一款轻量级的文生图模型,经过蒸馏优化,能够快速生成高质量的图像,特别适用于低资源环境和实时生成任务。"
|
||||
},
|
||||
"InstantCharacter": {
|
||||
"description": "InstantCharacter 是由腾讯 AI 团队在 2025 年发布的一款 无需微调(tuning-free) 的个性化角色生成模型,旨在实现高保真、跨场景的一致角色生成。该模型支持仅基于 一张参考图像 对角色进行建模,并能够将该角色灵活迁移到各种风格、动作和背景中。"
|
||||
},
|
||||
"InternVL2-8B": {
|
||||
"description": "InternVL2-8B 是一款强大的视觉语言模型,支持图像与文本的多模态处理,能够精确识别图像内容并生成相关描述或回答。"
|
||||
},
|
||||
"InternVL2.5-26B": {
|
||||
"description": "InternVL2.5-26B 是一款强大的视觉语言模型,支持图像与文本的多模态处理,能够精确识别图像内容并生成相关描述或回答。"
|
||||
},
|
||||
"Kolors": {
|
||||
"description": "Kolors 是由快手 Kolors 团队开发的文生图模型。由数十亿的参数训练,在视觉质量、中文语义理解和文本渲染方面有显著优势。"
|
||||
},
|
||||
"Kwai-Kolors/Kolors": {
|
||||
"description": "Kolors 是由快手 Kolors 团队开发的基于潜在扩散的大规模文本到图像生成模型。该模型通过数十亿文本-图像对的训练,在视觉质量、复杂语义准确性以及中英文字符渲染方面展现出显著优势。它不仅支持中英文输入,在理解和生成中文特定内容方面也表现出色"
|
||||
},
|
||||
"Llama-3.2-11B-Vision-Instruct": {
|
||||
"description": "在高分辨率图像上表现出色的图像推理能力,适用于视觉理解应用。"
|
||||
},
|
||||
@@ -194,15 +164,9 @@
|
||||
"MiniMaxAI/MiniMax-M1-80k": {
|
||||
"description": "MiniMax-M1 是开源权重的大规模混合注意力推理模型,拥有 4560 亿参数,每个 Token 可激活约 459 亿参数。模型原生支持 100 万 Token 的超长上下文,并通过闪电注意力机制,在 10 万 Token 的生成任务中相比 DeepSeek R1 节省 75% 的浮点运算量。同时,MiniMax-M1 采用 MoE(混合专家)架构,结合 CISPO 算法与混合注意力设计的高效强化学习训练,在长输入推理与真实软件工程场景中实现了业界领先的性能。"
|
||||
},
|
||||
"Moonshot-Kimi-K2-Instruct": {
|
||||
"description": "总参数 1T,激活参数 32B。 非思维模型中,在前沿知识、数学和编码方面达到了顶尖水平,更擅长通用 Agent 任务。 针对代理任务进行了精心优化,不仅能回答问题,还能采取行动。 最适用于即兴、通用聊天和代理体验,是一款无需长时间思考的反射级模型。"
|
||||
},
|
||||
"NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
||||
"description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B) 是高精度的指令模型,适用于复杂计算。"
|
||||
},
|
||||
"OmniConsistency": {
|
||||
"description": "OmniConsistency 通过引入大规模 Diffusion Transformers(DiTs)和配对风格化数据,提升图像到图像(Image-to-Image)任务中的风格一致性和泛化能力,避免风格退化。"
|
||||
},
|
||||
"Phi-3-medium-128k-instruct": {
|
||||
"description": "相同的Phi-3-medium模型,但具有更大的上下文大小,适用于RAG或少量提示。"
|
||||
},
|
||||
@@ -254,9 +218,6 @@
|
||||
"Pro/deepseek-ai/DeepSeek-V3": {
|
||||
"description": "DeepSeek-V3 是一款拥有 6710 亿参数的混合专家(MoE)语言模型,采用多头潜在注意力(MLA)和 DeepSeekMoE 架构,结合无辅助损失的负载平衡策略,优化推理和训练效率。通过在 14.8 万亿高质量tokens上预训练,并进行监督微调和强化学习,DeepSeek-V3 在性能上超越其他开源模型,接近领先闭源模型。"
|
||||
},
|
||||
"Pro/moonshotai/Kimi-K2-Instruct": {
|
||||
"description": "Kimi K2 是一款具备超强代码和 Agent 能力的 MoE 架构基础模型,总参数 1T,激活参数 32B。在通用知识推理、编程、数学、Agent 等主要类别的基准性能测试中,K2 模型的性能超过其他主流开源模型。"
|
||||
},
|
||||
"QwQ-32B-Preview": {
|
||||
"description": "Qwen QwQ 是由 Qwen 团队开发的实验研究模型,专注于提升AI推理能力。"
|
||||
},
|
||||
@@ -317,18 +278,9 @@
|
||||
"Qwen/Qwen3-235B-A22B": {
|
||||
"description": "Qwen3是一款能力大幅提升的新一代通义千问大模型,在推理、通用、Agent和多语言等多个核心能力上均达到业界领先水平,并支持思考模式切换。"
|
||||
},
|
||||
"Qwen/Qwen3-235B-A22B-Instruct-2507": {
|
||||
"description": "Qwen3-235B-A22B-Instruct-2507 是由阿里云通义千问团队开发的 Qwen3 系列中的一款旗舰级混合专家(MoE)大语言模型。该模型拥有 2350 亿总参数,每次推理激活 220 亿参数。它是作为 Qwen3-235B-A22B 非思考模式的更新版本发布的,专注于在指令遵循、逻辑推理、文本理解、数学、科学、编程及工具使用等通用能力上实现显著提升。此外,模型增强了对多语言长尾知识的覆盖,并能更好地对齐用户在主观和开放性任务上的偏好,以生成更有帮助和更高质量的文本。"
|
||||
},
|
||||
"Qwen/Qwen3-235B-A22B-Thinking-2507": {
|
||||
"description": "Qwen3-235B-A22B-Thinking-2507 是由阿里巴巴通义千问团队开发的 Qwen3 系列大型语言模型中的一员,专注于高难度的复杂推理任务。该模型基于混合专家(MoE)架构,总参数量达 2350 亿,而在处理每个 token 时仅激活约 220 亿参数,从而在保持强大性能的同时提高了计算效率。作为一个专门的“思考”模型,它在逻辑推理、数学、科学、编程和学术基准测试等需要人类专业知识的任务上表现显著提升,达到了开源思考模型中的顶尖水平。此外,模型还增强了通用能力,如指令遵循、工具使用和文本生成,并原生支持 256K 的长上下文理解能力,非常适合用于需要深度推理和处理长文档的场景。"
|
||||
},
|
||||
"Qwen/Qwen3-30B-A3B": {
|
||||
"description": "Qwen3是一款能力大幅提升的新一代通义千问大模型,在推理、通用、Agent和多语言等多个核心能力上均达到业界领先水平,并支持思考模式切换。"
|
||||
},
|
||||
"Qwen/Qwen3-30B-A3B-Instruct-2507": {
|
||||
"description": "Qwen3-30B-A3B-Instruct-2507 是 Qwen3-30B-A3B 非思考模式的更新版本。这是一个拥有 305 亿总参数和 33 亿激活参数的混合专家(MoE)模型。该模型在多个方面进行了关键增强,包括显著提升了指令遵循、逻辑推理、文本理解、数学、科学、编码和工具使用等通用能力。同时,它在多语言的长尾知识覆盖范围上取得了实质性进展,并能更好地与用户在主观和开放式任务中的偏好对齐,从而能够生成更有帮助的回复和更高质量的文本。此外,该模型的长文本理解能力也增强到了 256K。此模型仅支持非思考模式,其输出中不会生成 `<think></think>` 标签。"
|
||||
},
|
||||
"Qwen/Qwen3-32B": {
|
||||
"description": "Qwen3是一款能力大幅提升的新一代通义千问大模型,在推理、通用、Agent和多语言等多个核心能力上均达到业界领先水平,并支持思考模式切换。"
|
||||
},
|
||||
@@ -362,12 +314,6 @@
|
||||
"Qwen2.5-Coder-32B-Instruct": {
|
||||
"description": "高级 LLM,支持代码生成、推理和修复,涵盖主流编程语言。"
|
||||
},
|
||||
"Qwen3-235B": {
|
||||
"description": "Qwen3-235B-A22B,MoE(混合专家模型)模型,引入了“混合推理模式”,支持用户在“思考模式”和“非思考模式”之间无缝切换,支持119种语言和方言理解与推理,并具备强大的工具调用能力,在综合能力、代码与数学、多语言能力、知识与推理等多项基准测试中,都能与DeepSeek R1、OpenAI o1、o3-mini、Grok 3和谷歌Gemini 2.5 Pro等目前市场上的主流大模型竞争。"
|
||||
},
|
||||
"Qwen3-32B": {
|
||||
"description": "Qwen3-32B,稠密模型(Dense Model),引入了“混合推理模式”,支持用户在“思考模式”和“非思考模式”之间无缝切换,由于模型架构改进、训练数据增加以及更有效的训练方法,整体性能与Qwen2.5-72B表现相当。"
|
||||
},
|
||||
"SenseChat": {
|
||||
"description": "基础版本模型 (V4),4K上下文长度,通用能力强大"
|
||||
},
|
||||
@@ -404,12 +350,6 @@
|
||||
"SenseChat-Vision": {
|
||||
"description": "最新版本模型 (V5.5),支持多图的输入,全面实现模型基础能力优化,在对象属性识别、空间关系、动作事件识别、场景理解、情感识别、逻辑常识推理和文本理解生成上都实现了较大提升。"
|
||||
},
|
||||
"SenseNova-V6-5-Pro": {
|
||||
"description": "通过对多模态、语言及推理数据的全面更新与训练策略的优化,新模型在多模态推理和泛化指令跟随能力上实现了显著提升,支持高达128k的上下文窗口,并在OCR与文旅IP识别等专项任务中表现卓越。"
|
||||
},
|
||||
"SenseNova-V6-5-Turbo": {
|
||||
"description": "通过对多模态、语言及推理数据的全面更新与训练策略的优化,新模型在多模态推理和泛化指令跟随能力上实现了显著提升,支持高达128k的上下文窗口,并在OCR与文旅IP识别等专项任务中表现卓越。"
|
||||
},
|
||||
"SenseNova-V6-Pro": {
|
||||
"description": "实现图片、文本、视频能力的原生统一,突破传统多模态分立局限,在OpenCompass和SuperCLUE评测中斩获双冠军。"
|
||||
},
|
||||
@@ -1004,9 +944,6 @@
|
||||
"doubao-seed-1.6-thinking": {
|
||||
"description": "Doubao-Seed-1.6-thinking模型思考能力大幅强化, 对比Doubao-1.5-thinking-pro,在Coding、Math、 逻辑推理等基础能力上进一步提升, 支持视觉理解。 支持 256k 上下文窗口,输出长度支持最大 16k tokens。"
|
||||
},
|
||||
"doubao-seedream-3-0-t2i-250415": {
|
||||
"description": "Doubao图片生成模型由字节跳动 Seed 团队研发,支持文字与图片输入,提供高可控、高质量的图片生成体验。基于文本提示词生成图片。"
|
||||
},
|
||||
"doubao-vision-lite-32k": {
|
||||
"description": "Doubao-vision 模型是豆包推出的多模态大模型,具备强大的图片理解与推理能力,以及精准的指令理解能力。模型在图像文本信息抽取、基于图像的推理任务上有展现出了强大的性能,能够应用于更复杂、更广泛的视觉问答任务。"
|
||||
},
|
||||
@@ -1058,9 +995,6 @@
|
||||
"ernie-char-fiction-8k": {
|
||||
"description": "百度自研的垂直场景大语言模型,适合游戏NPC、客服对话、对话角色扮演等应用场景,人设风格更为鲜明、一致,指令遵循能力更强,推理性能更优。"
|
||||
},
|
||||
"ernie-irag-edit": {
|
||||
"description": "百度自研的ERNIE iRAG Edit图像编辑模型支持基于图片进行erase(消除对象)、repaint(重绘对象)、variation(生成变体)等操作。"
|
||||
},
|
||||
"ernie-lite-8k": {
|
||||
"description": "ERNIE Lite是百度自研的轻量级大语言模型,兼顾优异的模型效果与推理性能,适合低算力AI加速卡推理使用。"
|
||||
},
|
||||
@@ -1088,27 +1022,12 @@
|
||||
"ernie-x1-turbo-32k": {
|
||||
"description": "与ERNIE-X1-32K相比,模型效果和性能更好。"
|
||||
},
|
||||
"flux-1-schnell": {
|
||||
"description": "由 Black Forest Labs 开发的 120 亿参数文生图模型,采用潜在对抗扩散蒸馏技术,能够在 1 到 4 步内生成高质量图像。该模型性能媲美闭源替代品,并在 Apache-2.0 许可证下发布,适用于个人、科研和商业用途。"
|
||||
},
|
||||
"flux-dev": {
|
||||
"description": "FLUX.1 [dev] 是一款面向非商业应用的开源权重、精炼模型。FLUX.1 [dev] 在保持了与FLUX专业版相近的图像质量和指令遵循能力的同时,具备更高的运行效率。相较于同尺寸的标准模型,它在资源利用上更为高效。"
|
||||
},
|
||||
"flux-kontext/dev": {
|
||||
"description": "Frontier image editing model."
|
||||
},
|
||||
"flux-merged": {
|
||||
"description": "FLUX.1-merged 模型结合了 \"DEV\" 在开发阶段探索的深度特性和 \"Schnell\" 所代表的高速执行优势。通过这一举措,FLUX.1-merged 不仅提升了模型的性能界限,还拓宽了其应用范围。"
|
||||
},
|
||||
"flux-pro/kontext": {
|
||||
"description": "FLUX.1 Kontext [pro] 能够处理文本和参考图像作为输入,无缝实现目标性的局部编辑和复杂的整体场景变换。"
|
||||
},
|
||||
"flux-schnell": {
|
||||
"description": "FLUX.1 [schnell] 作为目前开源最先进的少步模型,不仅超越了同类竞争者,甚至还优于诸如 Midjourney v6.0 和 DALL·E 3 (HD) 等强大的非精馏模型。该模型经过专门微调,以保留预训练阶段的全部输出多样性,相较于当前市场上的最先进模型,FLUX.1 [schnell] 显著提升了在视觉质量、指令遵从、尺寸/比例变化、字体处理及输出多样性等方面的可能,为用户带来更为丰富多样的创意图像生成体验。"
|
||||
},
|
||||
"flux.1-schnell": {
|
||||
"description": "具有120亿参数的修正流变换器,能够根据文本描述生成图像。"
|
||||
},
|
||||
"flux/schnell": {
|
||||
"description": "FLUX.1 [schnell] 是一个拥有120亿参数的流式转换器模型,能够在1到4步内从文本生成高质量图像,适合个人和商业用途。"
|
||||
},
|
||||
@@ -1190,6 +1109,9 @@
|
||||
"gemini-2.5-flash-preview-04-17": {
|
||||
"description": "Gemini 2.5 Flash Preview 是 Google 性价比最高的模型,提供全面的功能。"
|
||||
},
|
||||
"gemini-2.5-flash-preview-04-17-thinking": {
|
||||
"description": "Gemini 2.5 Flash Preview 是 Google 性价比最高的模型,提供全面的功能。"
|
||||
},
|
||||
"gemini-2.5-flash-preview-05-20": {
|
||||
"description": "Gemini 2.5 Flash Preview 是 Google 性价比最高的模型,提供全面的功能。"
|
||||
},
|
||||
@@ -1268,21 +1190,6 @@
|
||||
"glm-4.1v-thinking-flashx": {
|
||||
"description": "GLM-4.1V-Thinking 系列模型是目前已知10B级别的VLM模型中性能最强的视觉模型,融合了同级别SOTA的各项视觉语言任务,包括视频理解、图片问答、学科解题、OCR文字识别、文档和图表解读、GUI Agent、前端网页Coding、Grounding等,多项任务能力甚至超过8倍参数量的Qwen2.5-VL-72B。通过领先的强化学习技术,模型掌握了通过思维链推理的方式提升回答的准确性和丰富度,从最终效果和可解释性等维度都显著超过传统的非thinking模型。"
|
||||
},
|
||||
"glm-4.5": {
|
||||
"description": "智谱最新旗舰模型,支持思考模式切换,综合能力达到开源模型的 SOTA 水平,上下文长度可达128K。"
|
||||
},
|
||||
"glm-4.5-air": {
|
||||
"description": "GLM-4.5 的轻量版,兼顾性能与性价比,可灵活切换混合思考模型。"
|
||||
},
|
||||
"glm-4.5-airx": {
|
||||
"description": "GLM-4.5-Air 的极速版,响应速度更快,专为大规模高速度需求打造。"
|
||||
},
|
||||
"glm-4.5-flash": {
|
||||
"description": "GLM-4.5 的免费版,推理、代码、智能体等任务表现出色。"
|
||||
},
|
||||
"glm-4.5-x": {
|
||||
"description": "GLM-4.5 的极速版,在性能强劲的同时,生成速度可达 100 tokens/秒。"
|
||||
},
|
||||
"glm-4v": {
|
||||
"description": "GLM-4V 提供强大的图像理解与推理能力,支持多种视觉任务。"
|
||||
},
|
||||
@@ -1302,7 +1209,7 @@
|
||||
"description": "极速推理:具有超快的推理速度和强大的推理效果。"
|
||||
},
|
||||
"glm-z1-flash": {
|
||||
"description": "GLM-Z1 系列具备强大的复杂推理能力,在逻辑推理、数学、编程等领域表现优异。"
|
||||
"description": "GLM-Z1 系列具备强大的复杂推理能力,在逻辑推理、数学、编程等领域表现优异。最大上下文长度为32K。"
|
||||
},
|
||||
"glm-z1-flashx": {
|
||||
"description": "高速低价:Flash增强版本,超快推理速度,更快并发保障。"
|
||||
@@ -1478,9 +1385,6 @@
|
||||
"grok-2-1212": {
|
||||
"description": "该模型在准确性、指令遵循和多语言能力方面有所改进。"
|
||||
},
|
||||
"grok-2-image-1212": {
|
||||
"description": "我们最新的图像生成模型可以根据文本提示生成生动逼真的图像。它在营销、社交媒体和娱乐等领域的图像生成方面表现出色。"
|
||||
},
|
||||
"grok-2-vision-1212": {
|
||||
"description": "该模型在准确性、指令遵循和多语言能力方面有所改进。"
|
||||
},
|
||||
@@ -1550,9 +1454,6 @@
|
||||
"hunyuan-t1-20250529": {
|
||||
"description": "优化文本创作、作文写作,优化代码前端、数学、逻辑推理等理科能力,提升指令遵循能力。"
|
||||
},
|
||||
"hunyuan-t1-20250711": {
|
||||
"description": "大幅提升高难度数学、逻辑和代码能力,优化模型输出稳定性,提升模型长文能力。"
|
||||
},
|
||||
"hunyuan-t1-latest": {
|
||||
"description": "业内首个超大规模 Hybrid-Transformer-Mamba 推理模型,扩展推理能力,超强解码速度,进一步对齐人类偏好。"
|
||||
},
|
||||
@@ -1601,12 +1502,6 @@
|
||||
"hunyuan-vision": {
|
||||
"description": "混元最新多模态模型,支持图片+文本输入生成文本内容。"
|
||||
},
|
||||
"image-01": {
|
||||
"description": "全新图像生成模型,画面表现细腻,支持文生图、图生图"
|
||||
},
|
||||
"image-01-live": {
|
||||
"description": "图像生成模型,画面表现细腻,支持文生图并进行画风设置"
|
||||
},
|
||||
"imagen-4.0-generate-preview-06-06": {
|
||||
"description": "Imagen 4th generation text-to-image model series"
|
||||
},
|
||||
@@ -1631,9 +1526,6 @@
|
||||
"internvl3-latest": {
|
||||
"description": "我们最新发布多模态大模型,具备更强的图文理解能力、长时序图片理解能力,性能比肩顶尖闭源模型。默认指向我们最新发布的 InternVL 系列模型,当前指向 internvl3-78b。"
|
||||
},
|
||||
"irag-1.0": {
|
||||
"description": "百度自研的iRAG(image based RAG),检索增强的文生图技术,将百度搜索的亿级图片资源跟强大的基础模型能力相结合,就可以生成各种超真实的图片,整体效果远远超过文生图原生系统,去掉了AI味儿,而且成本很低。iRAG具备无幻觉、超真实、立等可取等特点。"
|
||||
},
|
||||
"jamba-large": {
|
||||
"description": "我们最强大、最先进的模型,专为处理企业级复杂任务而设计,具备卓越的性能。"
|
||||
},
|
||||
@@ -1643,9 +1535,6 @@
|
||||
"jina-deepsearch-v1": {
|
||||
"description": "深度搜索结合了网络搜索、阅读和推理,可进行全面调查。您可以将其视为一个代理,接受您的研究任务 - 它会进行广泛搜索并经过多次迭代,然后才能给出答案。这个过程涉及持续的研究、推理和从各个角度解决问题。这与直接从预训练数据生成答案的标准大模型以及依赖一次性表面搜索的传统 RAG 系统有着根本的不同。"
|
||||
},
|
||||
"kimi-k2": {
|
||||
"description": "Kimi-K2 是一款Moonshot AI推出的具备超强代码和 Agent 能力的 MoE 架构基础模型,总参数 1T,激活参数 32B。在通用知识推理、编程、数学、Agent 等主要类别的基准性能测试中,K2 模型的性能超过其他主流开源模型。"
|
||||
},
|
||||
"kimi-k2-0711-preview": {
|
||||
"description": "kimi-k2 是一款具备超强代码和 Agent 能力的 MoE 架构基础模型,总参数 1T,激活参数 32B。在通用知识推理、编程、数学、Agent 等主要类别的基准性能测试中,K2 模型的性能超过其他主流开源模型。"
|
||||
},
|
||||
@@ -2039,9 +1928,6 @@
|
||||
"moonshotai/Kimi-Dev-72B": {
|
||||
"description": "Kimi-Dev-72B 是一款开源代码大模型,经过大规模强化学习优化,能输出稳健、可直接投产的补丁。该模型在 SWE-bench Verified 上取得 60.4 % 的新高分,刷新了开源模型在缺陷修复、代码评审等自动化软件工程任务上的纪录。"
|
||||
},
|
||||
"moonshotai/Kimi-K2-Instruct": {
|
||||
"description": "Kimi K2 是一款具备超强代码和 Agent 能力的 MoE 架构基础模型,总参数 1T,激活参数 32B。在通用知识推理、编程、数学、Agent 等主要类别的基准性能测试中,K2 模型的性能超过其他主流开源模型。"
|
||||
},
|
||||
"moonshotai/kimi-k2-instruct": {
|
||||
"description": "kimi-k2 是一款具备超强代码和 Agent 能力的 MoE 架构基础模型,总参数 1T,激活参数 32B。在通用知识推理、编程、数学、Agent 等主要类别的基准性能测试中,K2 模型的性能超过其他主流开源模型。"
|
||||
},
|
||||
@@ -2378,21 +2264,9 @@
|
||||
"qwen3-235b-a22b": {
|
||||
"description": "Qwen3是一款能力大幅提升的新一代通义千问大模型,在推理、通用、Agent和多语言等多个核心能力上均达到业界领先水平,并支持思考模式切换。"
|
||||
},
|
||||
"qwen3-235b-a22b-instruct-2507": {
|
||||
"description": "基于Qwen3的非思考模式开源模型,相较上一版本(通义千问3-235B-A22B)主观创作能力与模型安全性均有小幅度提升。"
|
||||
},
|
||||
"qwen3-235b-a22b-thinking-2507": {
|
||||
"description": "基于Qwen3的思考模式开源模型,相较上一版本(通义千问3-235B-A22B)逻辑能力、通用能力、知识增强及创作能力均有大幅提升,适用于高难度强推理场景。"
|
||||
},
|
||||
"qwen3-30b-a3b": {
|
||||
"description": "Qwen3是一款能力大幅提升的新一代通义千问大模型,在推理、通用、Agent和多语言等多个核心能力上均达到业界领先水平,并支持思考模式切换。"
|
||||
},
|
||||
"qwen3-30b-a3b-instruct-2507": {
|
||||
"description": "相较上一版本(Qwen3-30B-A3B)中英文和多语言整体通用能力有大幅提升。主观开放类任务专项优化,显著更加符合用户偏好,能够提供更有帮助性的回复。"
|
||||
},
|
||||
"qwen3-30b-a3b-thinking-2507": {
|
||||
"description": "基于Qwen3的思考模式开源模型,相较上一版本(通义千问3-30B-A3B)逻辑能力、通用能力、知识增强及创作能力均有大幅提升,适用于高难度强推理场景。"
|
||||
},
|
||||
"qwen3-32b": {
|
||||
"description": "Qwen3是一款能力大幅提升的新一代通义千问大模型,在推理、通用、Agent和多语言等多个核心能力上均达到业界领先水平,并支持思考模式切换。"
|
||||
},
|
||||
@@ -2402,12 +2276,6 @@
|
||||
"qwen3-8b": {
|
||||
"description": "Qwen3是一款能力大幅提升的新一代通义千问大模型,在推理、通用、Agent和多语言等多个核心能力上均达到业界领先水平,并支持思考模式切换。"
|
||||
},
|
||||
"qwen3-coder-480b-a35b-instruct": {
|
||||
"description": "通义千问代码模型开源版。最新的 qwen3-coder-480b-a35b-instruct 是基于 Qwen3 的代码生成模型,具有强大的Coding Agent能力,擅长工具调用和环境交互,能够实现自主编程、代码能力卓越的同时兼具通用能力。"
|
||||
},
|
||||
"qwen3-coder-plus": {
|
||||
"description": "通义千问代码模型。最新的 Qwen3-Coder-Plus 系列模型是基于 Qwen3 的代码生成模型,具有强大的Coding Agent能力,擅长工具调用和环境交互,能够实现自主编程,代码能力卓越的同时兼具通用能力。"
|
||||
},
|
||||
"qwq": {
|
||||
"description": "QwQ 是 Qwen 系列的推理模型。与传统的指令调优模型相比,QwQ 具备思考和推理的能力,能够在下游任务中,尤其是困难问题上,显著提升性能。QwQ-32B 是中型推理模型,能够在与最先进的推理模型(如 DeepSeek-R1、o1-mini)竞争时取得可观的表现。"
|
||||
},
|
||||
@@ -2450,24 +2318,6 @@
|
||||
"sonar-reasoning-pro": {
|
||||
"description": "支持搜索上下文的高级搜索产品,支持高级查询和跟进。"
|
||||
},
|
||||
"stable-diffusion-3-medium": {
|
||||
"description": "由 Stability AI 推出的最新文生图大模型。这一版本在继承了前代的优点上,对图像质量、文本理解和风格多样性等方面进行了显著改进,能够更准确地解读复杂的自然语言提示,并生成更为精确和多样化的图像。"
|
||||
},
|
||||
"stable-diffusion-3.5-large": {
|
||||
"description": "stable-diffusion-3.5-large 是一个具有8亿参数的多模态扩散变压器(MMDiT)文本到图像生成模型,具备卓越的图像质量和提示词匹配度,支持生成 100 万像素的高分辨率图像,且能够在普通消费级硬件上高效运行。"
|
||||
},
|
||||
"stable-diffusion-3.5-large-turbo": {
|
||||
"description": "stable-diffusion-3.5-large-turbo 是在 stable-diffusion-3.5-large 的基础上采用对抗性扩散蒸馏(ADD)技术的模型,具备更快的速度。"
|
||||
},
|
||||
"stable-diffusion-v1.5": {
|
||||
"description": "stable-diffusion-v1.5 是以 stable-diffusion-v1.2 检查点的权重进行初始化,并在 \"laion-aesthetics v2 5+\" 上以 512x512 的分辨率进行了595k步的微调,减少了 10% 的文本条件化,以提高无分类器的引导采样。"
|
||||
},
|
||||
"stable-diffusion-xl": {
|
||||
"description": "stable-diffusion-xl 相比于 v1.5 做了重大的改进,并且与当前开源的文生图 SOTA 模型 midjourney 效果相当。具体改进之处包括: 更大的 unet backbone,是之前的 3 倍; 增加了 refinement 模块用于改善生成图片的质量;更高效的训练技巧等。"
|
||||
},
|
||||
"stable-diffusion-xl-base-1.0": {
|
||||
"description": "由 Stability AI 开发并开源的文生图大模型,其创意图像生成能力位居行业前列。具备出色的指令理解能力,能够支持反向 Prompt 定义来精确生成内容。"
|
||||
},
|
||||
"step-1-128k": {
|
||||
"description": "平衡性能与成本,适合一般场景。"
|
||||
},
|
||||
@@ -2498,12 +2348,6 @@
|
||||
"step-1v-8k": {
|
||||
"description": "小型视觉模型,适合基本的图文任务。"
|
||||
},
|
||||
"step-1x-edit": {
|
||||
"description": "该模型专注于图像编辑任务,能够根据用户提供的图片和文本描述,对图片进行修改和增强。支持多种输入格式,包括文本描述和示例图像。模型能够理解用户的意图,并生成符合要求的图像编辑结果。"
|
||||
},
|
||||
"step-1x-medium": {
|
||||
"description": "该模型拥有强大的图像生成能力,支持文本描述作为输入方式。具备原生的中文支持,能够更好的理解和处理中文文本描述,并且能够更准确地捕捉文本描述中的语义信息,并将其转化为图像特征,从而实现更精准的图像生成。模型能够根据输入生成高分辨率、高质量的图像,并具备一定的风格迁移能力。"
|
||||
},
|
||||
"step-2-16k": {
|
||||
"description": "支持大规模上下文交互,适合复杂对话场景。"
|
||||
},
|
||||
@@ -2513,9 +2357,6 @@
|
||||
"step-2-mini": {
|
||||
"description": "基于新一代自研Attention架构MFA的极速大模型,用极低成本达到和step1类似的效果,同时保持了更高的吞吐和更快响应时延。能够处理通用任务,在代码能力上具备特长。"
|
||||
},
|
||||
"step-2x-large": {
|
||||
"description": "阶跃星辰新一代生图模型,该模型专注于图像生成任务,能够根据用户提供的文本描述,生成高质量的图像。新模型生成图片质感更真实,中英文文字生成能力更强。"
|
||||
},
|
||||
"step-r1-v-mini": {
|
||||
"description": "该模型是拥有强大的图像理解能力的推理大模型,能够处理图像和文字信息,经过深度思考后输出文本生成文本内容。该模型在视觉推理领域表现突出,同时拥有第一梯队的数学、代码、文本推理能力。上下文长度为100k。"
|
||||
},
|
||||
@@ -2591,23 +2432,8 @@
|
||||
"v0-1.5-md": {
|
||||
"description": "v0-1.5-md 模型适用于日常任务和用户界面(UI)生成"
|
||||
},
|
||||
"wan2.2-t2i-flash": {
|
||||
"description": "万相2.2极速版,当前最新模型。在创意性、稳定性、写实质感上全面升级,生成速度快,性价比高。"
|
||||
},
|
||||
"wan2.2-t2i-plus": {
|
||||
"description": "万相2.2专业版,当前最新模型。在创意性、稳定性、写实质感上全面升级,生成细节丰富。"
|
||||
},
|
||||
"wanx-v1": {
|
||||
"description": "基础文生图模型。对应通义万相官网1.0通用模型。"
|
||||
},
|
||||
"wanx2.0-t2i-turbo": {
|
||||
"description": "擅长质感人像,速度中等、成本较低。对应通义万相官网2.0极速模型。"
|
||||
},
|
||||
"wanx2.1-t2i-plus": {
|
||||
"description": "全面升级版本。生成图像细节更丰富,速度稍慢。对应通义万相官网2.1专业模型。"
|
||||
},
|
||||
"wanx2.1-t2i-turbo": {
|
||||
"description": "全面升级版本。生成速度快、效果全面、综合性价比高。对应通义万相官网2.1极速模型。"
|
||||
"description": "阿里云通义旗下的文生图模型"
|
||||
},
|
||||
"whisper-1": {
|
||||
"description": "通用语音识别模型,支持多语言语音识别、语音翻译和语言识别。"
|
||||
@@ -2659,11 +2485,5 @@
|
||||
},
|
||||
"yi-vision-v2": {
|
||||
"description": "复杂视觉任务模型,提供基于多张图片的高性能理解、分析能力。"
|
||||
},
|
||||
"zai-org/GLM-4.5": {
|
||||
"description": "GLM-4.5 是一款专为智能体应用打造的基础模型,使用了混合专家(Mixture-of-Experts)架构。在工具调用、网页浏览、软件工程、前端编程领域进行了深度优化,支持无缝接入 Claude Code、Roo Code 等代码智能体中使用。GLM-4.5 采用混合推理模式,可以适应复杂推理和日常使用等多种应用场景。"
|
||||
},
|
||||
"zai-org/GLM-4.5-Air": {
|
||||
"description": "GLM-4.5-Air 是一款专为智能体应用打造的基础模型,使用了混合专家(Mixture-of-Experts)架构。在工具调用、网页浏览、软件工程、前端编程领域进行了深度优化,支持无缝接入 Claude Code、Roo Code 等代码智能体中使用。GLM-4.5 采用混合推理模式,可以适应复杂推理和日常使用等多种应用场景。"
|
||||
}
|
||||
}
|
||||
|
||||
@@ -5,9 +5,6 @@
|
||||
"ai360": {
|
||||
"description": "360 AI 是 360 公司推出的 AI 模型和服务平台,提供多种先进的自然语言处理模型,包括 360GPT2 Pro、360GPT Pro、360GPT Turbo 和 360GPT Turbo Responsibility 8K。这些模型结合了大规模参数和多模态能力,广泛应用于文本生成、语义理解、对话系统与代码生成等领域。通过灵活的定价策略,360 AI 满足多样化用户需求,支持开发者集成,推动智能化应用的革新和发展。"
|
||||
},
|
||||
"aihubmix": {
|
||||
"description": "AiHubMix 通过统一的 API 接口提供对多种 AI 模型的访问。"
|
||||
},
|
||||
"anthropic": {
|
||||
"description": "Anthropic 是一家专注于人工智能研究和开发的公司,提供了一系列先进的语言模型,如 Claude 3.5 Sonnet、Claude 3 Sonnet、Claude 3 Opus 和 Claude 3 Haiku。这些模型在智能、速度和成本之间取得了理想的平衡,适用于从企业级工作负载到快速响应的各种应用场景。Claude 3.5 Sonnet 作为其最新模型,在多项评估中表现优异,同时保持了较高的性价比。"
|
||||
},
|
||||
|
||||
@@ -535,6 +535,7 @@
|
||||
"experiment": "实验",
|
||||
"hotkey": "快捷键",
|
||||
"llm": "语言模型",
|
||||
"plugin": "插件管理",
|
||||
"provider": "AI 服务商",
|
||||
"proxy": "网络代理",
|
||||
"storage": "数据存储",
|
||||
|
||||
@@ -189,7 +189,6 @@
|
||||
"aesGcm": "您的秘鑰與代理地址等將使用 <1>AES-GCM</1> 加密算法進行加密",
|
||||
"apiKey": {
|
||||
"desc": "請填寫你的 {{name}} API Key",
|
||||
"descWithUrl": "請填寫你的 {{name}} API Key,<3>點此獲取</3>",
|
||||
"placeholder": "{{name}} API Key",
|
||||
"title": "API Key"
|
||||
},
|
||||
|
||||
+5
-185
@@ -32,9 +32,6 @@
|
||||
"4.0Ultra": {
|
||||
"description": "Spark4.0 Ultra 是星火大模型系列中最為強大的版本,在升級聯網搜索鏈路同時,提升對文本內容的理解和總結能力。它是用於提升辦公生產力和準確響應需求的全方位解決方案,是引領行業的智能產品。"
|
||||
},
|
||||
"AnimeSharp": {
|
||||
"description": "AnimeSharp(又名 “4x‑AnimeSharp”) 是 Kim2091 基於 ESRGAN 架構開發的開源超解析度模型,專注於動漫風格圖像的放大與銳化。它於 2022 年 2 月由 “4x-TextSharpV1” 重命名而來,原本亦適用於文字圖像,但性能針對動漫內容進行了大幅優化。"
|
||||
},
|
||||
"Baichuan2-Turbo": {
|
||||
"description": "採用搜索增強技術實現大模型與領域知識、全網知識的全面連結。支持PDF、Word等多種文檔上傳及網址輸入,信息獲取及時、全面,輸出結果準確、專業。"
|
||||
},
|
||||
@@ -92,9 +89,6 @@
|
||||
"Doubao-pro-4k": {
|
||||
"description": "效果最好的主力模型,適合處理複雜任務,在參考問答、總結摘要、創作、文本分類、角色扮演等場景都有很好的效果。支持4k上下文視窗的推理和精調。"
|
||||
},
|
||||
"DreamO": {
|
||||
"description": "DreamO 是由字節跳動與北京大學聯合研發的開源圖像定制生成模型,旨在透過統一架構支持多任務圖像生成。它採用高效的組合建模方法,可根據用戶指定的身份、主體、風格、背景等多個條件生成高度一致且定制化的圖像。"
|
||||
},
|
||||
"ERNIE-3.5-128K": {
|
||||
"description": "百度自研的旗艦級大規模語言模型,覆蓋海量中英文語料,具有強大的通用能力,可滿足絕大部分對話問答、創作生成、插件應用場景要求;支持自動對接百度搜索插件,保障問答信息時效。"
|
||||
},
|
||||
@@ -128,39 +122,15 @@
|
||||
"ERNIE-Speed-Pro-128K": {
|
||||
"description": "百度2024年最新發布的自研高性能大語言模型,通用能力優異,效果比ERNIE Speed更優,適合作為基座模型進行精調,更好地處理特定場景問題,同時具備極佳的推理性能。"
|
||||
},
|
||||
"FLUX.1-Kontext-dev": {
|
||||
"description": "FLUX.1-Kontext-dev 是由 Black Forest Labs 開發的一款基於 Rectified Flow Transformer 架構的多模態圖像生成與編輯模型,擁有 12B(120 億)參數規模,專注於在給定上下文條件下生成、重構、增強或編輯圖像。該模型結合了擴散模型的可控生成優勢與 Transformer 的上下文建模能力,支持高品質圖像輸出,廣泛適用於圖像修復、圖像補全、視覺場景重構等任務。"
|
||||
},
|
||||
"FLUX.1-dev": {
|
||||
"description": "FLUX.1-dev 是由 Black Forest Labs 開發的一款開源多模態語言模型(Multimodal Language Model, MLLM),專為圖文任務優化,融合了圖像和文本的理解與生成能力。它建立在先進的大語言模型(如 Mistral-7B)基礎上,透過精心設計的視覺編碼器與多階段指令微調,實現了圖文協同處理與複雜任務推理的能力。"
|
||||
},
|
||||
"Gryphe/MythoMax-L2-13b": {
|
||||
"description": "MythoMax-L2 (13B) 是一種創新模型,適合多領域應用和複雜任務。"
|
||||
},
|
||||
"HelloMeme": {
|
||||
"description": "HelloMeme 是一個可以根據你提供的圖片或動作,自動生成表情包、動圖或短影片的 AI 工具。它不需要你有任何繪畫或程式設計基礎,只需準備好參考圖片,它就能幫你做出好看、有趣、風格一致的內容。"
|
||||
},
|
||||
"HiDream-I1-Full": {
|
||||
"description": "HiDream-E1-Full 是由智象未來(HiDream.ai)推出的一款開源多模態圖像編輯大模型,基於先進的 Diffusion Transformer 架構,並結合強大的語言理解能力(內嵌 LLaMA 3.1-8B-Instruct),支持透過自然語言指令進行圖像生成、風格遷移、局部編輯和內容重繪,具備出色的圖文理解與執行能力。"
|
||||
},
|
||||
"HunyuanDiT-v1.2-Diffusers-Distilled": {
|
||||
"description": "hunyuandit-v1.2-distilled 是一款輕量級的文生圖模型,經過蒸餾優化,能夠快速生成高品質的圖像,特別適用於低資源環境和即時生成任務。"
|
||||
},
|
||||
"InstantCharacter": {
|
||||
"description": "InstantCharacter 是由騰訊 AI 團隊於 2025 年發布的一款無需微調(tuning-free)的個性化角色生成模型,旨在實現高保真、跨場景的一致角色生成。該模型支持僅基於一張參考圖像對角色進行建模,並能夠將該角色靈活遷移到各種風格、動作和背景中。"
|
||||
},
|
||||
"InternVL2-8B": {
|
||||
"description": "InternVL2-8B 是一款強大的視覺語言模型,支持圖像與文本的多模態處理,能夠精確識別圖像內容並生成相關描述或回答。"
|
||||
},
|
||||
"InternVL2.5-26B": {
|
||||
"description": "InternVL2.5-26B 是一款強大的視覺語言模型,支持圖像與文本的多模態處理,能夠精確識別圖像內容並生成相關描述或回答。"
|
||||
},
|
||||
"Kolors": {
|
||||
"description": "Kolors 是由快手 Kolors 團隊開發的文生圖模型。由數十億的參數訓練,在視覺品質、中文語義理解和文本渲染方面有顯著優勢。"
|
||||
},
|
||||
"Kwai-Kolors/Kolors": {
|
||||
"description": "Kolors 是由快手 Kolors 團隊開發的基於潛在擴散的大規模文本到圖像生成模型。該模型透過數十億文本-圖像對的訓練,在視覺品質、複雜語義準確性以及中英文字元渲染方面展現出顯著優勢。它不僅支持中英文輸入,在理解和生成中文特定內容方面也表現出色。"
|
||||
},
|
||||
"Llama-3.2-11B-Vision-Instruct": {
|
||||
"description": "在高解析度圖像上表現出色的圖像推理能力,適用於視覺理解應用。"
|
||||
},
|
||||
@@ -194,15 +164,9 @@
|
||||
"MiniMaxAI/MiniMax-M1-80k": {
|
||||
"description": "MiniMax-M1 是開源權重的大規模混合注意力推理模型,擁有 4560 億參數,每個 Token 可激活約 459 億參數。模型原生支援 100 萬 Token 的超長上下文,並透過閃電注意力機制,在 10 萬 Token 的生成任務中相比 DeepSeek R1 節省 75% 的浮點運算量。同時,MiniMax-M1 採用 MoE(混合專家)架構,結合 CISPO 演算法與混合注意力設計的高效強化學習訓練,在長輸入推理與真實軟體工程場景中實現了業界領先的性能。"
|
||||
},
|
||||
"Moonshot-Kimi-K2-Instruct": {
|
||||
"description": "總參數 1T,激活參數 32B。非思維模型中,在前沿知識、數學和編碼方面達到頂尖水平,更擅長通用 Agent 任務。針對代理任務進行了精心優化,不僅能回答問題,還能採取行動。最適用於即興、通用聊天和代理體驗,是一款無需長時間思考的反射級模型。"
|
||||
},
|
||||
"NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
|
||||
"description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B) 是高精度的指令模型,適用於複雜計算。"
|
||||
},
|
||||
"OmniConsistency": {
|
||||
"description": "OmniConsistency 透過引入大規模 Diffusion Transformers(DiTs)和配對風格化資料,提升圖像到圖像(Image-to-Image)任務中的風格一致性和泛化能力,避免風格退化。"
|
||||
},
|
||||
"Phi-3-medium-128k-instruct": {
|
||||
"description": "相同的Phi-3-medium模型,但具有更大的上下文大小,適用於RAG或少量提示。"
|
||||
},
|
||||
@@ -254,9 +218,6 @@
|
||||
"Pro/deepseek-ai/DeepSeek-V3": {
|
||||
"description": "DeepSeek-V3 是一款擁有 6710 億參數的混合專家(MoE)語言模型,採用多頭潛在注意力(MLA)和 DeepSeekMoE 架構,結合無輔助損失的負載平衡策略,優化推理和訓練效率。透過在 14.8 萬億高質量tokens上預訓練,並進行監督微調和強化學習,DeepSeek-V3 在性能上超越其他開源模型,接近領先閉源模型。"
|
||||
},
|
||||
"Pro/moonshotai/Kimi-K2-Instruct": {
|
||||
"description": "Kimi K2 是一款具備超強程式碼和 Agent 能力的 MoE 架構基礎模型,總參數 1T,激活參數 32B。在通用知識推理、程式設計、數學、Agent 等主要類別的基準性能測試中,K2 模型的性能超過其他主流開源模型。"
|
||||
},
|
||||
"QwQ-32B-Preview": {
|
||||
"description": "QwQ-32B-Preview 是一款獨具創新的自然語言處理模型,能夠高效處理複雜的對話生成與上下文理解任務。"
|
||||
},
|
||||
@@ -317,18 +278,9 @@
|
||||
"Qwen/Qwen3-235B-A22B": {
|
||||
"description": "Qwen3 是一款能力大幅提升的新一代通義千問大模型,在推理、通用、Agent 和多語言等多個核心能力上均達到業界領先水平,並支持思考模式切換。"
|
||||
},
|
||||
"Qwen/Qwen3-235B-A22B-Instruct-2507": {
|
||||
"description": "Qwen3-235B-A22B-Instruct-2507 是由阿里雲通義千問團隊開發的 Qwen3 系列中的一款旗艦級混合專家(MoE)大語言模型。該模型擁有 2350 億總參數,每次推理激活 220 億參數。它是作為 Qwen3-235B-A22B 非思考模式的更新版本發布的,專注於在指令遵循、邏輯推理、文本理解、數學、科學、程式設計及工具使用等通用能力上實現顯著提升。此外,模型增強了對多語言長尾知識的覆蓋,並能更好地對齊用戶在主觀和開放性任務上的偏好,以生成更有幫助和更高品質的文本。"
|
||||
},
|
||||
"Qwen/Qwen3-235B-A22B-Thinking-2507": {
|
||||
"description": "Qwen3-235B-A22B-Thinking-2507 是由阿里巴巴通義千問團隊開發的 Qwen3 系列大型語言模型中的一員,專注於高難度的複雜推理任務。該模型基於混合專家(MoE)架構,總參數量達 2350 億,而在處理每個 token 時僅激活約 220 億參數,從而在保持強大性能的同時提高了計算效率。作為一個專門的“思考”模型,它在邏輯推理、數學、科學、程式設計和學術基準測試等需要人類專業知識的任務上表現顯著提升,達到了開源思考模型中的頂尖水平。此外,模型還增強了通用能力,如指令遵循、工具使用和文本生成,並原生支持 256K 的長上下文理解能力,非常適合用於需要深度推理和處理長文件的場景。"
|
||||
},
|
||||
"Qwen/Qwen3-30B-A3B": {
|
||||
"description": "Qwen3 是一款能力大幅提升的新一代通義千問大模型,在推理、通用、Agent 和多語言等多個核心能力上均達到業界領先水平,並支持思考模式切換。"
|
||||
},
|
||||
"Qwen/Qwen3-30B-A3B-Instruct-2507": {
|
||||
"description": "Qwen3-30B-A3B-Instruct-2507 是 Qwen3-30B-A3B 非思考模式的更新版本。這是一個擁有 305 億總參數和 33 億激活參數的混合專家(MoE)模型。該模型在多個方面進行了關鍵增強,包括顯著提升了指令遵循、邏輯推理、文本理解、數學、科學、編碼和工具使用等通用能力。同時,它在多語言的長尾知識覆蓋範圍上取得了實質性進展,並能更好地與用戶在主觀和開放式任務中的偏好對齊,從而能夠生成更有幫助的回覆和更高品質的文本。此外,該模型的長文本理解能力也增強到了 256K。此模型僅支援非思考模式,其輸出中不會生成 `<think></think>` 標籤。"
|
||||
},
|
||||
"Qwen/Qwen3-32B": {
|
||||
"description": "Qwen3 是一款能力大幅提升的新一代通義千問大模型,在推理、通用、Agent 和多語言等多個核心能力上均達到業界領先水平,並支持思考模式切換。"
|
||||
},
|
||||
@@ -362,12 +314,6 @@
|
||||
"Qwen2.5-Coder-32B-Instruct": {
|
||||
"description": "Qwen2.5-Coder-32B-Instruct 是一款專為代碼生成、代碼理解和高效開發場景設計的大型語言模型,採用了業界領先的32B參數規模,能夠滿足多樣化的程式需求。"
|
||||
},
|
||||
"Qwen3-235B": {
|
||||
"description": "Qwen3-235B-A22B,MoE(混合專家模型)模型,引入了「混合推理模式」,支援用戶在「思考模式」和「非思考模式」之間無縫切換,支援119種語言和方言理解與推理,並具備強大的工具調用能力,在綜合能力、程式碼與數學、多語言能力、知識與推理等多項基準測試中,都能與DeepSeek R1、OpenAI o1、o3-mini、Grok 3和谷歌Gemini 2.5 Pro等目前市場上的主流大型模型競爭。"
|
||||
},
|
||||
"Qwen3-32B": {
|
||||
"description": "Qwen3-32B,稠密模型(Dense Model),引入了「混合推理模式」,支援用戶在「思考模式」和「非思考模式」之間無縫切換,由於模型架構改進、訓練資料增加以及更有效的訓練方法,整體性能與Qwen2.5-72B表現相當。"
|
||||
},
|
||||
"SenseChat": {
|
||||
"description": "基礎版本模型 (V4),4K上下文長度,通用能力強大"
|
||||
},
|
||||
@@ -404,12 +350,6 @@
|
||||
"SenseChat-Vision": {
|
||||
"description": "最新版本模型 (V5.5),支持多圖的輸入,全面實現模型基礎能力優化,在對象屬性識別、空間關係、動作事件識別、場景理解、情感識別、邏輯常識推理和文本理解生成上都實現了較大提升。"
|
||||
},
|
||||
"SenseNova-V6-5-Pro": {
|
||||
"description": "透過對多模態、語言及推理資料的全面更新與訓練策略的優化,新模型在多模態推理和泛化指令跟隨能力上實現了顯著提升,支援高達128k的上下文視窗,並在OCR與文旅IP識別等專項任務中表現卓越。"
|
||||
},
|
||||
"SenseNova-V6-5-Turbo": {
|
||||
"description": "透過對多模態、語言及推理資料的全面更新與訓練策略的優化,新模型在多模態推理和泛化指令跟隨能力上實現了顯著提升,支援高達128k的上下文視窗,並在OCR與文旅IP識別等專項任務中表現卓越。"
|
||||
},
|
||||
"SenseNova-V6-Pro": {
|
||||
"description": "實現圖片、文本、視頻能力的原生統一,突破傳統多模態分立局限,在OpenCompass和SuperCLUE評測中斬獲雙冠軍。"
|
||||
},
|
||||
@@ -1004,9 +944,6 @@
|
||||
"doubao-seed-1.6-thinking": {
|
||||
"description": "Doubao-Seed-1.6-thinking 模型思考能力大幅強化,相較 Doubao-1.5-thinking-pro,在 Coding、Math、邏輯推理等基礎能力上進一步提升,支援視覺理解。支援 256k 上下文視窗,輸出長度支援最大 16k tokens。"
|
||||
},
|
||||
"doubao-seedream-3-0-t2i-250415": {
|
||||
"description": "Doubao 圖片生成模型由字節跳動 Seed 團隊研發,支持文字與圖片輸入,提供高可控、高品質的圖片生成體驗。基於文本提示詞生成圖片。"
|
||||
},
|
||||
"doubao-vision-lite-32k": {
|
||||
"description": "Doubao-vision 模型是豆包推出的多模態大模型,具備強大的圖片理解與推理能力,以及精準的指令理解能力。模型在影像文本資訊擷取、基於影像的推理任務上展現出強大的性能,能夠應用於更複雜、更廣泛的視覺問答任務。"
|
||||
},
|
||||
@@ -1058,9 +995,6 @@
|
||||
"ernie-char-fiction-8k": {
|
||||
"description": "百度自研的垂直場景大語言模型,適合遊戲NPC、客服對話、對話角色扮演等應用場景,人設風格更為鮮明、一致,指令遵循能力更強,推理性能更優。"
|
||||
},
|
||||
"ernie-irag-edit": {
|
||||
"description": "百度自研的 ERNIE iRAG Edit 圖像編輯模型支持基於圖片進行 erase(消除物件)、repaint(重繪物件)、variation(生成變體)等操作。"
|
||||
},
|
||||
"ernie-lite-8k": {
|
||||
"description": "ERNIE Lite是百度自研的輕量級大語言模型,兼顧優異的模型效果與推理性能,適合低算力AI加速卡推理使用。"
|
||||
},
|
||||
@@ -1088,27 +1022,12 @@
|
||||
"ernie-x1-turbo-32k": {
|
||||
"description": "與ERNIE-X1-32K相比,模型效果和性能更佳。"
|
||||
},
|
||||
"flux-1-schnell": {
|
||||
"description": "由 Black Forest Labs 開發的 120 億參數文生圖模型,採用潛在對抗擴散蒸餾技術,能夠在 1 到 4 步內生成高品質圖像。該模型性能媲美閉源替代品,並在 Apache-2.0 許可證下發布,適用於個人、科研和商業用途。"
|
||||
},
|
||||
"flux-dev": {
|
||||
"description": "FLUX.1 [dev] 是一款面向非商業應用的開源權重、精煉模型。FLUX.1 [dev] 在保持了與 FLUX 專業版相近的圖像品質和指令遵循能力的同時,具備更高的運行效率。相較於同尺寸的標準模型,它在資源利用上更為高效。"
|
||||
},
|
||||
"flux-kontext/dev": {
|
||||
"description": "Frontier 影像編輯模型。"
|
||||
},
|
||||
"flux-merged": {
|
||||
"description": "FLUX.1-merged 模型結合了 \"DEV\" 在開發階段探索的深度特性和 \"Schnell\" 所代表的高速執行優勢。透過這一舉措,FLUX.1-merged 不僅提升了模型的性能界限,還拓寬了其應用範圍。"
|
||||
},
|
||||
"flux-pro/kontext": {
|
||||
"description": "FLUX.1 Kontext [pro] 能夠處理文字和參考圖像作為輸入,無縫實現目標性的局部編輯和複雜的整體場景變換。"
|
||||
},
|
||||
"flux-schnell": {
|
||||
"description": "FLUX.1 [schnell] 作為目前開源最先進的少步模型,不僅超越了同類競爭者,甚至還優於諸如 Midjourney v6.0 和 DALL·E 3 (HD) 等強大的非精煉模型。該模型經過專門微調,以保留預訓練階段的全部輸出多樣性,相較於當前市場上的最先進模型,FLUX.1 [schnell] 顯著提升了在視覺品質、指令遵從、尺寸/比例變化、字體處理及輸出多樣性等方面的可能,為用戶帶來更為豐富多樣的創意圖像生成體驗。"
|
||||
},
|
||||
"flux.1-schnell": {
|
||||
"description": "具有120億參數的修正流變換器,能夠根據文本描述生成圖像。"
|
||||
},
|
||||
"flux/schnell": {
|
||||
"description": "FLUX.1 [schnell] 是一個擁有120億參數的流式轉換器模型,能夠在1到4步內從文字生成高品質圖像,適合個人和商業用途。"
|
||||
},
|
||||
@@ -1190,6 +1109,9 @@
|
||||
"gemini-2.5-flash-preview-04-17": {
|
||||
"description": "Gemini 2.5 Flash Preview 是 Google 性價比最高的模型,提供全面的功能。"
|
||||
},
|
||||
"gemini-2.5-flash-preview-04-17-thinking": {
|
||||
"description": "Gemini 2.5 Flash Preview 是 Google 性價比最高的模型,提供全面的功能。"
|
||||
},
|
||||
"gemini-2.5-flash-preview-05-20": {
|
||||
"description": "Gemini 2.5 Flash Preview 是 Google 性價比最高的模型,提供全面的功能。"
|
||||
},
|
||||
@@ -1268,21 +1190,6 @@
|
||||
"glm-4.1v-thinking-flashx": {
|
||||
"description": "GLM-4.1V-Thinking 系列模型是目前已知10B級別的VLM模型中性能最強的視覺模型,融合了同級別SOTA的各項視覺語言任務,包括影片理解、圖片問答、學科解題、OCR文字識別、文件和圖表解讀、GUI Agent、前端網頁程式設計、Grounding等,多項任務能力甚至超過8倍參數量的Qwen2.5-VL-72B。通過領先的強化學習技術,模型掌握了透過思維鏈推理的方式提升回答的準確性和豐富度,從最終效果和可解釋性等維度都顯著超過傳統的非thinking模型。"
|
||||
},
|
||||
"glm-4.5": {
|
||||
"description": "智譜最新旗艦模型,支持思考模式切換,綜合能力達到開源模型的 SOTA 水準,上下文長度可達128K。"
|
||||
},
|
||||
"glm-4.5-air": {
|
||||
"description": "GLM-4.5 的輕量版,兼顧性能與性價比,可靈活切換混合思考模型。"
|
||||
},
|
||||
"glm-4.5-airx": {
|
||||
"description": "GLM-4.5-Air 的極速版,響應速度更快,專為大規模高速度需求打造。"
|
||||
},
|
||||
"glm-4.5-flash": {
|
||||
"description": "GLM-4.5 的免費版,推理、程式碼、智能體等任務表現出色。"
|
||||
},
|
||||
"glm-4.5-x": {
|
||||
"description": "GLM-4.5 的極速版,在性能強勁的同時,生成速度可達 100 tokens/秒。"
|
||||
},
|
||||
"glm-4v": {
|
||||
"description": "GLM-4V提供強大的圖像理解與推理能力,支持多種視覺任務。"
|
||||
},
|
||||
@@ -1302,7 +1209,7 @@
|
||||
"description": "極速推理:具有超快的推理速度和強大的推理效果。"
|
||||
},
|
||||
"glm-z1-flash": {
|
||||
"description": "GLM-Z1 系列具備強大的複雜推理能力,在邏輯推理、數學、程式設計等領域表現優異。"
|
||||
"description": "GLM-Z1 系列具備強大的複雜推理能力,在邏輯推理、數學、程式設計等領域表現優異。最大上下文長度為32K。"
|
||||
},
|
||||
"glm-z1-flashx": {
|
||||
"description": "高速低價:Flash增強版本,超快推理速度,更快並發保障。"
|
||||
@@ -1478,9 +1385,6 @@
|
||||
"grok-2-1212": {
|
||||
"description": "該模型在準確性、指令遵循和多語言能力方面有所改進。"
|
||||
},
|
||||
"grok-2-image-1212": {
|
||||
"description": "我們最新的圖像生成模型可以根據文本提示生成生動逼真的圖像。它在行銷、社交媒體和娛樂等領域的圖像生成方面表現出色。"
|
||||
},
|
||||
"grok-2-vision-1212": {
|
||||
"description": "該模型在準確性、指令遵循和多語言能力方面有所改進。"
|
||||
},
|
||||
@@ -1550,9 +1454,6 @@
|
||||
"hunyuan-t1-20250529": {
|
||||
"description": "優化文本創作、作文寫作,優化程式碼前端、數學、邏輯推理等理科能力,提升指令遵循能力。"
|
||||
},
|
||||
"hunyuan-t1-20250711": {
|
||||
"description": "大幅提升高難度數學、邏輯和程式碼能力,優化模型輸出穩定性,提升模型長文能力。"
|
||||
},
|
||||
"hunyuan-t1-latest": {
|
||||
"description": "業界首個超大規模 Hybrid-Transformer-Mamba 推理模型,擴展推理能力,超強解碼速度,進一步對齊人類偏好。"
|
||||
},
|
||||
@@ -1601,12 +1502,6 @@
|
||||
"hunyuan-vision": {
|
||||
"description": "混元最新多模態模型,支持圖片 + 文本輸入生成文本內容。"
|
||||
},
|
||||
"image-01": {
|
||||
"description": "全新圖像生成模型,畫面表現細膩,支持文生圖、圖生圖。"
|
||||
},
|
||||
"image-01-live": {
|
||||
"description": "圖像生成模型,畫面表現細膩,支持文生圖並進行畫風設定。"
|
||||
},
|
||||
"imagen-4.0-generate-preview-06-06": {
|
||||
"description": "Imagen 第四代文字轉圖像模型系列"
|
||||
},
|
||||
@@ -1631,9 +1526,6 @@
|
||||
"internvl3-latest": {
|
||||
"description": "我們最新發布的多模態大模型,具備更強的圖文理解能力、長時序圖片理解能力,性能比肩頂尖閉源模型。默認指向我們最新發布的 InternVL 系列模型,當前指向 internvl3-78b。"
|
||||
},
|
||||
"irag-1.0": {
|
||||
"description": "百度自研的 iRAG(image based RAG),檢索增強的文生圖技術,將百度搜尋的億級圖片資源與強大的基礎模型能力結合,即可生成各種超真實的圖片,整體效果遠遠超過文生圖原生系統,去除了 AI 味道,且成本極低。iRAG 具備無幻覺、超真實、立等可取等特點。"
|
||||
},
|
||||
"jamba-large": {
|
||||
"description": "我們最強大、最先進的模型,專為處理企業級複雜任務而設計,具備卓越的性能。"
|
||||
},
|
||||
@@ -1643,9 +1535,6 @@
|
||||
"jina-deepsearch-v1": {
|
||||
"description": "深度搜索結合了網路搜索、閱讀和推理,可進行全面調查。您可以將其視為一個代理,接受您的研究任務 - 它會進行廣泛搜索並經過多次迭代,然後才能給出答案。這個過程涉及持續的研究、推理和從各個角度解決問題。這與直接從預訓練數據生成答案的標準大模型以及依賴一次性表面搜索的傳統 RAG 系統有著根本的不同。"
|
||||
},
|
||||
"kimi-k2": {
|
||||
"description": "Kimi-K2 是一款 Moonshot AI 推出的具備超強程式碼和 Agent 能力的 MoE 架構基礎模型,總參數 1T,激活參數 32B。在通用知識推理、程式設計、數學、Agent 等主要類別的基準性能測試中,K2 模型的性能超過其他主流開源模型。"
|
||||
},
|
||||
"kimi-k2-0711-preview": {
|
||||
"description": "kimi-k2 是一款具備超強程式碼和 Agent 能力的 MoE 架構基礎模型,總參數 1T,激活參數 32B。在通用知識推理、程式設計、數學、Agent 等主要類別的基準性能測試中,K2 模型的性能超越其他主流開源模型。"
|
||||
},
|
||||
@@ -2039,9 +1928,6 @@
|
||||
"moonshotai/Kimi-Dev-72B": {
|
||||
"description": "Kimi-Dev-72B 是一款開源程式碼大型模型,經過大規模強化學習優化,能輸出穩健、可直接投產的補丁。該模型在 SWE-bench Verified 上取得 60.4 % 的新高分,刷新了開源模型在缺陷修復、程式碼審查等自動化軟體工程任務上的紀錄。"
|
||||
},
|
||||
"moonshotai/Kimi-K2-Instruct": {
|
||||
"description": "Kimi K2 是一款具備超強程式碼和 Agent 能力的 MoE 架構基礎模型,總參數 1T,激活參數 32B。在通用知識推理、程式設計、數學、Agent 等主要類別的基準性能測試中,K2 模型的性能超過其他主流開源模型。"
|
||||
},
|
||||
"moonshotai/kimi-k2-instruct": {
|
||||
"description": "kimi-k2 是一款具備超強程式碼與代理能力的 MoE 架構基礎模型,總參數量達 1T,啟用參數 32B。在通用知識推理、程式設計、數學、代理等主要類別的基準效能測試中,K2 模型的表現超越其他主流開源模型。"
|
||||
},
|
||||
@@ -2378,21 +2264,9 @@
|
||||
"qwen3-235b-a22b": {
|
||||
"description": "Qwen3是一款能力大幅提升的新一代通義千問大模型,在推理、通用、Agent和多語言等多個核心能力上均達到業界領先水平,並支持思考模式切換。"
|
||||
},
|
||||
"qwen3-235b-a22b-instruct-2507": {
|
||||
"description": "基於 Qwen3 的非思考模式開源模型,相較上一版本(通義千問3-235B-A22B)主觀創作能力與模型安全性均有小幅度提升。"
|
||||
},
|
||||
"qwen3-235b-a22b-thinking-2507": {
|
||||
"description": "基於 Qwen3 的思考模式開源模型,相較上一版本(通義千問3-235B-A22B)邏輯能力、通用能力、知識增強及創作能力均有大幅提升,適用於高難度強推理場景。"
|
||||
},
|
||||
"qwen3-30b-a3b": {
|
||||
"description": "Qwen3是一款能力大幅提升的新一代通義千問大模型,在推理、通用、Agent和多語言等多個核心能力上均達到業界領先水平,並支持思考模式切換。"
|
||||
},
|
||||
"qwen3-30b-a3b-instruct-2507": {
|
||||
"description": "相較上一版本(Qwen3-30B-A3B)中英文和多語言整體通用能力有大幅提升。主觀開放類任務專項優化,顯著更加符合用戶偏好,能夠提供更有幫助性的回覆。"
|
||||
},
|
||||
"qwen3-30b-a3b-thinking-2507": {
|
||||
"description": "基於Qwen3的思考模式開源模型,相較上一版本(通義千問3-30B-A3B)邏輯能力、通用能力、知識增強及創作能力均有大幅提升,適用於高難度強推理場景。"
|
||||
},
|
||||
"qwen3-32b": {
|
||||
"description": "Qwen3是一款能力大幅提升的新一代通義千問大模型,在推理、通用、Agent和多語言等多個核心能力上均達到業界領先水平,並支持思考模式切換。"
|
||||
},
|
||||
@@ -2402,12 +2276,6 @@
|
||||
"qwen3-8b": {
|
||||
"description": "Qwen3是一款能力大幅提升的新一代通義千問大模型,在推理、通用、Agent和多語言等多個核心能力上均達到業界領先水平,並支持思考模式切換。"
|
||||
},
|
||||
"qwen3-coder-480b-a35b-instruct": {
|
||||
"description": "通義千問程式碼模型開源版。最新的 qwen3-coder-480b-a35b-instruct 是基於 Qwen3 的程式碼生成模型,具有強大的 Coding Agent 能力,擅長工具調用和環境互動,能夠實現自主程式設計、程式碼能力卓越的同時兼具通用能力。"
|
||||
},
|
||||
"qwen3-coder-plus": {
|
||||
"description": "通義千問程式碼模型。最新的 Qwen3-Coder-Plus 系列模型是基於 Qwen3 的程式碼生成模型,具有強大的 Coding Agent 能力,擅長工具調用和環境互動,能夠實現自主程式設計,程式碼能力卓越的同時兼具通用能力。"
|
||||
},
|
||||
"qwq": {
|
||||
"description": "QwQ 是一個實驗研究模型,專注於提高 AI 推理能力。"
|
||||
},
|
||||
@@ -2450,24 +2318,6 @@
|
||||
"sonar-reasoning-pro": {
|
||||
"description": "由 DeepSeek 推理模型提供支援的新 API 產品。"
|
||||
},
|
||||
"stable-diffusion-3-medium": {
|
||||
"description": "由 Stability AI 推出的最新文生圖大模型。這一版本在繼承了前代的優點上,對圖像品質、文本理解和風格多樣性等方面進行了顯著改進,能夠更準確地解讀複雜的自然語言提示,並生成更為精確和多樣化的圖像。"
|
||||
},
|
||||
"stable-diffusion-3.5-large": {
|
||||
"description": "stable-diffusion-3.5-large 是一個具有8億參數的多模態擴散變壓器(MMDiT)文本到圖像生成模型,具備卓越的圖像品質和提示詞匹配度,支持生成 100 萬像素的高解析度圖像,且能夠在普通消費級硬體上高效運行。"
|
||||
},
|
||||
"stable-diffusion-3.5-large-turbo": {
|
||||
"description": "stable-diffusion-3.5-large-turbo 是在 stable-diffusion-3.5-large 的基礎上採用對抗性擴散蒸餾(ADD)技術的模型,具備更快的速度。"
|
||||
},
|
||||
"stable-diffusion-v1.5": {
|
||||
"description": "stable-diffusion-v1.5 是以 stable-diffusion-v1.2 檢查點的權重進行初始化,並在 \"laion-aesthetics v2 5+\" 上以 512x512 的解析度進行了595k步的微調,減少了 10% 的文本條件化,以提高無分類器的引導採樣。"
|
||||
},
|
||||
"stable-diffusion-xl": {
|
||||
"description": "stable-diffusion-xl 相較於 v1.5 做了重大的改進,並且與當前開源的文生圖 SOTA 模型 midjourney 效果相當。具體改進之處包括:更大的 unet backbone,是之前的 3 倍;增加了 refinement 模組用於改善生成圖片的品質;更高效的訓練技巧等。"
|
||||
},
|
||||
"stable-diffusion-xl-base-1.0": {
|
||||
"description": "由 Stability AI 開發並開源的文生圖大模型,其創意圖像生成能力位居行業前列。具備出色的指令理解能力,能夠支持反向 Prompt 定義來精確生成內容。"
|
||||
},
|
||||
"step-1-128k": {
|
||||
"description": "平衡性能與成本,適合一般場景。"
|
||||
},
|
||||
@@ -2498,12 +2348,6 @@
|
||||
"step-1v-8k": {
|
||||
"description": "小型視覺模型,適合基本的圖文任務。"
|
||||
},
|
||||
"step-1x-edit": {
|
||||
"description": "該模型專注於圖像編輯任務,能夠根據用戶提供的圖片和文本描述,對圖片進行修改和增強。支持多種輸入格式,包括文本描述和示例圖像。模型能夠理解用戶的意圖,並生成符合要求的圖像編輯結果。"
|
||||
},
|
||||
"step-1x-medium": {
|
||||
"description": "該模型擁有強大的圖像生成能力,支持文本描述作為輸入方式。具備原生的中文支持,能夠更好地理解和處理中文文本描述,並且能夠更準確地捕捉文本描述中的語義資訊,並將其轉化為圖像特徵,從而實現更精準的圖像生成。模型能夠根據輸入生成高解析度、高品質的圖像,並具備一定的風格遷移能力。"
|
||||
},
|
||||
"step-2-16k": {
|
||||
"description": "支持大規模上下文交互,適合複雜對話場景。"
|
||||
},
|
||||
@@ -2513,9 +2357,6 @@
|
||||
"step-2-mini": {
|
||||
"description": "基於新一代自研Attention架構MFA的極速大模型,用極低成本達到和step1類似的效果,同時保持了更高的吞吐和更快響應時延。能夠處理通用任務,在程式碼能力上具備特長。"
|
||||
},
|
||||
"step-2x-large": {
|
||||
"description": "階躍星辰新一代生圖模型,該模型專注於圖像生成任務,能夠根據用戶提供的文本描述,生成高品質的圖像。新模型生成圖片質感更真實,中英文文字生成能力更強。"
|
||||
},
|
||||
"step-r1-v-mini": {
|
||||
"description": "該模型是擁有強大的圖像理解能力的推理大模型,能夠處理圖像和文字信息,經過深度思考後輸出文本生成文本內容。該模型在視覺推理領域表現突出,同時擁有第一梯隊的數學、程式碼、文本推理能力。上下文長度為100k。"
|
||||
},
|
||||
@@ -2591,23 +2432,8 @@
|
||||
"v0-1.5-md": {
|
||||
"description": "v0-1.5-md 模型適用於日常任務和使用者介面(UI)生成"
|
||||
},
|
||||
"wan2.2-t2i-flash": {
|
||||
"description": "萬相2.2極速版,當前最新模型。在創意性、穩定性、寫實質感上全面升級,生成速度快,性價比高。"
|
||||
},
|
||||
"wan2.2-t2i-plus": {
|
||||
"description": "萬相2.2專業版,當前最新模型。在創意性、穩定性、寫實質感上全面升級,生成細節豐富。"
|
||||
},
|
||||
"wanx-v1": {
|
||||
"description": "基礎文生圖模型。對應通義萬相官網1.0通用模型。"
|
||||
},
|
||||
"wanx2.0-t2i-turbo": {
|
||||
"description": "擅長質感人像,速度中等、成本較低。對應通義萬相官網2.0極速模型。"
|
||||
},
|
||||
"wanx2.1-t2i-plus": {
|
||||
"description": "全面升級版本。生成圖像細節更豐富,速度稍慢。對應通義萬相官網2.1專業模型。"
|
||||
},
|
||||
"wanx2.1-t2i-turbo": {
|
||||
"description": "全面升級版本。生成速度快、效果全面、綜合性價比高。對應通義萬相官網2.1極速模型。"
|
||||
"description": "阿里雲通義旗下的文生圖模型"
|
||||
},
|
||||
"whisper-1": {
|
||||
"description": "通用語音識別模型,支持多語言語音識別、語音翻譯和語言識別。"
|
||||
@@ -2659,11 +2485,5 @@
|
||||
},
|
||||
"yi-vision-v2": {
|
||||
"description": "複雜視覺任務模型,提供基於多張圖片的高性能理解、分析能力。"
|
||||
},
|
||||
"zai-org/GLM-4.5": {
|
||||
"description": "GLM-4.5 是一款專為智能體應用打造的基礎模型,使用了混合專家(Mixture-of-Experts)架構。在工具調用、網頁瀏覽、軟體工程、前端程式設計領域進行了深度優化,支持無縫接入 Claude Code、Roo Code 等程式碼智能體中使用。GLM-4.5 採用混合推理模式,可以適應複雜推理和日常使用等多種應用場景。"
|
||||
},
|
||||
"zai-org/GLM-4.5-Air": {
|
||||
"description": "GLM-4.5-Air 是一款專為智能體應用打造的基礎模型,使用了混合專家(Mixture-of-Experts)架構。在工具調用、網頁瀏覽、軟體工程、前端程式設計領域進行了深度優化,支持無縫接入 Claude Code、Roo Code 等程式碼智能體中使用。GLM-4.5 採用混合推理模式,可以適應複雜推理和日常使用等多種應用場景。"
|
||||
}
|
||||
}
|
||||
|
||||
@@ -5,9 +5,6 @@
|
||||
"ai360": {
|
||||
"description": "360 AI 是 360 公司推出的 AI 模型和服務平台,提供多種先進的自然語言處理模型,包括 360GPT2 Pro、360GPT Pro、360GPT Turbo 和 360GPT Turbo Responsibility 8K。這些模型結合了大規模參數和多模態能力,廣泛應用於文本生成、語義理解、對話系統與代碼生成等領域。通過靈活的定價策略,360 AI 滿足多樣化用戶需求,支持開發者集成,推動智能化應用的革新和發展。"
|
||||
},
|
||||
"aihubmix": {
|
||||
"description": "AiHubMix 透過統一的 API 介面提供對多種 AI 模型的存取。"
|
||||
},
|
||||
"anthropic": {
|
||||
"description": "Anthropic 是一家專注於人工智慧研究和開發的公司,提供了一系列先進的語言模型,如 Claude 3.5 Sonnet、Claude 3 Sonnet、Claude 3 Opus 和 Claude 3 Haiku。這些模型在智能、速度和成本之間取得了理想的平衡,適用於從企業級工作負載到快速響應的各種應用場景。Claude 3.5 Sonnet 作為其最新模型,在多項評估中表現優異,同時保持了較高的性價比。"
|
||||
},
|
||||
|
||||
+5
-4
@@ -1,6 +1,6 @@
|
||||
{
|
||||
"name": "@lobehub/chat",
|
||||
"version": "1.107.2",
|
||||
"version": "1.105.1",
|
||||
"description": "Lobe Chat - an open-source, high-performance chatbot framework that supports speech synthesis, multimodal, and extensible Function Call plugin system. Supports one-click free deployment of your private ChatGPT/LLM web application.",
|
||||
"keywords": [
|
||||
"framework",
|
||||
@@ -196,7 +196,7 @@
|
||||
"i18next-resources-to-backend": "^1.2.1",
|
||||
"idb-keyval": "^6.2.2",
|
||||
"immer": "^10.1.1",
|
||||
"jose": "^5.10.0",
|
||||
"jose": "^6.0.12",
|
||||
"js-sha256": "^0.11.1",
|
||||
"jsonl-parse-stringify": "^1.0.3",
|
||||
"keyv": "^4.5.4",
|
||||
@@ -257,13 +257,14 @@
|
||||
"semver": "^7.7.2",
|
||||
"sharp": "^0.34.3",
|
||||
"shiki": "^3.8.1",
|
||||
"stripe": "^17.7.0",
|
||||
"stripe": "^16.12.0",
|
||||
"superjson": "^2.2.2",
|
||||
"svix": "^1.69.0",
|
||||
"swr": "^2.3.4",
|
||||
"systemjs": "^6.15.1",
|
||||
"tokenx": "^0.4.1",
|
||||
"ts-md5": "^1.3.1",
|
||||
"type-fest": "^4.41.0",
|
||||
"ua-parser-js": "^1.0.40",
|
||||
"unstructured-client": "^0.19.0",
|
||||
"url-join": "^5.0.0",
|
||||
@@ -355,7 +356,7 @@
|
||||
"stylelint": "^15.11.0",
|
||||
"tsx": "~4.19.4",
|
||||
"type-fest": "^4.41.0",
|
||||
"typescript": "^5.9.2",
|
||||
"typescript": "^5.8.3",
|
||||
"unified": "^11.0.5",
|
||||
"unist-util-visit": "^5.0.0",
|
||||
"vite": "^5.4.19",
|
||||
|
||||
@@ -1,17 +0,0 @@
|
||||
{
|
||||
"name": "@lobechat/types",
|
||||
"version": "1.0.0",
|
||||
"private": true,
|
||||
"exports": {
|
||||
"./*": {
|
||||
"types": [
|
||||
"./src/*.ts",
|
||||
"./src/*/index.ts"
|
||||
],
|
||||
"default": [
|
||||
"./src/*.ts",
|
||||
"./src/*/index.ts"
|
||||
]
|
||||
}
|
||||
}
|
||||
}
|
||||
@@ -81,7 +81,7 @@ export const fetchImageAsFile = async (url: string, width: number) => {
|
||||
const filename = Date.now().toString() + type;
|
||||
|
||||
// Step 3: Create a file from the blob
|
||||
const file: File = new File([buffer as ArrayBuffer], filename, {
|
||||
const file: File = new File([buffer], filename, {
|
||||
lastModified: Date.now(),
|
||||
type: type === '.webp' ? 'image/webp' : blob.type,
|
||||
});
|
||||
|
||||
@@ -9,7 +9,7 @@ import {
|
||||
enableClerk,
|
||||
} from '@/const/auth';
|
||||
import { ClerkAuth } from '@/libs/clerk-auth';
|
||||
import { AgentRuntimeError, ChatCompletionErrorPayload, ModelRuntime } from '@/libs/model-runtime';
|
||||
import { AgentRuntime, AgentRuntimeError, ChatCompletionErrorPayload } from '@/libs/model-runtime';
|
||||
import { validateOIDCJWT } from '@/libs/oidc-provider/jwt';
|
||||
import { ChatErrorType } from '@/types/fetch';
|
||||
import { createErrorResponse } from '@/utils/errorResponse';
|
||||
@@ -17,7 +17,7 @@ import { getXorPayload } from '@/utils/server/xor';
|
||||
|
||||
import { checkAuthMethod } from './utils';
|
||||
|
||||
type CreateRuntime = (jwtPayload: ClientSecretPayload) => ModelRuntime;
|
||||
type CreateRuntime = (jwtPayload: ClientSecretPayload) => AgentRuntime;
|
||||
type RequestOptions = { createRuntime?: CreateRuntime; params: Promise<{ provider: string }> };
|
||||
|
||||
export type RequestHandler = (
|
||||
|
||||
@@ -3,50 +3,9 @@ import { NextRequest, NextResponse, after } from 'next/server';
|
||||
|
||||
import { OAuthHandoffModel } from '@/database/models/oauthHandoff';
|
||||
import { serverDB } from '@/database/server';
|
||||
import { correctOIDCUrl } from '@/utils/server/correctOIDCUrl';
|
||||
|
||||
const log = debug('lobe-oidc:callback:desktop');
|
||||
|
||||
const errorPathname = '/oauth/callback/error';
|
||||
|
||||
/**
|
||||
* 安全地构建重定向URL
|
||||
*/
|
||||
const buildRedirectUrl = (req: NextRequest, pathname: string): URL => {
|
||||
const forwardedHost = req.headers.get('x-forwarded-host');
|
||||
const requestHost = req.headers.get('host');
|
||||
const forwardedProto =
|
||||
req.headers.get('x-forwarded-proto') || req.headers.get('x-forwarded-protocol');
|
||||
|
||||
// 确定实际的主机名,提供后备值
|
||||
const actualHost = forwardedHost || requestHost;
|
||||
const actualProto = forwardedProto || 'https';
|
||||
|
||||
log(
|
||||
'Building redirect URL - host: %s, proto: %s, pathname: %s',
|
||||
actualHost,
|
||||
actualProto,
|
||||
pathname,
|
||||
);
|
||||
|
||||
// 如果主机名仍然无效,使用req.nextUrl作为后备
|
||||
if (!actualHost) {
|
||||
log('Warning: Invalid host detected, using req.nextUrl as fallback');
|
||||
const fallbackUrl = req.nextUrl.clone();
|
||||
fallbackUrl.pathname = pathname;
|
||||
return fallbackUrl;
|
||||
}
|
||||
|
||||
try {
|
||||
return new URL(`${actualProto}://${actualHost}${pathname}`);
|
||||
} catch (error) {
|
||||
log('Error constructing URL, using req.nextUrl as fallback: %O', error);
|
||||
const fallbackUrl = req.nextUrl.clone();
|
||||
fallbackUrl.pathname = pathname;
|
||||
return fallbackUrl;
|
||||
}
|
||||
};
|
||||
|
||||
export const GET = async (req: NextRequest) => {
|
||||
try {
|
||||
const searchParams = req.nextUrl.searchParams;
|
||||
@@ -55,11 +14,9 @@ export const GET = async (req: NextRequest) => {
|
||||
|
||||
if (!code || !state || typeof code !== 'string' || typeof state !== 'string') {
|
||||
log('Missing code or state in form data');
|
||||
|
||||
const errorUrl = buildRedirectUrl(req, errorPathname);
|
||||
const errorUrl = req.nextUrl.clone();
|
||||
errorUrl.pathname = '/oauth/callback/error';
|
||||
errorUrl.searchParams.set('reason', 'invalid_request');
|
||||
|
||||
log('Redirecting to error URL: %s', errorUrl.toString());
|
||||
return NextResponse.redirect(errorUrl);
|
||||
}
|
||||
|
||||
@@ -74,16 +31,9 @@ export const GET = async (req: NextRequest) => {
|
||||
await authHandoffModel.create({ client, id, payload });
|
||||
log('Handoff record created successfully for id: %s', id);
|
||||
|
||||
const successUrl = buildRedirectUrl(req, '/oauth/callback/success');
|
||||
|
||||
// 添加调试日志
|
||||
log('Request host header: %s', req.headers.get('host'));
|
||||
log('Request x-forwarded-host: %s', req.headers.get('x-forwarded-host'));
|
||||
log('Request x-forwarded-proto: %s', req.headers.get('x-forwarded-proto'));
|
||||
log('Constructed success URL: %s', successUrl.toString());
|
||||
|
||||
const correctedUrl = correctOIDCUrl(req, successUrl);
|
||||
log('Final redirect URL: %s', correctedUrl.toString());
|
||||
// Redirect to a generic success page. The desktop app will poll for the result.
|
||||
const successUrl = req.nextUrl.clone();
|
||||
successUrl.pathname = '/oauth/callback/success';
|
||||
|
||||
// cleanup expired
|
||||
after(async () => {
|
||||
@@ -92,18 +42,17 @@ export const GET = async (req: NextRequest) => {
|
||||
log('Cleaned up %d expired handoff records', cleanedCount);
|
||||
});
|
||||
|
||||
return NextResponse.redirect(correctedUrl);
|
||||
return NextResponse.redirect(successUrl);
|
||||
} catch (error) {
|
||||
log('Error in OIDC callback: %O', error);
|
||||
|
||||
const errorUrl = buildRedirectUrl(req, errorPathname);
|
||||
const errorUrl = req.nextUrl.clone();
|
||||
errorUrl.pathname = '/oauth/callback/error';
|
||||
errorUrl.searchParams.set('reason', 'internal_error');
|
||||
|
||||
if (error instanceof Error) {
|
||||
errorUrl.searchParams.set('errorMessage', error.message);
|
||||
}
|
||||
|
||||
log('Redirecting to error URL: %s', errorUrl.toString());
|
||||
return NextResponse.redirect(errorUrl);
|
||||
}
|
||||
};
|
||||
|
||||
@@ -3,7 +3,6 @@ import { NextRequest, NextResponse } from 'next/server';
|
||||
|
||||
import { OIDCService } from '@/server/services/oidc';
|
||||
import { getUserAuth } from '@/utils/server/auth';
|
||||
import { correctOIDCUrl } from '@/utils/server/correctOIDCUrl';
|
||||
|
||||
const log = debug('lobe-oidc:consent');
|
||||
|
||||
@@ -114,15 +113,19 @@ export async function POST(request: NextRequest) {
|
||||
const internalRedirectUrlString = await oidcService.getInteractionResult(uid, result);
|
||||
log('OIDC Provider internal redirect URL string: %s', internalRedirectUrlString);
|
||||
|
||||
let finalRedirectUrl;
|
||||
try {
|
||||
finalRedirectUrl = correctOIDCUrl(request, new URL(internalRedirectUrlString));
|
||||
} catch {
|
||||
finalRedirectUrl = new URL(internalRedirectUrlString);
|
||||
log('Warning: Could not parse redirect URL, using as-is: %s', internalRedirectUrlString);
|
||||
}
|
||||
// // Construct the handoff URL
|
||||
// const handoffUrl = new URL('/oauth/handoff', request.nextUrl.origin);
|
||||
// // Set the original redirect URL as the 'target' query parameter (URL encoded)
|
||||
// handoffUrl.searchParams.set('target', internalRedirectUrlString);
|
||||
//
|
||||
// log('Redirecting to handoff page: %s', handoffUrl.toString());
|
||||
// // Redirect to the handoff page
|
||||
// return NextResponse.redirect(handoffUrl.toString(), {
|
||||
// headers: request.headers, // Keep original headers if necessary
|
||||
// status: 303,
|
||||
// });
|
||||
|
||||
return NextResponse.redirect(finalRedirectUrl, {
|
||||
return NextResponse.redirect(internalRedirectUrlString, {
|
||||
headers: request.headers,
|
||||
status: 303,
|
||||
});
|
||||
|
||||
@@ -4,7 +4,7 @@ import { afterEach, beforeEach, describe, expect, it, vi } from 'vitest';
|
||||
|
||||
import { checkAuthMethod } from '@/app/(backend)/middleware/auth/utils';
|
||||
import { LOBE_CHAT_AUTH_HEADER, OAUTH_AUTHORIZED } from '@/const/auth';
|
||||
import { LobeRuntimeAI, ModelRuntime } from '@/libs/model-runtime';
|
||||
import { AgentRuntime, LobeRuntimeAI } from '@/libs/model-runtime';
|
||||
import { ChatErrorType } from '@/types/fetch';
|
||||
import { getXorPayload } from '@/utils/server/xor';
|
||||
|
||||
@@ -57,10 +57,10 @@ afterEach(() => {
|
||||
|
||||
describe('POST handler', () => {
|
||||
describe('init chat model', () => {
|
||||
it('should initialize ModelRuntime correctly with valid authorization', async () => {
|
||||
it('should initialize AgentRuntime correctly with valid authorization', async () => {
|
||||
const mockParams = Promise.resolve({ provider: 'test-provider' });
|
||||
|
||||
// 设置 getJWTPayload 和 initModelRuntimeWithUserPayload 的模拟返回值
|
||||
// 设置 getJWTPayload 和 initAgentRuntimeWithUserPayload 的模拟返回值
|
||||
vi.mocked(getXorPayload).mockReturnValueOnce({
|
||||
accessCode: 'test-access-code',
|
||||
apiKey: 'test-api-key',
|
||||
@@ -69,10 +69,10 @@ describe('POST handler', () => {
|
||||
|
||||
const mockRuntime: LobeRuntimeAI = { baseURL: 'abc', chat: vi.fn() };
|
||||
|
||||
// migrate to new ModelRuntime init api
|
||||
// migrate to new AgentRuntime init api
|
||||
const spy = vi
|
||||
.spyOn(ModelRuntime, 'initializeWithProvider')
|
||||
.mockResolvedValue(new ModelRuntime(mockRuntime));
|
||||
.spyOn(AgentRuntime, 'initializeWithProvider')
|
||||
.mockResolvedValue(new AgentRuntime(mockRuntime));
|
||||
|
||||
// 调用 POST 函数
|
||||
await POST(request as unknown as Request, { params: mockParams });
|
||||
@@ -111,14 +111,14 @@ describe('POST handler', () => {
|
||||
});
|
||||
|
||||
const mockParams = Promise.resolve({ provider: 'test-provider' });
|
||||
// 设置 initModelRuntimeWithUserPayload 的模拟返回值
|
||||
// 设置 initAgentRuntimeWithUserPayload 的模拟返回值
|
||||
vi.mocked(getAuth).mockReturnValue({} as any);
|
||||
vi.mocked(checkAuthMethod).mockReset();
|
||||
|
||||
const mockRuntime: LobeRuntimeAI = { baseURL: 'abc', chat: vi.fn() };
|
||||
|
||||
vi.spyOn(ModelRuntime, 'initializeWithProvider').mockResolvedValue(
|
||||
new ModelRuntime(mockRuntime),
|
||||
vi.spyOn(AgentRuntime, 'initializeWithProvider').mockResolvedValue(
|
||||
new AgentRuntime(mockRuntime),
|
||||
);
|
||||
|
||||
const request = new Request(new URL('https://test.com'), {
|
||||
@@ -178,12 +178,12 @@ describe('POST handler', () => {
|
||||
|
||||
const mockChatResponse: any = { success: true, message: 'Reply from agent' };
|
||||
|
||||
vi.spyOn(ModelRuntime.prototype, 'chat').mockResolvedValue(mockChatResponse);
|
||||
vi.spyOn(AgentRuntime.prototype, 'chat').mockResolvedValue(mockChatResponse);
|
||||
|
||||
const response = await POST(request as unknown as Request, { params: mockParams });
|
||||
|
||||
expect(response).toEqual(mockChatResponse);
|
||||
expect(ModelRuntime.prototype.chat).toHaveBeenCalledWith(mockChatPayload, {
|
||||
expect(AgentRuntime.prototype.chat).toHaveBeenCalledWith(mockChatPayload, {
|
||||
user: 'abc',
|
||||
signal: expect.anything(),
|
||||
});
|
||||
@@ -210,7 +210,7 @@ describe('POST handler', () => {
|
||||
errorMessage: 'Something went wrong',
|
||||
};
|
||||
|
||||
vi.spyOn(ModelRuntime.prototype, 'chat').mockRejectedValue(mockErrorResponse);
|
||||
vi.spyOn(AgentRuntime.prototype, 'chat').mockRejectedValue(mockErrorResponse);
|
||||
|
||||
const response = await POST(request, { params: mockParams });
|
||||
|
||||
|
||||
@@ -1,10 +1,10 @@
|
||||
import { checkAuth } from '@/app/(backend)/middleware/auth';
|
||||
import {
|
||||
AGENT_RUNTIME_ERROR_SET,
|
||||
AgentRuntime,
|
||||
ChatCompletionErrorPayload,
|
||||
ModelRuntime,
|
||||
} from '@/libs/model-runtime';
|
||||
import { createTraceOptions, initModelRuntimeWithUserPayload } from '@/server/modules/ModelRuntime';
|
||||
import { createTraceOptions, initAgentRuntimeWithUserPayload } from '@/server/modules/AgentRuntime';
|
||||
import { ChatErrorType } from '@/types/fetch';
|
||||
import { ChatStreamPayload } from '@/types/openai/chat';
|
||||
import { createErrorResponse } from '@/utils/errorResponse';
|
||||
@@ -17,11 +17,11 @@ export const POST = checkAuth(async (req: Request, { params, jwtPayload, createR
|
||||
|
||||
try {
|
||||
// ============ 1. init chat model ============ //
|
||||
let modelRuntime: ModelRuntime;
|
||||
let agentRuntime: AgentRuntime;
|
||||
if (createRuntime) {
|
||||
modelRuntime = createRuntime(jwtPayload);
|
||||
agentRuntime = createRuntime(jwtPayload);
|
||||
} else {
|
||||
modelRuntime = await initModelRuntimeWithUserPayload(provider, jwtPayload);
|
||||
agentRuntime = await initAgentRuntimeWithUserPayload(provider, jwtPayload);
|
||||
}
|
||||
|
||||
// ============ 2. create chat completion ============ //
|
||||
@@ -36,7 +36,7 @@ export const POST = checkAuth(async (req: Request, { params, jwtPayload, createR
|
||||
traceOptions = createTraceOptions(data, { provider, trace: tracePayload });
|
||||
}
|
||||
|
||||
return await modelRuntime.chat(data, {
|
||||
return await agentRuntime.chat(data, {
|
||||
user: jwtPayload.userId,
|
||||
...traceOptions,
|
||||
signal: req.signal,
|
||||
|
||||
@@ -1,5 +1,5 @@
|
||||
import { checkAuth } from '@/app/(backend)/middleware/auth';
|
||||
import { ModelProvider, ModelRuntime } from '@/libs/model-runtime';
|
||||
import { AgentRuntime, ModelProvider } from '@/libs/model-runtime';
|
||||
import { LobeVertexAI } from '@/libs/model-runtime/vertexai';
|
||||
import { safeParseJSON } from '@/utils/safeParseJSON';
|
||||
|
||||
@@ -28,7 +28,7 @@ export const POST = checkAuth(async (req: Request, { jwtPayload }) =>
|
||||
project: !!credentials?.project_id ? credentials?.project_id : process.env.VERTEXAI_PROJECT,
|
||||
});
|
||||
|
||||
return new ModelRuntime(instance);
|
||||
return new AgentRuntime(instance);
|
||||
},
|
||||
params: Promise.resolve({ provider: ModelProvider.VertexAI }),
|
||||
}),
|
||||
|
||||
@@ -1,6 +1,6 @@
|
||||
import { checkAuth } from '@/app/(backend)/middleware/auth';
|
||||
import { ChatCompletionErrorPayload, PullModelParams } from '@/libs/model-runtime';
|
||||
import { initModelRuntimeWithUserPayload } from '@/server/modules/ModelRuntime';
|
||||
import { initAgentRuntimeWithUserPayload } from '@/server/modules/AgentRuntime';
|
||||
import { ChatErrorType } from '@/types/fetch';
|
||||
import { createErrorResponse } from '@/utils/errorResponse';
|
||||
|
||||
@@ -10,7 +10,7 @@ export const POST = checkAuth(async (req, { params, jwtPayload }) => {
|
||||
const { provider } = await params;
|
||||
|
||||
try {
|
||||
const agentRuntime = await initModelRuntimeWithUserPayload(provider, jwtPayload);
|
||||
const agentRuntime = await initAgentRuntimeWithUserPayload(provider, jwtPayload);
|
||||
|
||||
const data = (await req.json()) as PullModelParams;
|
||||
|
||||
|
||||
@@ -2,7 +2,7 @@ import { NextResponse } from 'next/server';
|
||||
|
||||
import { checkAuth } from '@/app/(backend)/middleware/auth';
|
||||
import { ChatCompletionErrorPayload, ModelProvider } from '@/libs/model-runtime';
|
||||
import { initModelRuntimeWithUserPayload } from '@/server/modules/ModelRuntime';
|
||||
import { initAgentRuntimeWithUserPayload } from '@/server/modules/AgentRuntime';
|
||||
import { ChatErrorType } from '@/types/fetch';
|
||||
import { createErrorResponse } from '@/utils/errorResponse';
|
||||
|
||||
@@ -16,7 +16,7 @@ export const GET = checkAuth(async (req, { params, jwtPayload }) => {
|
||||
try {
|
||||
const hasDefaultApiKey = jwtPayload.apiKey || 'dont-need-api-key-for-model-list';
|
||||
|
||||
const agentRuntime = await initModelRuntimeWithUserPayload(provider, {
|
||||
const agentRuntime = await initAgentRuntimeWithUserPayload(provider, {
|
||||
...jwtPayload,
|
||||
apiKey: noNeedAPIKey(provider) ? hasDefaultApiKey : jwtPayload.apiKey,
|
||||
});
|
||||
|
||||
@@ -3,7 +3,7 @@ import { NextResponse } from 'next/server';
|
||||
import { checkAuth } from '@/app/(backend)/middleware/auth';
|
||||
import { ChatCompletionErrorPayload } from '@/libs/model-runtime';
|
||||
import { TextToImagePayload } from '@/libs/model-runtime/types';
|
||||
import { initModelRuntimeWithUserPayload } from '@/server/modules/ModelRuntime';
|
||||
import { initAgentRuntimeWithUserPayload } from '@/server/modules/AgentRuntime';
|
||||
import { ChatErrorType } from '@/types/fetch';
|
||||
import { createErrorResponse } from '@/utils/errorResponse';
|
||||
|
||||
@@ -52,7 +52,7 @@ export const POST = checkAuth(async (req: Request, { params, jwtPayload }) => {
|
||||
|
||||
try {
|
||||
// ============ 1. init chat model ============ //
|
||||
const agentRuntime = await initModelRuntimeWithUserPayload(provider, jwtPayload);
|
||||
const agentRuntime = await initAgentRuntimeWithUserPayload(provider, jwtPayload);
|
||||
|
||||
// ============ 2. create chat completion ============ //
|
||||
|
||||
|
||||
+2
-17
@@ -6,8 +6,6 @@ import { DEFAULT_INBOX_AVATAR } from '@/const/meta';
|
||||
import { INBOX_SESSION_ID } from '@/const/session';
|
||||
import { SESSION_CHAT_URL } from '@/const/url';
|
||||
import { useSwitchSession } from '@/hooks/useSwitchSession';
|
||||
import { getChatStoreState, useChatStore } from '@/store/chat';
|
||||
import { chatSelectors } from '@/store/chat/selectors';
|
||||
import { useServerConfigStore } from '@/store/serverConfig';
|
||||
import { useSessionStore } from '@/store/session';
|
||||
|
||||
@@ -19,26 +17,13 @@ const Inbox = memo(() => {
|
||||
const activeId = useSessionStore((s) => s.activeId);
|
||||
const switchSession = useSwitchSession();
|
||||
|
||||
const openNewTopicOrSaveTopic = useChatStore((s) => s.openNewTopicOrSaveTopic);
|
||||
|
||||
return (
|
||||
<Link
|
||||
aria-label={t('inbox.title')}
|
||||
href={SESSION_CHAT_URL(INBOX_SESSION_ID, mobile)}
|
||||
onClick={async (e) => {
|
||||
onClick={(e) => {
|
||||
e.preventDefault();
|
||||
|
||||
if (activeId === INBOX_SESSION_ID && !mobile) {
|
||||
// If user tap the inbox again, open a new topic.
|
||||
// Only for desktop.
|
||||
const inboxMessages = chatSelectors.inboxActiveTopicMessages(getChatStoreState());
|
||||
|
||||
if (inboxMessages.length > 0) {
|
||||
await openNewTopicOrSaveTopic();
|
||||
}
|
||||
} else {
|
||||
switchSession(INBOX_SESSION_ID);
|
||||
}
|
||||
switchSession(INBOX_SESSION_ID);
|
||||
}}
|
||||
>
|
||||
<ListItem
|
||||
|
||||
@@ -5,18 +5,15 @@ import { useSize } from 'ahooks';
|
||||
import { memo, useRef } from 'react';
|
||||
import { Flexbox } from 'react-layout-kit';
|
||||
|
||||
import { useFetchGenerationTopics } from '@/hooks/useFetchGenerationTopics';
|
||||
import { useImageStore } from '@/store/image';
|
||||
import { generationTopicSelectors } from '@/store/image/selectors';
|
||||
import { useUserStore } from '@/store/user';
|
||||
import { authSelectors } from '@/store/user/slices/auth/selectors';
|
||||
|
||||
import NewTopicButton from './NewTopicButton';
|
||||
import TopicItem from './TopicItem';
|
||||
|
||||
const TopicsList = memo(() => {
|
||||
const isLogin = useUserStore(authSelectors.isLogin);
|
||||
const useFetchGenerationTopics = useImageStore((s) => s.useFetchGenerationTopics);
|
||||
useFetchGenerationTopics(!!isLogin);
|
||||
useFetchGenerationTopics();
|
||||
const ref = useRef(null);
|
||||
const { width = 80 } = useSize(ref) || {};
|
||||
const [parent] = useAutoAnimate();
|
||||
|
||||
@@ -7,12 +7,9 @@ import type { KeyboardEvent } from 'react';
|
||||
import { useTranslation } from 'react-i18next';
|
||||
import { Flexbox } from 'react-layout-kit';
|
||||
|
||||
import { loginRequired } from '@/components/Error/loginRequiredNotification';
|
||||
import { useImageStore } from '@/store/image';
|
||||
import { createImageSelectors } from '@/store/image/selectors';
|
||||
import { useGenerationConfigParam } from '@/store/image/slices/generationConfig/hooks';
|
||||
import { useUserStore } from '@/store/user';
|
||||
import { authSelectors } from '@/store/user/slices/auth/selectors';
|
||||
|
||||
import PromptTitle from './Title';
|
||||
|
||||
@@ -49,14 +46,8 @@ const PromptInput = ({ showTitle = false }: PromptInputProps) => {
|
||||
const { value, setValue } = useGenerationConfigParam('prompt');
|
||||
const isCreating = useImageStore(createImageSelectors.isCreating);
|
||||
const createImage = useImageStore((s) => s.createImage);
|
||||
const isLogin = useUserStore(authSelectors.isLogin);
|
||||
|
||||
const handleGenerate = async () => {
|
||||
if (!isLogin) {
|
||||
loginRequired.redirect({ timeout: 2000 });
|
||||
return;
|
||||
}
|
||||
|
||||
await createImage();
|
||||
};
|
||||
|
||||
|
||||
@@ -18,7 +18,7 @@ import { LayoutProps } from '../type';
|
||||
import Header from './Header';
|
||||
import SideBar from './SideBar';
|
||||
|
||||
const SKIP_PATHS = ['/settings/provider', '/settings/agent'];
|
||||
const SKIP_PATHS = ['/settings/provider', '/settings/agent', '/settings/plugin'];
|
||||
|
||||
const Layout = memo<LayoutProps>(({ children, category }) => {
|
||||
const ref = useRef<any>(null);
|
||||
|
||||
@@ -8,6 +8,7 @@ import {
|
||||
Info,
|
||||
KeyboardIcon,
|
||||
Mic2,
|
||||
Puzzle,
|
||||
Settings2,
|
||||
Sparkles,
|
||||
} from 'lucide-react';
|
||||
@@ -115,6 +116,15 @@ export const useCategory = () => {
|
||||
</Link>
|
||||
),
|
||||
},
|
||||
{
|
||||
icon: <Icon icon={Puzzle} />,
|
||||
key: SettingsTabs.Plugin,
|
||||
label: (
|
||||
<Link href={'/settings/plugin'} onClick={(e) => e.preventDefault()}>
|
||||
{t('tab.plugin')}
|
||||
</Link>
|
||||
),
|
||||
},
|
||||
{
|
||||
type: 'divider',
|
||||
},
|
||||
|
||||
@@ -0,0 +1,23 @@
|
||||
import { memo } from 'react';
|
||||
|
||||
import McpDetail from '@/features/PluginStore/McpList/Detail';
|
||||
import PluginDetail from '@/features/PluginStore/PluginList/Detail';
|
||||
import CustomPluginEmptyState from '@/features/PluginStore/InstalledList/Detail/CustomPluginEmptyState';
|
||||
|
||||
interface DetailProps {
|
||||
identifier: string;
|
||||
runtimeType?: 'mcp' | 'default';
|
||||
type?: 'plugin' | 'customPlugin' | 'builtin';
|
||||
}
|
||||
|
||||
const Detail = memo<DetailProps>(({ identifier, type, runtimeType }) => {
|
||||
if (type === 'customPlugin') return <CustomPluginEmptyState identifier={identifier} />;
|
||||
|
||||
if (runtimeType === 'mcp') return <McpDetail identifier={identifier} />;
|
||||
|
||||
if (type === 'plugin') return <PluginDetail identifier={identifier} />;
|
||||
|
||||
return null;
|
||||
});
|
||||
|
||||
export default Detail;
|
||||
@@ -0,0 +1,77 @@
|
||||
import { Empty } from 'antd';
|
||||
import isEqual from 'fast-deep-equal';
|
||||
import { memo, useMemo } from 'react';
|
||||
import { useTranslation } from 'react-i18next';
|
||||
import { Center, Flexbox } from 'react-layout-kit';
|
||||
import { Virtuoso } from 'react-virtuoso';
|
||||
|
||||
import { useToolStore } from '@/store/tool';
|
||||
import { pluginSelectors } from '@/store/tool/selectors';
|
||||
import { LobeToolType } from '@/types/tool/tool';
|
||||
|
||||
import PluginItem from '@/features/PluginStore/InstalledList/List/Item';
|
||||
|
||||
interface ListProps {
|
||||
identifier?: string;
|
||||
keywords?: string;
|
||||
setIdentifier?: (props: {
|
||||
identifier?: string;
|
||||
runtimeType: 'mcp' | 'default';
|
||||
type?: LobeToolType;
|
||||
}) => void;
|
||||
}
|
||||
|
||||
export const List = memo<ListProps>(({ keywords, identifier, setIdentifier }) => {
|
||||
const { t } = useTranslation('plugin');
|
||||
const installedPlugins = useToolStore(pluginSelectors.installedPluginMetaList, isEqual);
|
||||
|
||||
const filteredPluginList = useMemo(
|
||||
() =>
|
||||
installedPlugins.filter((item) =>
|
||||
[item?.title, item?.description, item.author, ...(item?.tags || [])]
|
||||
.filter(Boolean)
|
||||
.join('')
|
||||
.toLowerCase()
|
||||
.includes((keywords || '')?.toLowerCase()),
|
||||
),
|
||||
[installedPlugins, keywords],
|
||||
);
|
||||
|
||||
const isEmpty = installedPlugins.length === 0;
|
||||
|
||||
if (isEmpty)
|
||||
return (
|
||||
<Center paddingBlock={40}>
|
||||
<Empty description={t('store.empty')} image={Empty.PRESENTED_IMAGE_SIMPLE} />
|
||||
</Center>
|
||||
);
|
||||
|
||||
return (
|
||||
<Virtuoso
|
||||
data={filteredPluginList}
|
||||
itemContent={(_, item) => {
|
||||
return (
|
||||
<Flexbox
|
||||
key={item.identifier}
|
||||
onClick={() => {
|
||||
setIdentifier?.({
|
||||
identifier: item.identifier,
|
||||
runtimeType: item.runtimeType as any,
|
||||
type: item.type,
|
||||
});
|
||||
}}
|
||||
paddingBlock={2}
|
||||
paddingInline={4}
|
||||
>
|
||||
<PluginItem active={identifier === item.identifier} {...(item as any)} />
|
||||
</Flexbox>
|
||||
);
|
||||
}}
|
||||
overscan={400}
|
||||
style={{ height: '100%', width: '100%' }}
|
||||
totalCount={filteredPluginList.length}
|
||||
/>
|
||||
);
|
||||
});
|
||||
|
||||
export default List;
|
||||
@@ -0,0 +1,101 @@
|
||||
'use client';
|
||||
|
||||
import { DraggablePanel } from '@lobehub/ui';
|
||||
import { Empty, Input } from 'antd';
|
||||
import { useTheme } from 'antd-style';
|
||||
import { Search } from 'lucide-react';
|
||||
import { memo, useRef, useState } from 'react';
|
||||
import { useTranslation } from 'react-i18next';
|
||||
import { Center, Flexbox } from 'react-layout-kit';
|
||||
|
||||
import { useFetchInstalledPlugins } from '@/hooks/useFetchInstalledPlugins';
|
||||
import { useToolStore } from '@/store/tool';
|
||||
import { pluginSelectors } from '@/store/tool/selectors';
|
||||
import { LobeToolType } from '@/types/tool/tool';
|
||||
|
||||
import Detail from './components/Detail';
|
||||
import List from './components/List';
|
||||
|
||||
const PluginSettings = memo(() => {
|
||||
const { t } = useTranslation('plugin');
|
||||
const ref = useRef<HTMLDivElement>(null);
|
||||
const theme = useTheme();
|
||||
|
||||
const [keywords, setKeywords] = useState<string>('');
|
||||
const [type, setType] = useState<LobeToolType>();
|
||||
const [runtimeType, setRuntimeType] = useState<'mcp' | 'default'>();
|
||||
|
||||
const [identifier] = useToolStore((s) => [s.activePluginIdentifier]);
|
||||
const isEmpty = useToolStore((s) => pluginSelectors.installedPluginMetaList(s).length === 0);
|
||||
useFetchInstalledPlugins();
|
||||
|
||||
if (isEmpty)
|
||||
return (
|
||||
<Center height={'60vh'} paddingBlock={40}>
|
||||
<Empty description={t('store.empty')} image={Empty.PRESENTED_IMAGE_SIMPLE} />
|
||||
</Center>
|
||||
);
|
||||
|
||||
return (
|
||||
<Flexbox
|
||||
height={'100vh'}
|
||||
horizontal
|
||||
style={{
|
||||
overflow: 'hidden',
|
||||
position: 'relative',
|
||||
}}
|
||||
width={'100%'}
|
||||
>
|
||||
<DraggablePanel maxWidth={1024} minWidth={420} placement={'left'}>
|
||||
<Flexbox padding={8}>
|
||||
<Input
|
||||
allowClear
|
||||
onChange={(e) => setKeywords(e.target.value)}
|
||||
placeholder={t('store.search')}
|
||||
prefix={<Search size={16} />}
|
||||
style={{ width: '100%' }}
|
||||
value={keywords}
|
||||
/>
|
||||
</Flexbox>
|
||||
|
||||
<List
|
||||
identifier={identifier}
|
||||
keywords={keywords}
|
||||
setIdentifier={({ identifier, type, runtimeType }) => {
|
||||
useToolStore.setState({ activePluginIdentifier: identifier });
|
||||
setType(type);
|
||||
setRuntimeType(runtimeType);
|
||||
ref?.current?.scrollTo({ top: 0 });
|
||||
}}
|
||||
/>
|
||||
</DraggablePanel>
|
||||
{identifier ? (
|
||||
<Flexbox
|
||||
height={'100%'}
|
||||
padding={16}
|
||||
ref={ref}
|
||||
style={{
|
||||
background: theme.colorBgContainerSecondary,
|
||||
overflowX: 'hidden',
|
||||
overflowY: 'auto',
|
||||
}}
|
||||
width={'100%'}
|
||||
>
|
||||
<Detail identifier={identifier} runtimeType={runtimeType} type={type} />
|
||||
</Flexbox>
|
||||
) : (
|
||||
<Center
|
||||
height={'100%'}
|
||||
style={{
|
||||
background: theme.colorBgContainerSecondary,
|
||||
}}
|
||||
width={'100%'}
|
||||
>
|
||||
<Empty description={t('store.emptySelectHint')} image={Empty.PRESENTED_IMAGE_SIMPLE} />
|
||||
</Center>
|
||||
)}
|
||||
</Flexbox>
|
||||
);
|
||||
});
|
||||
|
||||
export default PluginSettings;
|
||||
@@ -0,0 +1,17 @@
|
||||
import { metadataModule } from '@/server/metadata';
|
||||
import { translation } from '@/server/translation';
|
||||
import { DynamicLayoutProps } from '@/types/next';
|
||||
import { RouteVariants } from '@/utils/server/routeVariants';
|
||||
|
||||
export const generateMetadata = async (props: DynamicLayoutProps) => {
|
||||
const locale = await RouteVariants.getLocale(props);
|
||||
const { t } = await translation('setting', locale);
|
||||
|
||||
return metadataModule.generate({
|
||||
description: t('header.desc'),
|
||||
title: t('tab.plugin'),
|
||||
url: '/settings/plugin',
|
||||
});
|
||||
};
|
||||
|
||||
export { default } from './index';
|
||||
@@ -48,10 +48,10 @@ const useProviderCard = (): ProviderItem => {
|
||||
),
|
||||
desc: (
|
||||
<Markdown className={styles.markdown} fontSize={12} variant={'chat'}>
|
||||
{t('github.personalAccessToken.desc')}
|
||||
{t(`github.personalAccessToken.desc`)}
|
||||
</Markdown>
|
||||
),
|
||||
label: t('github.personalAccessToken.title'),
|
||||
label: t(`github.personalAccessToken.title`),
|
||||
name: [KeyVaultsConfigKey, LLMProviderApiTokenKey],
|
||||
},
|
||||
],
|
||||
|
||||
@@ -0,0 +1,67 @@
|
||||
'use client';
|
||||
|
||||
import { Markdown } from '@lobehub/ui';
|
||||
import { createStyles } from 'antd-style';
|
||||
import { useTranslation } from 'react-i18next';
|
||||
|
||||
import { FormPassword } from '@/components/FormInput';
|
||||
import { HuggingFaceProviderCard } from '@/config/modelProviders';
|
||||
import { aiProviderSelectors, useAiInfraStore } from '@/store/aiInfra';
|
||||
import { GlobalLLMProviderKey } from '@/types/user/settings';
|
||||
|
||||
import { KeyVaultsConfigKey, LLMProviderApiTokenKey } from '../../const';
|
||||
import { SkeletonInput } from '../../features/ProviderConfig';
|
||||
import { ProviderItem } from '../../type';
|
||||
import ProviderDetail from '../[id]';
|
||||
|
||||
const useStyles = createStyles(({ css, token }) => ({
|
||||
markdown: css`
|
||||
p {
|
||||
color: ${token.colorTextDescription} !important;
|
||||
}
|
||||
`,
|
||||
tip: css`
|
||||
font-size: 12px;
|
||||
color: ${token.colorTextDescription};
|
||||
`,
|
||||
}));
|
||||
|
||||
const providerKey: GlobalLLMProviderKey = 'huggingface';
|
||||
|
||||
// Same as OpenAIProvider, but replace API Key with HuggingFace Access Token
|
||||
const useProviderCard = (): ProviderItem => {
|
||||
const { t } = useTranslation('modelProvider');
|
||||
const { styles } = useStyles();
|
||||
const isLoading = useAiInfraStore(aiProviderSelectors.isAiProviderConfigLoading(providerKey));
|
||||
|
||||
return {
|
||||
...HuggingFaceProviderCard,
|
||||
apiKeyItems: [
|
||||
{
|
||||
children: isLoading ? (
|
||||
<SkeletonInput />
|
||||
) : (
|
||||
<FormPassword
|
||||
autoComplete={'new-password'}
|
||||
placeholder={t('huggingface.accessToken.placeholder')}
|
||||
/>
|
||||
),
|
||||
desc: (
|
||||
<Markdown className={styles.markdown} fontSize={12} variant={'chat'}>
|
||||
{t('huggingface.accessToken.desc')}
|
||||
</Markdown>
|
||||
),
|
||||
label: t('huggingface.accessToken.title'),
|
||||
name: [KeyVaultsConfigKey, LLMProviderApiTokenKey],
|
||||
},
|
||||
],
|
||||
};
|
||||
};
|
||||
|
||||
const Page = () => {
|
||||
const card = useProviderCard();
|
||||
|
||||
return <ProviderDetail {...card} />;
|
||||
};
|
||||
|
||||
export default Page;
|
||||
@@ -97,7 +97,6 @@ const useStyles = createStyles(({ css, prefixCls, responsive, token }) => ({
|
||||
|
||||
export interface ProviderConfigProps extends Omit<AiProviderDetailItem, 'enabled' | 'source'> {
|
||||
apiKeyItems?: FormItemProps[];
|
||||
apiKeyUrl?: string;
|
||||
canDeactivate?: boolean;
|
||||
checkErrorRender?: CheckErrorRender;
|
||||
className?: string;
|
||||
@@ -128,7 +127,6 @@ const ProviderConfig = memo<ProviderConfigProps>(
|
||||
showAceGcm = true,
|
||||
extra,
|
||||
source = AiProviderSourceEnum.Builtin,
|
||||
apiKeyUrl,
|
||||
}) => {
|
||||
const {
|
||||
proxyUrl,
|
||||
@@ -186,7 +184,7 @@ const ProviderConfig = memo<ProviderConfigProps>(
|
||||
) : (
|
||||
<FormPassword
|
||||
autoComplete={'new-password'}
|
||||
placeholder={t('providerModels.config.apiKey.placeholder', { name })}
|
||||
placeholder={t(`providerModels.config.apiKey.placeholder`, { name })}
|
||||
suffix={
|
||||
configUpdating && (
|
||||
<Icon icon={Loader2Icon} spin style={{ color: theme.colorTextTertiary }} />
|
||||
@@ -194,20 +192,7 @@ const ProviderConfig = memo<ProviderConfigProps>(
|
||||
}
|
||||
/>
|
||||
),
|
||||
desc: apiKeyUrl ? (
|
||||
<Trans
|
||||
i18nKey="providerModels.config.apiKey.descWithUrl"
|
||||
ns={'modelProvider'}
|
||||
value={{ name }}
|
||||
>
|
||||
请填写你的 {{ name }} API Key,
|
||||
<Link href={apiKeyUrl} target={'_blank'}>
|
||||
点此获取
|
||||
</Link>
|
||||
</Trans>
|
||||
) : (
|
||||
t(`providerModels.config.apiKey.desc`, { name })
|
||||
),
|
||||
desc: t(`providerModels.config.apiKey.desc`, { name }),
|
||||
label: t(`providerModels.config.apiKey.title`),
|
||||
name: [KeyVaultsConfigKey, LLMProviderApiTokenKey],
|
||||
},
|
||||
|
||||
@@ -0,0 +1,12 @@
|
||||
import { notFound } from 'next/navigation';
|
||||
import { PropsWithChildren } from 'react';
|
||||
|
||||
import { oidcEnv } from '@/envs/oidc';
|
||||
|
||||
const Layout = ({ children }: PropsWithChildren) => {
|
||||
if (!oidcEnv.ENABLE_OIDC) return notFound();
|
||||
|
||||
return children;
|
||||
};
|
||||
|
||||
export default Layout;
|
||||
+10
-1
@@ -17,9 +17,10 @@ export async function generateSitemaps() {
|
||||
const staticSitemaps = sitemapModule.sitemapIndexs;
|
||||
|
||||
// 获取需要分页的类型的页数
|
||||
const [pluginPages, assistantPages, modelPages] = await Promise.all([
|
||||
const [pluginPages, assistantPages, mcpPages, modelPages] = await Promise.all([
|
||||
sitemapModule.getPluginPageCount(),
|
||||
sitemapModule.getAssistantPageCount(),
|
||||
sitemapModule.getMcpPageCount(),
|
||||
sitemapModule.getModelPageCount(),
|
||||
]);
|
||||
|
||||
@@ -29,6 +30,7 @@ export async function generateSitemaps() {
|
||||
...Array.from({ length: assistantPages }, (_, i) => ({
|
||||
id: `assistants-${i + 1}` as SitemapType,
|
||||
})),
|
||||
...Array.from({ length: mcpPages }, (_, i) => ({ id: `mcp-${i + 1}` as SitemapType })),
|
||||
...Array.from({ length: modelPages }, (_, i) => ({ id: `models-${i + 1}` as SitemapType })),
|
||||
];
|
||||
|
||||
@@ -58,6 +60,9 @@ export default async function sitemap({ id }: { id: string }): Promise<MetadataR
|
||||
case SitemapType.Assistants: {
|
||||
return sitemapModule.getAssistants(page);
|
||||
}
|
||||
case SitemapType.Mcp: {
|
||||
return sitemapModule.getMcp(page);
|
||||
}
|
||||
case SitemapType.Plugins: {
|
||||
return sitemapModule.getPlugins(page);
|
||||
}
|
||||
@@ -77,6 +82,10 @@ export default async function sitemap({ id }: { id: string }): Promise<MetadataR
|
||||
const pageNum = parseInt(id.split('-')[1], 10);
|
||||
return sitemapModule.getAssistants(pageNum);
|
||||
}
|
||||
if (id.startsWith('mcp-')) {
|
||||
const pageNum = parseInt(id.split('-')[1], 10);
|
||||
return sitemapModule.getMcp(pageNum);
|
||||
}
|
||||
if (id.startsWith('models-')) {
|
||||
const pageNum = parseInt(id.split('-')[1], 10);
|
||||
return sitemapModule.getModels(pageNum);
|
||||
|
||||
@@ -1,164 +0,0 @@
|
||||
import { AIChatModelCard } from '@/types/aiModel';
|
||||
|
||||
const aihubmixModels: AIChatModelCard[] = [
|
||||
{
|
||||
abilities: {
|
||||
functionCall: true,
|
||||
reasoning: true,
|
||||
},
|
||||
contextWindowTokens: 65_536,
|
||||
description: 'DeepSeek R1 推理模型,具有强大的推理能力',
|
||||
displayName: 'DeepSeek R1',
|
||||
enabled: true,
|
||||
id: 'DeepSeek-R1',
|
||||
type: 'chat',
|
||||
},
|
||||
{
|
||||
abilities: {
|
||||
functionCall: true,
|
||||
reasoning: true,
|
||||
vision: true,
|
||||
},
|
||||
contextWindowTokens: 200_000,
|
||||
description:
|
||||
'Claude Opus 4 是 Anthropic 迄今为止最强大的模型,专为处理复杂、长时间运行的任务而设计。',
|
||||
displayName: 'Claude Opus 4',
|
||||
enabled: true,
|
||||
id: 'claude-opus-4-20250514',
|
||||
type: 'chat',
|
||||
},
|
||||
{
|
||||
abilities: {
|
||||
functionCall: true,
|
||||
reasoning: true,
|
||||
vision: true,
|
||||
},
|
||||
contextWindowTokens: 200_000,
|
||||
description:
|
||||
'Claude Sonnet 4 是一款高效且性价比高的模型,作为 Claude Sonnet 3.7 的升级版,适合日常任务和中等复杂度的应用。',
|
||||
displayName: 'Claude Sonnet 4',
|
||||
enabled: true,
|
||||
id: 'claude-sonnet-4-20250514',
|
||||
type: 'chat',
|
||||
},
|
||||
{
|
||||
abilities: {
|
||||
functionCall: true,
|
||||
reasoning: true,
|
||||
vision: true,
|
||||
},
|
||||
contextWindowTokens: 200_000,
|
||||
description: 'OpenAI o3 推理模型,具有强大的推理能力',
|
||||
displayName: 'o3',
|
||||
enabled: true,
|
||||
id: 'o3',
|
||||
type: 'chat',
|
||||
},
|
||||
{
|
||||
abilities: {
|
||||
functionCall: true,
|
||||
reasoning: true,
|
||||
vision: true,
|
||||
},
|
||||
contextWindowTokens: 200_000,
|
||||
description: 'OpenAI o4-mini 小型推理模型,高效且经济',
|
||||
displayName: 'o4-mini',
|
||||
enabled: true,
|
||||
id: 'o4-mini',
|
||||
type: 'chat',
|
||||
},
|
||||
{
|
||||
abilities: {
|
||||
functionCall: true,
|
||||
vision: true,
|
||||
},
|
||||
contextWindowTokens: 1_047_576,
|
||||
description: 'GPT-4.1 旗舰模型,适用于复杂任务',
|
||||
displayName: 'GPT-4.1',
|
||||
enabled: true,
|
||||
id: 'gpt-4.1',
|
||||
type: 'chat',
|
||||
},
|
||||
{
|
||||
abilities: {
|
||||
functionCall: true,
|
||||
vision: true,
|
||||
},
|
||||
contextWindowTokens: 1_047_576,
|
||||
description: 'GPT-4.1 mini 平衡智能、速度和成本',
|
||||
displayName: 'GPT-4.1 mini',
|
||||
enabled: true,
|
||||
id: 'gpt-4.1-mini',
|
||||
type: 'chat',
|
||||
},
|
||||
{
|
||||
abilities: {
|
||||
functionCall: true,
|
||||
reasoning: true,
|
||||
search: true,
|
||||
vision: true,
|
||||
},
|
||||
contextWindowTokens: 1_048_576 + 65_536,
|
||||
description:
|
||||
'Gemini 2.5 Pro 是 Google 最先进的思维模型,能够对代码、数学和STEM领域的复杂问题进行推理,以及使用长上下文分析大型数据集、代码库和文档。',
|
||||
displayName: 'Gemini 2.5 Pro',
|
||||
enabled: true,
|
||||
id: 'gemini-2.5-pro',
|
||||
maxOutput: 65_536,
|
||||
pricing: {
|
||||
input: 1.25, // prompts <= 200k tokens
|
||||
output: 10, // prompts <= 200k tokens
|
||||
},
|
||||
releasedAt: '2025-06-17',
|
||||
settings: {
|
||||
extendParams: ['thinkingBudget'],
|
||||
searchImpl: 'params',
|
||||
searchProvider: 'google',
|
||||
},
|
||||
type: 'chat',
|
||||
},
|
||||
{
|
||||
abilities: {
|
||||
functionCall: true,
|
||||
reasoning: true,
|
||||
search: true,
|
||||
vision: true,
|
||||
},
|
||||
contextWindowTokens: 1_000_000,
|
||||
description: 'Gemini 2.5 Flash 预览版,快速高效的多模态模型',
|
||||
displayName: 'Gemini 2.5 Flash',
|
||||
enabled: true,
|
||||
id: 'gemini-2.5-flash',
|
||||
releasedAt: '2025-06-17',
|
||||
settings: {
|
||||
extendParams: ['thinkingBudget'],
|
||||
searchImpl: 'params',
|
||||
searchProvider: 'google',
|
||||
},
|
||||
type: 'chat',
|
||||
},
|
||||
{
|
||||
abilities: {
|
||||
functionCall: true,
|
||||
},
|
||||
contextWindowTokens: 235_000,
|
||||
description: 'Qwen3 235B 大型语言模型',
|
||||
displayName: 'Qwen3 235B',
|
||||
enabled: true,
|
||||
id: 'Qwen/Qwen3-235B-A22B',
|
||||
type: 'chat',
|
||||
},
|
||||
{
|
||||
abilities: {
|
||||
functionCall: true,
|
||||
},
|
||||
contextWindowTokens: 32_000,
|
||||
description: 'Qwen3 32B 中型语言模型',
|
||||
displayName: 'Qwen3 32B',
|
||||
enabled: true,
|
||||
id: 'Qwen/Qwen3-32B',
|
||||
type: 'chat',
|
||||
},
|
||||
];
|
||||
|
||||
export default aihubmixModels;
|
||||
@@ -131,6 +131,53 @@ const googleChatModels: AIChatModelCard[] = [
|
||||
},
|
||||
type: 'chat',
|
||||
},
|
||||
{
|
||||
abilities: {
|
||||
functionCall: true,
|
||||
reasoning: true,
|
||||
search: true,
|
||||
vision: true,
|
||||
},
|
||||
contextWindowTokens: 1_048_576 + 65_536,
|
||||
description: 'Gemini 2.5 Flash Preview 是 Google 性价比最高的模型,提供全面的功能。',
|
||||
displayName: 'Gemini 2.5 Flash Preview 04-17',
|
||||
id: 'gemini-2.5-flash-preview-04-17',
|
||||
maxOutput: 65_536,
|
||||
pricing: {
|
||||
cachedInput: 0.0375,
|
||||
input: 0.15,
|
||||
output: 3.5, // Thinking
|
||||
},
|
||||
releasedAt: '2025-04-17',
|
||||
settings: {
|
||||
extendParams: ['thinkingBudget'],
|
||||
searchImpl: 'params',
|
||||
searchProvider: 'google',
|
||||
},
|
||||
type: 'chat',
|
||||
},
|
||||
{
|
||||
abilities: {
|
||||
functionCall: true,
|
||||
reasoning: true,
|
||||
search: true,
|
||||
vision: true,
|
||||
},
|
||||
contextWindowTokens: 1_048_576 + 65_536,
|
||||
description: 'Gemini 2.5 Flash Preview 是 Google 性价比最高的模型,提供全面的功能。',
|
||||
displayName: 'Gemini 2.5 Flash Preview 04-17 for cursor testing',
|
||||
id: 'gemini-2.5-flash-preview-04-17-thinking',
|
||||
maxOutput: 65_536,
|
||||
pricing: {
|
||||
input: 0.15,
|
||||
output: 3.5,
|
||||
},
|
||||
settings: {
|
||||
searchImpl: 'params',
|
||||
searchProvider: 'google',
|
||||
},
|
||||
type: 'chat',
|
||||
},
|
||||
{
|
||||
abilities: {
|
||||
functionCall: true,
|
||||
@@ -141,6 +188,7 @@ const googleChatModels: AIChatModelCard[] = [
|
||||
contextWindowTokens: 1_048_576 + 65_536,
|
||||
description: 'Gemini 2.5 Flash-Lite 是 Google 最小、性价比最高的模型,专为大规模使用而设计。',
|
||||
displayName: 'Gemini 2.5 Flash-Lite',
|
||||
enabled: true,
|
||||
id: 'gemini-2.5-flash-lite',
|
||||
maxOutput: 65_536,
|
||||
pricing: {
|
||||
|
||||
@@ -33,7 +33,6 @@ const groqChatModels: AIChatModelCard[] = [
|
||||
displayName: 'Kimi K2 Instruct',
|
||||
enabled: true,
|
||||
id: 'moonshotai/kimi-k2-instruct',
|
||||
maxOutput: 16_384,
|
||||
pricing: {
|
||||
input: 1,
|
||||
output: 3,
|
||||
@@ -54,9 +53,6 @@ const groqChatModels: AIChatModelCard[] = [
|
||||
type: 'chat',
|
||||
},
|
||||
{
|
||||
abilities: {
|
||||
functionCall: true,
|
||||
},
|
||||
contextWindowTokens: 131_072,
|
||||
displayName: 'Llama 4 Maverick (17Bx128E)',
|
||||
enabled: true,
|
||||
|
||||
Some files were not shown because too many files have changed in this diff Show More
Reference in New Issue
Block a user