🤖 style: update i18n (#9862)

This commit is contained in:
LobeHub Bot
2025-10-26 11:22:37 +08:00
committed by GitHub
parent 2558b31963
commit 8d3bc91e46
18 changed files with 306 additions and 144 deletions
+17 -8
View File
@@ -290,12 +290,12 @@
"Pro/deepseek-ai/DeepSeek-V3": {
"description": "DeepSeek-V3 هو نموذج لغوي مختلط الخبراء (MoE) يحتوي على 6710 مليار معلمة، يستخدم الانتباه المتعدد الرؤوس (MLA) وهيكل DeepSeekMoE، ويجمع بين استراتيجيات توازن الحمل بدون خسائر مساعدة، مما يحسن كفاءة الاستدلال والتدريب. تم تدريبه مسبقًا على 14.8 تريليون توكن عالية الجودة، وتم إجراء تعديل دقيق تحت الإشراف والتعلم المعزز، مما يجعل DeepSeek-V3 يتفوق على نماذج مفتوحة المصدر الأخرى، ويقترب من النماذج المغلقة الرائدة."
},
"Pro/deepseek-ai/DeepSeek-V3.1": {
"description": "DeepSeek-V3.1 هو نموذج لغة كبير بنمط هجين أصدرته DeepSeek AI، وقد شهد ترقيات مهمة متعددة مقارنة بالإصدارات السابقة. من الابتكارات الرئيسية في هذا النموذج دمج \"وضع التفكير\" و\"وضع عدم التفكير\" في نموذج واحد، حيث يمكن للمستخدمين التبديل بينهما بسهولة عبر تعديل قالب المحادثة لتلبية متطلبات المهام المختلفة. من خلال تحسينات ما بعد التدريب المخصصة، تم تعزيز أداء V3.1 في استدعاء الأدوات ومهام الوكيل بشكل ملحوظ، مما يمكنه من دعم أدوات البحث الخارجية وتنفيذ مهام معقدة متعددة الخطوات بشكل أفضل. يعتمد النموذج على DeepSeek-V3.1-Base مع تدريب إضافي، حيث تم توسيع حجم بيانات التدريب بشكل كبير عبر طريقة التوسيع النصي الطويل على مرحلتين، مما يحسن أدائه في معالجة المستندات الطويلة والرموز البرمجية الطويلة. كنموذج مفتوح المصدر، يظهر DeepSeek-V3.1 قدرة تنافسية مع أفضل النماذج المغلقة في مجالات الترميز والرياضيات والاستدلال، وبفضل هيكله المختلط للخبراء (MoE)، يحافظ على سعة نموذج ضخمة مع تقليل تكلفة الاستدلال بفعالية."
},
"Pro/deepseek-ai/DeepSeek-V3.1-Terminus": {
"description": "DeepSeek-V3.1-Terminus هو نسخة محدثة من نموذج V3.1 الذي أصدرته DeepSeek، ويصنف كنموذج لغة كبير لوكيل هجين. يركز هذا التحديث على إصلاح المشكلات التي أبلغ عنها المستخدمون وتحسين الاستقرار مع الحفاظ على القدرات الأصلية للنموذج. لقد حسّن بشكل ملحوظ اتساق اللغة، وقلل من الاستخدام المختلط للغة الصينية والإنجليزية والرموز غير الطبيعية. يدمج النموذج \"وضع التفكير\" و\"الوضع غير التفكيري\"، حيث يمكن للمستخدمين التبديل بينهما بسهولة عبر قوالب الدردشة لتناسب مهام مختلفة. كتحسين مهم، عزز V3.1-Terminus أداء وكيل الكود ووكيل البحث، مما يجعله أكثر موثوقية في استدعاء الأدوات وتنفيذ المهام المعقدة متعددة الخطوات."
},
"Pro/deepseek-ai/DeepSeek-V3.2-Exp": {
"description": "DeepSeek-V3.2-Exp هو إصدار تجريبي من DeepSeek للإصدار V3.2، ويُعد خطوة استكشافية نحو الجيل التالي من البنى. يعتمد على V3.1-Terminus ويُدخل آلية الانتباه المتناثر من DeepSeek (DeepSeek Sparse Attention - DSA) لتحسين كفاءة التدريب والاستدلال في السياقات الطويلة. تم تحسينه خصيصًا لاستدعاء الأدوات، وفهم المستندات الطويلة، والاستدلال متعدد الخطوات. يُعد V3.2-Exp جسرًا بين البحث والتطبيق العملي، وهو مناسب للمستخدمين الذين يسعون إلى كفاءة استدلال أعلى في سيناريوهات ذات ميزانية سياقية مرتفعة."
},
"Pro/moonshotai/Kimi-K2-Instruct-0905": {
"description": "Kimi K2-Instruct-0905 هو أحدث وأقوى إصدار من Kimi K2. إنه نموذج لغوي من نوع الخبراء المختلطين (MoE) من الطراز الأول، يحتوي على تريليون معلمة إجمالية و32 مليار معلمة مفعلة. تشمل الميزات الرئيسية للنموذج: تعزيز ذكاء التكويد للوكيل، مع تحسينات ملحوظة في الأداء في اختبارات المعيار المفتوحة ومهام التكويد الواقعية للوكيل؛ تحسين تجربة التكويد في الواجهة الأمامية، مع تقدم في الجمالية والعملية في برمجة الواجهة الأمامية."
},
@@ -398,6 +398,18 @@
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
"description": "Qwen3-Next-80B-A3B-Thinking هو نموذج أساسي من الجيل التالي أصدره فريق Tongyi Qianwen في علي بابا، مصمم خصيصًا لمهام الاستدلال المعقدة. يعتمد على بنية Qwen3-Next المبتكرة التي تدمج آلية انتباه هجينة (Gated DeltaNet و Gated Attention) وهيكل خبراء مختلط عالي التشتت (MoE)، بهدف تحقيق أقصى كفاءة في التدريب والاستدلال. كنموذج متناثر يحتوي على 80 مليار معلمة إجمالية، فإنه ينشط حوالي 3 مليارات معلمة فقط أثناء الاستدلال، مما يقلل بشكل كبير من تكلفة الحوسبة، وعند معالجة مهام سياق طويل تتجاوز 32 ألف رمز، فإن معدل الاستدلال يتفوق على نموذج Qwen3-32B بأكثر من 10 أضعاف. نسخة \"Thinking\" هذه مخصصة لتنفيذ مهام متعددة الخطوات عالية الصعوبة مثل الإثباتات الرياضية، توليف الشيفرة، التحليل المنطقي والتخطيط، وتخرج عملية الاستدلال بشكل افتراضي في شكل \"سلسلة تفكير\" منظمة. من حيث الأداء، يتفوق هذا النموذج ليس فقط على نماذج ذات تكلفة أعلى مثل Qwen3-32B-Thinking، بل يتفوق أيضًا في عدة اختبارات معيارية على Gemini-2.5-Flash-Thinking."
},
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
"description": "Qwen3-VL-235B-A22B-Instruct هو نموذج كبير من سلسلة Qwen3-VL تم تدريبه على التعليمات، ويعتمد على بنية الخبراء المختلطة (MoE)، ويتميز بقدرات فائقة في الفهم والتوليد متعدد الوسائط. يدعم السياق الأصلي حتى 256 ألف رمز، مما يجعله مناسبًا لخدمات الإنتاج متعددة الوسائط عالية التوازي."
},
"Qwen/Qwen3-VL-235B-A22B-Thinking": {
"description": "Qwen3-VL-235B-A22B-Thinking هو الإصدار الرائد من سلسلة Qwen3-VL المخصص للتفكير، وقد تم تحسينه خصيصًا للاستدلال متعدد الوسائط المعقد، والاستدلال في السياقات الطويلة، والتفاعل مع الوكلاء الذكيين. وهو مثالي للسيناريوهات المؤسسية التي تتطلب تفكيرًا عميقًا واستدلالًا بصريًا."
},
"Qwen/Qwen3-VL-30B-A3B-Instruct": {
"description": "Qwen3-VL-30B-A3B-Instruct هو إصدار مخصص للتعليمات من سلسلة Qwen3-VL، يتمتع بقدرات قوية في فهم وتوليد اللغة البصرية، ويدعم سياقًا أصليًا يصل إلى 256 ألف رمز. وهو مناسب للحوار متعدد الوسائط ومهام التوليد المشروط بالصور."
},
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
"description": "Qwen3-VL-30B-A3B-Thinking هو إصدار معزز بالاستدلال من Qwen3-VL (Thinking)، تم تحسينه لمهام الاستدلال متعدد الوسائط، وتحويل الصور إلى كود، وفهم الرؤية المعقدة. يدعم سياقًا يصل إلى 256 ألف رمز ويتميز بقدرات تفكير متسلسلة أقوى."
},
"Qwen/Qwen3-VL-8B-Instruct": {
"description": "Qwen3-VL-8B-Instruct هو نموذج لغة بصرية من سلسلة Qwen3، تم تطويره استنادًا إلى Qwen3-8B-Instruct وتدريبه على كمية كبيرة من بيانات الصور والنصوص. يتميز بقدرته على فهم الرؤية العامة، وإجراء حوارات تتمحور حول المحتوى البصري، والتعرف على النصوص متعددة اللغات داخل الصور. وهو مناسب لتطبيقات مثل الأسئلة والأجوبة البصرية، ووصف الصور، واتباع التعليمات متعددة الوسائط، واستدعاء الأدوات."
},
@@ -978,13 +990,13 @@
"description": "DeepSeek-V3 هو نموذج لغوي مختلط الخبراء (MoE) يحتوي على 6710 مليار معلمة، يستخدم انتباه متعدد الرؤوس (MLA) وبنية DeepSeekMoE، ويجمع بين استراتيجية توازن الحمل بدون خسارة مساعدة، مما يحسن كفاءة الاستدلال والتدريب. من خلال التدريب المسبق على 14.8 تريليون توكن عالي الجودة، وإجراء تعديلات إشرافية وتعلم معزز، يتفوق DeepSeek-V3 في الأداء على نماذج المصدر المفتوح الأخرى، ويقترب من النماذج المغلقة الرائدة."
},
"deepseek-ai/DeepSeek-V3.1": {
"description": "DeepSeek-V3.1 هو نموذج لغة كبير بنمط هجين أصدرته DeepSeek AI، وقد شهد ترقيات مهمة متعددة مقارنة بالإصدارات السابقة. من الابتكارات الرئيسية في هذا النموذج دمج \"وضع التفكير\" و\"وضع عدم التفكير\" في نموذج واحد، حيث يمكن للمستخدمين التبديل بينهما بسهولة عبر تعديل قالب المحادثة لتلبية متطلبات المهام المختلفة. من خلال تحسينات ما بعد التدريب المخصصة، تم تعزيز أداء V3.1 في استدعاء الأدوات ومهام الوكيل بشكل ملحوظ، مما يمكنه من دعم أدوات البحث الخارجية وتنفيذ مهام معقدة متعددة الخطوات بشكل أفضل. يعتمد النموذج على DeepSeek-V3.1-Base مع تدريب إضافي، حيث تم توسيع حجم بيانات التدريب بشكل كبير عبر طريقة التوسيع النصي الطويل على مرحلتين، مما يحسن أدائه في معالجة المستندات الطويلة والرموز البرمجية الطويلة. كنموذج مفتوح المصدر، يظهر DeepSeek-V3.1 قدرة تنافسية مع أفضل النماذج المغلقة في مجالات الترميز والرياضيات والاستدلال، وبفضل هيكله المختلط للخبراء (MoE)، يحافظ على سعة نموذج ضخمة مع تقليل تكلفة الاستدلال بفعالية."
"description": "نموذج DeepSeek V3.1 يعتمد على بنية استدلال هجينة، ويدعم كلًا من وضع التفكير والوضع غير التفكيري."
},
"deepseek-ai/DeepSeek-V3.1-Terminus": {
"description": "DeepSeek-V3.1-Terminus هو نسخة محدثة من نموذج V3.1 الذي أصدرته DeepSeek، ويصنف كنموذج لغة كبير لوكيل هجين. يركز هذا التحديث على إصلاح المشكلات التي أبلغ عنها المستخدمون وتحسين الاستقرار مع الحفاظ على القدرات الأصلية للنموذج. لقد حسّن بشكل ملحوظ اتساق اللغة، وقلل من الاستخدام المختلط للغة الصينية والإنجليزية والرموز غير الطبيعية. يدمج النموذج \"وضع التفكير\" و\"الوضع غير التفكيري\"، حيث يمكن للمستخدمين التبديل بينهما بسهولة عبر قوالب الدردشة لتناسب مهام مختلفة. كتحسين مهم، عزز V3.1-Terminus أداء وكيل الكود ووكيل البحث، مما يجعله أكثر موثوقية في استدعاء الأدوات وتنفيذ المهام المعقدة متعددة الخطوات."
},
"deepseek-ai/DeepSeek-V3.2-Exp": {
"description": "نموذج DeepSeek V3.2 Exp هو نموذج بهيكلية استدلال هجينة، يدعم وضعي التفكير وغير التفكير."
"description": "DeepSeek-V3.2-Exp هو إصدار تجريبي من DeepSeek للإصدار V3.2، ويُعد خطوة استكشافية نحو الجيل التالي من البنى. يعتمد على V3.1-Terminus ويُدخل آلية الانتباه المتناثر من DeepSeek (DeepSeek Sparse Attention - DSA) لتحسين كفاءة التدريب والاستدلال في السياقات الطويلة. تم تحسينه خصيصًا لاستدعاء الأدوات، وفهم المستندات الطويلة، والاستدلال متعدد الخطوات. يُعد V3.2-Exp جسرًا بين البحث والتطبيق العملي، وهو مناسب للمستخدمين الذين يسعون إلى كفاءة استدلال أعلى في سيناريوهات ذات ميزانية سياقية مرتفعة."
},
"deepseek-ai/deepseek-llm-67b-chat": {
"description": "DeepSeek 67B هو نموذج متقدم تم تدريبه للحوار المعقد."
@@ -2474,9 +2486,6 @@
"mistralai/Mixtral-8x7B-v0.1": {
"description": "Mixtral 8x7B هو نموذج خبير متفرق، يستفيد من معلمات متعددة لزيادة سرعة الاستدلال، مناسب لمعالجة المهام متعددة اللغات وتوليد الأكواد."
},
"mistralai/mistral-7b-instruct": {
"description": "Mistral 7B Instruct هو نموذج صناعي عالي الأداء يجمع بين تحسين السرعة ودعم السياقات الطويلة."
},
"mistralai/mistral-nemo": {
"description": "Mistral Nemo هو نموذج ببارامترات 7.3B يدعم عدة لغات ويتميز بأداء برمجي عالي."
},
+17 -8
View File
@@ -290,12 +290,12 @@
"Pro/deepseek-ai/DeepSeek-V3": {
"description": "DeepSeek-V3 е модел на езика с 6710 милиарда параметри, който използва архитектура на смесени експерти (MoE) с много глави на потенциално внимание (MLA) и стратегия за баланс на натоварването без помощни загуби, оптимизираща производителността на инференцията и обучението. Чрез предварително обучение на 14.8 трилиона висококачествени токени и последващо супервизирано фино настройване и обучение с подсилване, DeepSeek-V3 надминава производителността на други отворени модели и е близо до водещите затворени модели."
},
"Pro/deepseek-ai/DeepSeek-V3.1": {
"description": "DeepSeek-V3.1 е хибриден голям езиков модел, пуснат от DeepSeek AI, който включва множество важни подобрения спрямо предишните версии. Основната иновация на модела е интеграцията на „режим на мислене“ (Thinking Mode) и „режим без мислене“ (Non-thinking Mode), които потребителите могат гъвкаво да превключват чрез настройка на чат шаблони, за да отговарят на различни задачи. След специална пост-тренировка, V3.1 значително подобрява производителността при използване на инструменти и задачи на агенти, като по-добре поддържа външни търсачки и изпълнение на сложни многостъпкови задачи. Моделът е дообучен върху DeepSeek-V3.1-Base чрез двуфазен метод за разширяване на дълги текстове, което значително увеличава обема на тренировъчните данни и подобрява работата с дълги документи и кодове. Като отворен модел, DeepSeek-V3.1 демонстрира способности, сравними с водещи затворени модели в области като кодиране, математика и разсъждение, като същевременно с хибридната си експертна (MoE) архитектура поддържа голям капацитет на модела и ефективно намалява разходите за изчисления."
},
"Pro/deepseek-ai/DeepSeek-V3.1-Terminus": {
"description": "DeepSeek-V3.1-Terminus е обновена версия на модела V3.1, пусната от DeepSeek, позиционирана като хибриден интелигентен голям езиков модел. Тази актуализация запазва оригиналните възможности на модела, като се фокусира върху отстраняване на проблеми, посочени от потребителите, и подобряване на стабилността. Значително е подобрена езиковата последователност, намалено е смесването на китайски и английски и появата на аномални символи. Моделът интегрира „режим на мислене“ и „режим без мислене“, като потребителите могат гъвкаво да превключват между тях чрез чат шаблони за различни задачи. Като важна оптимизация, V3.1-Terminus подобрява производителността на кодовия агент и търсещия агент, което ги прави по-надеждни при извикване на инструменти и изпълнение на многократни сложни задачи."
},
"Pro/deepseek-ai/DeepSeek-V3.2-Exp": {
"description": "DeepSeek-V3.2-Exp е експерименталната версия V3.2, пусната от DeepSeek, представляваща междинно изследване към следващото поколение архитектура. Тя въвежда механизма за разредено внимание на DeepSeek (DeepSeek Sparse Attention, DSA) на базата на V3.1-Terminus, с цел подобряване на ефективността при обучение и извеждане с дълъг контекст. Моделът е специално оптимизиран за използване на инструменти, разбиране на дълги документи и многoетапно разсъждение. V3.2-Exp служи като мост между изследванията и продуктовата реализация и е подходящ за потребители, които търсят по-висока ефективност на разсъждение в среди с голям контекстуален бюджет."
},
"Pro/moonshotai/Kimi-K2-Instruct-0905": {
"description": "Kimi K2-Instruct-0905 е най-новата и най-мощна версия на Kimi K2. Това е водещ езиков модел с хибридна експертна архитектура (MoE), с общо 1 трилион параметри и 32 милиарда активни параметри. Основните характеристики на модела включват: подобрена интелигентност при кодиране на агенти, с изразително подобрение в производителността при публични бенчмаркове и реални задачи за кодиране на агенти; усъвършенстван опит при фронтенд кодиране, с напредък както в естетиката, така и в практичността на фронтенд програмирането."
},
@@ -398,6 +398,18 @@
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
"description": "Qwen3-Next-80B-A3B-Thinking е следващото поколение основен модел, публикуван от екипа на Alibaba Tongyi Qianwen, специално проектиран за сложни задачи за разсъждение. Той е базиран на иновативната архитектура Qwen3-Next, която комбинира хибриден механизъм за внимание (Gated DeltaNet и Gated Attention) и структура с висока степен на разреждане на смесени експерти (MoE), с цел постигане на изключителна ефективност при обучение и извод. Като разреден модел с общо 80 милиарда параметри, при извод активира само около 3 милиарда параметри, което значително намалява изчислителните разходи. При обработка на задачи с дълъг контекст над 32K токена, пропускателната способност при извод е над 10 пъти по-висока в сравнение с модела Qwen3-32B. Тази „Thinking“ версия е оптимизирана за изпълнение на сложни многостъпкови задачи като математически доказателства, синтез на код, логически анализ и планиране, като по подразбиране изходът на разсъжденията е във формата на структурирана „мисловна верига“. По отношение на производителността, тя не само превъзхожда модели с по-високи разходи като Qwen3-32B-Thinking, но и превъзхожда Gemini-2.5-Flash-Thinking в множество бенчмаркове."
},
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
"description": "Qwen3-VL-235B-A22B-Instruct е голям модел от серията Qwen3-VL, фино настроен с инструкции, базиран на архитектура с множество експерти (MoE). Той притежава изключителни способности за мултимодално разбиране и генериране, с вградена поддръжка на 256K контекст, подходящ за високонадеждни производствени мултимодални услуги."
},
"Qwen/Qwen3-VL-235B-A22B-Thinking": {
"description": "Qwen3-VL-235B-A22B-Thinking е флагманската версия за разсъждение от серията Qwen3-VL, специално оптимизирана за сложни мултимодални разсъждения, дълъг контекст и взаимодействие с интелигентни агенти. Подходяща е за корпоративни сценарии, изискващи дълбоко мислене и визуално разсъждение."
},
"Qwen/Qwen3-VL-30B-A3B-Instruct": {
"description": "Qwen3-VL-30B-A3B-Instruct е версия от серията Qwen3-VL, фино настроена с инструкции, с мощни способности за визуално-езиково разбиране и генериране. Поддържа нативно 256K контекст и е подходяща за мултимодални диалози и задачи за генериране на изображения по зададени условия."
},
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
"description": "Qwen3-VL-30B-A3B-Thinking е подобрена версия за разсъждение (Thinking) от серията Qwen3-VL, оптимизирана за мултимодално разсъждение, преобразуване на изображения в код и сложни задачи за визуално разбиране. Поддържа 256K контекст и притежава по-силни способности за верижно мислене."
},
"Qwen/Qwen3-VL-8B-Instruct": {
"description": "Qwen3-VL-8B-Instruct е визуално-езиков модел от серията Qwen3, базиран на Qwen3-8B-Instruct и обучен върху голям обем от данни с изображения и текст. Той е особено добър в общо визуално разбиране, визуално-центрирани диалози и разпознаване на многоезичен текст в изображения. Подходящ е за визуални въпроси и отговори, описание на изображения, мултимодални инструкции и използване на инструменти."
},
@@ -978,13 +990,13 @@
"description": "DeepSeek-V3 е езиков модел с 6710 милиарда параметри, базиран на смесени експерти (MoE), който използва многоглаво потенциално внимание (MLA) и архитектурата DeepSeekMoE, комбинирайки стратегии за баланс на натоварването без помощни загуби, за да оптимизира производителността на извеждане и обучение. Чрез предварително обучение на 14.8 трилиона висококачествени токени и последващо наблюдавано фино настройване и подсилено обучение, DeepSeek-V3 надминава производителността на други отворени модели и се приближава до водещите затворени модели."
},
"deepseek-ai/DeepSeek-V3.1": {
"description": "DeepSeek-V3.1 е хибриден голям езиков модел, пуснат от DeepSeek AI, който включва множество важни подобрения спрямо предишните версии. Основната иновация на модела е интеграцията на „режим на мислене“ (Thinking Mode) и „режим без мислене“ (Non-thinking Mode), които потребителите могат гъвкаво да превключват чрез настройка на чат шаблони, за да отговарят на различни задачи. След специална пост-тренировка, V3.1 значително подобрява производителността при използване на инструменти и задачи на агенти, като по-добре поддържа външни търсачки и изпълнение на сложни многостъпкови задачи. Моделът е дообучен върху DeepSeek-V3.1-Base чрез двуфазен метод за разширяване на дълги текстове, което значително увеличава обема на тренировъчните данни и подобрява работата с дълги документи и кодове. Като отворен модел, DeepSeek-V3.1 демонстрира способности, сравними с водещи затворени модели в области като кодиране, математика и разсъждение, като същевременно с хибридната си експертна (MoE) архитектура поддържа голям капацитет на модела и ефективно намалява разходите за изчисления."
"description": "Моделът DeepSeek V3.1 е с хибридна архитектура за разсъждение, поддържащ както мисловен, така и немисловен режим."
},
"deepseek-ai/DeepSeek-V3.1-Terminus": {
"description": "DeepSeek-V3.1-Terminus е обновена версия на модела V3.1, пусната от DeepSeek, позиционирана като хибриден интелигентен голям езиков модел. Тази актуализация запазва оригиналните възможности на модела, като се фокусира върху отстраняване на проблеми, посочени от потребителите, и подобряване на стабилността. Значително е подобрена езиковата последователност, намалено е смесването на китайски и английски и появата на аномални символи. Моделът интегрира „режим на мислене“ и „режим без мислене“, като потребителите могат гъвкаво да превключват между тях чрез чат шаблони за различни задачи. Като важна оптимизация, V3.1-Terminus подобрява производителността на кодовия агент и търсещия агент, което ги прави по-надеждни при извикване на инструменти и изпълнение на многократни сложни задачи."
},
"deepseek-ai/DeepSeek-V3.2-Exp": {
"description": "Моделът DeepSeek V3.2 Exp е с хибридна архитектура за извеждане на заключения и поддържа както мисловен, така и немисловен режим."
"description": "DeepSeek-V3.2-Exp е експерименталната версия V3.2, пусната от DeepSeek, представляваща междинно изследване към следващото поколение архитектура. Тя въвежда механизма за разредено внимание на DeepSeek (DeepSeek Sparse Attention, DSA) на базата на V3.1-Terminus, с цел подобряване на ефективността при обучение и извеждане с дълъг контекст. Моделът е специално оптимизиран за използване на инструменти, разбиране на дълги документи и многoетапно разсъждение. V3.2-Exp служи като мост между изследванията и продуктовата реализация и е подходящ за потребители, които търсят по-висока ефективност на разсъждение в среди с голям контекстуален бюджет."
},
"deepseek-ai/deepseek-llm-67b-chat": {
"description": "DeepSeek 67B е напреднал модел, обучен за диалози с висока сложност."
@@ -2474,9 +2486,6 @@
"mistralai/Mixtral-8x7B-v0.1": {
"description": "Mixtral 8x7B е модел с рядък експерт, който използва множество параметри, за да подобри скоростта на разсъждение, подходящ за обработка на многоезични и генериращи код задачи."
},
"mistralai/mistral-7b-instruct": {
"description": "Mistral 7B Instruct е високопроизводителен индустриален стандартен модел, оптимизиран за бързина и поддръжка на дълги контексти."
},
"mistralai/mistral-nemo": {
"description": "Mistral Nemo е модел с 7.3B параметри, предлагащ многоезична поддръжка и висока производителност."
},
+17 -8
View File
@@ -290,12 +290,12 @@
"Pro/deepseek-ai/DeepSeek-V3": {
"description": "DeepSeek-V3 ist ein hybrides Experten (MoE) Sprachmodell mit 6710 Milliarden Parametern, das eine Multi-Head-Latente-Attention (MLA) und DeepSeekMoE-Architektur verwendet, kombiniert mit einer Lastenausgleichsstrategie ohne Hilfskosten, um die Inferenz- und Trainingseffizienz zu optimieren. Durch das Pre-Training auf 14,8 Billionen hochwertigen Tokens und anschließende überwachte Feinabstimmung und verstärktes Lernen übertrifft DeepSeek-V3 in der Leistung andere Open-Source-Modelle und nähert sich führenden geschlossenen Modellen."
},
"Pro/deepseek-ai/DeepSeek-V3.1": {
"description": "DeepSeek-V3.1 ist ein hybrides großes Sprachmodell, das von DeepSeek AI veröffentlicht wurde und auf dem Vorgängermodell in vielerlei Hinsicht bedeutende Verbesserungen aufweist. Eine wesentliche Innovation dieses Modells ist die Integration des „Denkmodus“ und des „Nicht-Denkmodus“ in einem System, wobei Nutzer durch Anpassung der Chat-Vorlagen flexibel zwischen den Modi wechseln können, um unterschiedlichen Aufgabenanforderungen gerecht zu werden. Durch spezielles Post-Training wurde die Leistung von V3.1 bei Tool-Aufrufen und Agentenaufgaben deutlich gesteigert, was eine bessere Unterstützung externer Suchwerkzeuge und die Ausführung komplexer mehrstufiger Aufgaben ermöglicht. Das Modell basiert auf DeepSeek-V3.1-Base und wurde durch eine zweistufige Langtext-Erweiterungsmethode nachtrainiert, wodurch das Trainingsdatenvolumen erheblich erhöht wurde und es sich besonders bei der Verarbeitung langer Dokumente und umfangreicher Codes bewährt. Als Open-Source-Modell zeigt DeepSeek-V3.1 in Benchmarks zu Codierung, Mathematik und logischem Denken Fähigkeiten, die mit führenden Closed-Source-Modellen vergleichbar sind. Gleichzeitig senkt seine hybride Expertenarchitektur (MoE) die Inferenzkosten bei gleichzeitiger Beibehaltung einer enormen Modellkapazität."
},
"Pro/deepseek-ai/DeepSeek-V3.1-Terminus": {
"description": "DeepSeek-V3.1-Terminus ist eine aktualisierte Version des V3.1-Modells von DeepSeek, positioniert als hybrides Agenten-Großsprachmodell. Dieses Update konzentriert sich darauf, auf Nutzerfeedback basierende Probleme zu beheben und die Stabilität zu verbessern, während die ursprünglichen Modellfähigkeiten erhalten bleiben. Es verbessert deutlich die Sprachkonsistenz und reduziert das Vermischen von Chinesisch und Englisch sowie das Auftreten ungewöhnlicher Zeichen. Das Modell integriert den „Denkmodus“ (Thinking Mode) und den „Nicht-Denkmodus“ (Non-thinking Mode), zwischen denen Nutzer flexibel über Chatvorlagen wechseln können, um unterschiedlichen Aufgaben gerecht zu werden. Als wichtige Optimierung verbessert V3.1-Terminus die Leistung des Code-Agenten und des Such-Agenten, wodurch diese bei Werkzeugaufrufen und der Ausführung mehrstufiger komplexer Aufgaben zuverlässiger sind."
},
"Pro/deepseek-ai/DeepSeek-V3.2-Exp": {
"description": "DeepSeek-V3.2-Exp ist eine experimentelle Version 3.2 von DeepSeek und stellt einen Zwischenschritt auf dem Weg zur nächsten Generation der Architektur dar. Aufbauend auf V3.1-Terminus führt sie den DeepSeek Sparse Attention (DSA)-Mechanismus ein, um die Effizienz beim Training und bei der Inferenz mit langen Kontexten zu verbessern. Sie wurde speziell für Werkzeugaufrufe, das Verständnis langer Dokumente und mehrstufiges Schlussfolgern optimiert. V3.2-Exp dient als Brücke zwischen Forschung und Produktreife und eignet sich für Nutzer, die in Szenarien mit hohem Kontextbudget eine höhere Inferenzleistung erkunden möchten."
},
"Pro/moonshotai/Kimi-K2-Instruct-0905": {
"description": "Kimi K2-Instruct-0905 ist die neueste und leistungsstärkste Version von Kimi K2. Es handelt sich um ein erstklassiges Mixture-of-Experts (MoE) Sprachmodell mit insgesamt 1 Billion Parametern und 32 Milliarden aktivierten Parametern. Die Hauptmerkmale dieses Modells umfassen: verbesserte Agenten-Codierungsintelligenz, die in öffentlichen Benchmark-Tests und realen Agenten-Codierungsaufgaben eine signifikante Leistungssteigerung zeigt; verbesserte Frontend-Codierungserfahrung mit Fortschritten in Ästhetik und Praktikabilität der Frontend-Programmierung."
},
@@ -398,6 +398,18 @@
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
"description": "Qwen3-Next-80B-A3B-Thinking ist ein von Alibaba Tongyi Qianwen Team veröffentlichtes nächstes Generation Basis-Modell, das speziell für komplexe Inferenzaufgaben entwickelt wurde. Es basiert auf der innovativen Qwen3-Next-Architektur, die hybride Aufmerksamkeitsmechanismen (Gated DeltaNet und Gated Attention) mit einer hochgradig spärlichen Mixture-of-Experts (MoE)-Struktur kombiniert, um höchste Trainings- und Inferenz-Effizienz zu gewährleisten. Als spärliches Modell mit insgesamt 80 Milliarden Parametern werden bei der Inferenz nur etwa 3 Milliarden Parameter aktiviert, was die Rechenkosten stark reduziert. Bei der Verarbeitung von Langkontextaufgaben mit über 32K Tokens übertrifft der Durchsatz das Qwen3-32B-Modell um das Zehnfache. Diese „Thinking“-Version ist für anspruchsvolle mehrstufige Aufgaben wie mathematische Beweise, Code-Synthese, logische Analyse und Planung optimiert und gibt den Inferenzprozess standardmäßig in strukturierter „Denkketten“-Form aus. In der Leistung übertrifft es nicht nur kostenintensivere Modelle wie Qwen3-32B-Thinking, sondern auch in mehreren Benchmarks das Gemini-2.5-Flash-Thinking."
},
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
"description": "Qwen3-VL-235B-A22B-Instruct ist ein groß angelegtes, instruktional feinabgestimmtes Modell der Qwen3-VL-Serie. Es basiert auf einer Mixture-of-Experts (MoE)-Architektur und bietet herausragende multimodale Verständnis- und Generierungsfähigkeiten. Mit nativer Unterstützung für 256K Kontextlänge eignet es sich ideal für hochgradig parallele, produktionsreife multimodale Dienste."
},
"Qwen/Qwen3-VL-235B-A22B-Thinking": {
"description": "Qwen3-VL-235B-A22B-Thinking ist die Flaggschiff-Version der Qwen3-VL-Serie mit Fokus auf Denkprozesse. Es wurde speziell für komplexe multimodale Schlussfolgerungen, langkontextuelles Denken und Interaktionen mit Agenten optimiert und eignet sich für unternehmensweite Szenarien, die tiefgreifendes Denken und visuelle Inferenz erfordern."
},
"Qwen/Qwen3-VL-30B-A3B-Instruct": {
"description": "Qwen3-VL-30B-A3B-Instruct ist eine instruktional feinabgestimmte Version der Qwen3-VL-Serie mit leistungsstarken Fähigkeiten im Bereich visuell-sprachliches Verständnis und Generierung. Es unterstützt nativ eine Kontextlänge von 256K und eignet sich für multimodale Dialoge und bildkonditionierte Generierungsaufgaben."
},
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
"description": "Qwen3-VL-30B-A3B-Thinking ist die reasoning-optimierte Version (Thinking) der Qwen3-VL-Serie. Sie wurde für multimodale Schlussfolgerungen, Bild-zu-Code-Generierung und komplexe visuelle Verständnisaufgaben optimiert. Mit Unterstützung für 256K Kontext bietet sie eine verbesserte Fähigkeit zum kettenbasierten Denken."
},
"Qwen/Qwen3-VL-8B-Instruct": {
"description": "Qwen3-VL-8B-Instruct ist ein visuelles Sprachmodell der Qwen3-Serie, basierend auf Qwen3-8B-Instruct und auf umfangreichen Bild-Text-Daten trainiert. Es ist spezialisiert auf allgemeines visuelles Verständnis, visuell zentrierte Dialoge und mehrsprachige Texterkennung in Bildern. Es eignet sich für Szenarien wie visuelle Frage-Antwort-Systeme, Bildbeschreibungen, multimodale Befehlsausführung und Tool-Integration."
},
@@ -978,13 +990,13 @@
"description": "DeepSeek-V3 ist ein hybrides Expertenmodell (MoE) mit 6710 Milliarden Parametern, das eine Multi-Head-Latent-Attention (MLA) und die DeepSeekMoE-Architektur verwendet, kombiniert mit einer Lastenausgleichsstrategie ohne Hilfskosten, um die Inferenz- und Trainingseffizienz zu optimieren. Durch das Pre-Training auf 14,8 Billionen hochwertigen Tokens und anschließendes überwachten Feintuning und verstärkendes Lernen übertrifft DeepSeek-V3 in der Leistung andere Open-Source-Modelle und nähert sich führenden Closed-Source-Modellen."
},
"deepseek-ai/DeepSeek-V3.1": {
"description": "DeepSeek-V3.1 ist ein hybrides großes Sprachmodell, das von DeepSeek AI veröffentlicht wurde und auf dem Vorgängermodell in vielerlei Hinsicht bedeutende Verbesserungen aufweist. Eine wesentliche Innovation dieses Modells ist die Integration des „Denkmodus“ und des „Nicht-Denkmodus“ in einem System, wobei Nutzer durch Anpassung der Chat-Vorlagen flexibel zwischen den Modi wechseln können, um unterschiedlichen Aufgabenanforderungen gerecht zu werden. Durch spezielles Post-Training wurde die Leistung von V3.1 bei Tool-Aufrufen und Agentenaufgaben deutlich gesteigert, was eine bessere Unterstützung externer Suchwerkzeuge und die Ausführung komplexer mehrstufiger Aufgaben ermöglicht. Das Modell basiert auf DeepSeek-V3.1-Base und wurde durch eine zweistufige Langtext-Erweiterungsmethode nachtrainiert, wodurch das Trainingsdatenvolumen erheblich erhöht wurde und es sich besonders bei der Verarbeitung langer Dokumente und umfangreicher Codes bewährt. Als Open-Source-Modell zeigt DeepSeek-V3.1 in Benchmarks zu Codierung, Mathematik und logischem Denken Fähigkeiten, die mit führenden Closed-Source-Modellen vergleichbar sind. Gleichzeitig senkt seine hybride Expertenarchitektur (MoE) die Inferenzkosten bei gleichzeitiger Beibehaltung einer enormen Modellkapazität."
"description": "Das DeepSeek V3.1 Modell basiert auf einer hybriden Inferenzarchitektur und unterstützt sowohl Denk- als auch Nicht-Denk-Modi."
},
"deepseek-ai/DeepSeek-V3.1-Terminus": {
"description": "DeepSeek-V3.1-Terminus ist eine aktualisierte Version des V3.1-Modells von DeepSeek, positioniert als hybrides Agenten-Großsprachmodell. Dieses Update konzentriert sich darauf, auf Nutzerfeedback basierende Probleme zu beheben und die Stabilität zu verbessern, während die ursprünglichen Modellfähigkeiten erhalten bleiben. Es verbessert deutlich die Sprachkonsistenz und reduziert das Vermischen von Chinesisch und Englisch sowie das Auftreten ungewöhnlicher Zeichen. Das Modell integriert den „Denkmodus“ (Thinking Mode) und den „Nicht-Denkmodus“ (Non-thinking Mode), zwischen denen Nutzer flexibel über Chatvorlagen wechseln können, um unterschiedlichen Aufgaben gerecht zu werden. Als wichtige Optimierung verbessert V3.1-Terminus die Leistung des Code-Agenten und des Such-Agenten, wodurch diese bei Werkzeugaufrufen und der Ausführung mehrstufiger komplexer Aufgaben zuverlässiger sind."
},
"deepseek-ai/DeepSeek-V3.2-Exp": {
"description": "Das DeepSeek V3.2 Exp Modell ist eine hybride Inferenzarchitektur, die sowohl Denk- als auch Nicht-Denk-Modi unterstützt."
"description": "DeepSeek-V3.2-Exp ist eine experimentelle Version 3.2 von DeepSeek und stellt einen Zwischenschritt auf dem Weg zur nächsten Generation der Architektur dar. Aufbauend auf V3.1-Terminus führt sie den DeepSeek Sparse Attention (DSA)-Mechanismus ein, um die Effizienz beim Training und bei der Inferenz mit langen Kontexten zu verbessern. Sie wurde speziell für Werkzeugaufrufe, das Verständnis langer Dokumente und mehrstufiges Schlussfolgern optimiert. V3.2-Exp dient als Brücke zwischen Forschung und Produktreife und eignet sich für Nutzer, die in Szenarien mit hohem Kontextbudget eine höhere Inferenzleistung erkunden möchten."
},
"deepseek-ai/deepseek-llm-67b-chat": {
"description": "DeepSeek 67B ist ein fortschrittliches Modell, das für komplexe Dialoge trainiert wurde."
@@ -2474,9 +2486,6 @@
"mistralai/Mixtral-8x7B-v0.1": {
"description": "Mixtral 8x7B ist ein sparsames Expertenmodell, das mehrere Parameter nutzt, um die Schlussfolgerungsgeschwindigkeit zu erhöhen, und sich gut für mehrsprachige und Code-Generierungsaufgaben eignet."
},
"mistralai/mistral-7b-instruct": {
"description": "Mistral 7B Instruct ist ein hochleistungsfähiges Branchenstandardmodell mit Geschwindigkeitsoptimierung und Unterstützung für lange Kontexte."
},
"mistralai/mistral-nemo": {
"description": "Mistral Nemo ist ein 7,3B-Parameter-Modell mit Unterstützung für mehrere Sprachen und hoher Programmierleistung."
},
+17 -8
View File
@@ -290,12 +290,12 @@
"Pro/deepseek-ai/DeepSeek-V3": {
"description": "DeepSeek-V3 is a mixed expert (MoE) language model with 671 billion parameters, utilizing multi-head latent attention (MLA) and the DeepSeekMoE architecture, combined with a load balancing strategy without auxiliary loss to optimize inference and training efficiency. Pre-trained on 14.8 trillion high-quality tokens and fine-tuned with supervision and reinforcement learning, DeepSeek-V3 outperforms other open-source models and approaches leading closed-source models."
},
"Pro/deepseek-ai/DeepSeek-V3.1": {
"description": "DeepSeek-V3.1 is a hybrid large language model released by DeepSeek AI, featuring multiple significant upgrades over its predecessor. A key innovation of this model is the integration of both \"Thinking Mode\" and \"Non-thinking Mode,\" allowing users to flexibly switch between modes by adjusting chat templates to suit different task requirements. Through dedicated post-training optimization, V3.1 significantly enhances performance in tool invocation and Agent tasks, better supporting external search tools and executing complex multi-step tasks. Based on DeepSeek-V3.1-Base, it employs a two-stage long-text extension method to greatly increase training data volume, improving its handling of long documents and extensive code. As an open-source model, DeepSeek-V3.1 demonstrates capabilities comparable to top closed-source models across benchmarks in coding, mathematics, and reasoning. Its Mixture of Experts (MoE) architecture maintains a massive model capacity while effectively reducing inference costs."
},
"Pro/deepseek-ai/DeepSeek-V3.1-Terminus": {
"description": "DeepSeek-V3.1-Terminus is an updated version of the V3.1 model released by DeepSeek, positioned as a hybrid agent large language model. This update focuses on fixing user-reported issues and improving stability while maintaining the model's original capabilities. It significantly enhances language consistency, reducing the mixing of Chinese and English and the occurrence of abnormal characters. The model integrates both \"Thinking Mode\" and \"Non-thinking Mode,\" allowing users to switch flexibly between chat templates to suit different tasks. As a key optimization, V3.1-Terminus improves the performance of the Code Agent and Search Agent, making tool invocation and multi-step complex task execution more reliable."
},
"Pro/deepseek-ai/DeepSeek-V3.2-Exp": {
"description": "DeepSeek-V3.2-Exp is an experimental version released by DeepSeek as an intermediate step toward the next-generation architecture. Building on V3.1-Terminus, it introduces the DeepSeek Sparse Attention (DSA) mechanism to enhance training and inference efficiency for long-context scenarios. It features targeted optimizations for tool use, long-document comprehension, and multi-step reasoning. V3.2-Exp serves as a bridge between research and production, ideal for users seeking higher inference efficiency in high-context-budget applications."
},
"Pro/moonshotai/Kimi-K2-Instruct-0905": {
"description": "Kimi K2-Instruct-0905 is the latest and most powerful version of Kimi K2. It is a top-tier Mixture of Experts (MoE) language model with a total of 1 trillion parameters and 32 billion activated parameters. Key features of this model include enhanced agent coding intelligence, demonstrating significant performance improvements in public benchmark tests and real-world agent coding tasks; and an improved frontend coding experience, with advancements in both aesthetics and practicality for frontend programming."
},
@@ -398,6 +398,18 @@
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
"description": "Qwen3-Next-80B-A3B-Thinking is the next-generation foundational model released by Alibaba's Tongyi Qianwen team, specifically designed for complex reasoning tasks. It is based on the innovative Qwen3-Next architecture, which integrates a hybrid attention mechanism (Gated DeltaNet and Gated Attention) and a highly sparse mixture-of-experts (MoE) structure, aiming for ultimate training and inference efficiency. As a sparse model with a total of 80 billion parameters, it activates only about 3 billion parameters during inference, greatly reducing computational costs. When processing long-context tasks exceeding 32K tokens, its throughput is more than 10 times higher than the Qwen3-32B model. This \"Thinking\" version is optimized for executing challenging multi-step tasks such as mathematical proofs, code synthesis, logical analysis, and planning, and by default outputs the reasoning process in a structured \"chain-of-thought\" format. In terms of performance, it not only surpasses higher-cost models like Qwen3-32B-Thinking but also outperforms Gemini-2.5-Flash-Thinking on multiple benchmarks."
},
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
"description": "Qwen3-VL-235B-A22B-Instruct is a large instruction-tuned model in the Qwen3-VL series. Based on a Mixture of Experts (MoE) architecture, it offers exceptional multimodal understanding and generation capabilities. With native support for 256K context length, it is well-suited for high-concurrency, production-grade multimodal services."
},
"Qwen/Qwen3-VL-235B-A22B-Thinking": {
"description": "Qwen3-VL-235B-A22B-Thinking is the flagship reasoning model in the Qwen3-VL series. It is specially optimized for complex multimodal reasoning, long-context inference, and agent interaction, making it ideal for enterprise-level scenarios that demand deep reasoning and visual understanding."
},
"Qwen/Qwen3-VL-30B-A3B-Instruct": {
"description": "Qwen3-VL-30B-A3B-Instruct is an instruction-tuned model in the Qwen3-VL series, featuring powerful vision-language understanding and generation capabilities. With native support for 256K context length, it is suitable for multimodal dialogue and image-conditioned generation tasks."
},
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
"description": "Qwen3-VL-30B-A3B-Thinking is the reasoning-enhanced version of Qwen3-VL. It is optimized for multimodal reasoning, image-to-code tasks, and complex visual understanding. Supporting 256K context length, it offers stronger chain-of-thought capabilities."
},
"Qwen/Qwen3-VL-8B-Instruct": {
"description": "Qwen3-VL-8B-Instruct is a vision-language model from the Qwen3 series, built on Qwen3-8B-Instruct and trained on a large corpus of image-text data. It excels at general visual understanding, vision-centric dialogue, and multilingual text recognition within images. It is well-suited for tasks such as visual question answering, image captioning, multimodal instruction following, and tool invocation."
},
@@ -978,13 +990,13 @@
"description": "DeepSeek-V3 is a mixture of experts (MoE) language model with 671 billion parameters, utilizing multi-head latent attention (MLA) and the DeepSeekMoE architecture, combined with a load balancing strategy that does not rely on auxiliary loss, optimizing inference and training efficiency. Pre-trained on 14.8 trillion high-quality tokens and fine-tuned with supervision and reinforcement learning, DeepSeek-V3 outperforms other open-source models and approaches leading closed-source models in performance."
},
"deepseek-ai/DeepSeek-V3.1": {
"description": "DeepSeek-V3.1 is a hybrid large language model released by DeepSeek AI, featuring multiple significant upgrades over its predecessor. A key innovation of this model is the integration of both \"Thinking Mode\" and \"Non-thinking Mode,\" allowing users to flexibly switch between modes by adjusting chat templates to suit different task requirements. Through dedicated post-training optimization, V3.1 significantly enhances performance in tool invocation and Agent tasks, better supporting external search tools and executing complex multi-step tasks. Based on DeepSeek-V3.1-Base, it employs a two-stage long-text extension method to greatly increase training data volume, improving its handling of long documents and extensive code. As an open-source model, DeepSeek-V3.1 demonstrates capabilities comparable to top closed-source models across benchmarks in coding, mathematics, and reasoning. Its Mixture of Experts (MoE) architecture maintains a massive model capacity while effectively reducing inference costs."
"description": "The DeepSeek V3.1 model features a hybrid reasoning architecture that supports both reasoning and non-reasoning modes."
},
"deepseek-ai/DeepSeek-V3.1-Terminus": {
"description": "DeepSeek-V3.1-Terminus is an updated version of the V3.1 model released by DeepSeek, positioned as a hybrid agent large language model. This update focuses on fixing user-reported issues and improving stability while maintaining the model's original capabilities. It significantly enhances language consistency, reducing the mixing of Chinese and English and the occurrence of abnormal characters. The model integrates both \"Thinking Mode\" and \"Non-thinking Mode,\" allowing users to switch flexibly between chat templates to suit different tasks. As a key optimization, V3.1-Terminus improves the performance of the Code Agent and Search Agent, making tool invocation and multi-step complex task execution more reliable."
},
"deepseek-ai/DeepSeek-V3.2-Exp": {
"description": "The DeepSeek V3.2 Exp model adopts a hybrid reasoning architecture, supporting both reflective and non-reflective modes."
"description": "DeepSeek-V3.2-Exp is an experimental version released by DeepSeek as an intermediate step toward the next-generation architecture. Building on V3.1-Terminus, it introduces the DeepSeek Sparse Attention (DSA) mechanism to enhance training and inference efficiency for long-context scenarios. It features targeted optimizations for tool use, long-document comprehension, and multi-step reasoning. V3.2-Exp serves as a bridge between research and production, ideal for users seeking higher inference efficiency in high-context-budget applications."
},
"deepseek-ai/deepseek-llm-67b-chat": {
"description": "DeepSeek 67B is an advanced model trained for highly complex conversations."
@@ -2474,9 +2486,6 @@
"mistralai/Mixtral-8x7B-v0.1": {
"description": "Mixtral 8x7B is a sparse expert model that utilizes multiple parameters to enhance reasoning speed, suitable for multilingual and code generation tasks."
},
"mistralai/mistral-7b-instruct": {
"description": "Mistral 7B Instruct is a high-performance industry-standard model optimized for speed and long context support."
},
"mistralai/mistral-nemo": {
"description": "Mistral Nemo is a multilingual model with 7.3 billion parameters, designed for high-performance programming."
},
+17 -8
View File
@@ -290,12 +290,12 @@
"Pro/deepseek-ai/DeepSeek-V3": {
"description": "DeepSeek-V3 es un modelo de lenguaje de expertos mixtos (MoE) con 671 mil millones de parámetros, que utiliza atención potencial de múltiples cabezas (MLA) y la arquitectura DeepSeekMoE, combinando estrategias de balanceo de carga sin pérdidas auxiliares para optimizar la eficiencia de inferencia y entrenamiento. Preentrenado en 14.8 billones de tokens de alta calidad, y ajustado mediante supervisión y aprendizaje por refuerzo, DeepSeek-V3 supera a otros modelos de código abierto y se acerca a los modelos cerrados líderes."
},
"Pro/deepseek-ai/DeepSeek-V3.1": {
"description": "DeepSeek-V3.1 es un modelo de lenguaje grande híbrido lanzado por DeepSeek AI, que incorpora múltiples mejoras importantes sobre su predecesor. Una innovación clave es la integración de los modos \"Pensamiento\" y \"No pensamiento\" en un solo modelo, permitiendo a los usuarios alternar flexiblemente mediante la configuración de plantillas de chat para adaptarse a diferentes tareas. Gracias a una optimización post-entrenamiento especializada, V3.1 mejora significativamente el rendimiento en llamadas a herramientas y tareas Agent, soportando mejor herramientas de búsqueda externas y la ejecución de tareas complejas en múltiples pasos. Basado en DeepSeek-V3.1-Base, se amplió considerablemente la cantidad de datos de entrenamiento mediante un método de extensión de texto largo en dos fases, mejorando su desempeño en documentos extensos y código largo. Como modelo de código abierto, DeepSeek-V3.1 demuestra capacidades comparables a los mejores modelos cerrados en benchmarks de codificación, matemáticas y razonamiento, y gracias a su arquitectura de expertos mixtos (MoE), mantiene una gran capacidad de modelo mientras reduce eficazmente los costos de inferencia."
},
"Pro/deepseek-ai/DeepSeek-V3.1-Terminus": {
"description": "DeepSeek-V3.1-Terminus es una versión actualizada del modelo V3.1 lanzado por DeepSeek, posicionada como un modelo de lenguaje grande con agentes híbridos. Esta actualización mantiene las capacidades originales del modelo, enfocándose en corregir problemas reportados por los usuarios y mejorar la estabilidad. Mejora significativamente la coherencia del lenguaje, reduciendo la mezcla de chino e inglés y la aparición de caracteres anómalos. El modelo integra el “Modo de pensamiento” y el “Modo sin pensamiento”, permitiendo a los usuarios cambiar flexiblemente mediante plantillas de chat para adaptarse a diferentes tareas. Como optimización importante, V3.1-Terminus mejora el rendimiento del agente de código y del agente de búsqueda, haciéndolos más confiables en la invocación de herramientas y en la ejecución de tareas complejas de múltiples pasos."
},
"Pro/deepseek-ai/DeepSeek-V3.2-Exp": {
"description": "DeepSeek-V3.2-Exp es una versión experimental lanzada por DeepSeek como un paso intermedio hacia una arquitectura de próxima generación. Basado en V3.1-Terminus, introduce el mecanismo de Atención Dispersa de DeepSeek (DeepSeek Sparse Attention, DSA) para mejorar la eficiencia en el entrenamiento e inferencia con contextos largos. Ha sido especialmente optimizado para la invocación de herramientas, la comprensión de documentos extensos y el razonamiento en múltiples pasos. V3.2-Exp actúa como un puente entre la investigación y la producción, ideal para usuarios que buscan explorar una mayor eficiencia de razonamiento en escenarios con presupuestos de contexto elevados."
},
"Pro/moonshotai/Kimi-K2-Instruct-0905": {
"description": "Kimi K2-Instruct-0905 es la versión más reciente y potente de Kimi K2. Es un modelo de lenguaje de expertos mixtos (MoE) de primer nivel, con un total de un billón de parámetros y 32 mil millones de parámetros activados. Las principales características de este modelo incluyen: inteligencia mejorada para agentes de codificación, mostrando un rendimiento notable en pruebas de referencia públicas y en tareas reales de agentes de codificación; y una experiencia mejorada en la codificación frontend, con avances tanto en la estética como en la funcionalidad de la programación frontend."
},
@@ -398,6 +398,18 @@
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
"description": "Qwen3-Next-80B-A3B-Thinking es un modelo base de próxima generación lanzado por el equipo Tongyi Qianwen de Alibaba, diseñado específicamente para tareas complejas de razonamiento. Basado en la innovadora arquitectura Qwen3-Next, que integra mecanismos de atención híbrida (Gated DeltaNet y Gated Attention) y una estructura de expertos mixtos altamente dispersos (MoE), busca alcanzar una eficiencia extrema en entrenamiento e inferencia. Como modelo disperso con 80 mil millones de parámetros totales, solo activa alrededor de 3 mil millones durante la inferencia, reduciendo considerablemente el costo computacional. En tareas de contexto largo que superan los 32K tokens, su rendimiento es más de 10 veces superior al modelo Qwen3-32B. Esta versión “Thinking” está optimizada para ejecutar tareas complejas de múltiples pasos como demostraciones matemáticas, síntesis de código, análisis lógico y planificación, y por defecto produce el proceso de razonamiento en forma estructurada de “cadena de pensamiento”. En rendimiento, supera no solo a modelos más costosos como Qwen3-32B-Thinking, sino también a Gemini-2.5-Flash-Thinking en múltiples benchmarks."
},
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
"description": "Qwen3-VL-235B-A22B-Instruct es un modelo de ajuste fino basado en instrucciones de gran escala de la serie Qwen3-VL. Basado en una arquitectura de expertos mixtos (MoE), ofrece una capacidad sobresaliente de comprensión y generación multimodal, con soporte nativo para contextos de hasta 256K, ideal para servicios multimodales de nivel de producción con alta concurrencia."
},
"Qwen/Qwen3-VL-235B-A22B-Thinking": {
"description": "Qwen3-VL-235B-A22B-Thinking es la versión insignia de razonamiento de la serie Qwen3-VL, especialmente optimizada para el razonamiento multimodal complejo, el razonamiento con contextos largos y la interacción con agentes inteligentes. Es adecuada para escenarios empresariales que requieren razonamiento profundo y capacidades avanzadas de inferencia visual."
},
"Qwen/Qwen3-VL-30B-A3B-Instruct": {
"description": "Qwen3-VL-30B-A3B-Instruct es una versión de ajuste fino basada en instrucciones de la serie Qwen3-VL, con potentes capacidades de comprensión y generación visual-lingüística. Soporta de forma nativa contextos de hasta 256K, siendo ideal para diálogos multimodales y tareas de generación condicionada por imágenes."
},
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
"description": "Qwen3-VL-30B-A3B-Thinking es la versión mejorada para razonamiento (Thinking) de Qwen3-VL, optimizada para tareas de razonamiento multimodal, conversión de imágenes a código y comprensión visual compleja. Soporta contextos de hasta 256K y posee una capacidad mejorada de razonamiento en cadena."
},
"Qwen/Qwen3-VL-8B-Instruct": {
"description": "Qwen3-VL-8B-Instruct es un modelo de lenguaje visual de la serie Qwen3, desarrollado a partir de Qwen3-8B-Instruct y entrenado con grandes volúmenes de datos de texto e imagen. Se especializa en comprensión visual general, diálogos centrados en lo visual y reconocimiento multilingüe de texto en imágenes. Es adecuado para tareas como preguntas y respuestas visuales, descripción de imágenes, seguimiento de instrucciones multimodales y activación de herramientas."
},
@@ -978,13 +990,13 @@
"description": "DeepSeek-V3 es un modelo de lenguaje de expertos mixtos (MoE) con 6710 millones de parámetros, que utiliza atención latente de múltiples cabezas (MLA) y la arquitectura DeepSeekMoE, combinando una estrategia de balanceo de carga sin pérdidas auxiliares para optimizar la eficiencia de inferencia y entrenamiento. Al ser preentrenado en 14.8 billones de tokens de alta calidad y realizar ajustes supervisados y aprendizaje reforzado, DeepSeek-V3 supera en rendimiento a otros modelos de código abierto, acercándose a los modelos cerrados líderes."
},
"deepseek-ai/DeepSeek-V3.1": {
"description": "DeepSeek-V3.1 es un modelo de lenguaje grande híbrido lanzado por DeepSeek AI, que incorpora múltiples mejoras importantes sobre su predecesor. Una innovación clave es la integración de los modos \"Pensamiento\" y \"No pensamiento\" en un solo modelo, permitiendo a los usuarios alternar flexiblemente mediante la configuración de plantillas de chat para adaptarse a diferentes tareas. Gracias a una optimización post-entrenamiento especializada, V3.1 mejora significativamente el rendimiento en llamadas a herramientas y tareas Agent, soportando mejor herramientas de búsqueda externas y la ejecución de tareas complejas en múltiples pasos. Basado en DeepSeek-V3.1-Base, se amplió considerablemente la cantidad de datos de entrenamiento mediante un método de extensión de texto largo en dos fases, mejorando su desempeño en documentos extensos y código largo. Como modelo de código abierto, DeepSeek-V3.1 demuestra capacidades comparables a los mejores modelos cerrados en benchmarks de codificación, matemáticas y razonamiento, y gracias a su arquitectura de expertos mixtos (MoE), mantiene una gran capacidad de modelo mientras reduce eficazmente los costos de inferencia."
"description": "El modelo DeepSeek V3.1 adopta una arquitectura de inferencia híbrida, compatible tanto con el modo de razonamiento como con el modo no razonante."
},
"deepseek-ai/DeepSeek-V3.1-Terminus": {
"description": "DeepSeek-V3.1-Terminus es una versión actualizada del modelo V3.1 lanzado por DeepSeek, posicionada como un modelo de lenguaje grande con agentes híbridos. Esta actualización mantiene las capacidades originales del modelo, enfocándose en corregir problemas reportados por los usuarios y mejorar la estabilidad. Mejora significativamente la coherencia del lenguaje, reduciendo la mezcla de chino e inglés y la aparición de caracteres anómalos. El modelo integra el “Modo de pensamiento” y el “Modo sin pensamiento”, permitiendo a los usuarios cambiar flexiblemente mediante plantillas de chat para adaptarse a diferentes tareas. Como optimización importante, V3.1-Terminus mejora el rendimiento del agente de código y del agente de búsqueda, haciéndolos más confiables en la invocación de herramientas y en la ejecución de tareas complejas de múltiples pasos."
},
"deepseek-ai/DeepSeek-V3.2-Exp": {
"description": "El modelo DeepSeek V3.2 Exp es una arquitectura de inferencia híbrida que admite tanto el modo reflexivo como el no reflexivo."
"description": "DeepSeek-V3.2-Exp es una versión experimental lanzada por DeepSeek como un paso intermedio hacia una arquitectura de próxima generación. Basado en V3.1-Terminus, introduce el mecanismo de Atención Dispersa de DeepSeek (DeepSeek Sparse Attention, DSA) para mejorar la eficiencia en el entrenamiento e inferencia con contextos largos. Ha sido especialmente optimizado para la invocación de herramientas, la comprensión de documentos extensos y el razonamiento en múltiples pasos. V3.2-Exp actúa como un puente entre la investigación y la producción, ideal para usuarios que buscan explorar una mayor eficiencia de razonamiento en escenarios con presupuestos de contexto elevados."
},
"deepseek-ai/deepseek-llm-67b-chat": {
"description": "DeepSeek 67B es un modelo avanzado entrenado para diálogos de alta complejidad."
@@ -2474,9 +2486,6 @@
"mistralai/Mixtral-8x7B-v0.1": {
"description": "Mixtral 8x7B es un modelo de expertos dispersos que utiliza múltiples parámetros para aumentar la velocidad de razonamiento, adecuado para tareas de generación de múltiples idiomas y códigos."
},
"mistralai/mistral-7b-instruct": {
"description": "Mistral 7B Instruct es un modelo de estándar industrial de alto rendimiento, optimizado para velocidad y soporte de contexto largo."
},
"mistralai/mistral-nemo": {
"description": "Mistral Nemo es un modelo de 7.3B parámetros con soporte multilingüe y programación de alto rendimiento."
},
+17 -8
View File
@@ -290,12 +290,12 @@
"Pro/deepseek-ai/DeepSeek-V3": {
"description": "DeepSeek-V3 یک مدل زبان با 671 میلیارد پارامتر است که از معماری متخصصان ترکیبی (MoE) و توجه چندسر (MLA) استفاده می‌کند و با استراتژی تعادل بار بدون ضرر کمکی بهینه‌سازی کارایی استنتاج و آموزش را انجام می‌دهد. این مدل با پیش‌آموزش بر روی 14.8 تریلیون توکن با کیفیت بالا و انجام تنظیم دقیق نظارتی و یادگیری تقویتی، در عملکرد از سایر مدل‌های متن‌باز پیشی می‌گیرد و به مدل‌های بسته پیشرو نزدیک می‌شود."
},
"Pro/deepseek-ai/DeepSeek-V3.1": {
"description": "DeepSeek-V3.1 یک مدل زبان بزرگ با حالت ترکیبی است که توسط DeepSeek AI منتشر شده و در مقایسه با نسخه‌های قبلی خود به‌روزرسانی‌های مهمی را تجربه کرده است. نوآوری اصلی این مدل ادغام «حالت تفکر» و «حالت غیرتفکر» در یک مدل است که کاربران می‌توانند با تنظیم قالب گفتگو به صورت انعطاف‌پذیر بین آن‌ها جابجا شوند تا نیازهای مختلف وظایف را برآورده کنند. با بهینه‌سازی پس از آموزش تخصصی، عملکرد V3.1 در فراخوانی ابزارها و وظایف Agent به طور قابل توجهی افزایش یافته و پشتیبانی بهتری از ابزارهای جستجوی خارجی و اجرای وظایف پیچیده چندمرحله‌ای ارائه می‌دهد. این مدل بر پایه DeepSeek-V3.1-Base آموزش داده شده و با روش توسعه متن بلند دو مرحله‌ای، حجم داده‌های آموزشی را به طور چشمگیری افزایش داده است که باعث بهبود عملکرد در پردازش اسناد طولانی و کدهای بلند می‌شود. به عنوان یک مدل متن‌باز، DeepSeek-V3.1 در آزمون‌های معیار مختلفی مانند کدنویسی، ریاضیات و استدلال توانایی‌هایی در حد مدل‌های بسته پیشرفته نشان می‌دهد و با معماری متخصص ترکیبی (MoE) خود، ضمن حفظ ظرفیت عظیم مدل، هزینه‌های استدلال را به طور موثری کاهش می‌دهد."
},
"Pro/deepseek-ai/DeepSeek-V3.1-Terminus": {
"description": "DeepSeek-V3.1-Terminus نسخه به‌روزرسانی شده مدل V3.1 منتشر شده توسط DeepSeek است که به عنوان یک مدل زبان بزرگ با عامل ترکیبی شناخته می‌شود. این به‌روزرسانی ضمن حفظ قابلیت‌های اصلی مدل، بر رفع مشکلات گزارش شده توسط کاربران و افزایش پایداری تمرکز دارد. این نسخه به طور قابل توجهی انسجام زبانی را بهبود بخشیده و از بروز ترکیب زبان چینی و انگلیسی و کاراکترهای نامتعارف کاسته است. مدل شامل حالت «تفکر» (Thinking Mode) و «غیرتفکر» (Non-thinking Mode) است که کاربران می‌توانند از طریق قالب‌های گفتگو به صورت انعطاف‌پذیر بین آن‌ها جابجا شوند تا با وظایف مختلف سازگار شوند. به عنوان یک بهینه‌سازی مهم، V3.1-Terminus عملکرد عامل کد (Code Agent) و عامل جستجو (Search Agent) را تقویت کرده است تا در فراخوانی ابزارها و اجرای وظایف پیچیده چندمرحله‌ای قابل اعتمادتر باشد."
},
"Pro/deepseek-ai/DeepSeek-V3.2-Exp": {
"description": "DeepSeek-V3.2-Exp نسخه آزمایشی V3.2 است که توسط DeepSeek منتشر شده و به عنوان گامی میانی در مسیر توسعه معماری نسل بعدی طراحی شده است. این نسخه با افزودن مکانیزم توجه پراکنده DeepSeek (DeepSeek Sparse Attention یا DSA) بر پایه V3.1-Terminus، کارایی آموزش و استنتاج در زمینه‌های متنی طولانی را بهبود می‌بخشد. همچنین به‌طور ویژه برای فراخوانی ابزارها، درک اسناد بلند و استدلال چندمرحله‌ای بهینه‌سازی شده است. V3.2-Exp پلی میان تحقیق و تولید است و برای کاربرانی مناسب است که به دنبال بهره‌وری بالاتر در سناریوهایی با بودجه متنی بالا هستند."
},
"Pro/moonshotai/Kimi-K2-Instruct-0905": {
"description": "Kimi K2-Instruct-0905 جدیدترین و قدرتمندترین نسخه Kimi K2 است. این مدل یک مدل زبان برتر با معماری متخصص ترکیبی (MoE) است که دارای ۱ تریلیون پارامتر کل و ۳۲ میلیارد پارامتر فعال می‌باشد. ویژگی‌های اصلی این مدل شامل: هوش کدگذاری عامل بهبود یافته که در آزمون‌های معیار عمومی و وظایف واقعی کدگذاری عامل عملکرد قابل توجهی نشان می‌دهد؛ تجربه کدگذاری فرانت‌اند بهبود یافته که از نظر زیبایی و کاربردی بودن برنامه‌نویسی فرانت‌اند پیشرفت داشته است."
},
@@ -398,6 +398,18 @@
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
"description": "Qwen3-Next-80B-A3B-Thinking مدلی پایه نسل بعدی است که توسط تیم Tongyi Qianwen شرکت علی‌بابا برای وظایف استنتاج پیچیده طراحی شده است. این مدل بر اساس معماری نوآورانه Qwen3-Next ساخته شده که مکانیزم توجه ترکیبی (Gated DeltaNet و Gated Attention) و ساختار متخصص ترکیبی با پراکندگی بالا (MoE) را ادغام می‌کند تا به بالاترین کارایی در آموزش و استنتاج دست یابد. به عنوان یک مدل پراکنده با ۸۰ میلیارد پارامتر کل، در زمان استنتاج تنها حدود ۳ میلیارد پارامتر فعال می‌شوند که هزینه محاسباتی را به طور چشمگیری کاهش می‌دهد و در پردازش وظایف با زمینه طولانی بیش از ۳۲ هزار توکن، توان عملیاتی آن بیش از ۱۰ برابر مدل Qwen3-32B است. این نسخه «Thinking» به طور خاص برای انجام وظایف چندمرحله‌ای دشوار مانند اثبات ریاضی، ترکیب کد، تحلیل منطقی و برنامه‌ریزی بهینه شده و به طور پیش‌فرض فرایند استنتاج را به صورت ساختاریافته و در قالب «زنجیره فکری» ارائه می‌دهد. از نظر عملکرد، این مدل نه تنها از مدل‌های پرهزینه‌تر مانند Qwen3-32B-Thinking پیشی گرفته، بلکه در چندین بنچمارک از Gemini-2.5-Flash-Thinking نیز بهتر عمل می‌کند."
},
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
"description": "Qwen3-VL-235B-A22B-Instruct یک مدل بزرگ تنظیم‌شده با دستورالعمل از سری Qwen3-VL است که بر پایه معماری متخصصان ترکیبی (MoE) ساخته شده و توانایی برجسته‌ای در درک و تولید چندرسانه‌ای دارد. این مدل به‌صورت بومی از زمینه متنی ۲۵۶ هزار توکن پشتیبانی می‌کند و برای خدمات چندرسانه‌ای در سطح تولید با هم‌زمانی بالا مناسب است."
},
"Qwen/Qwen3-VL-235B-A22B-Thinking": {
"description": "Qwen3-VL-235B-A22B-Thinking نسخه پرچم‌دار تفکر از سری Qwen3-VL است که به‌طور خاص برای استدلال پیچیده چندرسانه‌ای، استدلال در زمینه‌های متنی طولانی و تعامل با عامل‌های هوشمند بهینه‌سازی شده است. این مدل برای سناریوهای سازمانی که نیاز به تفکر عمیق و استدلال بصری دارند، مناسب است."
},
"Qwen/Qwen3-VL-30B-A3B-Instruct": {
"description": "Qwen3-VL-30B-A3B-Instruct نسخه تنظیم‌شده با دستورالعمل از سری Qwen3-VL است که توانایی بالایی در درک و تولید زبان-تصویر دارد. این مدل به‌صورت بومی از زمینه متنی ۲۵۶ هزار توکن پشتیبانی می‌کند و برای گفتگوهای چندرسانه‌ای و تولید محتوا بر اساس تصویر مناسب است."
},
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
"description": "Qwen3-VL-30B-A3B-Thinking نسخه تقویت‌شده برای استدلال (Thinking) از سری Qwen3-VL است که برای وظایف استدلال چندرسانه‌ای، تبدیل تصویر به کد و درک پیچیده بصری بهینه‌سازی شده است. این مدل از زمینه متنی ۲۵۶ هزار توکن پشتیبانی می‌کند و توانایی بالایی در تفکر زنجیره‌ای دارد."
},
"Qwen/Qwen3-VL-8B-Instruct": {
"description": "Qwen3-VL-8B-Instruct یکی از مدل‌های زبان-بینایی از سری Qwen3 است که بر پایه Qwen3-8B-Instruct توسعه یافته و با حجم زیادی از داده‌های متنی-تصویری آموزش دیده است. این مدل در درک عمومی بصری، گفت‌وگوهای مبتنی بر تصویر و شناسایی متون چندزبانه در تصاویر مهارت دارد. مناسب برای کاربردهایی مانند پرسش و پاسخ بصری، توصیف تصویر، پیروی از دستورات چندوجهی و فراخوانی ابزارها می‌باشد."
},
@@ -978,13 +990,13 @@
"description": "DeepSeek-V3 یک مدل زبانی ترکیبی از متخصصان (MoE) با 671 میلیارد پارامتر است که از توجه چندسر (MLA) و معماری DeepSeekMoE استفاده می‌کند و با ترکیب استراتژی تعادل بار بدون ضرر کمکی، کارایی استنتاج و آموزش را بهینه می‌کند. با پیش‌آموزش بر روی 14.8 تریلیون توکن با کیفیت بالا و انجام تنظیم دقیق نظارتی و یادگیری تقویتی، DeepSeek-V3 در عملکرد از سایر مدل‌های متن‌باز پیشی می‌گیرد و به مدل‌های بسته پیشرو نزدیک می‌شود."
},
"deepseek-ai/DeepSeek-V3.1": {
"description": "DeepSeek-V3.1 یک مدل زبان بزرگ با حالت ترکیبی است که توسط DeepSeek AI منتشر شده و در مقایسه با نسخه‌های قبلی خود به‌روزرسانی‌های مهمی را تجربه کرده است. نوآوری اصلی این مدل ادغام «حالت تفکر» و «حالت غیرتفکر» در یک مدل است که کاربران می‌توانند با تنظیم قالب گفتگو به صورت انعطاف‌پذیر بین آن‌ها جابجا شوند تا نیازهای مختلف وظایف را برآورده کنند. با بهینه‌سازی پس از آموزش تخصصی، عملکرد V3.1 در فراخوانی ابزارها و وظایف Agent به طور قابل توجهی افزایش یافته و پشتیبانی بهتری از ابزارهای جستجوی خارجی و اجرای وظایف پیچیده چندمرحله‌ای ارائه می‌دهد. این مدل بر پایه DeepSeek-V3.1-Base آموزش داده شده و با روش توسعه متن بلند دو مرحله‌ای، حجم داده‌های آموزشی را به طور چشمگیری افزایش داده است که باعث بهبود عملکرد در پردازش اسناد طولانی و کدهای بلند می‌شود. به عنوان یک مدل متن‌باز، DeepSeek-V3.1 در آزمون‌های معیار مختلفی مانند کدنویسی، ریاضیات و استدلال توانایی‌هایی در حد مدل‌های بسته پیشرفته نشان می‌دهد و با معماری متخصص ترکیبی (MoE) خود، ضمن حفظ ظرفیت عظیم مدل، هزینه‌های استدلال را به طور موثری کاهش می‌دهد."
"description": "مدل DeepSeek V3.1 دارای معماری استنتاج ترکیبی است که از هر دو حالت تفکر و غیرتفکر پشتیبانی می‌کند."
},
"deepseek-ai/DeepSeek-V3.1-Terminus": {
"description": "DeepSeek-V3.1-Terminus نسخه به‌روزرسانی شده مدل V3.1 منتشر شده توسط DeepSeek است که به عنوان یک مدل زبان بزرگ با عامل ترکیبی شناخته می‌شود. این به‌روزرسانی ضمن حفظ قابلیت‌های اصلی مدل، بر رفع مشکلات گزارش شده توسط کاربران و افزایش پایداری تمرکز دارد. این نسخه به طور قابل توجهی انسجام زبانی را بهبود بخشیده و از بروز ترکیب زبان چینی و انگلیسی و کاراکترهای نامتعارف کاسته است. مدل شامل حالت «تفکر» (Thinking Mode) و «غیرتفکر» (Non-thinking Mode) است که کاربران می‌توانند از طریق قالب‌های گفتگو به صورت انعطاف‌پذیر بین آن‌ها جابجا شوند تا با وظایف مختلف سازگار شوند. به عنوان یک بهینه‌سازی مهم، V3.1-Terminus عملکرد عامل کد (Code Agent) و عامل جستجو (Search Agent) را تقویت کرده است تا در فراخوانی ابزارها و اجرای وظایف پیچیده چندمرحله‌ای قابل اعتمادتر باشد."
},
"deepseek-ai/DeepSeek-V3.2-Exp": {
"description": "مدل DeepSeek V3.2 Exp یک معماری ترکیبی برای استدلال است که از هر دو حالت تفکر و غیرتفکر پشتیبانی می‌کند."
"description": "DeepSeek-V3.2-Exp نسخه آزمایشی V3.2 است که توسط DeepSeek منتشر شده و به عنوان گامی میانی در مسیر توسعه معماری نسل بعدی طراحی شده است. این نسخه با افزودن مکانیزم توجه پراکنده DeepSeek (DeepSeek Sparse Attention یا DSA) بر پایه V3.1-Terminus، کارایی آموزش و استنتاج در زمینه‌های متنی طولانی را بهبود می‌بخشد. همچنین به‌طور ویژه برای فراخوانی ابزارها، درک اسناد بلند و استدلال چندمرحله‌ای بهینه‌سازی شده است. V3.2-Exp پلی میان تحقیق و تولید است و برای کاربرانی مناسب است که به دنبال بهره‌وری بالاتر در سناریوهایی با بودجه متنی بالا هستند."
},
"deepseek-ai/deepseek-llm-67b-chat": {
"description": "DeepSeek LLM Chat (67B) یک مدل نوآورانه هوش مصنوعی است که توانایی درک عمیق زبان و تعامل را فراهم می‌کند."
@@ -2474,9 +2486,6 @@
"mistralai/Mixtral-8x7B-v0.1": {
"description": "Mixtral 8x7B یک مدل متخصص پراکنده است که با استفاده از پارامترهای متعدد سرعت استنتاج را افزایش می‌دهد و برای انجام وظایف چندزبانه و تولید کد مناسب است."
},
"mistralai/mistral-7b-instruct": {
"description": "Mistral 7B Instruct یک مدل استاندارد صنعتی با عملکرد بالا است که بهینه‌سازی سرعت و پشتیبانی از متن طولانی را ترکیب می‌کند."
},
"mistralai/mistral-nemo": {
"description": "Mistral Nemo یک مدل با 7.3 میلیارد پارامتر است که از برنامه‌نویسی با عملکرد بالا و پشتیبانی چندزبانه برخوردار است."
},
+17 -8
View File
@@ -290,12 +290,12 @@
"Pro/deepseek-ai/DeepSeek-V3": {
"description": "DeepSeek-V3 est un modèle de langage à experts mixtes (MoE) avec 671 milliards de paramètres, utilisant une attention potentielle multi-tête (MLA) et une architecture DeepSeekMoE, combinant une stratégie d'équilibrage de charge sans perte auxiliaire pour optimiser l'efficacité d'inférence et d'entraînement. Pré-entraîné sur 14,8 billions de tokens de haute qualité, et affiné par supervision et apprentissage par renforcement, DeepSeek-V3 surpasse d'autres modèles open source et se rapproche des modèles fermés de premier plan."
},
"Pro/deepseek-ai/DeepSeek-V3.1": {
"description": "DeepSeek-V3.1 est un grand modèle de langage hybride publié par DeepSeek AI, intégrant de nombreuses améliorations majeures par rapport à la génération précédente. Une innovation clé de ce modèle est l'intégration des modes « réflexion » (Thinking Mode) et « non-réflexion » (Non-thinking Mode), permettant aux utilisateurs de basculer facilement entre eux via des modèles de conversation adaptés aux différents besoins. Grâce à une optimisation post-entraînement spécifique, la version V3.1 améliore significativement les performances dans l'appel d'outils et les tâches d'agent, supportant mieux les outils de recherche externes et l'exécution de tâches complexes en plusieurs étapes. Basé sur DeepSeek-V3.1-Base, il bénéficie d'un entraînement supplémentaire avec une méthode d'extension de texte long en deux phases, augmentant considérablement la quantité de données d'entraînement pour une meilleure gestion des documents longs et des codes étendus. En tant que modèle open source, DeepSeek-V3.1 démontre des capacités comparables aux meilleurs modèles propriétaires dans plusieurs benchmarks en codage, mathématiques et raisonnement, tout en réduisant efficacement les coûts d'inférence grâce à son architecture à experts mixtes (MoE) qui maintient une grande capacité de modèle."
},
"Pro/deepseek-ai/DeepSeek-V3.1-Terminus": {
"description": "DeepSeek-V3.1-Terminus est une version mise à jour du modèle V3.1 publiée par DeepSeek, positionnée comme un grand modèle de langage hybride pour agents intelligents. Cette mise à jour conserve les capacités originales du modèle tout en se concentrant sur la correction des problèmes signalés par les utilisateurs et l'amélioration de la stabilité. Elle améliore significativement la cohérence linguistique, réduisant le mélange de chinois et d'anglais ainsi que l'apparition de caractères anormaux. Le modèle intègre un « mode réflexion » (Thinking Mode) et un « mode non-réflexion » (Non-thinking Mode), permettant aux utilisateurs de basculer facilement entre ces modes via des modèles de conversation adaptés à différentes tâches. En tant qu'optimisation majeure, V3.1-Terminus renforce les performances des agents de code (Code Agent) et de recherche (Search Agent), rendant leur appel d'outils et l'exécution de tâches complexes en plusieurs étapes plus fiables."
},
"Pro/deepseek-ai/DeepSeek-V3.2-Exp": {
"description": "DeepSeek-V3.2-Exp est une version expérimentale V3.2 publiée par DeepSeek, servant d'étape intermédiaire vers une architecture de nouvelle génération. Basée sur la V3.1-Terminus, elle introduit le mécanisme d'attention clairsemée DeepSeek (DeepSeek Sparse Attention, DSA) afin d'améliorer l'efficacité de l'entraînement et de l'inférence sur de longs contextes. Elle est spécialement optimisée pour l'appel d'outils, la compréhension de longs documents et le raisonnement en plusieurs étapes. V3.2-Exp fait le lien entre la recherche et l'industrialisation, idéale pour les utilisateurs souhaitant explorer une efficacité de raisonnement accrue dans des scénarios à budget contextuel élevé."
},
"Pro/moonshotai/Kimi-K2-Instruct-0905": {
"description": "Kimi K2-Instruct-0905 est la version la plus récente et la plus puissante de Kimi K2. Il s'agit d'un modèle linguistique de pointe à experts mixtes (MoE), avec un total de 1 000 milliards de paramètres et 32 milliards de paramètres activés. Les principales caractéristiques de ce modèle incluent : une intelligence de codage d'agents améliorée, démontrant des performances significatives dans les tests de référence publics et les tâches réelles d'agents de codage ; une expérience de codage frontale améliorée, avec des progrès tant en esthétique qu'en praticité pour la programmation frontale."
},
@@ -398,6 +398,18 @@
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
"description": "Qwen3-Next-80B-A3B-Thinking est un modèle de base de nouvelle génération publié par l'équipe Tongyi Qianwen d'Alibaba, spécialement conçu pour les tâches de raisonnement complexes. Il repose sur l'architecture innovante Qwen3-Next, qui intègre un mécanisme d'attention hybride (Gated DeltaNet et Gated Attention) et une structure d'experts mixtes à haute sparsité (MoE), visant une efficacité extrême en entraînement et inférence. En tant que modèle sparse totalisant 80 milliards de paramètres, il n'active qu'environ 3 milliards de paramètres lors de l'inférence, réduisant significativement les coûts de calcul. Pour les tâches à contexte long dépassant 32K tokens, son débit est plus de 10 fois supérieur à celui du modèle Qwen3-32B. Cette version « Thinking » est optimisée pour exécuter des tâches complexes à étapes multiples telles que preuves mathématiques, synthèse de code, analyse logique et planification, et produit par défaut le processus de raisonnement sous forme structurée de « chaîne de pensée ». En termes de performance, il dépasse non seulement des modèles plus coûteux comme Qwen3-32B-Thinking, mais surpasse également Gemini-2.5-Flash-Thinking sur plusieurs benchmarks."
},
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
"description": "Qwen3-VL-235B-A22B-Instruct est un grand modèle de la série Qwen3-VL, affiné par instructions, basé sur une architecture à experts mixtes (MoE). Il offre d'excellentes capacités de compréhension et de génération multimodales, prend en charge nativement un contexte de 256K, et convient aux services multimodaux de production à haute concurrence."
},
"Qwen/Qwen3-VL-235B-A22B-Thinking": {
"description": "Qwen3-VL-235B-A22B-Thinking est la version phare de raisonnement de la série Qwen3-VL, spécialement optimisée pour le raisonnement multimodal complexe, le raisonnement sur de longs contextes et l'interaction avec des agents intelligents. Elle est adaptée aux scénarios d'entreprise nécessitant une réflexion approfondie et un raisonnement visuel avancé."
},
"Qwen/Qwen3-VL-30B-A3B-Instruct": {
"description": "Qwen3-VL-30B-A3B-Instruct est une version de la série Qwen3-VL affinée par instructions, dotée de puissantes capacités de compréhension et de génération visuo-langagières. Elle prend en charge nativement une longueur de contexte de 256K, idéale pour les dialogues multimodaux et les tâches de génération conditionnée par image."
},
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
"description": "Qwen3-VL-30B-A3B-Thinking est une version renforcée pour le raisonnement (Thinking) de Qwen3-VL, optimisée pour le raisonnement multimodal, la génération de code à partir d'images et les tâches complexes de compréhension visuelle. Elle prend en charge un contexte de 256K et dispose de capacités accrues de raisonnement en chaîne."
},
"Qwen/Qwen3-VL-8B-Instruct": {
"description": "Qwen3-VL-8B-Instruct est un modèle de langage visuel de la série Qwen3, développé à partir de Qwen3-8B-Instruct et entraîné sur un grand volume de données image-texte. Il excelle dans la compréhension visuelle générale, les dialogues centrés sur limage et la reconnaissance multilingue de texte dans les images. Il est adapté aux cas dusage tels que les questions-réponses visuelles, la description dimages, le suivi dinstructions multimodales et lappel doutils."
},
@@ -978,13 +990,13 @@
"description": "DeepSeek-V3 est un modèle de langage à experts mixtes (MoE) avec 6710 milliards de paramètres, utilisant une attention potentielle multi-tête (MLA) et l'architecture DeepSeekMoE, combinée à une stratégie d'équilibrage de charge sans perte auxiliaire, optimisant ainsi l'efficacité d'inférence et d'entraînement. En pré-entraînant sur 14,8 billions de tokens de haute qualité, suivi d'un ajustement supervisé et d'apprentissage par renforcement, DeepSeek-V3 surpasse les autres modèles open source en termes de performance, se rapprochant des modèles fermés de premier plan."
},
"deepseek-ai/DeepSeek-V3.1": {
"description": "DeepSeek-V3.1 est un grand modèle de langage hybride publié par DeepSeek AI, intégrant de nombreuses améliorations majeures par rapport à la génération précédente. Une innovation clé de ce modèle est l'intégration des modes « réflexion » (Thinking Mode) et « non-réflexion » (Non-thinking Mode), permettant aux utilisateurs de basculer facilement entre eux via des modèles de conversation adaptés aux différents besoins. Grâce à une optimisation post-entraînement spécifique, la version V3.1 améliore significativement les performances dans l'appel d'outils et les tâches d'agent, supportant mieux les outils de recherche externes et l'exécution de tâches complexes en plusieurs étapes. Basé sur DeepSeek-V3.1-Base, il bénéficie d'un entraînement supplémentaire avec une méthode d'extension de texte long en deux phases, augmentant considérablement la quantité de données d'entraînement pour une meilleure gestion des documents longs et des codes étendus. En tant que modèle open source, DeepSeek-V3.1 démontre des capacités comparables aux meilleurs modèles propriétaires dans plusieurs benchmarks en codage, mathématiques et raisonnement, tout en réduisant efficacement les coûts d'inférence grâce à son architecture à experts mixtes (MoE) qui maintient une grande capacité de modèle."
"description": "Le modèle DeepSeek V3.1 est basé sur une architecture de raisonnement hybride, prenant en charge à la fois les modes de réflexion et non réflexifs."
},
"deepseek-ai/DeepSeek-V3.1-Terminus": {
"description": "DeepSeek-V3.1-Terminus est une version mise à jour du modèle V3.1 publiée par DeepSeek, positionnée comme un grand modèle de langage hybride pour agents intelligents. Cette mise à jour conserve les capacités originales du modèle tout en se concentrant sur la correction des problèmes signalés par les utilisateurs et l'amélioration de la stabilité. Elle améliore significativement la cohérence linguistique, réduisant le mélange de chinois et d'anglais ainsi que l'apparition de caractères anormaux. Le modèle intègre un « mode réflexion » (Thinking Mode) et un « mode non-réflexion » (Non-thinking Mode), permettant aux utilisateurs de basculer facilement entre ces modes via des modèles de conversation adaptés à différentes tâches. En tant qu'optimisation majeure, V3.1-Terminus renforce les performances des agents de code (Code Agent) et de recherche (Search Agent), rendant leur appel d'outils et l'exécution de tâches complexes en plusieurs étapes plus fiables."
},
"deepseek-ai/DeepSeek-V3.2-Exp": {
"description": "Le modèle DeepSeek V3.2 Exp adopte une architecture de raisonnement hybride, prenant en charge à la fois les modes de réflexion et non réflexifs."
"description": "DeepSeek-V3.2-Exp est une version expérimentale V3.2 publiée par DeepSeek, servant d'étape intermédiaire vers une architecture de nouvelle génération. Basée sur la V3.1-Terminus, elle introduit le mécanisme d'attention clairsemée DeepSeek (DeepSeek Sparse Attention, DSA) afin d'améliorer l'efficacité de l'entraînement et de l'inférence sur de longs contextes. Elle est spécialement optimisée pour l'appel d'outils, la compréhension de longs documents et le raisonnement en plusieurs étapes. V3.2-Exp fait le lien entre la recherche et l'industrialisation, idéale pour les utilisateurs souhaitant explorer une efficacité de raisonnement accrue dans des scénarios à budget contextuel élevé."
},
"deepseek-ai/deepseek-llm-67b-chat": {
"description": "DeepSeek 67B est un modèle avancé formé pour des dialogues de haute complexité."
@@ -2474,9 +2486,6 @@
"mistralai/Mixtral-8x7B-v0.1": {
"description": "Mixtral 8x7B est un modèle d'experts clairsemés qui utilise de multiples paramètres pour améliorer la vitesse d'inférence, adapté au traitement des tâches multilingues et de génération de code."
},
"mistralai/mistral-7b-instruct": {
"description": "Mistral 7B Instruct est un modèle standard de l'industrie, alliant optimisation de la vitesse et support de longs contextes."
},
"mistralai/mistral-nemo": {
"description": "Mistral Nemo est un modèle de 7,3 milliards de paramètres, offrant un support multilingue et une programmation haute performance."
},
+17 -8
View File
@@ -290,12 +290,12 @@
"Pro/deepseek-ai/DeepSeek-V3": {
"description": "DeepSeek-V3 è un modello di linguaggio con 6710 miliardi di parametri, basato su un'architettura di esperti misti (MoE) che utilizza attenzione multilivello (MLA) e la strategia di bilanciamento del carico senza perdite ausiliarie, ottimizzando l'efficienza di inferenza e addestramento. Pre-addestrato su 14,8 trilioni di token di alta qualità e successivamente affinato tramite supervisione e apprendimento per rinforzo, DeepSeek-V3 supera altri modelli open source, avvicinandosi ai modelli chiusi di punta."
},
"Pro/deepseek-ai/DeepSeek-V3.1": {
"description": "DeepSeek-V3.1 è un modello linguistico di grandi dimensioni a modalità mista rilasciato da DeepSeek AI, che presenta numerosi aggiornamenti significativi rispetto alla generazione precedente. Una delle innovazioni principali è l'integrazione delle modalità “Thinking Mode” e “Non-thinking Mode” in un unico modello, permettendo agli utenti di passare agevolmente da una modalità all'altra modificando il template di chat, per adattarsi a diverse esigenze di compito. Grazie a un'ottimizzazione post-addestramento dedicata, la versione V3.1 ha migliorato significativamente le prestazioni nell'uso degli strumenti e nelle attività degli agenti, supportando meglio strumenti di ricerca esterni e l'esecuzione di compiti complessi a più fasi. Basato su DeepSeek-V3.1-Base, il modello è stato ulteriormente addestrato con un metodo di estensione in due fasi per testi lunghi, aumentando notevolmente la quantità di dati di addestramento e migliorando la gestione di documenti lunghi e codice esteso. Essendo un modello open source, DeepSeek-V3.1 dimostra capacità comparabili ai migliori modelli proprietari in benchmark di codifica, matematica e ragionamento, e grazie alla sua architettura a esperti misti (MoE), mantiene una grande capacità del modello riducendo efficacemente i costi di inferenza."
},
"Pro/deepseek-ai/DeepSeek-V3.1-Terminus": {
"description": "DeepSeek-V3.1-Terminus è una versione aggiornata del modello V3.1 rilasciata da DeepSeek, concepita come un modello linguistico di grandi dimensioni con agenti ibridi. Questo aggiornamento mantiene le capacità originali del modello, concentrandosi sulla risoluzione dei problemi segnalati dagli utenti e sul miglioramento della stabilità. Migliora significativamente la coerenza linguistica, riducendo l'uso misto di cinese e inglese e la presenza di caratteri anomali. Il modello integra la “Modalità di pensiero” (Thinking Mode) e la “Modalità non di pensiero” (Non-thinking Mode), permettendo agli utenti di passare agevolmente tra le modalità tramite template di chat per adattarsi a diversi compiti. Come ottimizzazione importante, V3.1-Terminus potenzia le prestazioni degli agenti di codice (Code Agent) e di ricerca (Search Agent), rendendoli più affidabili nell'invocazione di strumenti e nell'esecuzione di compiti complessi multi-step."
},
"Pro/deepseek-ai/DeepSeek-V3.2-Exp": {
"description": "DeepSeek-V3.2-Exp è la versione sperimentale V3.2 rilasciata da DeepSeek, concepita come una tappa intermedia verso la prossima generazione di architettura. Basata su V3.1-Terminus, introduce il meccanismo DeepSeek Sparse Attention (DSA) per migliorare l'efficienza nell'addestramento e nel ragionamento su contesti lunghi. È stata ottimizzata specificamente per l'invocazione di strumenti, la comprensione di documenti estesi e il ragionamento multi-step. V3.2-Exp funge da ponte tra ricerca e applicazione commerciale, ideale per utenti che desiderano esplorare una maggiore efficienza di ragionamento in scenari con ampio budget di contesto."
},
"Pro/moonshotai/Kimi-K2-Instruct-0905": {
"description": "Kimi K2-Instruct-0905 è l'ultima e più potente versione di Kimi K2. Si tratta di un modello linguistico di esperti misti (MoE) all'avanguardia, con un totale di 1 trilione di parametri e 32 miliardi di parametri attivi. Le caratteristiche principali del modello includono: intelligenza potenziata per la codifica degli agenti, con miglioramenti significativi nelle prestazioni sia nei test di riferimento pubblici sia nelle attività di codifica degli agenti nel mondo reale; esperienza di codifica frontend migliorata, con progressi sia nell'estetica che nella praticità della programmazione frontend."
},
@@ -398,6 +398,18 @@
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
"description": "Qwen3-Next-80B-A3B-Thinking è un modello di base di nuova generazione rilasciato dal team Tongyi Qianwen di Alibaba, progettato specificamente per compiti di ragionamento complesso. Basato sull'innovativa architettura Qwen3-Next, che integra un meccanismo di attenzione ibrida (Gated DeltaNet e Gated Attention) e una struttura di esperti misti ad alta sparsità (MoE), mira a massimizzare l'efficienza di addestramento e inferenza. Come modello sparso con un totale di 80 miliardi di parametri, attiva solo circa 3 miliardi di parametri durante l'inferenza, riducendo notevolmente i costi computazionali. Nelle attività con contesti lunghi oltre 32K token, il throughput supera di oltre 10 volte quello del modello Qwen3-32B. Questa versione “Thinking” è ottimizzata per eseguire compiti multi-step complessi come dimostrazioni matematiche, sintesi di codice, analisi logica e pianificazione, e produce di default il processo di ragionamento in forma strutturata di “catena di pensiero”. In termini di prestazioni, supera non solo modelli più costosi come Qwen3-32B-Thinking, ma anche Gemini-2.5-Flash-Thinking in diversi benchmark."
},
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
"description": "Qwen3-VL-235B-A22B-Instruct è un modello di grandi dimensioni della serie Qwen3-VL, ottimizzato tramite fine-tuning su istruzioni. Basato su un'architettura a esperti misti (MoE), offre eccellenti capacità di comprensione e generazione multimodale, supportando nativamente un contesto di 256K token. È adatto a servizi multimodali di livello produttivo con alta concorrenza."
},
"Qwen/Qwen3-VL-235B-A22B-Thinking": {
"description": "Qwen3-VL-235B-A22B-Thinking è la versione di punta della serie Qwen3-VL focalizzata sul ragionamento. Ottimizzata per il ragionamento multimodale complesso, il ragionamento su contesti lunghi e l'interazione con agenti intelligenti, è ideale per scenari aziendali che richiedono capacità avanzate di pensiero e inferenza visiva."
},
"Qwen/Qwen3-VL-30B-A3B-Instruct": {
"description": "Qwen3-VL-30B-A3B-Instruct è una versione della serie Qwen3-VL ottimizzata su istruzioni, con potenti capacità di comprensione e generazione linguistico-visiva. Supporta nativamente una lunghezza di contesto di 256K token, ed è adatta a dialoghi multimodali e compiti di generazione condizionata da immagini."
},
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
"description": "Qwen3-VL-30B-A3B-Thinking è la versione potenziata per il ragionamento della serie Qwen3-VL. Ottimizzata per compiti di inferenza multimodale, conversione da immagine a codice e comprensione visiva complessa, supporta un contesto di 256K token e offre capacità avanzate di ragionamento a catena."
},
"Qwen/Qwen3-VL-8B-Instruct": {
"description": "Qwen3-VL-8B-Instruct è un modello linguistico-visivo della serie Qwen3, sviluppato a partire da Qwen3-8B-Instruct e addestrato su un ampio corpus di dati immagine-testo. È specializzato nella comprensione visiva generale, nel dialogo centrato sulla visione e nel riconoscimento multilingue del testo all'interno delle immagini. È adatto a scenari come domande e risposte visive, descrizione di immagini, esecuzione di istruzioni multimodali e utilizzo di strumenti."
},
@@ -978,13 +990,13 @@
"description": "DeepSeek-V3 è un modello linguistico a esperti misti (MoE) con 6710 miliardi di parametri, che utilizza attenzione latente multi-testa (MLA) e architettura DeepSeekMoE, combinando strategie di bilanciamento del carico senza perdite ausiliarie per ottimizzare l'efficienza di inferenza e addestramento. Pre-addestrato su 14,8 trilioni di token di alta qualità e successivamente affinato supervisionato e tramite apprendimento rinforzato, DeepSeek-V3 supera le prestazioni di altri modelli open source, avvicinandosi ai modelli closed source leader."
},
"deepseek-ai/DeepSeek-V3.1": {
"description": "DeepSeek-V3.1 è un modello linguistico di grandi dimensioni a modalità mista rilasciato da DeepSeek AI, che presenta numerosi aggiornamenti significativi rispetto alla generazione precedente. Una delle innovazioni principali è l'integrazione delle modalità “Thinking Mode” e “Non-thinking Mode” in un unico modello, permettendo agli utenti di passare agevolmente da una modalità all'altra modificando il template di chat, per adattarsi a diverse esigenze di compito. Grazie a un'ottimizzazione post-addestramento dedicata, la versione V3.1 ha migliorato significativamente le prestazioni nell'uso degli strumenti e nelle attività degli agenti, supportando meglio strumenti di ricerca esterni e l'esecuzione di compiti complessi a più fasi. Basato su DeepSeek-V3.1-Base, il modello è stato ulteriormente addestrato con un metodo di estensione in due fasi per testi lunghi, aumentando notevolmente la quantità di dati di addestramento e migliorando la gestione di documenti lunghi e codice esteso. Essendo un modello open source, DeepSeek-V3.1 dimostra capacità comparabili ai migliori modelli proprietari in benchmark di codifica, matematica e ragionamento, e grazie alla sua architettura a esperti misti (MoE), mantiene una grande capacità del modello riducendo efficacemente i costi di inferenza."
"description": "Il modello DeepSeek V3.1 adotta un'architettura di ragionamento ibrida, supportando sia la modalità di pensiero che quella non riflessiva."
},
"deepseek-ai/DeepSeek-V3.1-Terminus": {
"description": "DeepSeek-V3.1-Terminus è una versione aggiornata del modello V3.1 rilasciata da DeepSeek, concepita come un modello linguistico di grandi dimensioni con agenti ibridi. Questo aggiornamento mantiene le capacità originali del modello, concentrandosi sulla risoluzione dei problemi segnalati dagli utenti e sul miglioramento della stabilità. Migliora significativamente la coerenza linguistica, riducendo l'uso misto di cinese e inglese e la presenza di caratteri anomali. Il modello integra la “Modalità di pensiero” (Thinking Mode) e la “Modalità non di pensiero” (Non-thinking Mode), permettendo agli utenti di passare agevolmente tra le modalità tramite template di chat per adattarsi a diversi compiti. Come ottimizzazione importante, V3.1-Terminus potenzia le prestazioni degli agenti di codice (Code Agent) e di ricerca (Search Agent), rendendoli più affidabili nell'invocazione di strumenti e nell'esecuzione di compiti complessi multi-step."
},
"deepseek-ai/DeepSeek-V3.2-Exp": {
"description": "Il modello DeepSeek V3.2 Exp adotta un'architettura di ragionamento ibrida, supportando sia la modalità riflessiva che quella non riflessiva."
"description": "DeepSeek-V3.2-Exp è la versione sperimentale V3.2 rilasciata da DeepSeek, concepita come una tappa intermedia verso la prossima generazione di architettura. Basata su V3.1-Terminus, introduce il meccanismo DeepSeek Sparse Attention (DSA) per migliorare l'efficienza nell'addestramento e nel ragionamento su contesti lunghi. È stata ottimizzata specificamente per l'invocazione di strumenti, la comprensione di documenti estesi e il ragionamento multi-step. V3.2-Exp funge da ponte tra ricerca e applicazione commerciale, ideale per utenti che desiderano esplorare una maggiore efficienza di ragionamento in scenari con ampio budget di contesto."
},
"deepseek-ai/deepseek-llm-67b-chat": {
"description": "DeepSeek 67B è un modello avanzato addestrato per dialoghi ad alta complessità."
@@ -2474,9 +2486,6 @@
"mistralai/Mixtral-8x7B-v0.1": {
"description": "Mixtral 8x7B è un modello di esperti sparsi che utilizza più parametri per migliorare la velocità di ragionamento, adatto a compiti di generazione multilingue e di codice."
},
"mistralai/mistral-7b-instruct": {
"description": "Mistral 7B Instruct è un modello standard di settore ad alte prestazioni, ottimizzato per velocità e supporto di contesti lunghi."
},
"mistralai/mistral-nemo": {
"description": "Mistral Nemo è un modello con 7.3B parametri, supporta più lingue e offre prestazioni elevate nella programmazione."
},
+17 -8
View File
@@ -290,12 +290,12 @@
"Pro/deepseek-ai/DeepSeek-V3": {
"description": "DeepSeek-V3は、6710億パラメータを持つ混合専門家(MoE)言語モデルで、多頭潜在注意力(MLA)とDeepSeekMoEアーキテクチャを採用し、無補助損失の負荷バランス戦略を組み合わせて推論とトレーニングの効率を最適化しています。14.8兆の高品質トークンで事前トレーニングを行い、監視付き微調整と強化学習を経て、DeepSeek-V3は他のオープンソースモデルを超え、先進的なクローズドモデルに近づいています。"
},
"Pro/deepseek-ai/DeepSeek-V3.1": {
"description": "DeepSeek-V3.1 は DeepSeek AI によってリリースされたハイブリッドモードの大規模言語モデルで、前世代モデルを基に多方面で重要なアップグレードが施されています。このモデルの大きな革新は「思考モード」と「非思考モード」を統合しており、ユーザーはチャットテンプレートを調整することで柔軟に切り替え、異なるタスクのニーズに対応できます。専用のポストトレーニング最適化により、V3.1 はツール呼び出しやエージェントタスクの性能が著しく向上し、外部検索ツールのサポートや多段階の複雑なタスクの実行がより効果的になりました。このモデルは DeepSeek-V3.1-Base をベースにポストトレーニングされ、2段階の長文拡張手法によりトレーニングデータ量を大幅に増加させ、長文ドキュメントや長大なコードの処理能力が向上しています。オープンソースモデルとして、DeepSeek-V3.1 はコーディング、数学、推論など複数のベンチマークでトップクラスのクローズドモデルに匹敵する能力を示し、混合エキスパート(MoE)アーキテクチャにより巨大なモデル容量を維持しつつ推論コストを効果的に削減しています。"
},
"Pro/deepseek-ai/DeepSeek-V3.1-Terminus": {
"description": "DeepSeek-V3.1-Terminus は深度求索(DeepSeek)による V3.1 モデルのアップデート版で、ハイブリッドエージェント大規模言語モデルとして位置付けられています。今回のアップデートはモデルの既存能力を維持しつつ、ユーザーからのフィードバックに基づく問題修正と安定性の向上に注力しています。言語の一貫性が大幅に改善され、中英混用や異常文字の出現が減少しました。モデルは「思考モード」(Thinking Mode)と「非思考モード」(Non-thinking Mode)を統合しており、ユーザーはチャットテンプレートを通じて柔軟に切り替え、異なるタスクに対応可能です。重要な最適化として、V3.1-Terminus はコードエージェント(Code Agent)と検索エージェント(Search Agent)の性能を強化し、ツール呼び出しや多段階の複雑なタスク実行においてより信頼性が高まりました。"
},
"Pro/deepseek-ai/DeepSeek-V3.2-Exp": {
"description": "DeepSeek-V3.2-Exp は、DeepSeek によってリリースされた実験的な V3.2 バージョンであり、次世代アーキテクチャへの移行に向けた中間的な探求です。V3.1-Terminus を基盤に、長文脈の学習と推論効率を向上させるために DeepSeek スパースアテンション(DeepSeek Sparse Attention、DSA)メカニズムを導入し、ツールの呼び出し、長文書の理解、多段階推論に特化した最適化が施されています。V3.2-Exp は研究と製品化の橋渡しとなるモデルであり、高文脈予算のシナリオでより高い推論効率を追求するユーザーに適しています。"
},
"Pro/moonshotai/Kimi-K2-Instruct-0905": {
"description": "Kimi K2-Instruct-0905 は Kimi K2 の最新かつ最強のバージョンです。これはトップクラスの混合専門家(MoE)言語モデルであり、総パラメータ数は1兆、活性化パラメータ数は320億を誇ります。このモデルの主な特徴は、強化されたエージェントのコーディング知能であり、公開ベンチマークテストおよび実世界のエージェントコーディングタスクで顕著な性能向上を示しています。また、フロントエンドのコーディング体験も改善され、フロントエンドプログラミングの美観と実用性の両面で進歩しています。"
},
@@ -398,6 +398,18 @@
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
"description": "Qwen3-Next-80B-A3B-Thinkingは、アリババのTongyi Qianwenチームによってリリースされた、複雑な推論タスク向けに設計された次世代基盤モデルです。革新的なQwen3-Nextアーキテクチャに基づき、ハイブリッド注意機構(Gated DeltaNetとGated Attention)と高スパース性混合エキスパート(MoE)構造を融合し、極限のトレーニングおよび推論効率を実現しています。総パラメータ数800億のスパースモデルとして、推論時には約30億パラメータのみを活性化し、計算コストを大幅に削減しています。32Kトークンを超える長文コンテキストタスクの処理においては、Qwen3-32Bモデルと比較してスループットが10倍以上向上しています。この「Thinking」バージョンは、数学的証明、コード合成、論理分析、計画などの高難度多段階タスクの実行に最適化されており、推論過程を構造化された「思考チェーン」形式で出力することをデフォルトとしています。性能面では、Qwen3-32B-Thinkingなどのコストの高いモデルを凌駕し、複数のベンチマークでGemini-2.5-Flash-Thinkingを上回る結果を示しています。"
},
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
"description": "Qwen3-VL-235B-A22B-Instruct は、Qwen3-VL シリーズの大規模な命令調整モデルで、混合エキスパート(MoE)アーキテクチャに基づき、卓越したマルチモーダル理解と生成能力を備えています。ネイティブで 256K の文脈長をサポートし、高負荷なマルチモーダルサービスの本番環境に適しています。"
},
"Qwen/Qwen3-VL-235B-A22B-Thinking": {
"description": "Qwen3-VL-235B-A22B-Thinking は、Qwen3-VL シリーズのフラッグシップ思考モデルであり、複雑なマルチモーダル推論、長文脈推論、エージェントとの対話に特化した最適化が施されています。深い思考と視覚的推論が求められるエンタープライズ向けシナリオに最適です。"
},
"Qwen/Qwen3-VL-30B-A3B-Instruct": {
"description": "Qwen3-VL-30B-A3B-Instruct は、Qwen3-VL シリーズの命令調整バージョンであり、強力な視覚と言語の理解および生成能力を備えています。ネイティブで 256K の文脈長をサポートし、マルチモーダル対話や画像条件付き生成タスクに適しています。"
},
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
"description": "Qwen3-VL-30B-A3B-Thinking は、Qwen3-VL の推論強化バージョン(Thinking)であり、マルチモーダル推論、画像からコードへの変換、複雑な視覚理解タスクにおいて最適化されています。256K の文脈長をサポートし、より強力な連鎖的思考能力を備えています。"
},
"Qwen/Qwen3-VL-8B-Instruct": {
"description": "Qwen3-VL-8B-Instruct は、Qwen3 シリーズの視覚言語モデルであり、Qwen3-8B-Instruct を基に開発され、大量の画像と言語データでトレーニングされています。一般的な視覚理解、視覚中心の対話、画像内の多言語テキスト認識に優れており、視覚質問応答、画像説明、多モーダル指示の実行やツール呼び出しといったシナリオに適しています。"
},
@@ -978,13 +990,13 @@
"description": "DeepSeek-V3は、6710億パラメータを持つ混合専門家(MoE)言語モデルであり、多頭潜在注意(MLA)とDeepSeekMoEアーキテクチャを採用し、補助損失なしの負荷バランス戦略を組み合わせて、推論とトレーニングの効率を最適化します。14.8兆の高品質トークンで事前トレーニングを行い、監視微調整と強化学習を経て、DeepSeek-V3は他のオープンソースモデルを超え、先進的なクローズドソースモデルに近づきました。"
},
"deepseek-ai/DeepSeek-V3.1": {
"description": "DeepSeek-V3.1 は DeepSeek AI によってリリースされたハイブリッドモードの大規模言語モデルで、前世代モデルを基に多方面で重要なアップグレードが施されています。このモデルの大きな革新は「思考モード」と「非思考モード」を統合しており、ユーザーはチャットテンプレートを調整することで柔軟に切り替え、異なるタスクのニーズに対応できます。専用のポストトレーニング最適化により、V3.1 はツール呼び出しやエージェントタスクの性能が著しく向上し、外部検索ツールのサポートや多段階の複雑なタスクの実行がより効果的になりました。このモデルは DeepSeek-V3.1-Base をベースにポストトレーニングされ、2段階の長文拡張手法によりトレーニングデータ量を大幅に増加させ、長文ドキュメントや長大なコードの処理能力が向上しています。オープンソースモデルとして、DeepSeek-V3.1 はコーディング、数学、推論など複数のベンチマークでトップクラスのクローズドモデルに匹敵する能力を示し、混合エキスパート(MoE)アーキテクチャにより巨大なモデル容量を維持しつつ推論コストを効果的に削減しています。"
"description": "DeepSeek V3.1 モデルは、思考モード非思考モードの両方をサポートするハイブリッド推論アーキテクチャモデルです。"
},
"deepseek-ai/DeepSeek-V3.1-Terminus": {
"description": "DeepSeek-V3.1-Terminus は深度求索(DeepSeek)による V3.1 モデルのアップデート版で、ハイブリッドエージェント大規模言語モデルとして位置付けられています。今回のアップデートはモデルの既存能力を維持しつつ、ユーザーからのフィードバックに基づく問題修正と安定性の向上に注力しています。言語の一貫性が大幅に改善され、中英混用や異常文字の出現が減少しました。モデルは「思考モード」(Thinking Mode)と「非思考モード」(Non-thinking Mode)を統合しており、ユーザーはチャットテンプレートを通じて柔軟に切り替え、異なるタスクに対応可能です。重要な最適化として、V3.1-Terminus はコードエージェント(Code Agent)と検索エージェント(Search Agent)の性能を強化し、ツール呼び出しや多段階の複雑なタスク実行においてより信頼性が高まりました。"
},
"deepseek-ai/DeepSeek-V3.2-Exp": {
"description": "DeepSeek V3.2 Exp モデルは、思考モードと非思考モードの両方をサポートするハイブリッド推論アーキテクチャモデルです。"
"description": "DeepSeek-V3.2-Exp は、DeepSeek によってリリースされた実験的な V3.2 バージョンであり、次世代アーキテクチャへの移行に向けた中間的な探求です。V3.1-Terminus を基盤に、長文脈の学習と推論効率を向上させるために DeepSeek スパースアテンション(DeepSeek Sparse Attention、DSA)メカニズムを導入し、ツールの呼び出し、長文書の理解、多段階推論に特化した最適化が施されています。V3.2-Exp は研究と製品化の橋渡しとなるモデルであり、高文脈予算のシナリオでより高い推論効率を追求するユーザーに適しています。"
},
"deepseek-ai/deepseek-llm-67b-chat": {
"description": "DeepSeek 67Bは、高い複雑性の対話のために訓練された先進的なモデルです。"
@@ -2474,9 +2486,6 @@
"mistralai/Mixtral-8x7B-v0.1": {
"description": "Mixtral 8x7Bはスパースエキスパートモデルで、複数のパラメータを利用して推論速度を向上させ、多言語処理やコード生成タスクに適しています。"
},
"mistralai/mistral-7b-instruct": {
"description": "Mistral 7B Instructは速度最適化と長いコンテキストサポートを兼ね備えた高性能な業界標準モデルです。"
},
"mistralai/mistral-nemo": {
"description": "Mistral Nemoは多言語サポートと高性能プログラミングを備えた7.3Bパラメータモデルです。"
},
+17 -8
View File
@@ -290,12 +290,12 @@
"Pro/deepseek-ai/DeepSeek-V3": {
"description": "DeepSeek-V3는 6710억 개의 매개변수를 가진 혼합 전문가(MoE) 언어 모델로, 다중 헤드 잠재 주의(MLA) 및 DeepSeekMoE 아키텍처를 사용하여 보조 손실 없는 부하 균형 전략을 결합하여 추론 및 훈련 효율성을 최적화합니다. 14.8조 개의 고품질 토큰에서 사전 훈련을 수행하고 감독 미세 조정 및 강화 학습을 통해 DeepSeek-V3는 성능 면에서 다른 오픈 소스 모델을 초월하며, 선도적인 폐쇄형 모델에 근접합니다."
},
"Pro/deepseek-ai/DeepSeek-V3.1": {
"description": "DeepSeek-V3.1은 DeepSeek AI에서 발표한 하이브리드 모드 대형 언어 모델로, 이전 모델을 기반으로 다방면에서 중요한 업그레이드를 이루었습니다. 이 모델의 주요 혁신은 '사고 모드'(Thinking Mode)와 '비사고 모드'(Non-thinking Mode)를 통합하여 사용자가 채팅 템플릿을 조정해 다양한 작업 요구에 유연하게 대응할 수 있다는 점입니다. 전용 사후 학습 최적화를 통해 V3.1은 도구 호출과 에이전트 작업 성능이 크게 향상되어 외부 검색 도구 지원과 다단계 복잡 작업 수행에 뛰어납니다. 이 모델은 DeepSeek-V3.1-Base를 기반으로 사후 학습되었으며, 2단계 장문 확장 방식을 통해 학습 데이터 양을 대폭 늘려 긴 문서와 장문의 코드 처리에 우수한 성능을 보입니다. 오픈소스 모델로서 DeepSeek-V3.1은 코딩, 수학, 추론 등 여러 벤치마크에서 최상위 폐쇄형 모델과 견줄 만한 능력을 보여주며, 혼합 전문가(MoE) 아키텍처 덕분에 대규모 모델 용량을 유지하면서도 추론 비용을 효과적으로 낮췄습니다."
},
"Pro/deepseek-ai/DeepSeek-V3.1-Terminus": {
"description": "DeepSeek-V3.1-Terminus는 DeepSeek에서 발표한 V3.1 모델의 업데이트 버전으로, 하이브리드 에이전트 대형 언어 모델로 자리매김하고 있습니다. 이번 업데이트는 모델의 기존 능력을 유지하면서 사용자 피드백 문제를 수정하고 안정성을 향상시키는 데 중점을 두었습니다. 언어 일관성이 크게 개선되어 중영 혼용 및 이상 문자 발생이 줄어들었습니다. 모델은 '사고 모드'(Thinking Mode)와 '비사고 모드'(Non-thinking Mode)를 통합하여 사용자가 채팅 템플릿을 통해 다양한 작업에 유연하게 전환할 수 있습니다. 중요한 최적화로서 V3.1-Terminus는 코드 에이전트(Code Agent)와 검색 에이전트(Search Agent)의 성능을 강화하여 도구 호출 및 다단계 복잡 작업 수행에서 더욱 신뢰할 수 있게 되었습니다."
},
"Pro/deepseek-ai/DeepSeek-V3.2-Exp": {
"description": "DeepSeek-V3.2-Exp는 DeepSeek에서 출시한 실험적인 V3.2 버전으로, 차세대 아키텍처로 나아가기 위한 중간 단계의 탐색입니다. V3.1-Terminus를 기반으로 DeepSeek 희소 어텐션(DeepSeek Sparse Attention, DSA) 메커니즘을 도입하여 긴 문맥에서의 학습 및 추론 효율을 향상시켰으며, 도구 호출, 장문 이해 및 다단계 추론에 대한 최적화를 진행하였습니다. V3.2-Exp는 연구와 제품화 사이의 가교 역할을 하며, 높은 문맥 예산이 필요한 환경에서 더 나은 추론 효율을 탐색하고자 하는 사용자에게 적합합니다."
},
"Pro/moonshotai/Kimi-K2-Instruct-0905": {
"description": "Kimi K2-Instruct-0905는 Kimi K2의 최신이자 가장 강력한 버전입니다. 이 모델은 총 1조 개의 파라미터와 320억 개의 활성화 파라미터를 가진 최첨단 혼합 전문가(MoE) 언어 모델입니다. 주요 특징으로는 향상된 에이전트 코딩 지능으로, 공개 벤치마크 테스트와 실제 코딩 에이전트 작업에서 뛰어난 성능 향상을 보였으며, 프론트엔드 코딩 경험이 개선되어 프론트엔드 프로그래밍의 미적 측면과 실용성 모두에서 진전을 이루었습니다."
},
@@ -398,6 +398,18 @@
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
"description": "Qwen3-Next-80B-A3B-Thinking은 알리바바 통의천문 팀이 발표한 복잡한 추론 작업에 특화된 차세대 기본 모델입니다. 혁신적인 Qwen3-Next 아키텍처를 기반으로 하며, 혼합 주의 메커니즘(Gated DeltaNet 및 Gated Attention)과 고희소성 혼합 전문가(MoE) 구조를 융합하여 극대화된 학습 및 추론 효율성을 실현합니다. 총 800억 개의 파라미터를 가진 희소 모델로, 추론 시 약 30억 개의 파라미터만 활성화하여 계산 비용을 크게 줄였으며, 32K 토큰 이상의 긴 문맥 작업 처리 시 Qwen3-32B 모델보다 처리량이 10배 이상 높습니다. 이 'Thinking' 버전은 수학 증명, 코드 합성, 논리 분석 및 계획 등 고난도 다단계 작업 수행에 최적화되어 있으며, 기본적으로 구조화된 '사고 체인' 형태로 추론 과정을 출력합니다. 성능 면에서는 Qwen3-32B-Thinking 등 비용이 더 높은 모델을 능가하며, 여러 벤치마크 테스트에서 Gemini-2.5-Flash-Thinking보다 우수한 성능을 보입니다."
},
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
"description": "Qwen3-VL-235B-A22B-Instruct는 Qwen3-VL 시리즈의 대형 지시 기반 미세 조정 모델로, 혼합 전문가(MoE) 아키텍처를 기반으로 뛰어난 멀티모달 이해 및 생성 능력을 갖추고 있으며, 기본적으로 256K 문맥을 지원합니다. 고동시성의 생산급 멀티모달 서비스에 적합합니다."
},
"Qwen/Qwen3-VL-235B-A22B-Thinking": {
"description": "Qwen3-VL-235B-A22B-Thinking은 Qwen3-VL 시리즈의 플래그십 사고 버전으로, 복잡한 멀티모달 추론, 장문 문맥 추론 및 에이전트 상호작용에 최적화되어 있으며, 심층적 사고와 시각적 추론이 요구되는 엔터프라이즈 환경에 적합합니다."
},
"Qwen/Qwen3-VL-30B-A3B-Instruct": {
"description": "Qwen3-VL-30B-A3B-Instruct는 Qwen3-VL 시리즈의 지시 기반 미세 조정 버전으로, 강력한 시각-언어 이해 및 생성 능력을 갖추고 있으며, 기본적으로 256K 문맥 길이를 지원합니다. 멀티모달 대화 및 이미지 조건 생성 작업에 적합합니다."
},
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
"description": "Qwen3-VL-30B-A3B-Thinking은 Qwen3-VL의 추론 강화 버전(Thinking)으로, 멀티모달 추론, 이미지 기반 코드 생성 및 복잡한 시각 이해 작업에 최적화되어 있으며, 256K 문맥을 지원하고 더 강력한 연쇄적 사고 능력을 보유하고 있습니다."
},
"Qwen/Qwen3-VL-8B-Instruct": {
"description": "Qwen3-VL-8B-Instruct는 Qwen3 시리즈의 비전-언어 모델로, Qwen3-8B-Instruct를 기반으로 다량의 이미지-텍스트 데이터로 학습되었습니다. 일반적인 시각 이해, 시각 중심의 대화, 이미지 내 다국어 텍스트 인식에 능하며, 시각 질의응답, 이미지 설명, 멀티모달 명령 수행 및 도구 호출 등의 활용 시나리오에 적합합니다."
},
@@ -978,13 +990,13 @@
"description": "DeepSeek-V3는 6710억 개의 매개변수를 가진 혼합 전문가(MoE) 언어 모델로, 다중 헤드 잠재 주의(MLA) 및 DeepSeekMoE 아키텍처를 채택하여 보조 손실 없는 부하 균형 전략을 결합하여 추론 및 훈련 효율성을 최적화합니다. 14.8조 개의 고품질 토큰에서 사전 훈련을 수행하고 감독 미세 조정 및 강화 학습을 통해 DeepSeek-V3는 성능 면에서 다른 오픈 소스 모델을 초월하며, 선도적인 폐쇄형 모델에 근접합니다."
},
"deepseek-ai/DeepSeek-V3.1": {
"description": "DeepSeek-V3.1은 DeepSeek AI에서 발표한 하이브리드 모드 대형 언어 모델로, 이전 모델을 기반으로 다방면에서 중요한 업그레이드를 이루었습니다. 이 모델의 주요 혁신은 '사고 모드'(Thinking Mode)'비사고 모드'(Non-thinking Mode)를 통합하여 사용자가 채팅 템플릿을 조정해 다양한 작업 요구에 유연하게 대응할 수 있다는 점입니다. 전용 사후 학습 최적화를 통해 V3.1은 도구 호출과 에이전트 작업 성능이 크게 향상되어 외부 검색 도구 지원과 다단계 복잡 작업 수행에 뛰어납니다. 이 모델은 DeepSeek-V3.1-Base를 기반으로 사후 학습되었으며, 2단계 장문 확장 방식을 통해 학습 데이터 양을 대폭 늘려 긴 문서와 장문의 코드 처리에 우수한 성능을 보입니다. 오픈소스 모델로서 DeepSeek-V3.1은 코딩, 수학, 추론 등 여러 벤치마크에서 최상위 폐쇄형 모델과 견줄 만한 능력을 보여주며, 혼합 전문가(MoE) 아키텍처 덕분에 대규모 모델 용량을 유지하면서도 추론 비용을 효과적으로 낮췄습니다."
"description": "DeepSeek V3.1 모델은 혼합 추론 아키텍처를 기반으로 하며, 사고 모드와 비사고 모드를 모두 지원합니다."
},
"deepseek-ai/DeepSeek-V3.1-Terminus": {
"description": "DeepSeek-V3.1-Terminus는 DeepSeek에서 발표한 V3.1 모델의 업데이트 버전으로, 하이브리드 에이전트 대형 언어 모델로 자리매김하고 있습니다. 이번 업데이트는 모델의 기존 능력을 유지하면서 사용자 피드백 문제를 수정하고 안정성을 향상시키는 데 중점을 두었습니다. 언어 일관성이 크게 개선되어 중영 혼용 및 이상 문자 발생이 줄어들었습니다. 모델은 '사고 모드'(Thinking Mode)와 '비사고 모드'(Non-thinking Mode)를 통합하여 사용자가 채팅 템플릿을 통해 다양한 작업에 유연하게 전환할 수 있습니다. 중요한 최적화로서 V3.1-Terminus는 코드 에이전트(Code Agent)와 검색 에이전트(Search Agent)의 성능을 강화하여 도구 호출 및 다단계 복잡 작업 수행에서 더욱 신뢰할 수 있게 되었습니다."
},
"deepseek-ai/DeepSeek-V3.2-Exp": {
"description": "DeepSeek V3.2 Exp 모델은 하이브리드 추론 아키텍처를 기반으로 하며, 사고 모드와 비사고 모드를 모두 지원합니다."
"description": "DeepSeek-V3.2-Exp는 DeepSeek에서 출시한 실험적인 V3.2 버전으로, 차세대 아키텍처로 나아가기 위한 중간 단계의 탐색입니다. V3.1-Terminus를 기반으로 DeepSeek 희소 어텐션(DeepSeek Sparse Attention, DSA) 메커니즘을 도입하여 긴 문맥에서의 학습 및 추론 효율을 향상시켰으며, 도구 호출, 장문 이해 및 다단계 추론에 대한 최적화를 진행하였습니다. V3.2-Exp는 연구와 제품화 사이의 가교 역할을 하며, 높은 문맥 예산이 필요한 환경에서 더 나은 추론 효율을 탐색하고자 하는 사용자에게 적합합니다."
},
"deepseek-ai/deepseek-llm-67b-chat": {
"description": "DeepSeek 67B는 고복잡성 대화를 위해 훈련된 고급 모델입니다."
@@ -2474,9 +2486,6 @@
"mistralai/Mixtral-8x7B-v0.1": {
"description": "Mixtral 8x7B는 여러 파라미터를 활용하여 추론 속도를 높이는 희소 전문가 모델입니다. 다국어 및 코드 생성 작업 처리에 적합합니다."
},
"mistralai/mistral-7b-instruct": {
"description": "Mistral 7B Instruct는 속도 최적화와 긴 컨텍스트 지원을 갖춘 고성능 산업 표준 모델입니다."
},
"mistralai/mistral-nemo": {
"description": "Mistral Nemo는 다국어 지원과 고성능 프로그래밍을 위한 7.3B 파라미터 모델입니다."
},
+17 -8
View File
@@ -290,12 +290,12 @@
"Pro/deepseek-ai/DeepSeek-V3": {
"description": "DeepSeek-V3 is een hybride expert (MoE) taalmodel met 6710 miljard parameters, dat gebruikmaakt van multi-head latent attention (MLA) en de DeepSeekMoE-architectuur, gecombineerd met een load balancing-strategie zonder extra verlies, om de inferentie- en trainingsefficiëntie te optimaliseren. Door voorgetraind te worden op 14,8 biljoen hoogwaardige tokens en vervolgens te worden fijngesteld met supervisie en versterkend leren, overtreft DeepSeek-V3 andere open-source modellen in prestaties en komt het dicht in de buurt van toonaangevende gesloten modellen."
},
"Pro/deepseek-ai/DeepSeek-V3.1": {
"description": "DeepSeek-V3.1 is een hybride groot taalmodel uitgebracht door DeepSeek AI, met belangrijke upgrades ten opzichte van eerdere modellen. Een belangrijke innovatie is de integratie van een 'denkenmodus' en een 'niet-denkenmodus', die gebruikers flexibel kunnen wisselen via aanpasbare chattemplates om aan verschillende taakvereisten te voldoen. Dankzij speciale post-training optimalisaties is de prestatie bij toolaanroepen en agenttaken aanzienlijk verbeterd, waardoor het beter externe zoektools ondersteunt en complexe meerstaps taken kan uitvoeren. Het model is gebaseerd op DeepSeek-V3.1-Base en uitgebreid met een tweefasige lange-tekst uitbreidingsmethode, wat de hoeveelheid trainingsdata sterk vergroot en betere prestaties levert bij het verwerken van lange documenten en uitgebreide code. Als open source model toont DeepSeek-V3.1 vergelijkbare capaciteiten als toonaangevende gesloten modellen in benchmarks voor codering, wiskunde en redeneren. Dankzij de hybride expertarchitectuur (MoE) behoudt het een enorme modelcapaciteit terwijl de redeneerkosten effectief worden verlaagd."
},
"Pro/deepseek-ai/DeepSeek-V3.1-Terminus": {
"description": "DeepSeek-V3.1-Terminus is een bijgewerkte versie van het V3.1-model uitgebracht door DeepSeek, gepositioneerd als een hybride agent groot taalmodel. Deze update richt zich op het oplossen van gebruikersfeedback en het verbeteren van de stabiliteit, terwijl de oorspronkelijke capaciteiten behouden blijven. Het verbetert aanzienlijk de taalconsistentie en vermindert het gebruik van gemengde talen en ongebruikelijke tekens. Het model integreert een 'denkmodus' en een 'niet-denkmodus', waarbij gebruikers flexibel kunnen schakelen via chattemplates om aan verschillende taken te voldoen. Als belangrijke optimalisatie versterkt V3.1-Terminus de prestaties van de code-agent en zoekagent, waardoor het betrouwbaarder wordt bij het aanroepen van tools en het uitvoeren van complexe meerstaps taken."
},
"Pro/deepseek-ai/DeepSeek-V3.2-Exp": {
"description": "DeepSeek-V3.2-Exp is de experimentele V3.2-versie uitgebracht door DeepSeek, bedoeld als een tussenstap richting een volgende generatie architectuur. Op basis van V3.1-Terminus introduceert het het DeepSeek Sparse Attention (DSA)-mechanisme om de efficiëntie van training en redeneren met lange contexten te verbeteren. Het is speciaal geoptimaliseerd voor toolgebruik, begrip van lange documenten en meerstapsredenering. V3.2-Exp vormt een brug tussen onderzoek en productontwikkeling, en is geschikt voor gebruikers die in scenarios met een hoog contextbudget op zoek zijn naar efficiëntere redenering."
},
"Pro/moonshotai/Kimi-K2-Instruct-0905": {
"description": "Kimi K2-Instruct-0905 is de nieuwste en krachtigste versie van Kimi K2. Het is een toonaangevend hybride expert (MoE) taalmodel met in totaal 1 biljoen parameters en 32 miljard geactiveerde parameters. De belangrijkste kenmerken van dit model zijn: verbeterde agent-coderingsintelligentie, met aanzienlijke prestatieverbeteringen in openbare benchmarktests en echte agent-coderingsopdrachten; verbeterde front-end coderingservaring, met vooruitgang in zowel esthetiek als bruikbaarheid van front-end programmeren."
},
@@ -398,6 +398,18 @@
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
"description": "Qwen3-Next-80B-A3B-Thinking is een volgende generatie basis model uitgebracht door het Tongyi Qianwen-team van Alibaba, speciaal ontworpen voor complexe redeneertaken. Het is gebaseerd op de innovatieve Qwen3-Next architectuur, die een hybride aandachtmechanisme (Gated DeltaNet en Gated Attention) en een hoog-sparsity Mixture of Experts (MoE) structuur combineert, met als doel ultieme trainings- en inferentie-efficiëntie te bereiken. Als een sparsity model met in totaal 80 miljard parameters, activeert het tijdens inferentie slechts ongeveer 3 miljard parameters, wat de rekenkosten aanzienlijk verlaagt. Bij het verwerken van lange contexttaken van meer dan 32K tokens is de doorvoer meer dan 10 keer hoger dan die van het Qwen3-32B model. Deze \"Thinking\" versie is geoptimaliseerd voor het uitvoeren van wiskundige bewijzen, code synthese, logische analyse en planning, en geeft standaard de redeneerprocessen gestructureerd weer in de vorm van een \"denk-keten\". Qua prestaties overtreft het niet alleen modellen met hogere kosten zoals Qwen3-32B-Thinking, maar presteert het ook beter dan Gemini-2.5-Flash-Thinking in meerdere benchmarktests."
},
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
"description": "Qwen3-VL-235B-A22B-Instruct is een grootschalig instructie-afgesteld model uit de Qwen3-VL-serie. Het is gebaseerd op een Mixture of Experts (MoE)-architectuur en beschikt over uitstekende multimodale begrip- en generatiecapaciteiten. Het ondersteunt van nature een context van 256K tokens en is geschikt voor productieklare multimodale diensten met hoge gelijktijdigheid."
},
"Qwen/Qwen3-VL-235B-A22B-Thinking": {
"description": "Qwen3-VL-235B-A22B-Thinking is het vlaggenschip 'Thinking'-model binnen de Qwen3-VL-serie. Het is speciaal geoptimaliseerd voor complexe multimodale redenering, lange contextverwerking en interactie met agents. Ideaal voor bedrijfstoepassingen die diepgaande analyse en visuele redenering vereisen."
},
"Qwen/Qwen3-VL-30B-A3B-Instruct": {
"description": "Qwen3-VL-30B-A3B-Instruct is een instructie-afgesteld model uit de Qwen3-VL-serie met krachtige visueel-linguïstische begrip- en generatiecapaciteiten. Het ondersteunt van nature een contextlengte van 256K tokens en is geschikt voor multimodale dialogen en beeldgebaseerde generatieopdrachten."
},
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
"description": "Qwen3-VL-30B-A3B-Thinking is de redeneringsgerichte versie (Thinking) van Qwen3-VL. Het is geoptimaliseerd voor multimodale redenering, beeld-naar-code taken en complexe visuele interpretatie. Het ondersteunt 256K context en beschikt over geavanceerde ketenredeneringsvaardigheden."
},
"Qwen/Qwen3-VL-8B-Instruct": {
"description": "Qwen3-VL-8B-Instruct is een visueel-taalkundig model uit de Qwen3-serie, ontwikkeld op basis van Qwen3-8B-Instruct en getraind op grote hoeveelheden beeld- en tekstdata. Het is bedreven in algemene visuele interpretatie, visueel-centrische dialogen en meertalige tekstherkenning in afbeeldingen. Het is geschikt voor toepassingen zoals visuele vraag-en-antwoord, beeldbeschrijving, multimodale instructievolging en toolaansturing."
},
@@ -978,13 +990,13 @@
"description": "DeepSeek-V3 is een hybride expert (MoE) taalmodel met 6710 miljard parameters, dat gebruikmaakt van multi-head latent attention (MLA) en de DeepSeekMoE-architectuur, gecombineerd met een load balancing-strategie zonder extra verlies, om de inferentie- en trainingsefficiëntie te optimaliseren. Door voorgetraind te worden op 14,8 biljoen hoogwaardige tokens en vervolgens te worden fijngetuned met supervisie en versterkend leren, overtreft DeepSeek-V3 andere open-source modellen in prestaties en komt het dicht in de buurt van toonaangevende gesloten modellen."
},
"deepseek-ai/DeepSeek-V3.1": {
"description": "DeepSeek-V3.1 is een hybride groot taalmodel uitgebracht door DeepSeek AI, met belangrijke upgrades ten opzichte van eerdere modellen. Een belangrijke innovatie is de integratie van een 'denkenmodus' en een 'niet-denkenmodus', die gebruikers flexibel kunnen wisselen via aanpasbare chattemplates om aan verschillende taakvereisten te voldoen. Dankzij speciale post-training optimalisaties is de prestatie bij toolaanroepen en agenttaken aanzienlijk verbeterd, waardoor het beter externe zoektools ondersteunt en complexe meerstaps taken kan uitvoeren. Het model is gebaseerd op DeepSeek-V3.1-Base en uitgebreid met een tweefasige lange-tekst uitbreidingsmethode, wat de hoeveelheid trainingsdata sterk vergroot en betere prestaties levert bij het verwerken van lange documenten en uitgebreide code. Als open source model toont DeepSeek-V3.1 vergelijkbare capaciteiten als toonaangevende gesloten modellen in benchmarks voor codering, wiskunde en redeneren. Dankzij de hybride expertarchitectuur (MoE) behoudt het een enorme modelcapaciteit terwijl de redeneerkosten effectief worden verlaagd."
"description": "Het DeepSeek V3.1-model is gebaseerd op een hybride redeneringsarchitectuur en ondersteunt zowel denk- als niet-denkmodi."
},
"deepseek-ai/DeepSeek-V3.1-Terminus": {
"description": "DeepSeek-V3.1-Terminus is een bijgewerkte versie van het V3.1-model uitgebracht door DeepSeek, gepositioneerd als een hybride agent groot taalmodel. Deze update richt zich op het oplossen van gebruikersfeedback en het verbeteren van de stabiliteit, terwijl de oorspronkelijke capaciteiten behouden blijven. Het verbetert aanzienlijk de taalconsistentie en vermindert het gebruik van gemengde talen en ongebruikelijke tekens. Het model integreert een 'denkmodus' en een 'niet-denkmodus', waarbij gebruikers flexibel kunnen schakelen via chattemplates om aan verschillende taken te voldoen. Als belangrijke optimalisatie versterkt V3.1-Terminus de prestaties van de code-agent en zoekagent, waardoor het betrouwbaarder wordt bij het aanroepen van tools en het uitvoeren van complexe meerstaps taken."
},
"deepseek-ai/DeepSeek-V3.2-Exp": {
"description": "Het DeepSeek V3.2 Exp-model is een hybride redeneermodel dat zowel denk- als niet-denkmodi ondersteunt."
"description": "DeepSeek-V3.2-Exp is de experimentele V3.2-versie uitgebracht door DeepSeek, bedoeld als een tussenstap richting een volgende generatie architectuur. Op basis van V3.1-Terminus introduceert het het DeepSeek Sparse Attention (DSA)-mechanisme om de efficiëntie van training en redeneren met lange contexten te verbeteren. Het is speciaal geoptimaliseerd voor toolgebruik, begrip van lange documenten en meerstapsredenering. V3.2-Exp vormt een brug tussen onderzoek en productontwikkeling, en is geschikt voor gebruikers die in scenarios met een hoog contextbudget op zoek zijn naar efficiëntere redenering."
},
"deepseek-ai/deepseek-llm-67b-chat": {
"description": "DeepSeek 67B is een geavanceerd model dat is getraind voor complexe gesprekken."
@@ -2474,9 +2486,6 @@
"mistralai/Mixtral-8x7B-v0.1": {
"description": "Mixtral 8x7B is een spaarzaam expert-model dat meerdere parameters gebruikt om de redeneringssnelheid te verhogen, ideaal voor meertalige en codegeneratietaken."
},
"mistralai/mistral-7b-instruct": {
"description": "Mistral 7B Instruct is een hoogwaardig industrieel standaardmodel met snelheidoptimalisatie en ondersteuning voor lange contexten."
},
"mistralai/mistral-nemo": {
"description": "Mistral Nemo is een model met 7,3 miljard parameters dat meertalige ondersteuning en hoge prestaties biedt."
},
+17 -8
View File
@@ -290,12 +290,12 @@
"Pro/deepseek-ai/DeepSeek-V3": {
"description": "DeepSeek-V3 to model językowy z 6710 miliardami parametrów, oparty na architekturze mieszanych ekspertów (MoE), wykorzystujący wielogłowicową potencjalną uwagę (MLA) oraz strategię równoważenia obciążenia bez dodatkowych strat, co optymalizuje wydajność wnioskowania i treningu. Dzięki wstępnemu treningowi na 14,8 bilionach wysokiej jakości tokenów oraz nadzorowanemu dostrajaniu i uczeniu ze wzmocnieniem, DeepSeek-V3 przewyższa inne modele open source, zbliżając się do wiodących modeli zamkniętych."
},
"Pro/deepseek-ai/DeepSeek-V3.1": {
"description": "DeepSeek-V3.1 to hybrydowy duży model językowy wydany przez DeepSeek AI, który wprowadza wiele istotnych ulepszeń w stosunku do poprzednich wersji. Jedną z innowacji jest integracja trybu myślenia (Thinking Mode) i trybu bezmyślnego (Non-thinking Mode), które użytkownik może elastycznie przełączać, dostosowując szablony rozmów do różnych zadań. Dzięki specjalnej optymalizacji po treningu, wersja V3.1 znacznie poprawiła wydajność w wywoływaniu narzędzi i zadaniach agenta, lepiej wspierając zewnętrzne narzędzia wyszukiwania oraz realizację wieloetapowych, złożonych zadań. Model bazuje na DeepSeek-V3.1-Base i został poddany dalszemu treningowi z zastosowaniem dwufazowej metody rozszerzania długich tekstów, co znacznie zwiększyło ilość danych treningowych i poprawiło działanie na długich dokumentach oraz rozbudowanym kodzie. Jako model open source, DeepSeek-V3.1 wykazuje zdolności porównywalne z najlepszymi zamkniętymi modelami w benchmarkach kodowania, matematyki i wnioskowania, a dzięki architekturze hybrydowych ekspertów (MoE) utrzymuje ogromną pojemność modelu przy jednoczesnym efektywnym obniżeniu kosztów wnioskowania."
},
"Pro/deepseek-ai/DeepSeek-V3.1-Terminus": {
"description": "DeepSeek-V3.1-Terminus to zaktualizowana wersja modelu V3.1 wydanego przez DeepSeek, zaprojektowana jako hybrydowy model językowy z agentami. Aktualizacja skupia się na naprawie zgłoszonych przez użytkowników problemów i poprawie stabilności, zachowując jednocześnie dotychczasowe możliwości modelu. Znacząco poprawiono spójność językową, zmniejszając mieszanie języka chińskiego i angielskiego oraz eliminując nieprawidłowe znaki. Model integruje tryb myślenia (Thinking Mode) oraz tryb bez myślenia (Non-thinking Mode), które użytkownicy mogą elastycznie przełączać za pomocą szablonów czatu, dostosowując się do różnych zadań. Ważną optymalizacją jest wzmocnienie wydajności agenta kodu (Code Agent) i agenta wyszukiwania (Search Agent), co czyni je bardziej niezawodnymi w wywoływaniu narzędzi i realizacji wieloetapowych, złożonych zadań."
},
"Pro/deepseek-ai/DeepSeek-V3.2-Exp": {
"description": "DeepSeek-V3.2-Exp to eksperymentalna wersja V3.2 wydana przez DeepSeek, stanowiąca etap przejściowy w kierunku nowej generacji architektury. Na bazie V3.1-Terminus wprowadza mechanizm rzadkiej uwagi DeepSeek (DeepSeek Sparse Attention, DSA), który zwiększa efektywność trenowania i wnioskowania w kontekście długich sekwencji. Model został specjalnie zoptymalizowany pod kątem wywoływania narzędzi, rozumienia długich dokumentów i wieloetapowego wnioskowania. V3.2-Exp stanowi pomost między badaniami a wdrożeniem komercyjnym i jest odpowiedni dla użytkowników poszukujących wyższej efektywności wnioskowania w scenariuszach z dużym budżetem kontekstowym."
},
"Pro/moonshotai/Kimi-K2-Instruct-0905": {
"description": "Kimi K2-Instruct-0905 to najnowsza i najpotężniejsza wersja Kimi K2. Jest to zaawansowany model językowy typu Mixture of Experts (MoE) z 1 bilionem parametrów ogółem i 32 miliardami aktywowanych parametrów. Główne cechy modelu to: wzmocniona inteligencja kodowania agentów, która wykazuje znaczącą poprawę wydajności w publicznych testach porównawczych oraz w rzeczywistych zadaniach kodowania agentów; ulepszone doświadczenie kodowania front-end, z postępami zarówno w estetyce, jak i funkcjonalności programowania front-endowego."
},
@@ -398,6 +398,18 @@
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
"description": "Qwen3-Next-80B-A3B-Thinking to kolejna generacja modelu bazowego wydanego przez zespół Tongyi Qianwen z Alibaba, specjalnie zaprojektowana do złożonych zadań wnioskowania. Opiera się na innowacyjnej architekturze Qwen3-Next, która łączy hybrydowy mechanizm uwagi (Gated DeltaNet i Gated Attention) oraz wysoko rzadką strukturę ekspertów mieszanych (MoE), dążąc do maksymalnej efektywności treningu i inferencji. Jako model rzadki z 80 miliardami parametrów, podczas inferencji aktywuje jedynie około 3 miliardów parametrów, co znacznie obniża koszty obliczeniowe. Przy zadaniach z bardzo długim kontekstem przekraczającym 32 tysiące tokenów, przepustowość jest ponad 10 razy wyższa niż w modelu Qwen3-32B. Wersja „Thinking” jest zoptymalizowana do wykonywania złożonych, wieloetapowych zadań takich jak dowody matematyczne, synteza kodu, analiza logiczna i planowanie, domyślnie generując proces wnioskowania w ustrukturyzowanej formie łańcucha myślenia. Pod względem wydajności przewyższa modele o wyższych kosztach, takie jak Qwen3-32B-Thinking, a także w wielu benchmarkach jest lepszy od Gemini-2.5-Flash-Thinking."
},
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
"description": "Qwen3-VL-235B-A22B-Instruct to duży model z serii Qwen3-VL dostrojony do wykonywania poleceń, oparty na architekturze mieszanych ekspertów (MoE). Wyróżnia się doskonałymi zdolnościami rozumienia i generowania treści multimodalnych, natywnie obsługuje kontekst o długości 256K i nadaje się do produkcyjnych usług multimodalnych o wysokiej równoległości."
},
"Qwen/Qwen3-VL-235B-A22B-Thinking": {
"description": "Qwen3-VL-235B-A22B-Thinking to flagowa wersja myśląca z serii Qwen3-VL, specjalnie zoptymalizowana pod kątem złożonego wnioskowania multimodalnego, długiego kontekstu oraz interakcji z agentami. Idealna do zastosowań korporacyjnych wymagających głębokiego rozumowania i wnioskowania wizualnego."
},
"Qwen/Qwen3-VL-30B-A3B-Instruct": {
"description": "Qwen3-VL-30B-A3B-Instruct to wersja modelu z serii Qwen3-VL dostrojona do wykonywania poleceń, oferująca zaawansowane możliwości rozumienia i generowania treści wizualno-językowych. Natywnie obsługuje kontekst o długości 256K i nadaje się do dialogów multimodalnych oraz zadań generowania warunkowanego obrazem."
},
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
"description": "Qwen3-VL-30B-A3B-Thinking to rozszerzona wersja modelu Qwen3-VL skoncentrowana na wnioskowaniu (Thinking), zoptymalizowana pod kątem zadań takich jak multimodalne wnioskowanie, konwersja obrazu na kod oraz złożone rozumienie wizualne. Obsługuje kontekst 256K i oferuje zaawansowane możliwości rozumowania łańcuchowego."
},
"Qwen/Qwen3-VL-8B-Instruct": {
"description": "Qwen3-VL-8B-Instruct to model językowo-wizualny z serii Qwen3, opracowany na bazie Qwen3-8B-Instruct i wytrenowany na dużej ilości danych tekstowo-obrazowych. Wyróżnia się w ogólnym rozumieniu wizualnym, dialogach skoncentrowanych na obrazie oraz rozpoznawaniu tekstu w wielu językach w obrazach. Nadaje się do zastosowań takich jak pytania i odpowiedzi wizualne, opisy obrazów, podążanie za multimodalnymi instrukcjami oraz wywoływanie narzędzi."
},
@@ -978,13 +990,13 @@
"description": "DeepSeek-V3 to model językowy z 6710 miliardami parametrów, oparty na mieszanych ekspertach (MoE), wykorzystujący wielogłowicową potencjalną uwagę (MLA) oraz architekturę DeepSeekMoE, łączącą strategię równoważenia obciążenia bez dodatkowych strat, co optymalizuje wydajność wnioskowania i treningu. Dzięki wstępnemu treningowi na 14,8 bilionach wysokiej jakości tokenów oraz nadzorowanemu dostrajaniu i uczeniu przez wzmacnianie, DeepSeek-V3 przewyższa inne modele open source, zbliżając się do wiodących modeli zamkniętych."
},
"deepseek-ai/DeepSeek-V3.1": {
"description": "DeepSeek-V3.1 to hybrydowy duży model językowy wydany przez DeepSeek AI, który wprowadza wiele istotnych ulepszeń w stosunku do poprzednich wersji. Jedną z innowacji jest integracja trybu myślenia (Thinking Mode) i trybu bezmyślnego (Non-thinking Mode), które użytkownik może elastycznie przełączać, dostosowując szablony rozmów do różnych zadań. Dzięki specjalnej optymalizacji po treningu, wersja V3.1 znacznie poprawiła wydajność w wywoływaniu narzędzi i zadaniach agenta, lepiej wspierając zewnętrzne narzędzia wyszukiwania oraz realizację wieloetapowych, złożonych zadań. Model bazuje na DeepSeek-V3.1-Base i został poddany dalszemu treningowi z zastosowaniem dwufazowej metody rozszerzania długich tekstów, co znacznie zwiększyło ilość danych treningowych i poprawiło działanie na długich dokumentach oraz rozbudowanym kodzie. Jako model open source, DeepSeek-V3.1 wykazuje zdolności porównywalne z najlepszymi zamkniętymi modelami w benchmarkach kodowania, matematyki i wnioskowania, a dzięki architekturze hybrydowych ekspertów (MoE) utrzymuje ogromną pojemność modelu przy jednoczesnym efektywnym obniżeniu kosztów wnioskowania."
"description": "Model DeepSeek V3.1 to architektura hybrydowego wnioskowania, obsługująca zarówno tryb myślenia, jak i tryb bezmyślny."
},
"deepseek-ai/DeepSeek-V3.1-Terminus": {
"description": "DeepSeek-V3.1-Terminus to zaktualizowana wersja modelu V3.1 wydanego przez DeepSeek, zaprojektowana jako hybrydowy model językowy z agentami. Aktualizacja skupia się na naprawie zgłoszonych przez użytkowników problemów i poprawie stabilności, zachowując jednocześnie dotychczasowe możliwości modelu. Znacząco poprawiono spójność językową, zmniejszając mieszanie języka chińskiego i angielskiego oraz eliminując nieprawidłowe znaki. Model integruje tryb myślenia (Thinking Mode) oraz tryb bez myślenia (Non-thinking Mode), które użytkownicy mogą elastycznie przełączać za pomocą szablonów czatu, dostosowując się do różnych zadań. Ważną optymalizacją jest wzmocnienie wydajności agenta kodu (Code Agent) i agenta wyszukiwania (Search Agent), co czyni je bardziej niezawodnymi w wywoływaniu narzędzi i realizacji wieloetapowych, złożonych zadań."
},
"deepseek-ai/DeepSeek-V3.2-Exp": {
"description": "Model DeepSeek V3.2 Exp to hybrydowa architektura wnioskowania, obsługująca zarówno tryb refleksyjny, jak i nierefleksyjny."
"description": "DeepSeek-V3.2-Exp to eksperymentalna wersja V3.2 wydana przez DeepSeek, stanowiąca etap przejściowy w kierunku nowej generacji architektury. Na bazie V3.1-Terminus wprowadza mechanizm rzadkiej uwagi DeepSeek (DeepSeek Sparse Attention, DSA), który zwiększa efektywność trenowania i wnioskowania w kontekście długich sekwencji. Model został specjalnie zoptymalizowany pod kątem wywoływania narzędzi, rozumienia długich dokumentów i wieloetapowego wnioskowania. V3.2-Exp stanowi pomost między badaniami a wdrożeniem komercyjnym i jest odpowiedni dla użytkowników poszukujących wyższej efektywności wnioskowania w scenariuszach z dużym budżetem kontekstowym."
},
"deepseek-ai/deepseek-llm-67b-chat": {
"description": "DeepSeek 67B to zaawansowany model przeszkolony do złożonych dialogów."
@@ -2474,9 +2486,6 @@
"mistralai/Mixtral-8x7B-v0.1": {
"description": "Mixtral 8x7B to model sparsity expert, który korzysta z wielu parametrów, aby zwiększyć prędkość wnioskowania, idealny do przetwarzania zadań wielojęzycznych i generowania kodu."
},
"mistralai/mistral-7b-instruct": {
"description": "Mistral 7B Instruct to model o wysokiej wydajności, który łączy optymalizację prędkości z obsługą długiego kontekstu."
},
"mistralai/mistral-nemo": {
"description": "Mistral Nemo to model z 7,3 miliardami parametrów, wspierający wiele języków i wysoką wydajność programowania."
},
+17 -8
View File
@@ -290,12 +290,12 @@
"Pro/deepseek-ai/DeepSeek-V3": {
"description": "DeepSeek-V3 é um modelo de linguagem com 671 bilhões de parâmetros, utilizando uma arquitetura de especialistas mistos (MoE) com atenção potencial de múltiplas cabeças (MLA) e uma estratégia de balanceamento de carga sem perda auxiliar, otimizando a eficiência de inferência e treinamento. Pré-treinado em 14,8 trilhões de tokens de alta qualidade, e ajustado por supervisão e aprendizado por reforço, o DeepSeek-V3 supera outros modelos de código aberto, aproximando-se de modelos fechados líderes."
},
"Pro/deepseek-ai/DeepSeek-V3.1": {
"description": "DeepSeek-V3.1 é um modelo de linguagem grande em modo híbrido lançado pela DeepSeek AI, que traz várias melhorias importantes em relação à geração anterior. Uma inovação chave do modelo é a integração dos modos “Pensamento” (Thinking Mode) e “Não Pensamento” (Non-thinking Mode), permitindo que o usuário alterne flexivelmente entre eles ajustando o template de conversa para atender diferentes demandas. Com otimizações pós-treinamento específicas, o V3.1 apresenta desempenho significativamente melhorado em chamadas de ferramentas e tarefas Agent, suportando melhor ferramentas de busca externas e execução de tarefas complexas em múltiplas etapas. Baseado no DeepSeek-V3.1-Base, o modelo foi treinado adicionalmente com um método de expansão de texto longo em duas fases, aumentando substancialmente o volume de dados de treinamento, o que melhora seu desempenho no processamento de documentos longos e códigos extensos. Como modelo open source, o DeepSeek-V3.1 demonstra capacidades comparáveis a modelos fechados de ponta em benchmarks de codificação, matemática e raciocínio, e graças à sua arquitetura de especialistas mistos (MoE), mantém uma enorme capacidade de modelo enquanto reduz efetivamente os custos de inferência."
},
"Pro/deepseek-ai/DeepSeek-V3.1-Terminus": {
"description": "DeepSeek-V3.1-Terminus é uma versão atualizada do modelo V3.1 lançado pela DeepSeek, posicionada como um modelo de linguagem grande com agentes híbridos. Esta atualização mantém as capacidades originais do modelo, focando na correção de problemas reportados pelos usuários e na melhoria da estabilidade. Houve uma melhoria significativa na consistência linguística, reduzindo o uso misto de chinês e inglês e a ocorrência de caracteres anômalos. O modelo integra o “Modo de Pensamento” e o “Modo Não-Pensamento”, permitindo que os usuários alternem flexivelmente entre eles via templates de chat para diferentes tarefas. Como uma otimização importante, o V3.1-Terminus aprimora o desempenho dos agentes de código e de busca, tornando-os mais confiáveis na chamada de ferramentas e na execução de tarefas complexas em múltiplas etapas."
},
"Pro/deepseek-ai/DeepSeek-V3.2-Exp": {
"description": "DeepSeek-V3.2-Exp é a versão experimental V3.2 lançada pela DeepSeek, representando uma etapa intermediária rumo à próxima geração de arquitetura. Baseando-se no V3.1-Terminus, ela introduz o mecanismo de Atenção Esparsa DeepSeek (DeepSeek Sparse Attention, DSA) para melhorar a eficiência de treinamento e inferência em contextos longos. Foi especialmente otimizada para chamadas de ferramentas, compreensão de documentos extensos e raciocínio em múltiplas etapas. A V3.2-Exp serve como uma ponte entre pesquisa e aplicação comercial, ideal para usuários que buscam maior eficiência de raciocínio em cenários com orçamentos de contexto elevados."
},
"Pro/moonshotai/Kimi-K2-Instruct-0905": {
"description": "Kimi K2-Instruct-0905 é a versão mais recente e poderosa do Kimi K2. Trata-se de um modelo de linguagem de especialistas mistos (MoE) de ponta, com um total de 1 trilhão de parâmetros e 32 bilhões de parâmetros ativados. As principais características deste modelo incluem: inteligência aprimorada para codificação de agentes, demonstrando melhorias significativas em testes de referência públicos e em tarefas reais de codificação de agentes; experiência de codificação front-end melhorada, com avanços tanto na estética quanto na funcionalidade da programação front-end."
},
@@ -398,6 +398,18 @@
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
"description": "Qwen3-Next-80B-A3B-Thinking é o modelo base de próxima geração lançado pela equipe Tongyi Qianwen da Alibaba, projetado para tarefas complexas de raciocínio. Baseado na inovadora arquitetura Qwen3-Next, que integra mecanismos híbridos de atenção (Gated DeltaNet e Gated Attention) e uma estrutura de especialistas mistos altamente esparsos (MoE), busca máxima eficiência em treinamento e inferência. Como um modelo esparso com 80 bilhões de parâmetros totais, ativa apenas cerca de 3 bilhões durante a inferência, reduzindo significativamente o custo computacional. Em tarefas de contexto longo com mais de 32 mil tokens, sua taxa de inferência é mais de 10 vezes superior ao modelo Qwen3-32B. Esta versão “Thinking” é otimizada para executar tarefas complexas de múltiplas etapas, como provas matemáticas, síntese de código, análise lógica e planejamento, e por padrão produz o processo de raciocínio em forma estruturada de “cadeia de pensamento”. Em desempenho, supera modelos mais custosos como o Qwen3-32B-Thinking e também apresenta melhor desempenho que o Gemini-2.5-Flash-Thinking em vários benchmarks."
},
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
"description": "Qwen3-VL-235B-A22B-Instruct é um modelo de ajuste fino baseado em instruções da série Qwen3-VL, com arquitetura de especialistas mistos (MoE), oferecendo capacidades excepcionais de compreensão e geração multimodal. Suporta nativamente contexto de até 256K tokens, sendo adequado para serviços multimodais de produção com alta concorrência."
},
"Qwen/Qwen3-VL-235B-A22B-Thinking": {
"description": "Qwen3-VL-235B-A22B-Thinking é a versão principal da série Qwen3-VL voltada para raciocínio, com otimizações específicas para inferência multimodal complexa, raciocínio com contexto longo e interações com agentes inteligentes. É ideal para cenários corporativos que exigem raciocínio profundo e interpretação visual avançada."
},
"Qwen/Qwen3-VL-30B-A3B-Instruct": {
"description": "Qwen3-VL-30B-A3B-Instruct é a versão ajustada por instruções da série Qwen3-VL, com fortes capacidades de compreensão e geração visuo-linguística. Suporta nativamente contexto de até 256K tokens, sendo ideal para diálogos multimodais e tarefas de geração condicionada por imagem."
},
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
"description": "Qwen3-VL-30B-A3B-Thinking é a versão aprimorada para raciocínio da série Qwen3-VL, otimizada para tarefas de inferência multimodal, conversão de imagem para código e compreensão visual complexa. Suporta contexto de até 256K tokens e possui capacidades avançadas de raciocínio encadeado."
},
"Qwen/Qwen3-VL-8B-Instruct": {
"description": "Qwen3-VL-8B-Instruct é um modelo de linguagem visual da série Qwen3, desenvolvido com base no Qwen3-8B-Instruct e treinado com grandes volumes de dados multimodais. Ele é especializado em compreensão visual geral, diálogos centrados em imagens e reconhecimento multilíngue de texto em imagens. É ideal para tarefas como perguntas e respostas visuais, descrição de imagens, seguimento de instruções multimodais e chamadas de ferramentas."
},
@@ -978,13 +990,13 @@
"description": "DeepSeek-V3 é um modelo de linguagem de especialistas mistos (MoE) com 671 bilhões de parâmetros, utilizando atenção latente de múltiplas cabeças (MLA) e a arquitetura DeepSeekMoE, combinando uma estratégia de balanceamento de carga sem perda auxiliar para otimizar a eficiência de inferência e treinamento. Após ser pré-treinado em 14,8 trilhões de tokens de alta qualidade e passar por ajuste fino supervisionado e aprendizado por reforço, o DeepSeek-V3 supera outros modelos de código aberto em desempenho, aproximando-se de modelos fechados líderes."
},
"deepseek-ai/DeepSeek-V3.1": {
"description": "DeepSeek-V3.1 é um modelo de linguagem grande em modo híbrido lançado pela DeepSeek AI, que traz várias melhorias importantes em relação à geração anterior. Uma inovação chave do modelo é a integração dos modos “Pensamento” (Thinking Mode) e “Não Pensamento” (Non-thinking Mode), permitindo que o usuário alterne flexivelmente entre eles ajustando o template de conversa para atender diferentes demandas. Com otimizações pós-treinamento específicas, o V3.1 apresenta desempenho significativamente melhorado em chamadas de ferramentas e tarefas Agent, suportando melhor ferramentas de busca externas e execução de tarefas complexas em múltiplas etapas. Baseado no DeepSeek-V3.1-Base, o modelo foi treinado adicionalmente com um método de expansão de texto longo em duas fases, aumentando substancialmente o volume de dados de treinamento, o que melhora seu desempenho no processamento de documentos longos e códigos extensos. Como modelo open source, o DeepSeek-V3.1 demonstra capacidades comparáveis a modelos fechados de ponta em benchmarks de codificação, matemática e raciocínio, e graças à sua arquitetura de especialistas mistos (MoE), mantém uma enorme capacidade de modelo enquanto reduz efetivamente os custos de inferência."
"description": "O modelo DeepSeek V3.1 adota uma arquitetura de inferência híbrida, suportando tanto o modo de raciocínio quanto o modo não-racional."
},
"deepseek-ai/DeepSeek-V3.1-Terminus": {
"description": "DeepSeek-V3.1-Terminus é uma versão atualizada do modelo V3.1 lançado pela DeepSeek, posicionada como um modelo de linguagem grande com agentes híbridos. Esta atualização mantém as capacidades originais do modelo, focando na correção de problemas reportados pelos usuários e na melhoria da estabilidade. Houve uma melhoria significativa na consistência linguística, reduzindo o uso misto de chinês e inglês e a ocorrência de caracteres anômalos. O modelo integra o “Modo de Pensamento” e o “Modo Não-Pensamento”, permitindo que os usuários alternem flexivelmente entre eles via templates de chat para diferentes tarefas. Como uma otimização importante, o V3.1-Terminus aprimora o desempenho dos agentes de código e de busca, tornando-os mais confiáveis na chamada de ferramentas e na execução de tarefas complexas em múltiplas etapas."
},
"deepseek-ai/DeepSeek-V3.2-Exp": {
"description": "O modelo DeepSeek V3.2 Exp adota uma arquitetura híbrida de raciocínio, suportando modos com e sem raciocínio."
"description": "DeepSeek-V3.2-Exp é a versão experimental V3.2 lançada pela DeepSeek, representando uma etapa intermediária rumo à próxima geração de arquitetura. Baseando-se no V3.1-Terminus, ela introduz o mecanismo de Atenção Esparsa DeepSeek (DeepSeek Sparse Attention, DSA) para melhorar a eficiência de treinamento e inferência em contextos longos. Foi especialmente otimizada para chamadas de ferramentas, compreensão de documentos extensos e raciocínio em múltiplas etapas. A V3.2-Exp serve como uma ponte entre pesquisa e aplicação comercial, ideal para usuários que buscam maior eficiência de raciocínio em cenários com orçamentos de contexto elevados."
},
"deepseek-ai/deepseek-llm-67b-chat": {
"description": "DeepSeek 67B é um modelo avançado treinado para diálogos de alta complexidade."
@@ -2474,9 +2486,6 @@
"mistralai/Mixtral-8x7B-v0.1": {
"description": "Mixtral 8x7B é um modelo de especialistas esparsos, que utiliza múltiplos parâmetros para aumentar a velocidade de raciocínio, ideal para tarefas de geração de código e multilíngues."
},
"mistralai/mistral-7b-instruct": {
"description": "Mistral 7B Instruct é um modelo de padrão industrial de alto desempenho, com otimização de velocidade e suporte a longos contextos."
},
"mistralai/mistral-nemo": {
"description": "Mistral Nemo é um modelo de 7.3B parâmetros com suporte multilíngue e programação de alto desempenho."
},
+17 -8
View File
@@ -290,12 +290,12 @@
"Pro/deepseek-ai/DeepSeek-V3": {
"description": "DeepSeek-V3 — это языковая модель с 6710 миллиардами параметров, использующая архитектуру смешанных экспертов (MoE) и многофункциональное внимание (MLA), в сочетании с стратегией балансировки нагрузки без вспомогательных потерь, оптимизирующая эффективность вывода и обучения. После предобучения на 14.8 триллионах высококачественных токенов и последующей контролируемой донастройки и обучения с подкреплением, DeepSeek-V3 превосходит другие открытые модели и приближается к ведущим закрытым моделям."
},
"Pro/deepseek-ai/DeepSeek-V3.1": {
"description": "DeepSeek-V3.1 — гибридная большая языковая модель, выпущенная DeepSeek AI, которая включает множество важных улучшений по сравнению с предыдущими версиями. Главной инновацией модели является интеграция режимов «мышления» (Thinking Mode) и «без мышления» (Non-thinking Mode), которые пользователь может гибко переключать, изменяя шаблоны диалога для разных задач. Благодаря специализированной посттренировочной оптимизации V3.1 значительно улучшила производительность при вызове инструментов и выполнении задач агента, обеспечивая лучшую поддержку внешних поисковых инструментов и выполнение многошаговых сложных задач. Модель основана на DeepSeek-V3.1-Base и дообучена с использованием двухэтапного расширения длинных текстов, что значительно увеличило объем тренировочных данных и улучшило работу с длинными документами и большими объемами кода. Как открытая модель, DeepSeek-V3.1 демонстрирует сопоставимые с ведущими закрытыми моделями результаты в кодировании, математике и рассуждениях, а благодаря архитектуре с экспертами (MoE) сохраняет огромную емкость модели при эффективном снижении затрат на вывод."
},
"Pro/deepseek-ai/DeepSeek-V3.1-Terminus": {
"description": "DeepSeek-V3.1-Terminus — обновлённая версия модели V3.1 от DeepSeek, позиционируемая как гибридная большая языковая модель с агентскими функциями. В этом обновлении, сохраняя прежние возможности модели, акцент сделан на исправлении проблем, выявленных пользователями, и повышении стабильности. Значительно улучшена языковая согласованность, уменьшено смешение китайского и английского языков, а также появление аномальных символов. Модель интегрирует режимы «размышления» (Thinking Mode) и «без размышления» (Non-thinking Mode), которые пользователи могут гибко переключать через шаблоны чата для разных задач. Важным улучшением является усиление производительности кодового агента (Code Agent) и поискового агента (Search Agent), что повышает надёжность при вызове инструментов и выполнении многошаговых сложных задач."
},
"Pro/deepseek-ai/DeepSeek-V3.2-Exp": {
"description": "DeepSeek-V3.2-Exp — это экспериментальная версия V3.2, выпущенная компанией DeepSeek, представляющая собой промежуточный этап на пути к архитектуре следующего поколения. На основе V3.1-Terminus она внедряет механизм разреженного внимания DeepSeek (DeepSeek Sparse Attention, DSA) для повышения эффективности обучения и вывода в условиях длинного контекста. Модель специально оптимизирована для вызова инструментов, понимания длинных документов и многошагового рассуждения. V3.2-Exp служит мостом между исследованием и коммерческим применением, идеально подходит для пользователей, стремящихся к более высокой эффективности вывода в сценариях с большим контекстом."
},
"Pro/moonshotai/Kimi-K2-Instruct-0905": {
"description": "Kimi K2-Instruct-0905 — это последняя и самая мощная версия Kimi K2. Это передовая языковая модель с архитектурой смешанных экспертов (MoE), обладающая общим числом параметров в 1 триллион и 32 миллиардами активных параметров. Основные характеристики модели включают: улучшенный интеллект кодирующих агентов, демонстрирующий значительный прирост производительности на открытых бенчмарках и в реальных задачах кодирования агентов; усовершенствованный опыт фронтенд-кодирования, с улучшениями как в эстетике, так и в практичности фронтенд-программирования."
},
@@ -398,6 +398,18 @@
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
"description": "Qwen3-Next-80B-A3B-Thinking — это следующего поколения базовая модель, выпущенная командой Alibaba Tongyi Qianwen, специально разработанная для сложных задач рассуждения. Она основана на инновационной архитектуре Qwen3-Next, которая объединяет гибридный механизм внимания (Gated DeltaNet и Gated Attention) и высокоразреженную структуру смешанных экспертов (MoE), направленную на максимальную эффективность обучения и вывода. Как разреженная модель с общим числом параметров 80 миллиардов, при выводе активируется около 3 миллиардов параметров, что значительно снижает вычислительные затраты. При обработке задач с длинным контекстом более 32K токенов пропускная способность вывода превышает модель Qwen3-32B более чем в 10 раз. Эта версия «Thinking» оптимизирована для выполнения сложных многошаговых задач, таких как математические доказательства, синтез кода, логический анализ и планирование, и по умолчанию выводит процесс рассуждения в структурированной форме «цепочки мышления». По производительности она не только превосходит более дорогие модели, такие как Qwen3-32B-Thinking, но и опережает Gemini-2.5-Flash-Thinking в нескольких бенчмарках."
},
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
"description": "Qwen3-VL-235B-A22B-Instruct — это крупномасштабная модель с дообучением на инструкциях из серии Qwen3-VL, основанная на архитектуре смешанных экспертов (MoE). Обладает выдающимися возможностями в области мультимодального понимания и генерации, нативно поддерживает контекст длиной до 256K токенов и подходит для высоконагруженных производственных мультимодальных сервисов."
},
"Qwen/Qwen3-VL-235B-A22B-Thinking": {
"description": "Qwen3-VL-235B-A22B-Thinking — флагманская версия серии Qwen3-VL, ориентированная на сложное мультимодальное рассуждение, работу с длинным контекстом и взаимодействие с агентами. Идеально подходит для корпоративных сценариев, требующих глубокого анализа и визуального вывода."
},
"Qwen/Qwen3-VL-30B-A3B-Instruct": {
"description": "Qwen3-VL-30B-A3B-Instruct — версия с дообучением на инструкциях из серии Qwen3-VL, обладающая мощными возможностями визуально-языкового понимания и генерации. Нативно поддерживает контекст длиной до 256K токенов, подходит для мультимодальных диалогов и задач генерации на основе изображений."
},
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
"description": "Qwen3-VL-30B-A3B-Thinking — улучшенная версия Thinking из серии Qwen3-VL, оптимизированная для мультимодального рассуждения, преобразования изображений в код и сложных задач визуального понимания. Поддерживает контекст до 256K токенов и обладает усиленными возможностями цепного мышления."
},
"Qwen/Qwen3-VL-8B-Instruct": {
"description": "Qwen3-VL-8B-Instruct — это модель визуально-языкового понимания из серии Qwen3, разработанная на основе Qwen3-8B-Instruct и обученная на большом объёме данных, содержащих изображения и тексты. Она хорошо справляется с задачами общего визуального понимания, визуально-ориентированного диалога и распознавания многоязычного текста на изображениях. Подходит для сценариев визуального вопросно-ответного взаимодействия, описания изображений, следования мультимодальным инструкциям и вызова инструментов."
},
@@ -978,13 +990,13 @@
"description": "DeepSeek-V3 — это языковая модель смешанных экспертов (MoE) с 6710 миллиардами параметров, использующая многоголовое потенциальное внимание (MLA) и архитектуру DeepSeekMoE, в сочетании с стратегией балансировки нагрузки без вспомогательных потерь, оптимизирующей эффективность вывода и обучения. После предобучения на 14,8 триллионах высококачественных токенов и последующей супервизионной донастройки и обучения с подкреплением, DeepSeek-V3 превосходит другие открытые модели и приближается к ведущим закрытым моделям."
},
"deepseek-ai/DeepSeek-V3.1": {
"description": "DeepSeek-V3.1 — гибридная большая языковая модель, выпущенная DeepSeek AI, которая включает множество важных улучшений по сравнению с предыдущими версиями. Главной инновацией модели является интеграция режимов «мышления» (Thinking Mode) и «без мышления» (Non-thinking Mode), которые пользователь может гибко переключать, изменяя шаблоны диалога для разных задач. Благодаря специализированной посттренировочной оптимизации V3.1 значительно улучшила производительность при вызове инструментов и выполнении задач агента, обеспечивая лучшую поддержку внешних поисковых инструментов и выполнение многошаговых сложных задач. Модель основана на DeepSeek-V3.1-Base и дообучена с использованием двухэтапного расширения длинных текстов, что значительно увеличило объем тренировочных данных и улучшило работу с длинными документами и большими объемами кода. Как открытая модель, DeepSeek-V3.1 демонстрирует сопоставимые с ведущими закрытыми моделями результаты в кодировании, математике и рассуждениях, а благодаря архитектуре с экспертами (MoE) сохраняет огромную емкость модели при эффективном снижении затрат на вывод."
"description": "Модель DeepSeek V3.1 использует гибридную архитектуру рассуждения и поддерживает как режим мышления, так и обычный режим."
},
"deepseek-ai/DeepSeek-V3.1-Terminus": {
"description": "DeepSeek-V3.1-Terminus — обновлённая версия модели V3.1 от DeepSeek, позиционируемая как гибридная большая языковая модель с агентскими функциями. В этом обновлении, сохраняя прежние возможности модели, акцент сделан на исправлении проблем, выявленных пользователями, и повышении стабильности. Значительно улучшена языковая согласованность, уменьшено смешение китайского и английского языков, а также появление аномальных символов. Модель интегрирует режимы «размышления» (Thinking Mode) и «без размышления» (Non-thinking Mode), которые пользователи могут гибко переключать через шаблоны чата для разных задач. Важным улучшением является усиление производительности кодового агента (Code Agent) и поискового агента (Search Agent), что повышает надёжность при вызове инструментов и выполнении многошаговых сложных задач."
},
"deepseek-ai/DeepSeek-V3.2-Exp": {
"description": "Модель DeepSeek V3.2 Exp представляет собой гибридную архитектуру для рассуждений, поддерживающую как режим размышлений, так и нерефлексивный режим."
"description": "DeepSeek-V3.2-Exp — это экспериментальная версия V3.2, выпущенная компанией DeepSeek, представляющая собой промежуточный этап на пути к архитектуре следующего поколения. На основе V3.1-Terminus она внедряет механизм разреженного внимания DeepSeek (DeepSeek Sparse Attention, DSA) для повышения эффективности обучения и вывода в условиях длинного контекста. Модель специально оптимизирована для вызова инструментов, понимания длинных документов и многошагового рассуждения. V3.2-Exp служит мостом между исследованием и коммерческим применением, идеально подходит для пользователей, стремящихся к более высокой эффективности вывода в сценариях с большим контекстом."
},
"deepseek-ai/deepseek-llm-67b-chat": {
"description": "DeepSeek 67B — это передовая модель, обученная для высококомплексных диалогов."
@@ -2474,9 +2486,6 @@
"mistralai/Mixtral-8x7B-v0.1": {
"description": "Mixtral 8x7B - это разреженная модель эксперта, использующая множество параметров для повышения скорости вывода, подходит для обработки многоязычных и генеративных задач."
},
"mistralai/mistral-7b-instruct": {
"description": "Mistral 7B Instruct — это высокопроизводительная модель стандартов отрасли, оптимизированная для скорости и поддержки длинного контекста."
},
"mistralai/mistral-nemo": {
"description": "Mistral Nemo — это модель с 7.3B параметрами, поддерживающая несколько языков и высокопроизводительное программирование."
},
+17 -8
View File
@@ -290,12 +290,12 @@
"Pro/deepseek-ai/DeepSeek-V3": {
"description": "DeepSeek-V3, 6710 milyar parametreye sahip bir karma uzman (MoE) dil modelidir ve çok başlı potansiyel dikkat (MLA) ve DeepSeekMoE mimarisini kullanarak, yardımcı kayıplar olmadan yük dengeleme stratejileri ile çıkarım ve eğitim verimliliğini optimize etmektedir. 14.8 trilyon yüksek kaliteli token üzerinde önceden eğitilmiş ve denetimli ince ayar ve güçlendirilmiş öğrenme ile, DeepSeek-V3 performans açısından diğer açık kaynak modelleri geride bırakmakta ve lider kapalı kaynak modellere yaklaşmaktadır."
},
"Pro/deepseek-ai/DeepSeek-V3.1": {
"description": "DeepSeek-V3.1, DeepSeek AI tarafından yayımlanan hibrit modlu büyük dil modelidir ve selef modellerine kıyasla birçok önemli yükseltme içermektedir. Modelin en büyük yeniliği, \"Düşünme Modu\" (Thinking Mode) ve \"Düşünmeme Modu\" (Non-thinking Mode) özelliklerini bir arada sunmasıdır; kullanıcılar sohbet şablonlarını ayarlayarak farklı görev ihtiyaçlarına esnek şekilde uyum sağlayabilirler. Özel post-training optimizasyonları sayesinde V3.1, araç çağrıları ve Agent görevlerinde performansını önemli ölçüde artırmış, dış arama araçlarını destekleme ve çok adımlı karmaşık görevleri yerine getirme kapasitesini geliştirmiştir. Model, DeepSeek-V3.1-Base üzerine post-training uygulanarak, iki aşamalı uzun metin genişletme yöntemiyle eğitim veri miktarını büyük ölçüde artırmış ve uzun belgeler ile uzun kod parçalarını işleme yeteneğini geliştirmiştir. Açık kaynaklı bir model olarak DeepSeek-V3.1, kodlama, matematik ve çıkarım gibi birçok kıyaslama testinde en iyi kapalı kaynak modellerle rekabet eden performans sergilemekte ve MoE (Mixture of Experts) mimarisi sayesinde büyük model kapasitesini korurken çıkarım maliyetlerini etkin şekilde düşürmektedir."
},
"Pro/deepseek-ai/DeepSeek-V3.1-Terminus": {
"description": "DeepSeek-V3.1-Terminus, DeepSeek tarafından yayınlanan V3.1 modelinin güncellenmiş versiyonudur ve hibrit ajan büyük dil modeli olarak konumlandırılmıştır. Bu güncelleme, modelin mevcut yeteneklerini koruyarak kullanıcı geri bildirimlerine dayalı sorunları düzeltmeye ve kararlılığı artırmaya odaklanmıştır. Dil tutarlılığını önemli ölçüde iyileştirmiş, Çince ve İngilizce karışımı ile anormal karakterlerin görünümünü azaltmıştır. Model, farklı görevler için sohbet şablonları aracılığıyla esnek geçiş yapılabilen “Düşünme Modu” ve “Düşünmeme Modu”nu entegre etmiştir. Önemli bir iyileştirme olarak, V3.1-Terminus, kod ajanı (Code Agent) ve arama ajanı (Search Agent) performansını artırarak araç çağrıları ve çok adımlı karmaşık görevlerin yürütülmesinde daha güvenilir hale getirmiştir."
},
"Pro/deepseek-ai/DeepSeek-V3.2-Exp": {
"description": "DeepSeek-V3.2-Exp, DeepSeek tarafından yayınlanan deneysel V3.2 sürümüdür ve yeni nesil mimariye geçişte bir ara keşif niteliğindedir. Bu sürüm, V3.1-Terminus temelinde geliştirilmiş olup, uzun bağlamlı eğitim ve çıkarım verimliliğini artırmak amacıyla DeepSeek Seyrek Dikkat (DeepSeek Sparse Attention, DSA) mekanizmasını entegre eder. Araç kullanımı, uzun belge anlama ve çok adımlı akıl yürütme gibi alanlarda özel optimizasyonlar yapılmıştır. V3.2-Exp, araştırma ile ürünleştirme arasında bir köprü görevi görür ve yüksek bağlam bütçesi gerektiren senaryolarda daha verimli çıkarım arayan kullanıcılar için uygundur."
},
"Pro/moonshotai/Kimi-K2-Instruct-0905": {
"description": "Kimi K2-Instruct-0905, Kimi K2'nin en yeni ve en güçlü versiyonudur. Bu, toplamda 1 trilyon parametreye ve 32 milyar aktif parametreye sahip, üst düzey bir Hibrit Uzman (MoE) dil modelidir. Modelin başlıca özellikleri şunlardır: geliştirilmiş ajan kodlama zekası, açık benchmark testlerinde ve gerçek dünya ajan kodlama görevlerinde belirgin performans artışı; ön uç kodlama deneyiminde iyileştirmeler, ön uç programlamada estetik ve işlevsellik açısından ilerlemeler."
},
@@ -398,6 +398,18 @@
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
"description": "Qwen3-Next-80B-A3B-Thinking, Alibaba Tongyi Qianwen ekibi tarafından karmaşık çıkarım görevleri için tasarlanmış yeni nesil temel modeldir. Yenilikçi Qwen3-Next mimarisi üzerine kurulmuş olup, hibrit dikkat mekanizması (Gated DeltaNet ve Gated Attention) ve yüksek seyrekli hibrit uzman (MoE) yapısını birleştirerek en üst düzey eğitim ve çıkarım verimliliğini hedefler. 80 milyar toplam parametreye sahip seyrek bir model olarak, çıkarım sırasında yalnızca yaklaşık 3 milyar parametreyi aktive ederek hesaplama maliyetlerini önemli ölçüde düşürür ve 32K tokendan uzun bağlam görevlerinde çıkarım verimliliği Qwen3-32B modeline kıyasla 10 kat daha fazladır. Bu “Thinking” versiyonu, matematiksel ispatlar, kod sentezi, mantıksal analiz ve planlama gibi zorlu çok adımlı görevler için optimize edilmiştir ve çıkarım sürecini varsayılan olarak yapılandırılmış “düşünce zinciri” biçiminde sunar. Performans açısından, yalnızca daha maliyetli modeller olan Qwen3-32B-Thinkingi değil, aynı zamanda Gemini-2.5-Flash-Thinkingi de birçok kıyaslama testinde geride bırakır."
},
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
"description": "Qwen3-VL-235B-A22B-Instruct, Qwen3-VL serisinin büyük ölçekli talimatla ince ayarlanmış modelidir. Karışık uzman (MoE) mimarisi üzerine kuruludur ve üstün çok modlu anlama ve üretim yeteneklerine sahiptir. Doğal olarak 256K bağlamı destekler ve yüksek eşzamanlı üretim düzeyinde çok modlu hizmetler için uygundur."
},
"Qwen/Qwen3-VL-235B-A22B-Thinking": {
"description": "Qwen3-VL-235B-A22B-Thinking, Qwen3-VL serisinin amiral gemisi düşünme sürümüdür. Karmaşık çok modlu akıl yürütme, uzun bağlamlı çıkarım ve yapay zeka etkileşimleri için özel olarak optimize edilmiştir. Derin düşünme ve görsel akıl yürütme gerektiren kurumsal düzeydeki senaryolar için uygundur."
},
"Qwen/Qwen3-VL-30B-A3B-Instruct": {
"description": "Qwen3-VL-30B-A3B-Instruct, Qwen3-VL serisinin talimatla ince ayarlanmış sürümüdür. Güçlü görsel-dil anlama ve üretim yeteneklerine sahiptir, doğal olarak 256K bağlam uzunluğunu destekler ve çok modlu diyaloglar ile görsel koşullu üretim görevleri için uygundur."
},
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
"description": "Qwen3-VL-30B-A3B-Thinking, Qwen3-VL serisinin akıl yürütme yetenekleri geliştirilmiş (Thinking) sürümüdür. Çok modlu akıl yürütme, görselden koda dönüşüm ve karmaşık görsel anlama görevlerinde optimize edilmiştir. 256K bağlam desteği sunar ve daha güçlü zincirleme düşünme yeteneğine sahiptir."
},
"Qwen/Qwen3-VL-8B-Instruct": {
"description": "Qwen3-VL-8B-Instruct, Qwen3 serisinin bir görsel-dil modelidir. Qwen3-8B-Instruct temel alınarak geliştirilmiş ve büyük miktarda görsel-metin verisiyle eğitilmiştir. Genel görsel anlama, görsel odaklı diyaloglar ve görsellerde çok dilli metin tanıma konularında uzmandır. Görsel soru-cevap, görsel betimleme, çok modlu komut takibi ve araç çağırma gibi senaryolarda kullanılabilir."
},
@@ -978,13 +990,13 @@
"description": "DeepSeek-V3, 6710 milyar parametreye sahip bir karma uzman (MoE) dil modelidir. Çok başlı potansiyel dikkat (MLA) ve DeepSeekMoE mimarisini kullanarak, yardımcı kayıplar olmadan yük dengeleme stratejisi ile çıkarım ve eğitim verimliliğini optimize etmektedir. 14.8 trilyon yüksek kaliteli token üzerinde önceden eğitilmiş ve denetimli ince ayar ile tekrarlayan öğrenme gerçekleştirilmiştir; DeepSeek-V3, performans açısından diğer açık kaynaklı modelleri geride bırakmakta ve lider kapalı kaynaklı modellere yaklaşmaktadır."
},
"deepseek-ai/DeepSeek-V3.1": {
"description": "DeepSeek-V3.1, DeepSeek AI tarafından yayımlanan hibrit modlu büyük dil modelidir ve selef modellerine kıyasla birçok önemli yükseltme içermektedir. Modelin en büyük yeniliği, \"Düşünme Modu\" (Thinking Mode) ve \"Düşünmeme Modu\" (Non-thinking Mode) özelliklerini bir arada sunmasıdır; kullanıcılar sohbet şablonlarını ayarlayarak farklı görev ihtiyaçlarına esnek şekilde uyum sağlayabilirler. Özel post-training optimizasyonları sayesinde V3.1, araç çağrıları ve Agent görevlerinde performansını önemli ölçüde artırmış, dış arama araçlarını destekleme ve çok adımlı karmaşık görevleri yerine getirme kapasitesini geliştirmiştir. Model, DeepSeek-V3.1-Base üzerine post-training uygulanarak, iki aşamalı uzun metin genişletme yöntemiyle eğitim veri miktarını büyük ölçüde artırmış ve uzun belgeler ile uzun kod parçalarını işleme yeteneğini geliştirmiştir. Açık kaynaklı bir model olarak DeepSeek-V3.1, kodlama, matematik ve çıkarım gibi birçok kıyaslama testinde en iyi kapalı kaynak modellerle rekabet eden performans sergilemekte ve MoE (Mixture of Experts) mimarisi sayesinde büyük model kapasitesini korurken çıkarım maliyetlerini etkin şekilde düşürmektedir."
"description": "DeepSeek V3.1 modeli, hem düşünme hem de düşünme dışı modları destekleyen hibrit akıl yürütme mimarisine sahip bir modeldir."
},
"deepseek-ai/DeepSeek-V3.1-Terminus": {
"description": "DeepSeek-V3.1-Terminus, DeepSeek tarafından yayınlanan V3.1 modelinin güncellenmiş versiyonudur ve hibrit ajan büyük dil modeli olarak konumlandırılmıştır. Bu güncelleme, modelin mevcut yeteneklerini koruyarak kullanıcı geri bildirimlerine dayalı sorunları düzeltmeye ve kararlılığı artırmaya odaklanmıştır. Dil tutarlılığını önemli ölçüde iyileştirmiş, Çince ve İngilizce karışımı ile anormal karakterlerin görünümünü azaltmıştır. Model, farklı görevler için sohbet şablonları aracılığıyla esnek geçiş yapılabilen “Düşünme Modu” ve “Düşünmeme Modu”nu entegre etmiştir. Önemli bir iyileştirme olarak, V3.1-Terminus, kod ajanı (Code Agent) ve arama ajanı (Search Agent) performansını artırarak araç çağrıları ve çok adımlı karmaşık görevlerin yürütülmesinde daha güvenilir hale getirmiştir."
},
"deepseek-ai/DeepSeek-V3.2-Exp": {
"description": "DeepSeek V3.2 Exp modeli, hem düşünme hem de düşünme dışı modları destekleyen hibrit bir akıl yürütme mimarisine sahiptir."
"description": "DeepSeek-V3.2-Exp, DeepSeek tarafından yayınlanan deneysel V3.2 sürümüdür ve yeni nesil mimariye geçişte bir ara keşif niteliğindedir. Bu sürüm, V3.1-Terminus temelinde geliştirilmiş olup, uzun bağlamlı eğitim ve çıkarım verimliliğini artırmak amacıyla DeepSeek Seyrek Dikkat (DeepSeek Sparse Attention, DSA) mekanizmasını entegre eder. Araç kullanımı, uzun belge anlama ve çok adımlı akıl yürütme gibi alanlarda özel optimizasyonlar yapılmıştır. V3.2-Exp, araştırma ile ürünleştirme arasında bir köprü görevi görür ve yüksek bağlam bütçesi gerektiren senaryolarda daha verimli çıkarım arayan kullanıcılar için uygundur."
},
"deepseek-ai/deepseek-llm-67b-chat": {
"description": "DeepSeek 67B, yüksek karmaşıklıkta diyaloglar için eğitilmiş gelişmiş bir modeldir."
@@ -2474,9 +2486,6 @@
"mistralai/Mixtral-8x7B-v0.1": {
"description": "Mixtral 8x7B, birden fazla parametre kullanarak akıl yürütme hızını artıran seyrek uzman modelidir, çok dilli ve kod üretim görevleri için uygundur."
},
"mistralai/mistral-7b-instruct": {
"description": "Mistral 7B Instruct, hız optimizasyonu ve uzun bağlam desteği sunan yüksek performanslı bir endüstri standart modelidir."
},
"mistralai/mistral-nemo": {
"description": "Mistral Nemo, çok dilli destek ve yüksek performanslı programlama sunan 7.3B parametreli bir modeldir."
},
+17 -8
View File
@@ -290,12 +290,12 @@
"Pro/deepseek-ai/DeepSeek-V3": {
"description": "DeepSeek-V3 là một mô hình ngôn ngữ hỗn hợp chuyên gia (MoE) với 6710 tỷ tham số, sử dụng chú ý tiềm ẩn đa đầu (MLA) và kiến trúc DeepSeekMoE, kết hợp chiến lược cân bằng tải không có tổn thất phụ trợ, tối ưu hóa hiệu suất suy diễn và đào tạo. Thông qua việc được tiền huấn luyện trên 14.8 triệu tỷ token chất lượng cao, và thực hiện tinh chỉnh giám sát và học tăng cường, DeepSeek-V3 vượt trội hơn các mô hình mã nguồn mở khác, gần với các mô hình đóng kín hàng đầu."
},
"Pro/deepseek-ai/DeepSeek-V3.1": {
"description": "DeepSeek-V3.1 là mô hình ngôn ngữ lớn chế độ hỗn hợp do DeepSeek AI phát hành, với nhiều nâng cấp quan trọng dựa trên phiên bản trước. Một đổi mới lớn của mô hình là tích hợp \"Chế độ suy nghĩ\" (Thinking Mode) và \"Chế độ không suy nghĩ\" (Non-thinking Mode) trong cùng một mô hình, người dùng có thể linh hoạt chuyển đổi bằng cách điều chỉnh mẫu trò chuyện để phù hợp với các yêu cầu nhiệm vụ khác nhau. Qua tối ưu hóa sau huấn luyện chuyên biệt, V3.1 đã cải thiện đáng kể hiệu suất trong việc gọi công cụ và nhiệm vụ Agent, hỗ trợ tốt hơn cho các công cụ tìm kiếm bên ngoài và thực hiện các nhiệm vụ phức tạp nhiều bước. Mô hình được huấn luyện tiếp dựa trên DeepSeek-V3.1-Base, sử dụng phương pháp mở rộng văn bản dài hai giai đoạn, tăng đáng kể lượng dữ liệu huấn luyện, giúp cải thiện khả năng xử lý tài liệu dài và mã nguồn dài. Là một mô hình mã nguồn mở, DeepSeek-V3.1 thể hiện năng lực tương đương với các mô hình đóng hàng đầu trong các bài kiểm tra chuẩn về mã hóa, toán học và suy luận, đồng thời với kiến trúc chuyên gia hỗn hợp (MoE), nó duy trì dung lượng mô hình lớn trong khi giảm chi phí suy luận hiệu quả."
},
"Pro/deepseek-ai/DeepSeek-V3.1-Terminus": {
"description": "DeepSeek-V3.1-Terminus là phiên bản cập nhật của mô hình V3.1 do DeepSeek phát hành, được định vị là mô hình ngôn ngữ lớn với trí tuệ hỗn hợp. Bản cập nhật này tập trung sửa các vấn đề phản hồi từ người dùng và nâng cao độ ổn định trong khi vẫn giữ nguyên khả năng của mô hình. Nó cải thiện đáng kể tính nhất quán ngôn ngữ, giảm thiểu việc sử dụng lẫn lộn tiếng Trung và tiếng Anh cũng như các ký tự bất thường. Mô hình tích hợp \"Chế độ suy nghĩ\" (Thinking Mode) và \"Chế độ không suy nghĩ\" (Non-thinking Mode), người dùng có thể linh hoạt chuyển đổi qua các mẫu trò chuyện để phù hợp với các nhiệm vụ khác nhau. Một tối ưu quan trọng là V3.1-Terminus tăng cường hiệu suất của Agent mã (Code Agent) và Agent tìm kiếm (Search Agent), giúp chúng đáng tin cậy hơn trong việc gọi công cụ và thực hiện các nhiệm vụ phức tạp nhiều bước."
},
"Pro/deepseek-ai/DeepSeek-V3.2-Exp": {
"description": "DeepSeek-V3.2-Exp là phiên bản thử nghiệm V3.2 do DeepSeek phát hành, đóng vai trò là bước chuyển tiếp trong hành trình hướng tới kiến trúc thế hệ tiếp theo. Dựa trên nền tảng của V3.1-Terminus, phiên bản này tích hợp cơ chế Chú ý Thưa (DeepSeek Sparse Attention - DSA) nhằm nâng cao hiệu quả huấn luyện và suy luận trong ngữ cảnh dài. Nó được tối ưu hóa đặc biệt cho việc gọi công cụ, hiểu tài liệu dài và suy luận nhiều bước. V3.2-Exp là cầu nối giữa nghiên cứu và ứng dụng thực tế, phù hợp với người dùng mong muốn khám phá hiệu suất suy luận cao hơn trong các tình huống có ngân sách ngữ cảnh lớn."
},
"Pro/moonshotai/Kimi-K2-Instruct-0905": {
"description": "Kimi K2-Instruct-0905 là phiên bản mới nhất và mạnh mẽ nhất của Kimi K2. Đây là một mô hình ngôn ngữ chuyên gia hỗn hợp (MoE) hàng đầu với tổng số tham số lên đến 1 nghìn tỷ và 32 tỷ tham số kích hoạt. Các đặc điểm chính của mô hình bao gồm: tăng cường trí tuệ mã hóa tác nhân, thể hiện sự cải thiện đáng kể trong các bài kiểm tra chuẩn công khai và các nhiệm vụ mã hóa tác nhân trong thế giới thực; cải tiến trải nghiệm mã hóa giao diện người dùng, nâng cao cả về tính thẩm mỹ và tính thực tiễn trong lập trình giao diện."
},
@@ -398,6 +398,18 @@
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
"description": "Qwen3-Next-80B-A3B-Thinking là mô hình nền tảng thế hệ tiếp theo do đội ngũ Alibaba Tongyi Qianwen phát hành, được thiết kế chuyên biệt cho các tác vụ suy luận phức tạp. Nó dựa trên kiến trúc sáng tạo Qwen3-Next, kết hợp cơ chế chú ý hỗn hợp (Gated DeltaNet và Gated Attention) và cấu trúc chuyên gia hỗn hợp có độ thưa cao (MoE), nhằm đạt hiệu quả tối ưu trong huấn luyện và suy luận. Là mô hình thưa với tổng số 80 tỷ tham số, nó chỉ kích hoạt khoảng 3 tỷ tham số trong quá trình suy luận, giảm đáng kể chi phí tính toán, và khi xử lý các tác vụ ngữ cảnh dài trên 32K token, thông lượng cao hơn mô hình Qwen3-32B hơn 10 lần. Phiên bản “Thinking” này được tối ưu để thực hiện các tác vụ đa bước khó như chứng minh toán học, tổng hợp mã, phân tích logic và lập kế hoạch, và mặc định xuất ra quá trình suy luận dưới dạng chuỗi suy nghĩ có cấu trúc. Về hiệu năng, nó không chỉ vượt trội so với các mô hình có chi phí cao hơn như Qwen3-32B-Thinking mà còn vượt qua Gemini-2.5-Flash-Thinking trong nhiều bài kiểm tra chuẩn."
},
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
"description": "Qwen3-VL-235B-A22B-Instruct là mô hình tinh chỉnh theo chỉ dẫn quy mô lớn thuộc dòng Qwen3-VL, dựa trên kiến trúc chuyên gia hỗn hợp (MoE), sở hữu khả năng hiểu và tạo nội dung đa phương tiện vượt trội, hỗ trợ nguyên bản ngữ cảnh lên đến 256K, thích hợp cho các dịch vụ đa phương tiện cấp độ sản xuất với yêu cầu đồng thời cao."
},
"Qwen/Qwen3-VL-235B-A22B-Thinking": {
"description": "Qwen3-VL-235B-A22B-Thinking là phiên bản tư duy hàng đầu trong dòng Qwen3-VL, được tối ưu hóa đặc biệt cho suy luận đa phương tiện phức tạp, suy luận ngữ cảnh dài và tương tác với tác tử thông minh, phù hợp với các tình huống doanh nghiệp đòi hỏi khả năng tư duy sâu và suy luận hình ảnh."
},
"Qwen/Qwen3-VL-30B-A3B-Instruct": {
"description": "Qwen3-VL-30B-A3B-Instruct là phiên bản tinh chỉnh theo chỉ dẫn của dòng Qwen3-VL, có khả năng hiểu và tạo nội dung ngôn ngữ - hình ảnh mạnh mẽ, hỗ trợ nguyên bản độ dài ngữ cảnh lên đến 256K, phù hợp cho các tác vụ đối thoại đa phương tiện và tạo nội dung có điều kiện hình ảnh."
},
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
"description": "Qwen3-VL-30B-A3B-Thinking là phiên bản tăng cường suy luận (Thinking) của Qwen3-VL, được tối ưu hóa cho các tác vụ suy luận đa phương tiện, chuyển đổi hình ảnh thành mã và hiểu hình ảnh phức tạp, hỗ trợ ngữ cảnh lên đến 256K và có khả năng tư duy chuỗi mạnh mẽ hơn."
},
"Qwen/Qwen3-VL-8B-Instruct": {
"description": "Qwen3-VL-8B-Instruct là mô hình ngôn ngữ thị giác thuộc dòng Qwen3, được phát triển dựa trên Qwen3-8B-Instruct và huấn luyện trên lượng lớn dữ liệu hình ảnh và văn bản. Mô hình này có thế mạnh trong hiểu thị giác tổng quát, đối thoại xoay quanh hình ảnh và nhận diện văn bản đa ngôn ngữ trong ảnh. Phù hợp với các tình huống như hỏi đáp thị giác, mô tả hình ảnh, tuân theo chỉ dẫn đa phương thức và gọi công cụ."
},
@@ -978,13 +990,13 @@
"description": "DeepSeek-V3 là một mô hình ngôn ngữ hỗn hợp chuyên gia (MoE) với 6710 tỷ tham số, sử dụng chú ý tiềm ẩn đa đầu (MLA) và kiến trúc DeepSeekMoE, kết hợp với chiến lược cân bằng tải không có tổn thất phụ trợ, tối ưu hóa hiệu suất suy diễn và đào tạo. Thông qua việc được tiền huấn luyện trên 14.8 triệu tỷ token chất lượng cao, và thực hiện tinh chỉnh giám sát và học tăng cường, DeepSeek-V3 vượt trội về hiệu suất so với các mô hình mã nguồn mở khác, gần gũi với các mô hình đóng nguồn hàng đầu."
},
"deepseek-ai/DeepSeek-V3.1": {
"description": "DeepSeek-V3.1 là mô hình ngôn ngữ lớn chế độ hỗn hợp do DeepSeek AI phát hành, với nhiều nâng cấp quan trọng dựa trên phiên bản trước. Một đổi mới lớn của mô hình là tích hợp \"Chế độ suy nghĩ\" (Thinking Mode) và \"Chế độ không suy nghĩ\" (Non-thinking Mode) trong cùng một mô hình, người dùng có thể linh hoạt chuyển đổi bằng cách điều chỉnh mẫu trò chuyện để phù hợp với các yêu cầu nhiệm vụ khác nhau. Qua tối ưu hóa sau huấn luyện chuyên biệt, V3.1 đã cải thiện đáng kể hiệu suất trong việc gọi công cụ và nhiệm vụ Agent, hỗ trợ tốt hơn cho các công cụ tìm kiếm bên ngoài và thực hiện các nhiệm vụ phức tạp nhiều bước. Mô hình được huấn luyện tiếp dựa trên DeepSeek-V3.1-Base, sử dụng phương pháp mở rộng văn bản dài hai giai đoạn, tăng đáng kể lượng dữ liệu huấn luyện, giúp cải thiện khả năng xử lý tài liệu dài và mã nguồn dài. Là một mô hình mã nguồn mở, DeepSeek-V3.1 thể hiện năng lực tương đương với các mô hình đóng hàng đầu trong các bài kiểm tra chuẩn về mã hóa, toán học và suy luận, đồng thời với kiến trúc chuyên gia hỗn hợp (MoE), nó duy trì dung lượng mô hình lớn trong khi giảm chi phí suy luận hiệu quả."
"description": "Mô hình DeepSeek V3.1 là mô hình kiến trúc suy luận hỗn hợp, hỗ trợ cả chế độ tư duy và không tư duy."
},
"deepseek-ai/DeepSeek-V3.1-Terminus": {
"description": "DeepSeek-V3.1-Terminus là phiên bản cập nhật của mô hình V3.1 do DeepSeek phát hành, được định vị là mô hình ngôn ngữ lớn với trí tuệ hỗn hợp. Bản cập nhật này tập trung sửa các vấn đề phản hồi từ người dùng và nâng cao độ ổn định trong khi vẫn giữ nguyên khả năng của mô hình. Nó cải thiện đáng kể tính nhất quán ngôn ngữ, giảm thiểu việc sử dụng lẫn lộn tiếng Trung và tiếng Anh cũng như các ký tự bất thường. Mô hình tích hợp \"Chế độ suy nghĩ\" (Thinking Mode) và \"Chế độ không suy nghĩ\" (Non-thinking Mode), người dùng có thể linh hoạt chuyển đổi qua các mẫu trò chuyện để phù hợp với các nhiệm vụ khác nhau. Một tối ưu quan trọng là V3.1-Terminus tăng cường hiệu suất của Agent mã (Code Agent) và Agent tìm kiếm (Search Agent), giúp chúng đáng tin cậy hơn trong việc gọi công cụ và thực hiện các nhiệm vụ phức tạp nhiều bước."
},
"deepseek-ai/DeepSeek-V3.2-Exp": {
"description": "Mô hình DeepSeek V3.2 Exp là kiến trúc suy luận hỗn hợp, hỗ trợ cả chế độ tư duy và không tư duy."
"description": "DeepSeek-V3.2-Exp là phiên bản thử nghiệm V3.2 do DeepSeek phát hành, đóng vai trò là bước chuyển tiếp trong hành trình hướng tới kiến trúc thế hệ tiếp theo. Dựa trên nền tảng của V3.1-Terminus, phiên bản này tích hợp cơ chế Chú ý Thưa (DeepSeek Sparse Attention - DSA) nhằm nâng cao hiệu quả huấn luyện và suy luận trong ngữ cảnh dài. Nó được tối ưu hóa đặc biệt cho việc gọi công cụ, hiểu tài liệu dài và suy luận nhiều bước. V3.2-Exp là cầu nối giữa nghiên cứu và ứng dụng thực tế, phù hợp với người dùng mong muốn khám phá hiệu suất suy luận cao hơn trong các tình huống có ngân sách ngữ cảnh lớn."
},
"deepseek-ai/deepseek-llm-67b-chat": {
"description": "DeepSeek 67B là mô hình tiên tiến được huấn luyện cho các cuộc đối thoại phức tạp."
@@ -2474,9 +2486,6 @@
"mistralai/Mixtral-8x7B-v0.1": {
"description": "Mixtral 8x7B là một mô hình chuyên gia thưa thớt, tận dụng nhiều tham số để tăng tốc độ suy luận, phù hợp để xử lý đa ngôn ngữ và tạo mã."
},
"mistralai/mistral-7b-instruct": {
"description": "Mistral 7B Instruct là mô hình tiêu chuẩn ngành với tốc độ tối ưu hóa và hỗ trợ ngữ cảnh dài."
},
"mistralai/mistral-nemo": {
"description": "Mistral Nemo là mô hình 7.3B tham số hỗ trợ đa ngôn ngữ và lập trình hiệu suất cao."
},
+17 -8
View File
@@ -290,12 +290,12 @@
"Pro/deepseek-ai/DeepSeek-V3": {
"description": "DeepSeek-V3 是一款拥有 6710 亿参数的混合专家(MoE)语言模型,采用多头潜在注意力(MLA)和 DeepSeekMoE 架构,结合无辅助损失的负载平衡策略,优化推理和训练效率。通过在 14.8 万亿高质量tokens上预训练,并进行监督微调和强化学习,DeepSeek-V3 在性能上超越其他开源模型,接近领先闭源模型。"
},
"Pro/deepseek-ai/DeepSeek-V3.1": {
"description": "DeepSeek-V3.1 是由深度求索(DeepSeek AI)发布的混合模式大语言模型,它在前代模型的基础上进行了多方面的重要升级。该模型的一大创新是集成了“思考模式”(Thinking Mode)和“非思考模式”(Non-thinking Mode)于一体,用户可以通过调整聊天模板灵活切换,以适应不同的任务需求。通过专门的训练后优化,V3.1 在工具调用和 Agent 任务方面的性能得到了显著增强,能够更好地支持外部搜索工具和执行多步复杂任务。该模型基于 DeepSeek-V3.1-Base 进行后训练,通过两阶段长文本扩展方法,大幅增加了训练数据量,使其在处理长文档和长篇代码方面表现更佳。作为一个开源模型,DeepSeek-V3.1 在编码、数学和推理等多个基准测试中展现了与顶尖闭源模型相媲美的能力,同时凭借其混合专家(MoE)架构,在保持巨大模型容量的同时,有效降低了推理成本。"
},
"Pro/deepseek-ai/DeepSeek-V3.1-Terminus": {
"description": "DeepSeek-V3.1-Terminus 是由深度求索(DeepSeek)发布的 V3.1 模型的更新版本,定位为混合智能体大语言模型。此次更新在保持模型原有能力的基础上,专注于修复用户反馈的问题并提升稳定性。它显著改善了语言一致性,减少了中英文混用和异常字符的出现。模型集成了“思考模式”(Thinking Mode)和“非思考模式”(Non-thinking Mode),用户可通过聊天模板灵活切换以适应不同任务。作为一个重要的优化,V3.1-Terminus 增强了代码智能体(Code Agent)和搜索智能体(Search Agent)的性能,使其在工具调用和执行多步复杂任务方面更加可靠。"
},
"Pro/deepseek-ai/DeepSeek-V3.2-Exp": {
"description": "DeepSeek-V3.2-Exp 是 DeepSeek 发布的实验性 V3.2 版本,作为迈向下一代架构的中间探索。它在 V3.1-Terminus 的基础上引入了 DeepSeek 稀疏注意力(DeepSeek Sparse AttentionDSA)机制以提升长上下文训练与推理效率,针对工具调用、长文档理解与多步推理进行了专项优化。V3.2-Exp 为研究与产品化之间的桥梁,适合希望在高上下文预算场景中探索更高推理效率的用户。"
},
"Pro/moonshotai/Kimi-K2-Instruct-0905": {
"description": "Kimi K2-Instruct-0905 是 Kimi K2 最新、最强大的版本。它是一款顶尖的混合专家(MoE)语言模型,拥有 1 万亿的总参数和 320 亿的激活参数。该模型的主要特性包括:增强的智能体编码智能,在公开基准测试和真实世界的编码智能体任务中表现出显著的性能提升;改进的前端编码体验,在前端编程的美观性和实用性方面均有进步。"
},
@@ -398,6 +398,18 @@
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
"description": "Qwen3-Next-80B-A3B-Thinking 是由阿里巴巴通义千问团队发布的、专为复杂推理任务设计的下一代基础模型。它基于创新的 Qwen3-Next 架构,该架构融合了混合注意力机制(Gated DeltaNet 与 Gated Attention)和高稀疏度混合专家(MoE)结构,旨在实现极致的训练与推理效率。作为一个总参数达 800 亿的稀疏模型,它在推理时仅激活约 30 亿参数,大幅降低了计算成本,在处理超过 32K tokens 的长上下文任务时,吞吐量比 Qwen3-32B 模型高出 10 倍以上。此“Thinking”版本专为执行数学证明、代码综合、逻辑分析和规划等高难度多步任务而优化,并默认以结构化的“思维链”形式输出推理过程。在性能上,它不仅超越了 Qwen3-32B-Thinking 等成本更高的模型,还在多个基准测试中优于 Gemini-2.5-Flash-Thinking。"
},
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
"description": "Qwen3-VL-235B-A22B-Instruct 是 Qwen3-VL 系列的大型指令微调模型,基于混合专家(MoE)架构,拥有卓越的多模态理解与生成能力,原生支持 256K 上下文,适用于高并发生产级多模态服务。"
},
"Qwen/Qwen3-VL-235B-A22B-Thinking": {
"description": "Qwen3-VL-235B-A22B-Thinking 是 Qwen3-VL 系列中的旗舰思考版本,针对复杂多模态推理、长上下文推理与智能体交互进行了专项优化,适合需要深度思考与视觉推理的企业级场景。"
},
"Qwen/Qwen3-VL-30B-A3B-Instruct": {
"description": "Qwen3-VL-30B-A3B-Instruct 是 Qwen3-VL 系列的指令微调版本,具有强大的视觉-语言理解与生成能力,原生支持 256K 上下文长度,适合多模态对话与图像条件生成任务。"
},
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
"description": "Qwen3-VL-30B-A3B-Thinking 是 Qwen3-VL 的推理增强版本(Thinking),在多模态推理、图像到代码和复杂视觉理解任务上进行了优化,支持 256K 上下文并具备更强的链式思考能力。"
},
"Qwen/Qwen3-VL-8B-Instruct": {
"description": "Qwen3-VL-8B-Instruct 是 Qwen3 系列的视觉语言模型,基于 Qwen3-8B-Instruct 开发并在大量图文数据上训练,擅长通用视觉理解、以视觉为中心的对话以及图像中的多语言文本识别。适用于视觉问答、图像描述、多模态指令跟随与工具调用场景。"
},
@@ -978,13 +990,13 @@
"description": "DeepSeek-V3 是一款拥有 6710 亿参数的混合专家(MoE)语言模型,采用多头潜在注意力(MLA)和 DeepSeekMoE 架构,结合无辅助损失的负载平衡策略,优化推理和训练效率。通过在 14.8 万亿高质量tokens上预训练,并进行监督微调和强化学习,DeepSeek-V3 在性能上超越其他开源模型,接近领先闭源模型。"
},
"deepseek-ai/DeepSeek-V3.1": {
"description": "DeepSeek-V3.1 是由深度求索(DeepSeek AI)发布的混合模式大语言模型,它在前代模型的基础上进行了多方面的重要升级。该模型的一大创新是集成了“思考模式”(Thinking Mode)和“非思考模式”(Non-thinking Mode)于一体,用户可以通过调整聊天模板灵活切换,以适应不同的任务需求。通过专门的训练后优化,V3.1 在工具调用和 Agent 任务方面的性能得到了显著增强,能够更好地支持外部搜索工具和执行多步复杂任务。该模型基于 DeepSeek-V3.1-Base 进行后训练,通过两阶段长文本扩展方法,大幅增加了训练数据量,使其在处理长文档和长篇代码方面表现更佳。作为一个开源模型,DeepSeek-V3.1 在编码、数学和推理等多个基准测试中展现了与顶尖闭源模型相媲美的能力,同时凭借其混合专家(MoE)架构,在保持巨大模型容量的同时,有效降低了推理成本。"
"description": "DeepSeek V3.1 模型为混合推理架构模型,同时支持思考模式与非思考模式。"
},
"deepseek-ai/DeepSeek-V3.1-Terminus": {
"description": "DeepSeek-V3.1-Terminus 是由深度求索(DeepSeek)发布的 V3.1 模型的更新版本,定位为混合智能体大语言模型。此次更新在保持模型原有能力的基础上,专注于修复用户反馈的问题并提升稳定性。它显著改善了语言一致性,减少了中英文混用和异常字符的出现。模型集成了“思考模式”(Thinking Mode)和“非思考模式”(Non-thinking Mode),用户可通过聊天模板灵活切换以适应不同任务。作为一个重要的优化,V3.1-Terminus 增强了代码智能体(Code Agent)和搜索智能体(Search Agent)的性能,使其在工具调用和执行多步复杂任务方面更加可靠。"
},
"deepseek-ai/DeepSeek-V3.2-Exp": {
"description": "DeepSeek V3.2 Exp 模型为混合推理架构模型,同时支持思考模式与非思考模式。"
"description": "DeepSeek-V3.2-Exp 是 DeepSeek 发布的实验性 V3.2 版本,作为迈向下一代架构的中间探索。它在 V3.1-Terminus 的基础上引入了 DeepSeek 稀疏注意力(DeepSeek Sparse AttentionDSA)机制以提升长上下文训练与推理效率,针对工具调用、长文档理解与多步推理进行了专项优化。V3.2-Exp 为研究与产品化之间的桥梁,适合希望在高上下文预算场景中探索更高推理效率的用户。"
},
"deepseek-ai/deepseek-llm-67b-chat": {
"description": "DeepSeek LLM Chat (67B) 是创新的 AI 模型 提供深度语言理解和互动能力。"
@@ -2474,9 +2486,6 @@
"mistralai/Mixtral-8x7B-v0.1": {
"description": "Mixtral 8x7B是一个稀疏专家模型,利用多个参数提高推理速度,适合处理多语言和代码生成任务。"
},
"mistralai/mistral-7b-instruct": {
"description": "Mistral 7B Instruct 是一款兼有速度优化和长上下文支持的高性能行业标准模型。"
},
"mistralai/mistral-nemo": {
"description": "Mistral Nemo 是多语言支持和高性能编程的7.3B参数模型。"
},
+17 -8
View File
@@ -290,12 +290,12 @@
"Pro/deepseek-ai/DeepSeek-V3": {
"description": "DeepSeek-V3 是一款擁有 6710 億參數的混合專家(MoE)語言模型,採用多頭潛在注意力(MLA)和 DeepSeekMoE 架構,結合無輔助損失的負載平衡策略,優化推理和訓練效率。透過在 14.8 萬億高質量tokens上預訓練,並進行監督微調和強化學習,DeepSeek-V3 在性能上超越其他開源模型,接近領先閉源模型。"
},
"Pro/deepseek-ai/DeepSeek-V3.1": {
"description": "DeepSeek-V3.1 是由深度求索(DeepSeek AI)發佈的混合模式大型語言模型,它在前代模型的基礎上進行了多方面的重要升級。該模型的一大創新是整合了「思考模式」(Thinking Mode)與「非思考模式」(Non-thinking Mode)於一體,使用者可以透過調整聊天範本靈活切換,以適應不同的任務需求。透過專門的後訓練優化,V3.1 在工具調用與 Agent 任務方面的效能獲得顯著提升,能更好地支援外部搜尋工具及執行多步複雜任務。該模型基於 DeepSeek-V3.1-Base 進行後訓練,透過兩階段長文本擴展方法,大幅增加訓練資料量,使其在處理長文件與長篇程式碼方面表現更佳。作為一個開源模型,DeepSeek-V3.1 在編碼、數學與推理等多個基準測試中展現了與頂尖閉源模型相媲美的能力,同時憑藉其混合專家(MoE)架構,在保持龐大模型容量的同時,有效降低推理成本。"
},
"Pro/deepseek-ai/DeepSeek-V3.1-Terminus": {
"description": "DeepSeek-V3.1-Terminus 是由深度求索(DeepSeek)發佈的 V3.1 模型的更新版本,定位為混合智能體大語言模型。此次更新在保持模型原有能力的基礎上,專注於修復用戶反饋的問題並提升穩定性。它顯著改善了語言一致性,減少了中英文混用和異常字元的出現。模型整合了「思考模式」(Thinking Mode)和「非思考模式」(Non-thinking Mode),用戶可透過聊天範本靈活切換以適應不同任務。作為一個重要的優化,V3.1-Terminus 強化了程式碼智能體(Code Agent)和搜尋智能體(Search Agent)的效能,使其在工具呼叫和執行多步複雜任務方面更加可靠。"
},
"Pro/deepseek-ai/DeepSeek-V3.2-Exp": {
"description": "DeepSeek-V3.2-Exp 是 DeepSeek 發佈的實驗性 V3.2 版本,作為邁向下一代架構的中間探索。它在 V3.1-Terminus 的基礎上引入了 DeepSeek 稀疏注意力(DeepSeek Sparse AttentionDSA)機制,以提升長上下文訓練與推理效率,並針對工具調用、長文檔理解與多步推理進行了專項優化。V3.2-Exp 是研究與產品化之間的橋樑,適合希望在高上下文預算場景中探索更高推理效率的使用者。"
},
"Pro/moonshotai/Kimi-K2-Instruct-0905": {
"description": "Kimi K2-Instruct-0905 是 Kimi K2 最新、最強大的版本。它是一款頂尖的混合專家(MoE)語言模型,擁有 1 兆的總參數和 320 億的激活參數。該模型的主要特性包括:增強的智能體編碼智能,在公開基準測試和真實世界的編碼智能體任務中表現出顯著的性能提升;改進的前端編碼體驗,在前端程式設計的美觀性和實用性方面均有進步。"
},
@@ -398,6 +398,18 @@
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
"description": "Qwen3-Next-80B-A3B-Thinking 是由阿里巴巴通義千問團隊發布的、專為複雜推理任務設計的下一代基礎模型。它基於創新的 Qwen3-Next 架構,該架構融合了混合注意力機制(Gated DeltaNet 與 Gated Attention)和高稀疏度混合專家(MoE)結構,旨在實現極致的訓練與推理效率。作為一個總參數達 800 億的稀疏模型,它在推理時僅啟動約 30 億參數,大幅降低了計算成本,在處理超過 32K tokens 的長上下文任務時,吞吐量比 Qwen3-32B 模型高出 10 倍以上。此“Thinking”版本專為執行數學證明、程式碼綜合、邏輯分析和規劃等高難度多步任務而優化,並預設以結構化的“思維鏈”形式輸出推理過程。在性能上,它不僅超越了 Qwen3-32B-Thinking 等成本更高的模型,還在多個基準測試中優於 Gemini-2.5-Flash-Thinking。"
},
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
"description": "Qwen3-VL-235B-A22B-Instruct 是 Qwen3-VL 系列的大型指令微調模型,基於混合專家(MoE)架構,擁有卓越的多模態理解與生成能力,原生支援 256K 上下文,適用於高併發生產級多模態服務。"
},
"Qwen/Qwen3-VL-235B-A22B-Thinking": {
"description": "Qwen3-VL-235B-A22B-Thinking 是 Qwen3-VL 系列中的旗艦思考版本,針對複雜多模態推理、長上下文推理與智能體互動進行了專項優化,適合需要深度思考與視覺推理的企業級場景。"
},
"Qwen/Qwen3-VL-30B-A3B-Instruct": {
"description": "Qwen3-VL-30B-A3B-Instruct 是 Qwen3-VL 系列的指令微調版本,具備強大的視覺-語言理解與生成能力,原生支援 256K 上下文長度,適合多模態對話與圖像條件生成任務。"
},
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
"description": "Qwen3-VL-30B-A3B-Thinking 是 Qwen3-VL 的推理增強版本(Thinking),在多模態推理、圖像轉程式碼與複雜視覺理解任務上進行了優化,支援 256K 上下文並具備更強的鏈式思考能力。"
},
"Qwen/Qwen3-VL-8B-Instruct": {
"description": "Qwen3-VL-8B-Instruct 是 Qwen3 系列的視覺語言模型,基於 Qwen3-8B-Instruct 開發,並在大量圖文資料上進行訓練,擅長通用視覺理解、以視覺為核心的對話以及圖像中的多語言文字識別。適用於視覺問答、圖像描述、多模態指令跟隨與工具調用等場景。"
},
@@ -978,13 +990,13 @@
"description": "DeepSeek-V3 是一款擁有 6710 億參數的混合專家(MoE)語言模型,採用多頭潛在注意力(MLA)和 DeepSeekMoE 架構,結合無輔助損失的負載平衡策略,優化推理和訓練效率。通過在 14.8 萬億高品質 tokens 上預訓練,並進行監督微調和強化學習,DeepSeek-V3 在性能上超越其他開源模型,接近領先閉源模型。"
},
"deepseek-ai/DeepSeek-V3.1": {
"description": "DeepSeek-V3.1 是由深度求索(DeepSeek AI)發佈的混合模式大型語言模型,它在前代模型的基礎上進行了多方面的重要升級。該模型的一大創新是整合了「思考模式」(Thinking Mode)與「非思考模式」(Non-thinking Mode)於一體,使用者可以透過調整聊天範本靈活切換,以適應不同的任務需求。透過專門的後訓練優化,V3.1 在工具調用與 Agent 任務方面的效能獲得顯著提升,能更好地支援外部搜尋工具及執行多步複雜任務。該模型基於 DeepSeek-V3.1-Base 進行後訓練,透過兩階段長文本擴展方法,大幅增加訓練資料量,使其在處理長文件與長篇程式碼方面表現更佳。作為一個開源模型,DeepSeek-V3.1 在編碼、數學與推理等多個基準測試中展現了與頂尖閉源模型相媲美的能力,同時憑藉其混合專家(MoE)架構,在保持龐大模型容量的同時,有效降低推理成本。"
"description": "DeepSeek V3.1 模型為混合推理架構模型,同時支援思考模式與非思考模式。"
},
"deepseek-ai/DeepSeek-V3.1-Terminus": {
"description": "DeepSeek-V3.1-Terminus 是由深度求索(DeepSeek)發佈的 V3.1 模型的更新版本,定位為混合智能體大語言模型。此次更新在保持模型原有能力的基礎上,專注於修復用戶反饋的問題並提升穩定性。它顯著改善了語言一致性,減少了中英文混用和異常字元的出現。模型整合了「思考模式」(Thinking Mode)和「非思考模式」(Non-thinking Mode),用戶可透過聊天範本靈活切換以適應不同任務。作為一個重要的優化,V3.1-Terminus 強化了程式碼智能體(Code Agent)和搜尋智能體(Search Agent)的效能,使其在工具呼叫和執行多步複雜任務方面更加可靠。"
},
"deepseek-ai/DeepSeek-V3.2-Exp": {
"description": "DeepSeek V3.2 Exp 模型為混合推理架構模型,同時支援思考模式與非思考模式。"
"description": "DeepSeek-V3.2-Exp 是 DeepSeek 發佈的實驗性 V3.2 版本,作為邁向下一代架構的中間探索。它在 V3.1-Terminus 的基礎上引入了 DeepSeek 稀疏注意力(DeepSeek Sparse AttentionDSA)機制,以提升長上下文訓練與推理效率,並針對工具調用、長文檔理解與多步推理進行了專項優化。V3.2-Exp 是研究與產品化之間的橋樑,適合希望在高上下文預算場景中探索更高推理效率的使用者。"
},
"deepseek-ai/deepseek-llm-67b-chat": {
"description": "DeepSeek 67B 是為高複雜性對話訓練的先進模型。"
@@ -2474,9 +2486,6 @@
"mistralai/Mixtral-8x7B-v0.1": {
"description": "Mixtral 8x7B 是一個稀疏專家模型,利用多個參數提高推理速度,適合處理多語言和代碼生成任務。"
},
"mistralai/mistral-7b-instruct": {
"description": "Mistral 7B Instruct 是一款兼具速度優化和長上下文支持的高性能行業標準模型。"
},
"mistralai/mistral-nemo": {
"description": "Mistral Nemo 是多語言支持和高性能編程的7.3B參數模型。"
},