GLM-5 是 Z.ai 的旗舰开源基础模型,专为复杂系统设计和长时程代理工作流程而设计,它为专家开发者构建,在大型编程任务上提供生产级性能,与领先的闭源模型相媲美。凭借先进的代理规划、深度后端推理和迭代自我纠正。GLM-5 超越了代码生成,实现了全系统构建和自主执行。
Kimi系列迄今最全能的模型,在 Agent、代码生成、视觉理解及一系列通用智能任务上取得开源 SOTA 表现,同时支持图像、视频与文本输入、思考与非思考模式、对话与 Agent 任务。
Gemini 2.5 Flash 是 Google 顶尖的“主力级(workhorse)”模型,专为高级推理、编程、数学及科学任务而设计。它内置了“思考(thinking)”能力,使其能够提供准确度更高、且能处理微妙上下文语境的回复。 此外,Gemini 2.5 Flash 支持通过“推理最大 Token 数(max tokens for reasoning)”参数进行灵活配置。
Grok-4.1-fast-reasoning 是 Grok-4 系列的最新演进版本。与 4.0 相比,它并非单纯提升智力上限,而是通过优化「推理剪枝(Reasoning Pruning)」技术,有效减少了模型在深度思考过程中可能出现的「逻辑死循环」问题。该模型被设计为当前市场上最具「确定性」的快速推理模型。
Grok 3 是 xAI 最新的模型。它是他们的旗舰模型,擅长企业级应用场景。如数据提取、编程和文本摘要。在金融、医疗保健、法律和科学领域拥有深厚的专业知识。
Grok-4-fast-reasoning 是 Grok-4 家族中的「高效推理」版本。它结合了传统快速模型的高吞吐量与 O1/O3 系列的「思维链(Chain-of-Thought)」能力。与标准版不同,该模型在生成最终答案前,会自动分配一个内部的「推理预算」,用于逻辑校验和复杂问题的拆解。 模型亮点: 极速推理:首创「快速思考」架构,在推理深度与响应速度之间实现良好平衡。 编程与逻辑专家:在 MathArena 和 SWE-bench 等基准测试中表现优异。 高性价比:享受 65 折优惠后,是目前市场上最具性价比的推理型模型。 适用场景: 代码审计、复杂逻辑决策、高等教育辅导、高并发 Agent 工作流。
Gemini 2.5 Flash-Lite 是 Gemini 2.5 系列中的一款轻量级推理模型,专为极低延迟和高成本效益而优化。与早期的 Flash 模型相比,它提供了更高的吞吐量、更快的 Token 生成速度,并在常用基准测试中表现出更好的性能。默认情况下,为了优先保证速度,该模型的“思考(即多步推理)”功能是禁用的;但开发者可以通过推理 API 参数开启该功能,从而有选择地在成本与智能程度之间进行权衡。
Gemini 2.5 Pro 是 Google 的顶尖 AI 模型,专为高级推理、编程、数学及科学任务而设计。它采用了“思考(Thinking)”能力,使其能够通过更精确的推理和细致入微的上下文处理生成回复。Gemini 2.5 Pro 在多项基准测试中均取得了顶级成绩,包括在 LMArena 排行榜上名列第一,这反映了其卓越的人类偏好一致性以及解决复杂问题的能力。
Gemini 3 Pro 是 Google 的旗舰前沿模型,专注于高精度多模态推理。它将文本、图像、视频、音频和代码的强大性能与 100 万 Token 的上下文窗口相结合。在进行多轮工具调用(Tool Calling)时,必须保留“推理详情(Reasoning Details)”。该模型在通用推理、STEM(科学、技术、工程、数学)问题解决、事实问答以及多模态理解方面均取得了顶尖的基准测试成绩,包括在 LMArena、GPQA Diamond、MathArena Apex、MMMU-Pro 和 Video-MMMU 上均处于领先地位。其交互体验强调深度与可解释性:模型旨在通过极简的提示词推断用户意图,并生成直接且富有洞察力的回复。 Gemini 3 Pro 专为高级开发和智能体(Agent)工作流而构建,提供稳健的工具调用能力、长周期规划稳定性,以及在复杂 UI、可视化和编程任务中卓越的零样本生成能力。它在智能体编程(SWE-Bench 认证、Terminal-Bench 2.0)、多模态分析以及结构化长篇任务(如研究综述、规划和交互式学习体验)方面表现出色。适用场景包括自主智能体、编程助手、多模态分析、科学推理以及高上下文信息处理。
Gemini 3.1 Pro Preview 是 Google 的前沿推理模型,在软件工程性能、智能体(Agent)可靠性以及复杂工作流中的 Token 使用效率方面均有显著提升。它基于 Gemini 3 系列的多模态基础,将文本、图像、视频、音频和代码的高精度推理能力与 100 万 Token 的上下文窗口相结合。在进行多轮工具调用(Tool Calling)时,必须保留“推理详情(Reasoning Details)” 3.1 版本的更新在 SWE(软件工程)基准测试和真实编程环境中带来了可衡量的提升,并在金融和基于电子表格的工作流等结构化领域中展现出更强的自主任务执行能力。Gemini 3.1 Pro Preview 专为高级开发和智能体系统设计,改善了长周期稳定性(Long-horizon Stability)和工具编排能力。它引入了全新的“中等(Medium)”思考等级,以更好地平衡成本、速度与性能。该模型在智能体编程、结构化规划、多模态分析和工作流自动化方面表现卓越,非常适合自主智能体、金融建模、表格自动化以及高上下文的企业级任务。
Gemini 3 Flash Preview 是一款高速度、高价值的推理模型,专为智能体(Agent)工作流、多轮对话和编程辅助而设计。它能够提供接近 Pro 级模型的推理与工具调用性能,且延迟显著低于更大规格的 Gemini 变体,因此非常适合交互式开发、长周期的智能体循环以及协作编程任务。与 Gemini 2.5 Flash 相比,它在推理、多模态理解和可靠性方面实现了全面的质量提升。 该模型支持 100 万 Token 的上下文窗口,以及包括文本、图像、音频、视频和 PDF 在内的多模态输入(输出为文本)。它具备可配置的推理功能,支持多种思考等级(Minimal, Low, Medium, High)、结构化输出、工具调用以及自动上下文缓存(Context Caching)。Gemini 3 Flash Preview 专为那些既追求强大推理与智能体行为,又不希望承担顶级尖端模型高昂成本或高延迟的用户而优化。
Gemini 3.1 Flash Lite Preview 是 Google 推出的一款高效率模型,专为高并发(高吞吐量)使用场景而优化。它的整体质量超越了 Gemini 2.5 Flash Lite,并在关键能力上接近 Gemini 2.5 Flash。改进范围涵盖了音频输入/自动语音识别 (ASR)、RAG 检索片段排序、翻译、数据提取以及代码补全。此外,它支持完整的“思考等级(Minimal, Low, Medium, High)”,允许用户在成本与性能之间进行精细化权衡。该模型的定价仅为 Gemini 3 Flash 的一半。
text-embedding-ada-002 是 OpenAI 推出的第二代嵌入(Embedding)模型,旨在将文本转化为高维向量(Vectors),以便机器能够“理解”文本之间的语义相似度。尽管 OpenAI 后续推出了更强大的 text-embedding-3 系列,但 ada-002 凭借其稳定的性能和极高的兼容性,目前仍是业界最广泛使用的嵌入模型之一。
GPT-5.1-chat 通过自适应推理和强大的安全防护,打造快速、上下文感知的聊天体验。聊天中首次加入了思维链。将互动体验提升到新高度。它注重安全和指令执行,非常适合客户支持、IT帮助台、人力资源和销售赋能。多模态聊天(文本、图片和音频)提升了长期对话的一致性,实现了真正的问题解决,提供品牌一致、安全的对话,并支持下一步最佳行动的建议。
GPT-5.1-codex-mini 是一个紧凑、高效的变体,针对资源受限的环境进行了优化。它保持了与 GPT-5.1-codex 接近最先进的性能、多模态智能以及相同的安全堆栈和工具访问,使其成为教育、初创企业和成本良知环境中经济高效、可扩展的解决方案的最佳选择。
GPT-5.1-codex 代理编码的前沿模型,GPT-5.1-codex 建立在 GPT-5-codex 奠定的基础之上,通过以下方式推进开发人员工具:增强推理框架,用于逐步、上下文感知的代码分析和生成;针对某些开发方案的增强工具处理;多模态智能,在编码时提供更丰富的开发人员体验;凭借 Foundry 的企业级安全性和治理,GPT-5.1-codex 是自动化代码生成和审查的理想选择,通过智能代码建议、重构和错误检测加快开发周期
通义千问的增强型大规模视觉语言模型。该模型在细节识别能力和文本识别能力方面进行了显著升级,支持高达数百万像素的超高清图像分辨率和极端的宽高比。它在广泛的视觉任务中表现出卓越的性能。
针对您提供的 GPT-5.4 介绍,这是 OpenAI 2026 年的主力旗舰模型,其核心亮点在于彻底整合了编程与通用推理能力。以下是精准的中文翻译: ## 1. 核心内容翻译 GPT-5.4 是 OpenAI 最新的前沿模型,将原有的 Codex(编程专用)和 GPT(通用)系列统一到了单一系统中。它拥有 100 万+ Token 的超大上下文窗口(支持 92.2 万输入与 12.8 万输出),并支持文本与图像双模态输入,能够在同一工作流中实现高上下文推理、代码编写及多模态分析。 该模型在编程、文档理解、工具调用及指令遵循方面展现了更强的性能。作为通用任务和软件工程的强力默认选择,它能够生成生产级别的代码、综合处理多源信息,并以更少的迭代次数和更高的 Token 效率执行复杂的多步工作流
通义千问系列速度最快、成本极低的模型,适合简单任务。通义千问Flash采用灵活的阶梯定价,相比通义千问Turbo计费更合理。
deepseek-r1 是由深度求索推出的深度思考模型。在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。
GPT-5.2-Codex是GPT-5.1-Codex的升级版本,针对软件工程和编码工作流程进行了优化。它既适用于交互式开发会话,也适用于复杂工程任务的长时间独立执行。该模型支持从零开始构建项目、功能开发、调试、大规模重构和代码审查。与GPT-5.1-Codex相比,5.2-Codex更具可控性,更紧密地遵循开发者指令,并生成更干净、更高质量的代码输出。可以通过reasoning.effort参数调整推理力度。文档请在此处查阅。 Codex可以集成到开发者环境中,包括CLI、IDE扩展、GitHub和云任务。它能够动态调整推理力度——为小任务提供快速响应,同时为大型项目持续进行多小时的长时间运行。该模型经过训练,能够执行结构化的代码审查,通过推理依赖关系来捕捉关键缺陷,并通过测试验证行为。它还支持图像或截图等多模态输入,用于UI开发,并集成了用于搜索、依赖安装和环境设置的工具。Codex专门用于代理式编码应用。
GPT-5.3-Codex是OpenAI最先进的代理编程模型,结合了GPT-5.2-Codex的前沿软件工程性能和GPT-5.2更广泛的推理和专业知识能力。它在SWE-Bench Pro上取得了最先进的结果,并在Terminal-Bench 2.0和OSWorld-Verified上表现出色,反映了多语言编程、终端熟练度和实际计算机使用技能的改进。该模型针对长时间运行、使用工具的工作流程进行了优化,并在执行过程中支持交互式指导,适合复杂的开发任务、调试、部署和迭代产品工作。 除了编程之外,GPT-5.3-Codex在GDPval等结构化知识工作基准测试中表现优异,支持文档起草、电子表格分析、幻灯片创建和跨领域的运营研究任务。它经过增强型网络安全意识的训练,包括漏洞识别能力,并在高风险用例中部署了额外的安全措施。与之前的Codex模型相比,它更加高效,速度提高了约25%,旨在覆盖推理、执行和计算机交互的端到端专业工作流程。
GPT-5.1-Codex-Max 是 OpenAI 最新一代的智能编码模型,专为长期运行、高上下文软件开发任务设计。它基于更新后的 5.1 推理栈,并在涵盖软件工程、数学和研究的智能工作流程上进行训练。GPT-5.1-Codex-Max 在整个开发生命周期中提供更快的性能、改进的推理和更高的 token 效率。
GPT-5-Codex是GPT-5的专门版本,针对软件工程和编码工作流程进行了优化。它既适用于交互式开发会话,也适用于复杂工程任务的长期独立执行。该模型支持从零开始构建项目、功能开发、调试、大规模重构和代码审查。与GPT-5相比,Codex更具可控性,更紧密地遵循开发人员指令,并生成更干净、更高质量的代码输出。可以通过reasoning.effort参数调整推理力度。请在此处阅读文档。 Codex集成了开发环境,包括CLI、IDE扩展、GitHub和云任务。它能够动态调整推理力度——为小任务提供快速响应,同时为大型项目保持长时间的多小时运行。该模型经过训练,能够执行结构化的代码审查,通过推理依赖关系来捕捉关键缺陷,并通过测试验证行为。它还支持图像或截图等多模态输入,用于UI开发,并集成了用于搜索、依赖安装和环境设置的工具使用。Codex专门用于代理式编码应用。
GPT-5-Nano是GPT-5系统中最小、最快的变体,专为开发者工具、快速交互和超低延迟环境优化。虽然与更大的同类相比在推理深度上有限制,但它保留了关键的指令遵循和安全特性。它是GPT-4.1-nano的继任者,为成本敏感或实时应用提供了轻量级选择。
GPT-5 Mini是GPT-5的紧凑版,旨在处理更轻量级的推理任务,它提供了与GPT-5相同的指令遵循和安全调优优势,但具有更低的延迟和成本。GPT-5 Mini是OpenAI的o4-mini模型的继任者。
MiniMax-M2.5 是一个为实际应用而设计的顶尖大型语言模型。M2.5 在多种复杂的实际数字工作环境中进行训练,基于 M2.1 的编码专业知识,扩展到通用办公工作,能够熟练生成和操作 Word、Excel 和 PowerPoint 文件,在不同软件环境之间进行上下文切换,并在不同代理和人类团队之间协作。在 SWE-Bench 验证测试中得分 80.2%,在 Multi-SWE-Bench 中得分 51.3%,在 BrowseComp 中得分 76.3%,M2.5 还比前几代模型更高效,通过规划训练来优化其动作和输出。
Qwen3.5 本地视觉语言系列 Plus 模型基于混合架构构建,该架构集成了线性注意力机制与稀疏专家混合模型,实现了更高的推理效率。在各种任务评估中,3.5 系列始终表现出与最先进领先模型相当的性能。与 3 系列相比,这些模型在纯文本和多模态能力上均实现了显著进步。
Qwen-Plus,基于Qwen2.5基础模型,是一个具有平衡性能、速度和成本组合的131K上下文模型。
GPT-5是OpenAI最先进的模型,在推理、代码质量和用户体验方面提供了重大改进。它针对需要逐步推理、遵循指令和在高风险用例中保持准确性的复杂任务进行了优化。它支持测试时路由功能和高级提示理解。包括用户指定的意图,如“认真思考这个问题。”改进包括减少幻觉、谄媚,以及在编码、写作和与健康相关任务中的表现提升。
DeepSeek-V3.2 是一个大型语言模型,旨在实现高计算效率与强大推理能力及代理工具使用性能的平衡。它引入了 DeepSeek 稀疏注意力(DSA),这是一种细粒度的稀疏注意力机制,能够在长上下文场景中减少训练和推理成本,同时保持质量。一个可扩展的强化学习后训练框架进一步提升了推理能力,其性能据报告与 GPT-5 相当。并且该模型在 2025 年 IMO 和 IOI 中取得了金牌成绩。V3.2 还使用了大规模的代理任务合成流水线,以更好地将推理能力整合到工具使用场景中,从而提升交互环境中的合规性和泛化能力。用户可以通过推理启用布尔值来控制推理行为。
GPT-5.1是主线模型,旨在提供自适应的分步推理,并根据每个任务的复杂度调整其方法。核心能力包括 适应性推理以实现细致、情境感知的思考时间;多模态智能:支持文本、图像和音频输入/输出;企业级性能、安全性与合规性,该模型的灵活性使开发者能够处理从简单查询到企业级解决方案的深度多步工作流程。凭借其智能平衡速度、成本和智能的能力,GPT-5.1在AI驱动开发中树立了性能与效率的新标杆。
GPT-5.2 Chat(又称为Instant)是5.2系列中快速、轻量级的成员,专为低延迟的对话优化。同时保留强大的通用智能。它使用自适应推理,在处理较难的查询时选择性地进行“思考”,从而在数学、编程和多步骤任务中提高准确性,而不会影响常规对话的速度。该模型默认更加温暖和对话化,具有更好的指令遵循能力和更稳定的短格式推理。GPT-5.2 Chat专为高吞吐量、交互式的工作负载而设计,在响应速度和一致性方面更为重要,而不仅仅是深入的思考。。
GPT-5.2 是 GPT-5 系列中最新一代的前沿级模型、相比 GPT-5.1,其在代理能力和长上下文处理方面表现更强。它采用自适应推理来动态分配计算资源,能够快速响应简单查询,同时在复杂任务上投入更多深度。GPT-5.2 专为广泛的任务覆盖而设计,在数学、编程、科学和工具调用等任务中均实现了持续的性能提升,提供更加连贯的长文本回答,并提高了工具使用的可靠性。
Qwen3-Max 是 Qwen3 系列的全新升级版本,相较于 2025 年 1 月的版本,在推理、指令遵循、多语言支持以及长尾知识覆盖等方面都有重大提升。它在数学、编程、逻辑和科学任务上实现了更高的准确率,更可靠地遵循中文和英文中的复杂指令,减少了幻觉现象,并为开放式问答、写作和对话提供了更高质量的回应。该模型支持超过 100 种语言,在翻译和常识推理方面更为强大,针对检索增强生成(RAG)和工具调用进行了优化,但不包含专门的“思考”模式。
Qwen-Max,基于Qwen2.5,在Qwen模型中提供了最佳的推理性能,尤其是在复杂的多步骤任务中。它是一个大规模的MoE模型,已经在超过2000万亿个标记上进行了预训练,并进一步通过精心挑选的监督微调(SFT)和基于人类反馈的强化学习(RLHF)方法进行了后训练。参数数量未知。
Qwen2.5 72B是Qwen大型语言模型的最新系列。Qwen2.5在Qwen的基础上带来了以下改进:知识量显著增加,在编码和数学方面的能力有了很大提升,这得益于我们在这些领域的专业模型。在遵循指令、生成长文本(超过8K个标记)、理解结构化数据(例如,表格)以及生成结构化输出(尤其是JSON)方面有显著改进。对系统提示的多样性更具抵抗力,增强了角色扮演的实现和聊天机器人的条件设置。支持长上下文,最多可达128K个标记,并且可以生成最多8K个标记。支持超过29种语言,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等更多语言。
DeepSeek-V3.2-Exp 是 DeepSeek 发布的一个实验性大型语言模型,作为 V3.1 和未来架构之间的一个中间步骤。它引入了 DeepSeek 稀疏注意力(DSA),这是一种旨在提高长上下文场景中训练和推理效率的同时保持输出质量的高粒度稀疏注意力机制。用户可以通过启用推理行为的布尔值来控制推理行为。更多详情请参阅我们的文档。该模型在符合 V3.1-Terminus 条件下进行训练,以便进行直接比较。基准测试显示,在推理、编码和代理工具使用任务方面,其性能与 V3.1 大致相当,具体取决于领域,存在一些小的权衡和收益。这次发布主要关注验证扩展上下文长度的架构优化,而不是提高原始任务准确性,因此它主要是一个以研究为导向的模型,用于探索高效的 Transformer 设计。
DeepSeek-V3 是 DeepSeek 团队最新的模型,它建立在之前版本的良好指令遵循和编码能力之上。该模型在近 150 万亿个 token 上进行了预训练,据报道,其评估结果显示该模型优于其他开源模型,甚至超越了领先的闭源模型。
DeepSeek-V3.1 是一个大型混合推理模型(671B 参数,37B 活跃参数),通过提示模板支持思考和非思考模式。它通过两阶段长上下文训练过程扩展了 DeepSeek-V3 基础模型,达到高达 128K 个 token,并使用 FP8 微缩放进行高效推理。用户可以通过推理启用布尔值控制推理行为。请查阅我们的文档了解更多信息。该模型改进了工具使用、代码生成和推理效率,在困难基准测试中的性能与 DeepSeek-R1 相当,同时响应速度更快。它支持结构化工具调用、代码代理和搜索代理,适用于研究、编码和代理工作流。
5月28日更新了原始DeepSeek R1性能,与OpenAI o1相当,但已开源,并具有完全开放的推理令牌。它的大小为671B参数,在推理过程中有37B处于活跃状态。完全开源的模型。
text-embedding-3-small 是 OpenAI 改进后的 ada 嵌入模型,性能更优。嵌入是一种文本的数值表示,可用于测量两段文本的相关性。嵌入在搜索、聚类、推荐、异常检测和分类任务中很有用。
text-embedding-3-large 是 OpenAI 最强大的嵌入模型,适用于英文和非英文任务。嵌入是文本的数值表示,可用于测量两段文本的相关性。嵌入可用于搜索、聚类、推荐、异常检测和分类任务。