オープンソース AI コーディングモデル: Intelligence Brief
Key Judgments
オープンモデルはプロプライエタリとの性能差を実用上無視可能な水準まで縮小した (confidence: high) SWE-bench Verified のギャップは約3ポイント (GLM-5 77.8% vs Claude Opus 4.6 ~81%)。3ポイント差はスキャフォールディング条件の違いで逆転し得る範囲であり、ベンチマーク上の優位性はもはやプロプライエタリの確定的な差別化要因ではない。
Ultra-Sparse MoE がコーディング AI のコスト構造を根本から変える (confidence: high) Qwen3-Coder-Next は 3B アクティブパラメータで SWE-bench 70.6% を達成。DeepSeek V3.2 (37B active) の 12分の1の計算量で同等スコアを実現しており、消費者 GPU でのローカル推論が現実的になった。
プロプライエタリモデルの残存優位は「最後の3-8ポイント」に 50-300倍のコストプレミアムで成り立っている (confidence: high) SWE-bench 1ポイントあたりの output コストで比較すると、Qwen3-Coder-Next ($0.004/pt) は Claude Opus 4.6 ($0.313/pt) の約80分の1。この構図はコスト感度の高いユースケースでオープンモデルの採用を不可避にする。
DeepSeek V4 のリリース (2026-02-17頃予告) が実現すれば、市場構図が再編される可能性がある (confidence: low) 1M+ コンテキスト、Consumer GPU 対応が報道されているが、DeepSeek 公式の確認はなく、独立ベンチマーク結果もない。現時点では投機的情報として扱うべき。
ベンチマークスコアの絶対値よりもモデル + エージェント基盤の組み合わせが実務性能を決定する (confidence: high) 同一モデルでもスキャフォールディング (OpenHands, Aider, SWE-Agent 等) の選択で 5-10ポイントの差が生じる。HumanEval はデータ汚染リスクが高く信頼度が低い。
Developments
1. モデル概要
| モデル | 開発元 | リリース日 | パラメータ (総数/アクティブ) | コンテキスト長 | ライセンス |
|---|---|---|---|---|---|
| GLM-5 | Zhipu AI (Z.AI) | 2026-02-11 | 744B / 40B (MoE) | 200K | MIT |
| DeepSeek V3.2 | DeepSeek | 2025-12 | 非公開 / 37B (MoE推定) | 128K+ | MIT相当 |
| DeepSeek V4 | DeepSeek | 未リリース (2026-02-17頃予告) | 未確定 | 1M+ (予告) | 未確定 |
| Qwen3-Coder | Alibaba (Qwen) | 2025-07-23 | 480B / 35B (MoE) | 256K (1Mまで外挿可) | Apache 2.0 |
| Qwen3-Coder-Next | Alibaba (Qwen) | 2026-02-04 | 80B / 3B (Ultra-Sparse MoE) | 256K | Apache 2.0 |
| Kimi K2.5 | Moonshot AI | 2026-01 | 1T / 32B (MoE) | 256K | オープンウェイト |
2. SWE-bench Verified (実世界バグ修正能力)
SWE-bench Verified は GitHub の実際の Issue/PR を用いてソフトウェアエンジニアリング能力を評価する。スコアは使用するスキャフォールディングに依存するため、条件差を考慮した上での比較が必要。
| モデル | スコア | 条件・備考 | 出典 |
|---|---|---|---|
| GLM-5 | 77.8% | 自己申告、スキャフォールディング詳細未公開 | digitalapplied.com (2026-02-11) |
| Kimi K2.5 | 76.8% | Non-thinking mode、pass@1 方法論未詳 | GitHub/MoonshotAI (2026-01) |
| DeepSeek V3.2 | 70.2-73.1% | ソースにより差異あり (スキャフォールディング依存) | marc0.dev / llm-stats.com (2026-02) |
| Qwen3-Coder-Next | 70.6% | 3B アクティブパラメータ、Ultra-Sparse MoE | marc0.dev (2026-02-04) |
| Qwen3-Coder (480B) | 69.6% | test-time scaling なし | qwenlm.github.io (2025-07) |
| — 参考: プロプライエタリ — | |||
| Claude Opus 4.6 (Thinking) | 79.2-80.9% | 独立検証あり | llm-stats.com (2026-02) |
| GPT-5.2 | 75.4-80.0% | 設定によりばらつき大 | llm-stats.com (2026-02) |
| Gemini 3 Pro | 76.2% | llm-stats.com (2026-02) | |
| Gemini 3 Flash | 78.0% | llm-stats.com (2026-02) |
3. SWE-bench 関連指標
| モデル | SWE-bench Multilingual | SWE-bench Pro |
|---|---|---|
| GLM-5 | 73.3% | — |
| Kimi K2.5 | 73.0% | — |
| Qwen3-Coder-Next | 62.8% | 44.3% |
4. LiveCodeBench (競技プログラミング系)
LiveCodeBench は LeetCode / AtCoder / CodeForces から新規問題を継続収集し、データ汚染を回避する設計。
| モデル | LiveCodeBench v6 | 出典 |
|---|---|---|
| GLM-4.7 (前世代参考) | 84.9% | Medium/@leucopsis (2025-12) |
| DeepSeek V3.2 | 83.3% | Medium/@leucopsis (2025-12) |
| DeepSeek V3.2-Speciale | 89.6% | llm-stats.com (2026-02) |
| Qwen3-235B | 74.8 | qwenlm.github.io |
| — 参考: プロプライエタリ — | ||
| Gemini 3 Pro (high) | 91.7% | llm-stats.com (2026-02) |
| Gemini 3 Flash (Reasoning) | 90.8% | llm-stats.com (2026-02) |
GLM-5 の LiveCodeBench スコアは 2026-02-12 時点で未公開。リリース直後のため独立評価待ち。
5. その他の指標
| モデル | HumanEval | CC-Bench-V2 (Build Success) | Aider Polyglot |
|---|---|---|---|
| GLM-5 | — | 98% | — |
| Qwen3-Coder | 88.4% | — | — |
| GLM-4.5 (FP8) 参考 | — | — | 66% |
HumanEval はデータ汚染リスクが高いため、モデル選定の主要指標としては非推奨。
6. API 価格比較 (2026-02時点)
| モデル | Input ($/M tokens) | Output ($/M tokens) | 備考 |
|---|---|---|---|
| DeepSeek V3.2 | $0.28 (cache miss) / $0.028 (cache hit) | $0.42 | 最安価帯、cache hit で 90% 削減 |
| Qwen3-Coder-Next | $0.07 | $0.30 | 3B active で超低コスト |
| Qwen3-Coder (480B) | $0.22 | $1.00 | |
| Kimi K2.5 | $0.60 | $2.50 | cache で $0.15/M に削減可 |
| GLM-5 | $0.71-1.00 | $2.56-3.57 | プロバイダにより差異 |
| — 参考: プロプライエタリ — | |||
| Claude Opus 4.6 | $5.00 | $25.00 | cache 利用で $0.50/M input |
| GPT-5.2 | $1.25 | $10.00 | |
| Gemini 3 Pro | $2.00 | $12.00 |
7. SWE-bench Verified あたりのコスト効率
SWE-bench Verified 1ポイントあたりの output トークンコスト概算。スコアが高くても高コストなら実務上の ROI は低下する。
| モデル | SWE-bench (%) | Output ($/M) | コスト効率指標 (低いほど良い) |
|---|---|---|---|
| Qwen3-Coder-Next | 70.6 | $0.30 | $0.004/pt |
| DeepSeek V3.2 | ~72 | $0.42 | $0.006/pt |
| Qwen3-Coder (480B) | 69.6 | $1.00 | $0.014/pt |
| Kimi K2.5 | 76.8 | $2.50 | $0.033/pt |
| GLM-5 | 77.8 | ~$3.00 | $0.039/pt |
| Claude Opus 4.6 | ~80 | $25.00 | $0.313/pt |
| GPT-5.2 | ~78 | $10.00 | $0.128/pt |
| Gemini 3 Pro | 76.2 | $12.00 | $0.157/pt |
8. セルフホスティング実現性
| モデル | ローカル実行の実現性 | 必要ハードウェア概算 |
|---|---|---|
| Qwen3-Coder-Next (80B/3B) | 高 — 3B アクティブで消費者 GPU で動作可能 | RTX 4090 x1 程度 |
| Qwen3-Coder (480B/35B) | 中 — 量子化で対応可能 | A100 80GB x4-8 |
| DeepSeek V3.2 | 中 — MoE だがフル重みが大きい | A100 80GB x8+ |
| GLM-5 (744B/40B) | 中-低 — リリース直後、最適化途上 | A100 80GB x8+ |
| Kimi K2.5 (1T/32B) | 低 — 1T パラメータの重み配布が課題 | H100 x8+ |
9. プロプライエタリとの性能ギャップ推移
Artificial Analysis (2026-02) によると、オープンソースとプロプライエタリのクオリティインデックス差は 5-9ポイントに縮小。2024-10 時点の 15-20ポイント差から約1年で半減以上のペースで収束が進行。
| 時期 | プロプライエタリ最高 | オープン最高 | ギャップ |
|---|---|---|---|
| 2024-10 | ~50% | ~30% | 20pt |
| 2025-07 | ~65% | ~55% | 10pt |
| 2026-02 | ~81% | ~78% | 3pt |
プロプライエタリが優位な領域:
| 領域 | 状況 | 備考 |
|---|---|---|
| SWE-bench 最高スコア | 約3pt差 (GLM-5 77.8% vs Claude 80.9%) | スキャフォールディング条件で逆転の可能性あり |
| 大規模リファクタリング | プロプライエタリ優位 | Claude Opus の extended thinking が長距離推論で有利 |
| マルチファイル整合性 | プロプライエタリ優位 | GPT-5.2 の長コンテキスト精度が高い |
| エッジケース処理 | 差縮小中 | Kimi K2.5 の Swarm mode が新アプローチ |
オープンモデルが優位な領域:
| 領域 | 理由 |
|---|---|
| コスト | API で 5-50倍安価、セルフホスティングでさらに削減 |
| カスタマイズ性 | ファインチューニング、LoRA 適応、量子化が自由 |
| レイテンシ制御 | セルフホスティングでネットワーク遅延を排除可能 |
| データプライバシー | 外部 API 送信不要でオンプレミス運用可能 |
| フロントエンド生成 | GLM-5 は CC-Bench-V2 で 98% ビルド成功率 |
10. 各モデル詳細
GLM-5 (Zhipu AI / Z.AI)
2026-02-11 | 744B MoE / 40B active | MIT
- SWE-bench Verified 77.8% でオープンモデル最高スコア (2026-02時点)
- フロントエンドコード生成に特化した強化 (CC-Bench-V2 で 98% ビルド成功率、GLM-4.7 比 +26%)
- Huawei Ascend チップのみで訓練 (地政学的観点で注目)
- “Slime” RL 手法で hallucination 率を大幅低減
- 課題: リリース直後のため独立検証不十分。LiveCodeBench 等未公開。API 価格はオープンモデル中では高め
DeepSeek V3.2
2025-12 | MoE / 37B active (推定) | MIT 相当
- 圧倒的なコスト効率: Output $0.42/M tokens (プロプライエタリの 25-60分の1)
- SWE-bench 70-73%、LiveCodeBench 83.3% とバランスが良い
- V3.2-Speciale は競技プログラミングで金メダル水準 (IOI 2025, ICPC World Final 2025)
- 課題: 推論時のトークン消費量が全モデル中最大級 (“verbosity” 問題)。長い推論チェーンがコスト効率を一部相殺
DeepSeek V4 (予告・未リリース)
予告 2026-02-17頃 | 未確定
以下はすべて未検証の事前情報。実際のリリース内容と異なる可能性あり。
- 1M+ トークンのコンテキストウィンドウ (Engram conditional memory 技術を統合)
- mHC (Manifold-Constrained Hyper-Connections) によるスケーラブルな訓練
- Consumer GPU (RTX 4090 x2 または RTX 5090 x1) での動作を目標
- 内部テストではコーディングタスクで Claude / GPT 系を上回ると主張
- 検証ステータス: 複数の技術メディアが報道しているが、DeepSeek 公式からの確認は未取得。独立ベンチマーク結果もなし
Qwen3-Coder / Qwen3-Coder-Next
Coder: 2025-07-23 | 480B/35B | Apache 2.0 Coder-Next: 2026-02-04 | 80B/3B (Ultra-Sparse) | Apache 2.0
- Coder-Next: 3B アクティブパラメータで SWE-bench 70.6%。DeepSeek V3.2 (37B active, 70.2%) の 12分の1の計算量で同等スコア。消費者 GPU でローカル実行可能。API も $0.07/$0.30 と最安値帯
- Coder 480B: 92 プログラミング言語対応。Agent RL (Long-horizon RL) による multi-turn ツール使用の最適化。20,000 並列環境での訓練
- 課題: SWE-bench Multilingual (62.8%) と SWE-bench Pro (44.3%) のスコアは他モデルより低め。多言語・高難度タスクでの弱点が示唆される
Kimi K2.5 (Moonshot AI)
2026-01 | 1T MoE / 32B active | オープンウェイト
- SWE-bench Verified 76.8%、Multilingual 73.0% とバランスの取れた高スコア
- Agent Swarm モード: 複数エージェント協調実行 (実行時間 4.5倍短縮、コスト 76% 削減 vs Claude Opus 4.5 — Moonshot 公式)
- ビジュアルコーディング (UI モックアップからコード生成) に対応
- 課題: 1T パラメータの重みサイズがセルフホスティングのハードルを上げる。pass@1 方法論未詳。K2 (65.8%) から K2.5 (76.8%) への急激なスコア上昇の検証が必要
11. ユースケース別推奨
| ユースケース | 推奨モデル | 理由 |
|---|---|---|
| コスト最小化のバッチ処理 | DeepSeek V3.2 | Output $0.42/M、cache hit で $0.028/M input |
| ローカル開発環境のコパイロット | Qwen3-Coder-Next | 3B active で消費者 GPU 動作、$0.07/M input |
| 最高精度のバグ修正 | GLM-5 (V4リリース後に再評価) | SWE-bench 77.8%、オープンモデル最高 |
| フロントエンド/UI 開発 | GLM-5 または Kimi K2.5 | GLM-5: 98% ビルド成功率、K2.5: ビジュアル→コード |
| マルチエージェント型開発 | Kimi K2.5 | Native Swarm Execution 対応 |
| 多言語コードベース | Kimi K2.5 | SWE-bench Multilingual 73.0% |
| 予算無制限で最高性能 | Claude Opus 4.6 (Thinking) | SWE-bench ~81%、ただし50倍以上のコスト |
トレードオフ概観:
性能最大化 <------------------------------> コスト最小化
| |
Claude Opus 4.6 --- GLM-5 --- Kimi K2.5 --- DeepSeek V3.2 --- Qwen3-Coder-Next
($25/M out) ($3/M) ($2.5/M) ($0.42/M) ($0.30/M)
SWE ~81% 78% 77% ~72% 71%Open Questions
- GLM-5 の独立ベンチマーク結果: リリース直後のため、LiveCodeBench / Aider Polyglot 等での第三者評価が待たれる。自己申告値 77.8% の再現性は未確認
- DeepSeek V4 は予告通りリリースされるか: 1M+ コンテキスト、Consumer GPU 対応の実現可否。公式確認がない状態で複数メディアが報道している点が異例
- Ultra-Sparse MoE の汎化限界: Qwen3-Coder-Next は SWE-bench Pro 44.3% と高難度タスクで顕著にスコアが下がる。3B active の効率性がどの難易度帯まで維持されるか
- Agent Swarm / Multi-Agent の標準化: Kimi K2.5 の Swarm mode と各種エージェントフレームワークとの統合が進むことで、モデル単体性能よりもエコシステム全体の成熟度が重要になる可能性
- SWE-bench スコアの信頼性上限: スキャフォールディング依存により同一モデルで 5-10pt の差が生じる現状で、3pt 差の性能ランキングにどこまで意味があるか
Sources
モデル別公式・一次ソース
| # | タイトル / 著者 | URL | 公開日 |
|---|---|---|---|
| 1 | zai-org/GLM-5 — Hugging Face | https://huggingface.co/zai-org/GLM-5 | 2026-02-11 |
| 2 | GLM-5 — Z.AI Developer Document | https://docs.z.ai/guides/llm/glm-5 | 2026-02 |
| 3 | DeepSeek-V3.2 Release — DeepSeek API Docs | https://api-docs.deepseek.com/news/news251201 | 2025-12 |
| 4 | Models & Pricing — DeepSeek API Docs | https://api-docs.deepseek.com/quick_start/pricing | 2026-02 |
| 5 | Qwen3-Coder: Agentic Coding in the World — Qwen 公式ブログ | https://qwenlm.github.io/blog/qwen3-coder/ | 2025-07 |
| 6 | Qwen/Qwen3-Coder-Next — Hugging Face | https://huggingface.co/Qwen/Qwen3-Coder-Next | 2026-02-04 |
| 7 | MoonshotAI/Kimi-K2.5 — GitHub | https://github.com/MoonshotAI/Kimi-K2.5 | 2026-01 |
| 8 | moonshotai/Kimi-K2.5 — Hugging Face | https://huggingface.co/moonshotai/Kimi-K2.5 | 2026-01 |
| 9 | Kimi K2.5 Tech Blog: Visual Agentic Intelligence — kimi.com | https://www.kimi.com/blog/kimi-k2-5.html | 2026-01 |
ベンチマーク・リーダーボード
| # | タイトル / 著者 | URL | 公開日 |
|---|---|---|---|
| 10 | SWE-Bench Verified Leaderboard — llm-stats.com | https://llm-stats.com/benchmarks/swe-bench-verified | 2026-02 |
| 11 | LiveCodeBench Benchmark Leaderboard — Artificial Analysis | https://artificialanalysis.ai/evaluations/livecodebench | 2026-02 |
| 12 | SWE-bench — swebench.com | https://www.swebench.com/ | 2026-02 |
| 13 | Aider LLM Leaderboards — aider.chat | https://aider.chat/docs/leaderboards/ | 2026-02 |
分析・報道 (二次ソース)
価格情報
| # | タイトル / 著者 | URL | 公開日 |
|---|---|---|---|
| 26 | Qwen3 Coder 480B Pricing — pricepertoken.com | https://pricepertoken.com/pricing-page/model/qwen-qwen3-coder | 2026-02 |
| 27 | Qwen3 Coder Next Pricing — pricepertoken.com | https://pricepertoken.com/pricing-page/model/qwen-qwen3-coder-next | 2026-02 |
| 28 | Kimi K2.5 API Pricing — pricepertoken.com | https://pricepertoken.com/pricing-page/model/moonshotai-kimi-k2.5 | 2026-02 |
| 29 | GLM-5 Pricing — llm-stats.com | https://llm-stats.com/models/glm-5 | 2026-02 |
| 30 | Pricing — Z.AI Developer Document | https://docs.z.ai/guides/overview/pricing | 2026-02 |