メインコンテンツへスキップ

オープンソースAIモデルのコーディング能力

オープンソース AI コーディングモデル: Intelligence Brief

Key Judgments

  1. オープンモデルはプロプライエタリとの性能差を実用上無視可能な水準まで縮小した (confidence: high) SWE-bench Verified のギャップは約3ポイント (GLM-5 77.8% vs Claude Opus 4.6 ~81%)。3ポイント差はスキャフォールディング条件の違いで逆転し得る範囲であり、ベンチマーク上の優位性はもはやプロプライエタリの確定的な差別化要因ではない。

  2. Ultra-Sparse MoE がコーディング AI のコスト構造を根本から変える (confidence: high) Qwen3-Coder-Next は 3B アクティブパラメータで SWE-bench 70.6% を達成。DeepSeek V3.2 (37B active) の 12分の1の計算量で同等スコアを実現しており、消費者 GPU でのローカル推論が現実的になった。

  3. プロプライエタリモデルの残存優位は「最後の3-8ポイント」に 50-300倍のコストプレミアムで成り立っている (confidence: high) SWE-bench 1ポイントあたりの output コストで比較すると、Qwen3-Coder-Next ($0.004/pt) は Claude Opus 4.6 ($0.313/pt) の約80分の1。この構図はコスト感度の高いユースケースでオープンモデルの採用を不可避にする。

  4. DeepSeek V4 のリリース (2026-02-17頃予告) が実現すれば、市場構図が再編される可能性がある (confidence: low) 1M+ コンテキスト、Consumer GPU 対応が報道されているが、DeepSeek 公式の確認はなく、独立ベンチマーク結果もない。現時点では投機的情報として扱うべき。

  5. ベンチマークスコアの絶対値よりもモデル + エージェント基盤の組み合わせが実務性能を決定する (confidence: high) 同一モデルでもスキャフォールディング (OpenHands, Aider, SWE-Agent 等) の選択で 5-10ポイントの差が生じる。HumanEval はデータ汚染リスクが高く信頼度が低い。


Developments

1. モデル概要

モデル開発元リリース日パラメータ (総数/アクティブ)コンテキスト長ライセンス
GLM-5Zhipu AI (Z.AI)2026-02-11744B / 40B (MoE)200KMIT
DeepSeek V3.2DeepSeek2025-12非公開 / 37B (MoE推定)128K+MIT相当
DeepSeek V4DeepSeek未リリース (2026-02-17頃予告)未確定1M+ (予告)未確定
Qwen3-CoderAlibaba (Qwen)2025-07-23480B / 35B (MoE)256K (1Mまで外挿可)Apache 2.0
Qwen3-Coder-NextAlibaba (Qwen)2026-02-0480B / 3B (Ultra-Sparse MoE)256KApache 2.0
Kimi K2.5Moonshot AI2026-011T / 32B (MoE)256Kオープンウェイト

2. SWE-bench Verified (実世界バグ修正能力)

SWE-bench Verified は GitHub の実際の Issue/PR を用いてソフトウェアエンジニアリング能力を評価する。スコアは使用するスキャフォールディングに依存するため、条件差を考慮した上での比較が必要。

モデルスコア条件・備考出典
GLM-577.8%自己申告、スキャフォールディング詳細未公開digitalapplied.com (2026-02-11)
Kimi K2.576.8%Non-thinking mode、pass@1 方法論未詳GitHub/MoonshotAI (2026-01)
DeepSeek V3.270.2-73.1%ソースにより差異あり (スキャフォールディング依存)marc0.dev / llm-stats.com (2026-02)
Qwen3-Coder-Next70.6%3B アクティブパラメータ、Ultra-Sparse MoEmarc0.dev (2026-02-04)
Qwen3-Coder (480B)69.6%test-time scaling なしqwenlm.github.io (2025-07)
参考: プロプライエタリ
Claude Opus 4.6 (Thinking)79.2-80.9%独立検証ありllm-stats.com (2026-02)
GPT-5.275.4-80.0%設定によりばらつき大llm-stats.com (2026-02)
Gemini 3 Pro76.2%llm-stats.com (2026-02)
Gemini 3 Flash78.0%llm-stats.com (2026-02)

3. SWE-bench 関連指標

モデルSWE-bench MultilingualSWE-bench Pro
GLM-573.3%
Kimi K2.573.0%
Qwen3-Coder-Next62.8%44.3%

4. LiveCodeBench (競技プログラミング系)

LiveCodeBench は LeetCode / AtCoder / CodeForces から新規問題を継続収集し、データ汚染を回避する設計。

モデルLiveCodeBench v6出典
GLM-4.7 (前世代参考)84.9%Medium/@leucopsis (2025-12)
DeepSeek V3.283.3%Medium/@leucopsis (2025-12)
DeepSeek V3.2-Speciale89.6%llm-stats.com (2026-02)
Qwen3-235B74.8qwenlm.github.io
参考: プロプライエタリ
Gemini 3 Pro (high)91.7%llm-stats.com (2026-02)
Gemini 3 Flash (Reasoning)90.8%llm-stats.com (2026-02)

GLM-5 の LiveCodeBench スコアは 2026-02-12 時点で未公開。リリース直後のため独立評価待ち。

5. その他の指標

モデルHumanEvalCC-Bench-V2 (Build Success)Aider Polyglot
GLM-598%
Qwen3-Coder88.4%
GLM-4.5 (FP8) 参考66%

HumanEval はデータ汚染リスクが高いため、モデル選定の主要指標としては非推奨。

6. API 価格比較 (2026-02時点)

モデルInput ($/M tokens)Output ($/M tokens)備考
DeepSeek V3.2$0.28 (cache miss) / $0.028 (cache hit)$0.42最安価帯、cache hit で 90% 削減
Qwen3-Coder-Next$0.07$0.303B active で超低コスト
Qwen3-Coder (480B)$0.22$1.00
Kimi K2.5$0.60$2.50cache で $0.15/M に削減可
GLM-5$0.71-1.00$2.56-3.57プロバイダにより差異
参考: プロプライエタリ
Claude Opus 4.6$5.00$25.00cache 利用で $0.50/M input
GPT-5.2$1.25$10.00
Gemini 3 Pro$2.00$12.00

7. SWE-bench Verified あたりのコスト効率

SWE-bench Verified 1ポイントあたりの output トークンコスト概算。スコアが高くても高コストなら実務上の ROI は低下する。

モデルSWE-bench (%)Output ($/M)コスト効率指標 (低いほど良い)
Qwen3-Coder-Next70.6$0.30$0.004/pt
DeepSeek V3.2~72$0.42$0.006/pt
Qwen3-Coder (480B)69.6$1.00$0.014/pt
Kimi K2.576.8$2.50$0.033/pt
GLM-577.8~$3.00$0.039/pt
Claude Opus 4.6~80$25.00$0.313/pt
GPT-5.2~78$10.00$0.128/pt
Gemini 3 Pro76.2$12.00$0.157/pt

8. セルフホスティング実現性

モデルローカル実行の実現性必要ハードウェア概算
Qwen3-Coder-Next (80B/3B) — 3B アクティブで消費者 GPU で動作可能RTX 4090 x1 程度
Qwen3-Coder (480B/35B)中 — 量子化で対応可能A100 80GB x4-8
DeepSeek V3.2中 — MoE だがフル重みが大きいA100 80GB x8+
GLM-5 (744B/40B)中-低 — リリース直後、最適化途上A100 80GB x8+
Kimi K2.5 (1T/32B)低 — 1T パラメータの重み配布が課題H100 x8+

9. プロプライエタリとの性能ギャップ推移

Artificial Analysis (2026-02) によると、オープンソースとプロプライエタリのクオリティインデックス差は 5-9ポイントに縮小。2024-10 時点の 15-20ポイント差から約1年で半減以上のペースで収束が進行。

時期プロプライエタリ最高オープン最高ギャップ
2024-10~50%~30%20pt
2025-07~65%~55%10pt
2026-02~81%~78%3pt

プロプライエタリが優位な領域:

領域状況備考
SWE-bench 最高スコア約3pt差 (GLM-5 77.8% vs Claude 80.9%)スキャフォールディング条件で逆転の可能性あり
大規模リファクタリングプロプライエタリ優位Claude Opus の extended thinking が長距離推論で有利
マルチファイル整合性プロプライエタリ優位GPT-5.2 の長コンテキスト精度が高い
エッジケース処理差縮小中Kimi K2.5 の Swarm mode が新アプローチ

オープンモデルが優位な領域:

領域理由
コストAPI で 5-50倍安価、セルフホスティングでさらに削減
カスタマイズ性ファインチューニング、LoRA 適応、量子化が自由
レイテンシ制御セルフホスティングでネットワーク遅延を排除可能
データプライバシー外部 API 送信不要でオンプレミス運用可能
フロントエンド生成GLM-5 は CC-Bench-V2 で 98% ビルド成功率

10. 各モデル詳細

GLM-5 (Zhipu AI / Z.AI)

2026-02-11 | 744B MoE / 40B active | MIT

  • SWE-bench Verified 77.8% でオープンモデル最高スコア (2026-02時点)
  • フロントエンドコード生成に特化した強化 (CC-Bench-V2 で 98% ビルド成功率、GLM-4.7 比 +26%)
  • Huawei Ascend チップのみで訓練 (地政学的観点で注目)
  • “Slime” RL 手法で hallucination 率を大幅低減
  • 課題: リリース直後のため独立検証不十分。LiveCodeBench 等未公開。API 価格はオープンモデル中では高め
DeepSeek V3.2

2025-12 | MoE / 37B active (推定) | MIT 相当

  • 圧倒的なコスト効率: Output $0.42/M tokens (プロプライエタリの 25-60分の1)
  • SWE-bench 70-73%、LiveCodeBench 83.3% とバランスが良い
  • V3.2-Speciale は競技プログラミングで金メダル水準 (IOI 2025, ICPC World Final 2025)
  • 課題: 推論時のトークン消費量が全モデル中最大級 (“verbosity” 問題)。長い推論チェーンがコスト効率を一部相殺
DeepSeek V4 (予告・未リリース)

予告 2026-02-17頃 | 未確定

以下はすべて未検証の事前情報。実際のリリース内容と異なる可能性あり。

  • 1M+ トークンのコンテキストウィンドウ (Engram conditional memory 技術を統合)
  • mHC (Manifold-Constrained Hyper-Connections) によるスケーラブルな訓練
  • Consumer GPU (RTX 4090 x2 または RTX 5090 x1) での動作を目標
  • 内部テストではコーディングタスクで Claude / GPT 系を上回ると主張
  • 検証ステータス: 複数の技術メディアが報道しているが、DeepSeek 公式からの確認は未取得。独立ベンチマーク結果もなし
Qwen3-Coder / Qwen3-Coder-Next

Coder: 2025-07-23 | 480B/35B | Apache 2.0 Coder-Next: 2026-02-04 | 80B/3B (Ultra-Sparse) | Apache 2.0

  • Coder-Next: 3B アクティブパラメータで SWE-bench 70.6%。DeepSeek V3.2 (37B active, 70.2%) の 12分の1の計算量で同等スコア。消費者 GPU でローカル実行可能。API も $0.07/$0.30 と最安値帯
  • Coder 480B: 92 プログラミング言語対応。Agent RL (Long-horizon RL) による multi-turn ツール使用の最適化。20,000 並列環境での訓練
  • 課題: SWE-bench Multilingual (62.8%) と SWE-bench Pro (44.3%) のスコアは他モデルより低め。多言語・高難度タスクでの弱点が示唆される
Kimi K2.5 (Moonshot AI)

2026-01 | 1T MoE / 32B active | オープンウェイト

  • SWE-bench Verified 76.8%、Multilingual 73.0% とバランスの取れた高スコア
  • Agent Swarm モード: 複数エージェント協調実行 (実行時間 4.5倍短縮、コスト 76% 削減 vs Claude Opus 4.5 — Moonshot 公式)
  • ビジュアルコーディング (UI モックアップからコード生成) に対応
  • 課題: 1T パラメータの重みサイズがセルフホスティングのハードルを上げる。pass@1 方法論未詳。K2 (65.8%) から K2.5 (76.8%) への急激なスコア上昇の検証が必要

11. ユースケース別推奨

ユースケース推奨モデル理由
コスト最小化のバッチ処理DeepSeek V3.2Output $0.42/M、cache hit で $0.028/M input
ローカル開発環境のコパイロットQwen3-Coder-Next3B active で消費者 GPU 動作、$0.07/M input
最高精度のバグ修正GLM-5 (V4リリース後に再評価)SWE-bench 77.8%、オープンモデル最高
フロントエンド/UI 開発GLM-5 または Kimi K2.5GLM-5: 98% ビルド成功率、K2.5: ビジュアル→コード
マルチエージェント型開発Kimi K2.5Native Swarm Execution 対応
多言語コードベースKimi K2.5SWE-bench Multilingual 73.0%
予算無制限で最高性能Claude Opus 4.6 (Thinking)SWE-bench ~81%、ただし50倍以上のコスト

トレードオフ概観:

              性能最大化 <------------------------------> コスト最小化
                 |                                          |
  Claude Opus 4.6 --- GLM-5 --- Kimi K2.5 --- DeepSeek V3.2 --- Qwen3-Coder-Next
   ($25/M out)     ($3/M)    ($2.5/M)       ($0.42/M)           ($0.30/M)
   SWE ~81%        78%        77%            ~72%                 71%

Open Questions

  1. GLM-5 の独立ベンチマーク結果: リリース直後のため、LiveCodeBench / Aider Polyglot 等での第三者評価が待たれる。自己申告値 77.8% の再現性は未確認
  2. DeepSeek V4 は予告通りリリースされるか: 1M+ コンテキスト、Consumer GPU 対応の実現可否。公式確認がない状態で複数メディアが報道している点が異例
  3. Ultra-Sparse MoE の汎化限界: Qwen3-Coder-Next は SWE-bench Pro 44.3% と高難度タスクで顕著にスコアが下がる。3B active の効率性がどの難易度帯まで維持されるか
  4. Agent Swarm / Multi-Agent の標準化: Kimi K2.5 の Swarm mode と各種エージェントフレームワークとの統合が進むことで、モデル単体性能よりもエコシステム全体の成熟度が重要になる可能性
  5. SWE-bench スコアの信頼性上限: スキャフォールディング依存により同一モデルで 5-10pt の差が生じる現状で、3pt 差の性能ランキングにどこまで意味があるか

Sources

モデル別公式・一次ソース

#タイトル / 著者URL公開日
1zai-org/GLM-5 — Hugging Facehttps://huggingface.co/zai-org/GLM-52026-02-11
2GLM-5 — Z.AI Developer Documenthttps://docs.z.ai/guides/llm/glm-52026-02
3DeepSeek-V3.2 Release — DeepSeek API Docshttps://api-docs.deepseek.com/news/news2512012025-12
4Models & Pricing — DeepSeek API Docshttps://api-docs.deepseek.com/quick_start/pricing2026-02
5Qwen3-Coder: Agentic Coding in the World — Qwen 公式ブログhttps://qwenlm.github.io/blog/qwen3-coder/2025-07
6Qwen/Qwen3-Coder-Next — Hugging Facehttps://huggingface.co/Qwen/Qwen3-Coder-Next2026-02-04
7MoonshotAI/Kimi-K2.5 — GitHubhttps://github.com/MoonshotAI/Kimi-K2.52026-01
8moonshotai/Kimi-K2.5 — Hugging Facehttps://huggingface.co/moonshotai/Kimi-K2.52026-01
9Kimi K2.5 Tech Blog: Visual Agentic Intelligence — kimi.comhttps://www.kimi.com/blog/kimi-k2-5.html2026-01

ベンチマーク・リーダーボード

#タイトル / 著者URL公開日
10SWE-Bench Verified Leaderboard — llm-stats.comhttps://llm-stats.com/benchmarks/swe-bench-verified2026-02
11LiveCodeBench Benchmark Leaderboard — Artificial Analysishttps://artificialanalysis.ai/evaluations/livecodebench2026-02
12SWE-bench — swebench.comhttps://www.swebench.com/2026-02
13Aider LLM Leaderboards — aider.chathttps://aider.chat/docs/leaderboards/2026-02

分析・報道 (二次ソース)

#タイトル / 著者URL公開日
14GLM-5 Released: 744B MoE Model — digitalapplied.comhttps://www.digitalapplied.com/blog/zhipu-ai-glm-5-release-744b-moe-model-analysis2026-02-11
15z.ai’s open source GLM-5 achieves record low hallucination — VentureBeathttps://venturebeat.com/technology/z-ais-open-source-glm-5-achieves-record-low-hallucination-rate-and-leverages2026-02
16DeepSeek V4 Targets Coding Dominance — Introl Bloghttps://introl.com/blog/deepseek-v4-february-2026-coding-model-release2026-02
17Qwen3-Coder-Next: 70% SWE-Bench, 3B Params — marc0.dev / Marco Patzelthttps://www.marc0.dev/en/blog/qwen3-coder-next-70-swe-bench-with-3b-active-params-local-ai-just-got-real-17701975345282026-02
18Qwen3-Coder-Next offers vibe coders — VentureBeathttps://venturebeat.com/technology/qwen3-coder-next-offers-vibe-coders-a-powerful-open-source-ultra-sparse2026-02
19Moonshot AI Releases Kimi K2.5 — MarkTechPosthttps://www.marktechpost.com/2026/01/27/moonshot-ai-releases-kimi-k2-5-an-open-source-visual-agentic-intelligence-model-with-native-swarm-execution/2026-01-27
20Kimi K2.5: Complete Guide — Codecademyhttps://www.codecademy.com/article/kimi-k-2-5-complete-guide-to-moonshots-ai-model2026-01
21DeepSeek-V3.2: Outperforming Through Verbosity — Recode China AI (Substack)https://recodechinaai.substack.com/p/deepseek-v32-make-scaling-laws-keep2025-12
22A Technical Tour of the DeepSeek Models — Sebastian Raschkahttps://magazine.sebastianraschka.com/p/technical-deepseek2026-02
23Best AI for Coding 2026: SWE-Bench Breakdown — marc0.dev / Marco Patzelthttps://www.marc0.dev/en/blog/best-ai-for-coding-2026-swe-bench-breakdown-opus-4-6-qwen3-coder-next-gpt-5-3-and-what-actually-matters-17703874341112026-02
24Comparison of Open Source AI Models — Artificial Analysishttps://artificialanalysis.ai/models/open-source2026-02
25AI LLM API Pricing 2026 — scriptbyai.comhttps://www.scriptbyai.com/gpt-gemini-claude-pricing/2026-02

価格情報

#タイトル / 著者URL公開日
26Qwen3 Coder 480B Pricing — pricepertoken.comhttps://pricepertoken.com/pricing-page/model/qwen-qwen3-coder2026-02
27Qwen3 Coder Next Pricing — pricepertoken.comhttps://pricepertoken.com/pricing-page/model/qwen-qwen3-coder-next2026-02
28Kimi K2.5 API Pricing — pricepertoken.comhttps://pricepertoken.com/pricing-page/model/moonshotai-kimi-k2.52026-02
29GLM-5 Pricing — llm-stats.comhttps://llm-stats.com/models/glm-52026-02
30Pricing — Z.AI Developer Documenthttps://docs.z.ai/guides/overview/pricing2026-02