メインコンテンツへスキップ

Open-Source

オープンソースAIモデルのコーディング能力

オープンソース AI コーディングモデル: Intelligence Brief Key Judgments オープンモデルはプロプライエタリとの性能差を実用上無視可能な水準まで縮小した (confidence: high) SWE-bench Verified のギャップは約3ポイント (GLM-5 77.8% vs Claude Opus 4.6 ~81%)。3ポイント差はスキャフォールディング条件の違いで逆転し得る範囲であり、ベンチマーク上の優位性はもはやプロプライエタリの確定的な差別化要因ではない。 Ultra-Sparse MoE がコーディング AI のコスト構造を根本から変える (confidence: high) Qwen3-Coder-Next は 3B アクティブパラメータで SWE-bench 70.6% を達成。DeepSeek V3.2 (37B active) の 12分の1の計算量で同等スコアを実現しており、消費者 GPU でのローカル推論が現実的になった。 プロプライエタリモデルの残存優位は「最後の3-8ポイント」に 50-300倍のコストプレミアムで成り立っている (confidence: high) SWE-bench 1ポイントあたりの output コストで比較すると、Qwen3-Coder-Next ($0.004/pt) は Claude Opus 4.6 ($0.313/pt) の約80分の1。この構図はコスト感度の高いユースケースでオープンモデルの採用を不可避にする。 DeepSeek V4 のリリース (2026-02-17頃予告) が実現すれば、市場構図が再編される可能性がある (confidence: low) 1M+ コンテキスト、Consumer GPU 対応が報道されているが、DeepSeek 公式の確認はなく、独立ベンチマーク結果もない。現時点では投機的情報として扱うべき。 ベンチマークスコアの絶対値よりもモデル + エージェント基盤の組み合わせが実務性能を決定する (confidence: high) 同一モデルでもスキャフォールディング (OpenHands, Aider, SWE-Agent 等) の選択で 5-10ポイントの差が生じる。HumanEval はデータ汚染リスクが高く信頼度が低い。