Claude Codeは、実行中にモデルが複数エージェントの枠組みを即興で作成・調整できる動的ワークフロー機能を追加した。特定のJavaScriptファイルを実行して、独立したコンテキストウィンドウを持つサブエージェントを生成・連携させる仕組みで、単一の長いコンテキストで起きやすい作業停滞を避けやすくする。研究、セキュリティ分析、コードレビューなど高価値で複雑なタスクに向き、通常はより多くのトークンを消費する。
Claude PlatformにCLIが追加され、各APIエンドポイントをターミナルから直接呼び出せるようになった。Messages APIの実行、Claudeホスト型エージェントの起動、結果のシェルへのパイプ処理などをコマンドラインで扱える。Claude CodeのようなコーディングエージェントがAPI操作を理解しやすくなり、開発者の自動化ワークフローに組み込みやすい。
Google DeepMindは、科学的発見を支援する自律エージェント向けツールキットScience SkillsをGitHubで公開した。科学領域に特化したスキル群により、エージェントワークフローの根拠性とトークン効率を高める狙いがある。研究者や開発者が、科学タスク向けのエージェント機能を再利用しやすくなる。
MicrosoftはAdaptive Spec-driven Scoring for Evaluation and Regression Testingをオープンソースで公開した。開発者は自然言語の仕様説明からAIの振る舞いを評価するテストを生成でき、モデル評価や回帰テストに使える。AIアプリの品質保証を、コードだけでなく仕様ベースで管理しやすくする取り組みだ。
Microsoft Researchは、Auroraが従来のスーパーコンピュータより数千倍高速に天気予報を実行できると紹介した。Build 2026でのKenji Takeda氏の発表を通じて、AI基盤モデルが気象予測の速度と運用効率を大きく変える可能性が示された。科学計算領域でのAIモデル活用がさらに広がっている。
OpenAIの「The Next Era of Knowledge Work」レポートは、Codexが研究、データ分析、ワークフロー自動化、コンテンツ作成を支援し、知識労働の生産性を変えつつあると示した。コーディング支援にとどまらず、複雑な業務の調査・整理・実行を支援するエージェント型ツールとしての位置づけが強まっている。
Claude Codeのエンジニアリングチームは、エージェント型プログラミングを標準的な作業方式にしたことで生じたプロセスと組織構造の変化を共有した。計画はジャストインタイム型へ移り、文脈収集はまずClaudeに聞く形になり、コードレビューではClaudeがスタイルやテストを担い、人間は法務や安全など専門判断に集中する。開発のボトルネックは実装から検証・レビュー・保守へ移っている。
Claude Devsは、Claude Codeが作業を返す前に自分で確認するための実践方法を紹介した。人間が普段行う手動チェックをコード化し、エージェント自身がその検査を実行してフィードバックループを閉じる設計が重要になる。AIコーディングの信頼性を高めるには、生成そのものより検証工程を明示的に組み込む必要がある。
The Vergeは、Google DeepMindのGemini Sparkが非常に印象的でありながら不安も感じさせるAI体験だったと報じた。旅行計画のような複雑なユーザー体験をAIエージェントが支援する一方、その能力の広がりと影響には警戒感も伴う。消費者向けAIエージェントが、便利さと社会的影響の両面で議論を呼ぶ段階に入っている。