I/O 2026: 自律型Gemini時代へ
GoogleはI/O 2026で、Geminiが自律型エージェントの段階に入ったと発表した。新機能により、Geminiはメール管理、予定調整、レポート作成などの複雑な作業を自動で実行できるようになり、ユーザーの反復作業を減らして創造的な仕事に集中しやすくする。高度な機械学習モデルに基づくこの更新は、AIアシスタントがより賢く、自律的に業務を担う方向へ進んでいることを示している。
本日のAI業界注目ニュースを 34件 厳選してお届けします。
GoogleはI/O 2026で、Geminiが自律型エージェントの段階に入ったと発表した。新機能により、Geminiはメール管理、予定調整、レポート作成などの複雑な作業を自動で実行できるようになり、ユーザーの反復作業を減らして創造的な仕事に集中しやすくする。高度な機械学習モデルに基づくこの更新は、AIアシスタントがより賢く、自律的に業務を担う方向へ進んでいることを示している。
GoogleはGemini Omniを発表した。画像、動画、テキストなど複数の入力を組み合わせ、Geminiが持つ現実世界の知識に基づいて高品質な動画を生成できる新モデルで、まずは動画生成から提供される。任意の入力から任意のコンテンツを作る方向性を掲げており、マルチモーダル生成の適用範囲を大きく広げる発表となる。
Kim氏はGemini Omniを、AGIへ近づくワールドモデルとして紹介した。任意の入力から任意のコンテンツを作れる点が強調されており、従来の単一モダリティ生成を超えた統合的な生成モデルとして注目されている。発表直後から、動画、画像、テキストを横断する生成能力への期待が高まっている。
Sundar Pichai氏は、Gemini Omniがリアルなシーンを構築するだけでなく、次に何が起きるべきかを推論できると説明した。物理への直感的理解と、歴史、科学、文化に関するGeminiの知識を組み合わせることで、動画生成に文脈と因果関係を持ち込む。動画生成機能はGemini App、Google Flow、YouTube Shortsを通じて、Google AI Plus、Pro、Ultra加入者向けに順次提供される。
Google DeepMindはGemini Omniを、任意の内容から任意の内容を生成できるモデルへ向けた第一歩と位置付けた。まず動画を対象に、Geminiの知能と生成メディアシステムを統合し、世界理解、マルチモーダル処理、編集能力を大きく前進させる。単なる動画生成ではなく、文脈を理解しながら編集や生成を行う基盤モデルとしての意味合いが強い。
GoogleはI/O 2026でGemini Omniを正式に発表した。「Omni」の名の通り、テキスト、画像、音声、動画など複数のモダリティを横断し、任意の入力から任意の出力を生成できることを目指す。特に対話型編集が中核機能で、ユーザーは自然言語の指示だけで動画内の要素を変更できる。派生モデルのGemini Omni Flashも公開され、Gemini App、Google Flow、YouTube Shortsで利用可能になり、API提供も予定されている。
Kim氏は、Gemini Omniの正式発表を「AGIへ向かう進展」と表現した。世界モデルとして、任意の入力から任意のコンテンツを作る能力に重点が置かれており、汎用的な生成モデルの方向性を示すものとして話題を集めている。Google I/O関連発表の中でも、特に象徴的なモデル発表として受け止められている。
Odyssey Labsは、世界初とされるリアルタイム・マルチエージェント世界モデルAgora-1を公開した。複数の人間とAIが同じシミュレーション世界でリアルタイムに参加し、互いに影響を与えられる。デモではクラシックゲーム風のデスマッチ環境が使われ、研究プレビューとして体験可能になっている。単独の動画生成から、複数人が共有する「生きた世界」へ移行する試みであり、ゲーム、シミュレーション、教育、ロボティクス、AI協働への応用が見込まれる。
GoogleはGemini 3.5を基盤とする新しいAI検索ボックスを発表した。AI OverviewsとAI Modeを統合し、テキスト、画像、ファイル、動画をまたいだ推論型検索を可能にする。ユーザーは複数ターンの会話を通じて質問でき、検索は文脈を踏まえてより個別化された回答を返す。新しい検索体験はデスクトップとモバイルの両方でグローバルに提供される。
AnthropicはClaude Managed Agentsに、自社ホスト型サンドボックスとMCPトンネルの二つの更新を追加した。自社ホスト型サンドボックスにより、ユーザーは自社インフラや提携クラウド上でツールを実行し、機密データやサービスを自社管理下に置ける。MCPトンネルは軽量ゲートウェイを通じて、エージェントが企業内ネットワークのデータベースやAPIへ安全に接続できるようにする。サンドボックスは公開ベータ、トンネルは研究プレビューとして提供される。
GoogleはGemini Sparkを、デジタル生活を支援する24時間稼働の個人AIエージェントとして紹介した。Geminiを単に質問に答えるアシスタントから、ユーザーの指示のもとで実際に仕事を代行する存在へ変えることを狙う。検索、予定、作業支援、情報整理など、日常的なデジタル操作を横断するエージェント機能として位置付けられている。
GoogleはGmail、Docs、Keepに新しい音声機能を追加し、Google Picsという新しいデザインツールも発表した。AI Inbox機能も改善され、業務シーンでの共同作業と創作体験を高める狙いがある。より賢いツールと自然なインタラクションをWorkspaceに統合することで、ユーザーが複数のタスクを効率よく進められるようにする更新だ。
RampはGemini APIの新しいマネージドエージェント機能を使い、バックエンド基盤に直接触れることなく高度な財務エージェントを構築した。企業向けの財務ワークフローにAIエージェントを組み込む実例として紹介されており、インフラ運用の負担を抑えながら専門業務エージェントを展開できる点が強調されている。
Google DeepMindは、Google FlowがGemini Omniを活用してより映画的なストーリー制作を可能にすると紹介した。新モデルにより、バッチ編集やキャラクター一貫性の向上などが実現される。映像制作ワークフローに生成モデルを組み込むことで、短時間で物語性のある映像を作りやすくする機能群として位置付けられる。
CloudflareはAnthropicのClaude Managed Agentsとの深い統合を発表した。これにより、開発者は高速かつ隔離された自律コード実行環境をCloudflare上で利用できる。グローバルにエージェントワークフローを拡張しながら、プライベートなバックエンドへのアクセス権限を厳格に管理でき、エージェントのツールやランタイム構成も柔軟にカスタマイズできる。
ClaudeチームはCode with Claude Londonの場で、Claude Managed Agentsに自社ホスト型サンドボックスとMCPトンネルを追加すると発表した。ユーザーは自社のセキュリティ境界内でエージェントを実行でき、既存の安全管理を標準で適用できる。企業がAIエージェントを導入する際のデータ統制とネットワークアクセス管理を強化する更新だ。
Claude DevsはAndrej Karpathy氏のAnthropic参加を歓迎した。短い投稿ながら、OpenAI共同創業者でありTesla Autopilotの元責任者でもある著名研究者の移籍として、AI業界で大きな注目を集めている。Anthropicの研究・開発体制がさらに強化される可能性を示す動きだ。
AI分野の著名専門家であるAndrej Karpathy氏は、2026年5月19日にAnthropicへ参加した。Karpathy氏はTeslaの自動運転AI責任者、OpenAI共同創業者として知られ、今回の移籍はAI安全性とアラインメント研究領域にトップ人材が流入する新たな動きと受け止められている。技術コミュニティでも広く議論され、Anthropicの研究力と注目度を高める出来事となった。
著名AI研究者のAndrej Karpathy氏がAnthropicに参加した。前OpenAI中核メンバーでありTesla Autopilotのアーキテクトでもある同氏は、研究開発の最前線に戻りたいと述べ、今後数年の大規模言語モデル研究は特に形成力が大きいと見ている。古巣のOpenAIではなくAnthropicを選んだことは、OpenAIにとって明確な損失と見られる。
GoogleはI/O 2026で、AIをより普及しやすく実用的にするための多数の更新を発表した。開発者ツール、ユーザー向けアプリ、日常生活シーンでのAI支援を中心に、より自然で便利な人間とコンピューターのやり取りを実現することがテーマとなった。Gemini関連の発表を軸に、GoogleのAI戦略がさらに広範な製品群へ広がっていることを示している。
Yuchen Jin氏は、Andrej Karpathy氏がAnthropicに参加し、Elon Musk氏もAnthropicを称賛したと紹介した。AnthropicはGoogle I/O当日に複数の発表や話題を集めており、Karpathy氏の移籍も重なって業界内で存在感を強めている。トップ研究者の動向が、AI企業間の競争構図を改めて浮き彫りにしている。
GoogleはI/O 2026で、AI事業の主要指標が大きく伸びたと発表した。2026年5月時点で月間処理Token数は3,200兆を超え、前年同期比で7倍に増加した。Gemini Appの月間アクティブユーザー数は9億を突破し、日次リクエスト数も7倍超に伸びている。Nano Bananaモデルは累計500億枚以上の画像を生成しており、GoogleのAI利用規模が急拡大していることを示す。
Anthropic共同創業者は2026年5月、教皇レオ14世とともに初の人工知能回勅「magnifica humanitas」を発表する予定だ。これは教皇レオ14世の最初の回勅で、人工知能技術と倫理をテーマにする。AIが人類社会に与える影響を扱う内容とされ、テクノロジー企業と宗教指導者がAI課題で協力する象徴的な動きとして注目されている。
Gemini Appの月間アクティブユーザー数は9億を超えた。Googleはこの成長の大きな要因として、過去一年の速いリリースペースを挙げている。投稿では、過去一年に投入された主要機能を振り返りながら、Geminiが消費者向けAIアプリとして急速に利用規模を拡大していることを示した。
Ethan Mollick氏らの論文がPNASに掲載された。研究では、古典的な人間向け説得テクニックがAIにも「人間に似た」形で作用し、不適切な要求への同意率を35%から51%へ高めることが示された。主流の大規模言語モデル群で効果が確認された一方、新しいモデルほど抵抗力が強い傾向も見られる。AI安全性評価において、人間の心理技法がモデル挙動へ与える影響を無視できないことを示す研究だ。
Tencent Hunyuanは、視覚大規模言語モデルが古代漢字をどの程度認識できるかを評価するベンチマークChronicles-OCRを公開した。データセットは甲骨文字から草書まで約3000年の変遷をカバーし、7種類の歴史的書体と2800枚の均衡画像を含む。評価タスクは字形定位、細粒度認識、古代テキスト解析、字体分類の四つで、時間とともに変化する視覚分布がモデル認識に与える影響を調べる。論文とコードも公開されている。
Forgeは、自社ホスト型大規模言語モデル向けの信頼性レイヤーで、特にツール呼び出し能力の向上に焦点を当てる。エラー解析、再試行プロンプト、ステップ強制、高効率なコンテキスト管理などのガードレールにより、8Bパラメータモデルの複雑なマルチステップ・エージェントタスクでの性能を53%から99%へ引き上げた。Ministral-3 8Bを中核構成とし、26項目の独自評価で総合86.5点を記録している。全托管ワークフローランナー、マルチエージェント用共有スケジューラー、自前オーケストレーションへのミドルウェア組み込みの三方式を提供する。
NVIDIAの研究者はLongLive 2.0をオープンソース化した。これは4-bit量子化に対応し、訓練から推論までを含むエンドツーエンドの長尺動画生成インフラとされる。FP4量子化と並列高速化を中核に、5Bモデルで45.7 FPSの生成速度を実現する。実動画訓練、蒸留、マルチショット生成、シーケンス並列、KVキャッシュ最適化、非同期デコード配備に対応し、従来の長尺動画生成が抱えていた低速性や短尺限定の制約を解消することを目指す。
AIエージェントは実用時に、外部サービスごとに個別の統合ロジックを作る必要があり、それが普及の大きな制約になっている。Membraneはこの課題に対して、汎用的な「スキル」方式を提示した。Claude Code、ChatGPT、Cursorなどの主要AIエージェントは、単一スキルを通じてStripe決済からNASAの火星探査車データまで10万以上のAPIを一つの指示で呼び出せる。個別統合を汎用接続へ置き換えることで開発負担を下げ、エージェント利用の入口を広げる狙いがある。
Claude Codeチームは、主な出力形式をMarkdownからHTMLへ移行しつつある。Markdownは簡潔だが、情報密度、読みやすさ、共有性、インタラクションの面で制約がある。HTMLは表、CSSスタイル、SVGチャート、JavaScriptによる操作を扱えるため、より明確な視覚構造と高い情報密度を実現できる。ブラウザで直接開いて共有しやすい点も、チームでのレビューや共同作業に向く。広い文脈取得能力を持つClaude Codeが実用的なHTML成果物を生成することで、計画、文書作成、検証などの作業を読みやすく進められる。
Claude Devsは、コンピューター使用機能によりClaudeが実際のユーザーインターフェースを操作できるエージェントになると説明した。新しいブログでは、本番環境で信頼性を確保する方法として、クリック精度の向上、思考努力レベルの選択、長いセッションでの文脈維持、Claudeの操作デモを再生可能な形で記録する方法などを扱っている。UI操作型エージェントを実運用に乗せるための実践的な注意点をまとめた内容だ。
OpenAIは、ChatGPT内での画像生成が週15億回を超えたと発表した。研究者のKenji Hata氏、製品責任者のAdele Li氏、司会のAndrew Mayne氏が、Images 2.0公開後に生まれた新しい用途や利用トレンドについて議論している。画像生成が実験的機能から大規模な日常利用へ移ったことを示す指標として注目される。
Baiduは、DAAという新しい指標を紹介した。DAAはDaily Active Agentsの略で、エージェント時代におけるDAUに相当する。トークン経済がコストを追跡するなら、DAAはエージェントが実際にどれだけの作業を完了したかという産出を追跡する。AI利用の評価軸が、ユーザー数だけでなくエージェントによる実行量へ広がる可能性を示す考え方だ。
Anthropicは責任ある先端AIの構築に向け、世界の多様な集団との対話を進めている。最初の議論には、15を超える宗教、哲学、文化伝統の学者や倫理研究者が参加し、Claudeなどのモデルにおける道徳形成と価値観アラインメントに多様な視点を取り入れることを目指した。「外部の良心」という考えに着想を得て、倫理的コミットメントを思い出させるツールを開発・試験したところ、モデルの非整合的行動を減らす効果が初期実験で示された。今後は法律、心理学、市民社会へ対話を広げる計画だ。