AI Daily Digest — 2026年6月18日
本日のAI業界注目ニュースを 29件 厳選してお届けします。
モデル
プロダクト
業界
リサーチ
技術
モデル
Allen AIは、Molmo 2を基盤にした3D運動予測モデルMolmoMotionを公開した。動画フレーム、物体上の3D点マーカー、言語指示を入力し、数秒先の点の3D軌跡を予測する。自己回帰型のMolmoMotion-ARと、連続空間変換で複数の動きの可能性を扱うMolmoMotion-FMの2変種を用意する。116万本の動画からなるMolmoMotion-1Mデータセットと、2700本の人手検証動画片を含むPointMotionBenchも公開され、モデル重み、データ、ベンチマークがそろってオープン化された。
xAIは6月17日、Grok 4.3がAmazon Bedrockで全面提供になったと発表した。前線モデルの中で低い幻覚率を示し、100万tokenのコンテキストウィンドウと、none/low/medium/highの推論努力設定に対応する。Artificial Analysis Omniscience、Tau2 Telecom、Vals AI Case Law、Corporate Financeなどのベンチマークで高順位を示した。価格は入力100万tokenあたり1.25ドル、出力100万tokenあたり2.50ドルで、ドルあたり性能を他の前線モデルより高く位置づけている。
プロダクト
Vercelは、AIエージェント向けのオープンソースフレームワークEveを公開した。npmパッケージとして提供され、Apache-2.0ライセンスを採用する。Eveはファイルシステム優先の設計で、各エージェントを1つのディスクディレクトリとして扱い、モデル、指示、ツール、スキル、接続、サブエージェントなどをディレクトリ構造へ直接対応させる。永続実行、サンドボックス計算、人間承認、安全な接続、SlackやTeamsなどの複数チャネル、OpenTelemetryによる追跡と評価も備える。
Databricks AIチームは、AIエージェントチームをリアルタイムセッションで動かすメタフレームワークOmnigentをオープンソース化した。Claude Code、Codex、Cursor、Pi、自作エージェントなどを1つの開発チームとして並行運用できる。内部開発ツールを基に作られ、単一エージェントではなく複数エージェントの協調を前提にした開発体験を狙う。Databricks共同創業者Matei Zaharia氏も開発に関与している。
Googleは、Gemini向けに設計した初のスマートスピーカーGoogle Home Speakerを99.99ドルで発表した。自然言語の依頼や複数ステップの指示に対応し、会話途中での修正や継続対話も可能にする。10種類の新しい音声を内蔵する。Gemini Liveの自由対話やNestカメラの活動要約など高度なAI機能は、月10ドルまたは年100ドルのGoogle Home Premiumで提供される。予約は開始済みで、今月出荷予定とされる。
Wolfram LanguageとMathematicaのVersion 15が公開された。各ノートブックにAIアシスタントを組み込み、AI環境からWolfram技術を直接呼び出せるようにした。記号音楽システム、大規模な時系列・イベント列処理、カテゴリデータ計算、ModelFitなどを追加した。ギガバイト級ノートブック、リアルタイム検索、サイドバー、視覚テーマ、非推奨機能の表示も導入された。表結合、可視化、グラフ目盛り、軌道計算、偏微分方程式、Python連携なども強化されている。
Alibaba Cloudは、文章からリアルタイムに操作可能なデジタル世界を生成するオープンワールドモデルHappyOyster 1.0を発表した。ネイティブマルチモーダル構成により、複数形式の入力と音声・映像の共同生成に対応し、生成中もユーザー指示を受けて画面を即時に変えられる。物理世界の状態遷移を学習し、人物や環境の長期一貫性を保つという。公式サイトでは、物語を途中で書き換える「リアルタイム監督」と、自由移動やアクションを試せる「世界探索」を提供する。
AnthropicはClaude Designを更新し、複数プロジェクトで統一デザインシステムを使えるようにした。Claude Codeとのワークフロー同期にも対応する。ユーザーはキャンバス要素を直接ドラッグ、整列、拡大縮小でき、エディタの安定性も改善された。デザインシステムはGitHub、デザインファイル、アップロード素材から取り込め、チーム管理者は標準システムをロックして改変を防げる。デスクトップ側バーとclaude.ai/designの独立入口も追加された。
Replitは、Claude Designで作ったデザインをReplitへ送り、動作するアプリに変換できる連携を発表した。Claude内で画面や体験を設計し、その成果物をReplit側の実装ワークフローへ渡す流れを提供する。デザイン生成からアプリ構築までの移動を短くし、プロトタイプを実行可能な形へ進めやすくする狙いがある。
AWSがApache 2.0で公開したStrands Robots SDKは、LeRobotスタックをAgentToolsとしてラップし、統一エージェントで扱えるようにする。標準ではMuJoCoシミュレーションで動き、`mode="real"`へ切り替えると実ロボットに接続できる。デモデータをLeRobotDatasetとして記録し、Hugging Face Hubへ送信し、GR00TやLerobotLocalの方策を動かし、Zenoh mesh経由で複数ロボットに命令を配信する。シミュレーションと実機のコードは同一で、主要引数だけで切り替えられる。
業界
AnthropicのDario Amodei CEOとGoogle DeepMindのDemis Hassabis CEOは、G7の非公開会合で米国主導のAI同盟を作り、世界的なルールと標準を定めるよう呼びかけた。Amodei氏は、前線モデルやハードウェア、チップなど重要部品へのアクセス権を手段として、中国を排除すべきだと述べたとされる。この主張は、高度技術をめぐる新たな冷戦の始まりとして受け止められている。
流出した財務資料によると、OpenAIの2025年売上高は130.7億ドルに達した一方、研究開発費は191.8億ドル、推論計算などの売上原価は75億ドル、販売・マーケティング費は57.3億ドルだった。営業損失は209.2億ドル、純損失は約390億ドルで、一時的な会計費用を除いても約80億ドルの赤字とされる。2025年3月には評価額8520億ドルで1220億ドルを調達した。ChatGPTの週次アクティブ利用者は9億超、有料利用者は約5000万と報じられている。
OpenAIの2026年第1四半期の現金消費は37億ドルに達し、同期間の売上57億ドルの半分を超えたと報じられた。株主向け資料に基づく数字で、大規模モデルの研究開発と商用展開に必要なコストの大きさを示す。OpenAIは上場準備を進め、米国で秘密裏にIPO申請を行ったとされ、早ければ9月にも上場し、評価額は最大1兆ドルに達する可能性があるという。
中国は、世界人工知能協力機構の設立準備を進め、各国の参加を歓迎すると表明した。2025年7月26日に中国政府が提案したもので、多国間主義を実践し、AIガバナンスを共同で議論・構築・共有する枠組みと位置づける。デジタルと知能の格差を埋め、AIの善用と包摂的発展を促す狙いがある。本部は上海に置く案が検討されている。同日発表の「人工知能グローバル治理行動計画」も、主権尊重、安全管理、公平性、開放協力を原則として掲げた。
Googleは、Web上でAIツール、スキル、エージェントを公開、発見、検証するためのオープン仕様Agentic Resource Discovery(ARD)を発表した。ARDは、組織が自社ドメインで能力カタログを公開し、レジストリがそれを検索エンジンとして索引化する2つの原語に基づく。暗号学的検証により、クライアントは接続前に公開者の身元を確認し、その後ネイティブプロトコルで呼び出せる。Gemini Enterprise Agent PlatformではAgent Registryとして企業向け機能も提供される。
Databricksの年次経常収益(ARR)は69億ドルに達し、前年同期比80%増となった。一方、SnowflakeのARRは約53億ドル、成長率34%とされ、両社の差は3月の4.9億ドルから16億ドルへ広がった。DatabricksのAI製品年次収益は17億ドルで、総ARRの25%を占め、半年前の10億ドルから伸びた。Salesforceが36億ドルで買収したFinも、AIエージェント年収1億ドル、前年比350%増とされる。Databricksの非公開評価額は1340億ドルに達している。
Anthropicは、サンフランシスコで開催した12時間のClaude Opus 4.8 Build Dayハッカソンの受賞プロジェクトを発表した。310人が参加し、Opus 4.8と500ドル分のcreditsでプロトタイプを制作した。1位のTektonは歴史的建築写真から図面などの資料を集め、339工程で証拠付き3Dモデルを再構築した。2位のSim Franciscoは米国国勢調査データから1万人の合成市民を作り、ニュース投票で選挙結果を予測した。3位のCustom Universeは、スマホ写真からドラッグ可能な3D物体を生成する。
Anthropicはソウルオフィスを正式に開設し、韓国AIエコシステムとの複数の提携を発表した。NAVERはClaude Codeを全社展開し、数千人のエンジニアがコーディング効率向上に利用する。Nexonもゲームコード作成にClaude Codeを使う。LG CNSはClaudeを数千人へ広げ、LGグループ全体への展開を計画する。Hanwha SolutionsはAWS Bedrock上でClaudeを導入し、Samsung SDSはClaude CoworkとClaude Codeを含むClaudeをサムスン電子の従業員へ提供する。
リサーチ
NVIDIA GEARラボは、物理世界で自律研究を行うENPIREシステムを発表した。8体のCodexエージェントが8台のロボットを制御し、GPUとtoken予算を使って実験を進める。安全面では、硬い動作限界の遮断とトルク制限付きグリッパーの2層のハードウェア保護を採用し、夜間無人運用にも対応する。報酬関数は視覚分類器で事前固定し、エージェントが報酬を不正利用しないようにしている。結束バンド、細い針の整理、GPU取り付けなど高精度タスクを自律完了し、8台並列探索の高速性も示した。
SGLang-JAXは、inclusionAIのLing-2.6-1TをTPU v7x上で効率的に推論できるようになった。Ling-2.6-1Tは1兆パラメータ規模の疎なMoEモデルで、63Bのアクティブパラメータ、256ルーティング専門家、top-8ルーティングと共有専門家を持つ。開発チームはscatter、専門家FFN、gatherを融合したPallasカーネルFused MoE V2を実装し、MoEのデータ移動を計算に隠すことで、プリフィル遅延を5.16msから2.42msへ、デコードカーネル遅延を0.249msから0.211msへ下げた。
OpenAIは、173人の博士級生命科学者と共同でLifeSciBenchを公開した。実際の研究タスク750件を含み、証拠処理、分析、設計最適化など7つのワークフローと7つの生物学領域をカバーする。各タスクには約25個の詳細採点基準があり、総数は1万9020項目に達する。タスクの79%は多段推論を必要とし、53%は図表やPDFなど添付データの解釈を求める。構造化問題への回答ではなく、複雑で不確実な研究タスクでのAIの実用性を測る狙いだ。
Googleの研究は、医療推論AIシステムAMIE(Articulate Medical Intelligence Explorer)が単発診断対話から長期疾患管理へ進化できることを示した。AMIEはGeminiモデルの長文脈能力を使い、共感的な対話エージェントと深い管理推論エージェントを組み合わせ、数百ページの臨床ガイドラインを相互参照する。盲検評価では、21人の初期医療医と比べて全体的な管理推論で同等となり、計画の精密さとガイドライン整合性ではより高い評価を得た。
OpenAIはGPT-5.4をMolecule.oneの自律化学エージェントMariaに接続し、医薬品化学で使われるChan-Lamカップリング反応の最適化に利用した。GPT-5.4は第一級スルホンアミドを高価値で難しい基質と見なし、TEMPOなど穏和な酸化剤を提案した。2ラウンドの実験で、88%のボロン酸と83%のスルホンアミド基質の収率が改善し、平均収率は16.6%から25.2%へ上昇した。30%超の収率を示す反応の比率も15.6%から37.5%へ増えた。
技術
Total TypeScriptのMatt Pocock氏は、スキル記述のtokenコストを63%削減するskills v1を公開した。このツールキットは、スキルをモデル呼び出し可能なものとユーザー呼び出し可能なものに分ける。`/codebase-design`、`/domain-modeling`、`/grilling`を追加し、`/writing-great-skills`を刷新した。`/diagnose`は`/diagnosing-bugs`へ更新され、モデル呼び出し可能に変更された。さらに、AIが適切な工程を自動判断するための`/ask-matt`ルータースキルも追加された。
ローカルでClaude Designを動かすSkillであるbaoyu-designに、アニメーション動画書き出し機能が追加された。宣言的アニメーションエンジンはf(t)に基づき、任意の時刻tで画面状態を決定できる。書き出しではヘッドレスChromiumでフレームごとにスクリーンショットを取り、ffmpegでエンコードする。各フレームで2回のrequestAnimationFrameを待ち、描画完了を確認する。2倍DPRの3840×2160で撮影して1080pへ縮小し、細部を保つ。プロジェクトはMITライセンスで公開され、約1200 starを得ている。
Googleは、A2UIとMCP Appsを統合する3つのアーキテクチャ模式を紹介した。A2UIはJSON payloadでUIを定義し、ホストがネイティブ描画する宣言型フレームワークで、一貫性と安全性に強い。一方、MCP Appsはiframe内で標準Web技術によるカスタムUIを提供するが、設計の分散、性能、安全性の課題がある。提案された模式には、MCPサーバーからA2UIを提供し、MCP ResourcesやTool呼び出しでJSONを渡して「一度書けばネイティブ描画」する構成や、静的・動的配信の構成が含まれる。
CMUのMachine Learning Blogは、Richard Sutton氏の「苦い教訓」を現代の事前学習に照らして論じた。この教訓は、人間知識を過度にAIシステムへ埋め込むより、計算とデータを吸収できる一般手法が最終的に勝つという警告として読まれる。現代の基盤モデル事前学習は一見その勝利に見えるが、学習目標は依然として人間が訓練ループの外側で選ぶ。大規模事前学習の後に下流評価を行い、設定を調整して再実行する制御ループは粗い。論考は、このループをより効率化できるかを検討している。
Nathan Lambert氏は、Interconnectsブログ開始から約3年後の計画を更新した。現在の3つの目標は、前線モデル進化に明確さを与えること、オープンモデル生態系を作ること、それを支える組織を築くことだという。ブログは生々しく識別しやすい独立した声であり、フルタイム分析プラットフォームにはしない方針を示した。Arcee AIとMercorとのコンサルティング契約も明かし、後訓練領域と透明な評価、オープンエコシステム推進に関わる。購読者は7万人を超え、有料購読者は約900人に達した。
Gary Marcus氏は、トランプ氏がAnthropicに不可能な要求をしているとして、生成AIの安全ガードレールの根本的な難しさを指摘した。Marcus氏は2024年1月の時点で、どのようなガードレールも厳しすぎるか緩すぎるかの間で均衡を取るのが難しいと述べていた。今回の事例は、next-token predictorに基づく大規模言語モデルが本質的に安全制御に向かないことを示すものだという。Anthropicだけの問題ではなく、生成AI全体の課題として扱っている。