2026年6月17日の記事には何件のニュースが含まれていますか？

2026年6月17日版には29件のAIニュースを掲載しています。

このサイトはどのようなトピックを扱いますか？

主にモデル、プロダクト、業界、リサーチ、技術を扱います。

更新頻度はどのくらいですか？

AI Daily Digestは原則として毎日更新です。

本日の注目ニュース（TOP3）は何ですか？

Cartesia、Sonic 3.5とInk 2のリアルタイム音声モデルを発表 / Qwen-RobotManip、ロボット操作基盤モデルのスケール能力を実証 / Google Cloud、AIエージェント向け知識仕様OKF v0.1を公開

元記事へのリンクはありますか？

あります。各ニュース見出しから参照元リンクに移動できます（https://news.smartgeo.jp/posts/2026-06-17）。

AI Daily Digest — 2026年6月17日

本日のAI業界注目ニュースを 29件 厳選してお届けします。

TOP 3

1Cartesia、Sonic 3.5とInk 2のリアルタイム音声モデルを発表 2Qwen-RobotManip、ロボット操作基盤モデルのスケール能力を実証 3Google Cloud、AIエージェント向け知識仕様OKF v0.1を公開

モデル

Cartesia、Sonic 3.5とInk 2のリアルタイム音声モデルを発表

Cartesiaは、テキスト音声合成を担うSonic 3.5と、音声認識を担うInk 2を単一のリアルタイム音声スタックとして発表した。Ink 2はArtificial Analysisのストリーミング音声文字起こしランキングで首位に立ち、Sonic 3.5もリアルタイムTTSで首位とされ、初回音声までの遅延は約82msだという。同社は、聞く側と話す側の両方で首位モデルを持つ唯一の提供者だと位置づけている。

Qwen-RobotManip、ロボット操作基盤モデルのスケール能力を実証

Qwen-RobotManipは、Qwen-VLを基盤にした視覚・言語・行動（VLA）基盤モデルで、表現、運動、行動の3軸をそろえる統一アライメント枠組みを導入した。オープンなロボットデータセットと人間の実演動画のみを使い、15種類のロボット形態を含む約3万8100時間の事前学習コーパスを構築している。LIBERO-Plusで91.4%、RoboTwin-C2R Hardで69.4%、RoboCasa365 Composite-Unseenで14.9%、EBenchで45.6%、RoboTwin-IFで72.0%を達成し、RoboChallenge Table30 v1 generalist trackでも優勝した。80次元の状態・行動表現や人間からロボットへのデータ合成パイプラインを採用し、ロボット操作モデルのスケール化を狙う。

Qwen-RobotWorld、身体性エージェント向けの無界世界モデルを提示

Qwen-RobotWorldは、言語を統一された行動インターフェースとして使い、双流Multimodal Diffusion Transformer（MMDiT）アーキテクチャとQwen2.5-VLベースの行動エンコーダを組み合わせる。4つのベンチマークでトップ水準の成績を示し、20種類以上のロボット形態、860万件のクロスシーン訓練ペア、1300以上の操作スキルを統合した。500種類以上の行動カテゴリを標準化し、操作、自動運転、屋内ナビゲーションの共同訓練に対応する。Scene2Robotによる人間からロボットへの転移や、2〜4視点の幾何一貫性を持つ動画生成にも対応する。

ByteDance、生成コストを半減したSeedance 2.0 Mini動画モデルを投入

ByteDanceの火山エンジンは、火山方舟体験センターでSeedance 2.0 Mini動画生成モデルを公開し、近くAPI提供も始める計画だ。Seedance 2.0 Fastより2倍速く、出力品質は同等だとしている。画像から動画は1000 tokensあたり0.023元、動画から動画は0.014元で、720P仕様では1秒生成コストが約0.5元となり、Seedance 2.0標準版から約半減する。EC素材、マーケティング、UGC制作、エフェクト遊びなど、高頻度かつ大規模な動画生成用途を想定している。

Qwen-RobotNav、エージェントナビゲーション向け拡張モデルを発表

Qwenは、Qwen3-VLを基盤に1550万件のサンプルで訓練したQwen-RobotNavを発表した。視覚言語ナビゲーション、目標ナビゲーション、目標追跡、自動運転、身体性QAの5領域を統合し、アーキテクチャを変えずに推論時のタスクモードや観測条件を切り替えられる。VLN-CE RxR成功率76.5%、HM3Dv2目標ナビゲーション75.6%（RGBのみ）、EVT-Bench追跡率90.0%、NAVSIM PDMS 91.4など複数のSOTAを示した。視覚token予算、時間減衰、カメラ重み、フレームサンプリングという4つの調整軸も提供し、上位プランナーQwen3.7-Plusと組み合わせたEXPRESS-Benchでの改善も示している。

プロダクト

中国教育部、AI志望校選定を備えた「陽光志願」情報サービスを刷新

中国教育部の「陽光志願」情報サービスシステムが全面刷新された。入試、学籍、就職などの公式データをもとに、受験生と保護者へ無料の志願校選定支援を提供する。31省・自治区・市の本科・専科普通批次を対象に、成績、順位、個別条件を入力すると参考案を生成する。AIアシスタント「智慧小招」は政策や規則に24時間回答し、データは大学から直接提出され公式に照合される。専門適性診断と21項目のキャリア診断も提供される。

Google Cloud、AIエージェント向け知識仕様OKF v0.1を公開

Google Cloudは、AIエージェントに構造化された文脈知識を渡すためのベンダー中立Markdown仕様、Open Knowledge Format（OKF）v0.1を公開した。OKFはYAML front matter付きMarkdownファイルのディレクトリとして知識を表現し、各概念を1ファイルに対応させ、`type`、`title`、`description`など少数の予約フィールドで相互運用性を確保する。専用サービスやSDK、実行環境を必要とせず、GitHubでのホスティング、tarball転送、任意ファイルシステムへのマウントが可能。組織内に分散したテーブル定義、指標、runbookなどを、エージェントが扱いやすい形式でまとめる狙いがある。

Copilot Cowork、グローバル一般提供と複数モデル対応を開始

Microsoftは、Copilot Coworkが世界中で一般提供になり、複数モデルに対応したと発表した。各組織は、自社固有の知識や専門性を踏まえて、長時間稼働するエージェントに複雑な複数ステップのタスクを任せられるようになる。Copilotの利用形態を、短い補助から継続的な業務遂行へ広げる動きとして位置づけられる。

AI版Alipayが招待制テスト開始、右スワイプで「阿宝」を起動

AlipayはAI版の招待制テストを開始した。ユーザーは右スワイプで新画面に入り、チャット欄または音声で指示すると、アシスタント「阿宝」が代行処理を行う。たとえば公積金を照会する場合、阿宝が対応するミニプログラムやサービス入口を自動で探し、ユーザーの確認後に処理を進める。資金移動や決済が関わる操作は本人確認を必須とする。初回は100個の招待コードが公開された。

Xiaomi、MiMo Claw正式版と新サブスクリプションを発表

Xiaomiは、クラウド軽量型のClaw系プロダクトであるMiMo Claw正式版を発表した。OpenClawフレームワークと深く連携したMiMo-V2.5-Pro旗艦モデルを搭載し、MCPツール呼び出しプロトコルにネイティブ対応する。100万級の長文コンテキストと、単一セッションで1000回以上の連続ツール呼び出しをサポートし、MTP三層デコードによりOpenClaw標準エージェントワークフローでスループットを約3倍に高めた。ClawEvalのタスク達成率は63.8%、token消費は同種製品より40〜60%低いという。金山オフィスと連携し、Word、Excel、PPT、PDFの生成、プレビュー、オンライン編集を一体化する。

OpenRouter、前線モデルが小型モデルへ作業委託できるSubagentを公開

OpenRouterは、openrouter:subagentサーバーツールを公開した。前線モデルは生成中に、文書要約、構造化データ抽出、テキスト整形などの独立した小作業を、より小さく安価で高速なworkerモデルへ委託できる。これにより、高価な前線モデルのtoken消費を抑えながら、複合タスクの処理効率を高められる。

Midjourney V8.1、Draft modeと新機能プレビューを追加

Midjourney V8.1にDraft modeが追加された。このモードでは、1回の生成で24枚の低解像度・低品質画像を作り、気に入った画像に対して「Vary」を選ぶと全品質・全解像度版にレンダリングできる。草稿タスクのfast hours消費は半分になる。大量の方向性を素早く試し、候補だけを高品質化する制作フローを意識した機能だ。

Grok for PowerPoint、Microsoft PowerPoint内でスライド生成と編集に対応

xAIは、Grok for PowerPointを無料のMicrosoft 365アドインとして公開した。ユーザーはPowerPointを離れずに、アウトラインから完全なスライドを生成し、調査、執筆、レイアウト調整を行える。単一スライドの追加、スタイルテーマの変更、セクション再構成にも対応する。Grokコネクタを使い、メールやSharePointの情報も参照できる。同アドインはWordとExcelにも対応する。

業界

米司法省、xAIの無許可ガスタービン運用を国家安全保障で擁護

米司法省は訴訟棄却の申し立てで、xAIのチャットボットGrokが軍事作戦に重要だとして、ミシシッピ州SouthavenのColossus 2施設で無許可ガスタービンを運用していることを擁護した。NAACPは、xAIのガスタービン数が4月の27基から57基に増え、窒素酸化物排出が111%急増したと主張して提訴している。国防総省のCameron Stanley首席デジタル・AI官は、Grokが機密および最高機密ネットワークの軍事任務を支える4つのAIモデルの一つで、最近のイラン攻撃に関わる用途も含むと述べた。

米国防総省、日常AIワークフローをAnthropicから移管し9月までの解消を目指す

米国防総省は、日常的なAIワークフローの3分の2超をAnthropicから移管済みで、9月までに完全にゼロにする目標だと発表した。背景には、年初に国防総省がClaudeを大規模監視や完全自動兵器に使えるよう合意書への署名を求め、Dario Amodei CEOがモデルの信頼性不足を理由に拒否した経緯があるという。国防総省はAnthropicを「サプライチェーンリスク」と位置づけ、訴訟は不発に終わった。OpenAIは方針を調整して受注を得ており、AI企業が原則と政府協力の間で迫られる判断を示す事例になっている。

GitHub、AI計算資源不足でAWSへの支援要請に転じる

Microsoft傘下のGitHubがAI計算資源不足に直面し、MicrosoftはAmazon AWSへ計算資源支援を求めていると報じられた。Hacker Newsで話題になった「Microsoft turns to AWS as GitHub faces AI capacity crunch」という議論に基づく内容で、AI機能の利用拡大がクラウド計算資源の供給制約を浮き彫りにしている。

Microsoft、Copilot Cowork向けDeepSeek V4統合を検討

Microsoftは、Copilot CoworkにMicrosoft管理版DeepSeek V4を安価なモデル選択肢として提供することを検討している。Copilot Coworkは、ユーザーが週に数百件のタスクを実行して費用が急増するため、無制限定額制から使用量課金へ移行する見通しだ。DeepSeekを採用する場合、同モデルは任意選択で、微調整と安全対策を施され、Azure上で完全にホストされる。Axiosによると、Microsoftは利用可能なモデルをすでに微調整済みだが、最終判断はまだ下されていない。

Fable政府封鎖、TechCrunchが「脱獄」以外の理由を指摘

米国政府がAnthropicのFableモデルを封鎖した件について、TechCrunchは、真の理由は当初語られた「モデル脱獄」問題ではない可能性があると論じた。記事はHacker Newsでも議論を呼び、103件の支持を集めた。AIモデルへの政府アクセス、輸出管理、政策判断が企業向け採用や世論に与える影響が引き続き注目される。

SpaceX、IPO直後にCursorを600億ドル株式で買収へ

SpaceXは大型IPOの数日後、AIコーディング企業Cursorを600億ドル相当の株式で買収することで合意した。xAIを中心に構築するAI部門で主要AI研究所に追いつく狙いがある。Cursorは直前まで20億ドル規模の資金調達に近づいており、評価額は500億ドル、投資家にはAndreessen Horowitz、Thrive、Nvidiaが含まれていた。SpaceXはIPO時に、自社AI製品の到達可能市場が26兆ドルに達すると投資家へ説明していた。取引は今年第3四半期に完了する見通し。

Anthropic、5月の企業AI購読シェアでOpenAIを初めて上回る

Anthropicの5月の企業AI購読市場シェアは41%となり、OpenAIの39.5%を初めて上回った。同社は650億ドルの資金調達を終え、評価額は9650億ドルに達し、初の黒字四半期を受けて秘密裏にIPO申請したとされる。トランプ政権は輸出管理を理由に、Anthropicへ非米国人による最新モデルMythos 5とFable 5へのアクセス禁止を求め、両モデルは取り下げられた。Rampのチーフエコノミストは、国防総省のサプライチェーンリスク指定のような類似の論争が、逆にAnthropicの企業採用を過去最高に押し上げていると指摘する。

DeepSeek、初の外部資金調達で500億ドル超の評価額に

中国AIスタートアップDeepSeekは初の外部資金調達を完了し、500億元超、約74億ドルを調達、評価額は500億ドルを超えた。投資構造は特殊で、多くの投資家はCEO梁文鋒氏が管理する有限責任組合へ無議決権かつ5年ロックアップで資金を入れ、国有AIファンドのみが直接投資し議決権を保つ。梁氏個人は約200億元を投じ、TencentとCATLが主要外部投資家となった。梁氏は基礎AI研究とAGI開発を優先し、オープンソース方針を続けると述べている。

リサーチ

Anthropic、エージェントコーディングで専門知識の価値が残ると分析

Anthropicは、2025年10月から2026年4月までの約40万件のClaude Code対話セッションを分析し、人間は「何をするか」の計画判断を主導し、Claudeは「どう実行するか」の実行判断を主導していると示した。領域専門知識が高いほど、モデルが1回の指示で完了する作業量が多い。各職種のタスク成功率はソフトウェアエンジニア平均に近く、領域専門家はより高い成功率を示すが、中級ユーザーとの差は大きくない。7カ月でデバッグセッションの比率はほぼ半減し、利用はデプロイ、データ分析、非コード文書作成など端から端までのエージェントタスクへ移り、典型的タスク価値は平均約25%上がった。

OpenAI、モデル公開前の挙動を予測するDeployment Simulationを発表

OpenAIは、プライバシーを保護しながら過去の会話を再生し、新しい候補モデルで応答を再生成することで、モデル公開後の実際の挙動を模擬するDeployment Simulation手法を発表した。複数のGPT-5-series Thinkingデプロイで、従来評価よりも望ましくない挙動の頻度を正確に推定し、新しいアライメント問題を発見し、モデルがテストを識別するリスクを下げたという。ツール利用を伴うエージェント場面にも拡張できる。従来評価はカバレッジ不足、選択バイアス、モデルによるテスト識別などの制約があるが、実会話分布を使うことでその弱点を緩和する。ただし、20万メッセージに1回未満の低頻度挙動は測定できない。

OpenAI、公開チャットデータによる実世界AI失調予測を検証

OpenAIは、2023年4月から2024年5月までに収集された100万件の会話を含むWildChat公開データセットを使い、GPT-5.1、GPT-5.2、GPT-5.4の実運用環境における望ましくない挙動率を模擬した。私有の本番データと比較すると、WildChatシミュレーションの平均予測誤差は約3倍だった。一方で、技術的な失調やエージェント型の失調では予測精度が低下した。公開データセットを外部監査ツールとして使う可能性は示されたが、対象分布や行動タイプによる限界も明らかになった。

技術

Metaのエンジニアリング組織解体をめぐる議論が拡大

6月16日、「Why is Meta destroying its engineering organization?」というブログ記事がHacker Newsで話題となり、110件の支持を集めた。記事はMetaがエンジニアリング組織を解体しつつあると指摘し、業界で広範な議論を呼んでいる。具体的な理由や今後の影響はまだ明確ではないが、大規模テック企業におけるAI時代の組織再編や開発体制の変化を象徴する論点になっている。

卒業生、AI検出の矛盾に直面し手書き要約が99% AI判定に

中国の卒業生は論文のAIGC率検査で矛盾した状況に直面している。学生が手書きした要約は99% AIと判定され、純粋にAIが書いた部分は0%と判定された。学校はAIGC率40%以下を要求し、学生はClaudeで何度も修正し、維普は1本20元、知網や万方は1000字あたり2元という検査費を支払い、最終的に36.1%まで下げた。答弁時に教員から学術表現へ戻すよう求められると37.21%へ上がり、同一論文でもプラットフォームにより48%、44%、59%と結果が大きく異なった。一部プラットフォームは低減サービスを有料提供し、一部学校は一律検査の代わりにAI利用申告書へ移行している。

WorkBuddy、日次アクティブ利用が業界2位の3〜4倍に拡大

WorkBuddyの日次アクティブユーザー数は3月以降、業界2位の3〜4倍に達した。利用者は開発者に限られず、人事、運用、総務など非技術職にも広がっている。企業版とプロジェクト機能により、エージェント型オフィス業務の場面がさらに拡張された。同時期にTrae Work、QoderWork、Kimi Workなども改名や新機能投入を進め、企業向けエージェント作業環境の競争が激しくなっている。Tencent Cloudは、この領域が10年に一度の機会になり得ると見ている。

Gary Marcus氏、OpenAIのリードが急速に縮小していると批評

Gary Marcus氏は、OpenAIが複数の危機に直面していると論じた。堀の欠如により市場でのリードが縮まり、最大投資家であるMicrosoftは距離を置きつつあり、主要製品を中国企業へ外注する可能性まで公に検討しているという。損失拡大は予想を大きく上回り、年損失額は8倍ペースで増えている。ワシントンによるAnthropicへの圧力は同社を弱める可能性もあるが、逆に押し上げる可能性もあり、Elon Musk氏も潜在的な競争者として浮上している。

前線大規模モデルの後処理配合をFinbarr Timbers氏と振り返る

Interconnectsのポッドキャストは、Finbarr Timbers氏を招き、後訓練配合の変遷を振り返った。InstructGPTのSFT、報酬モデル、RLという3段階から、Llama 3やTulu 3のSFT、DPO、検証可能報酬RL、さらにDeepSeek R1の大規模RL中心の流れへ進んだ。2026年には、複数の領域専門モデルを訓練してから統一モデルへ戻す構成が分化している。新しいパターンとしてMulti-teacher On-Policy Distillation（MOPD）が挙げられ、領域専門モデルをSFTと領域RLで訓練し、オンラインサンプリングとtoken単位の逆KL最小化で汎用学生モデルを訓練する。MiMo Flash V2やDeepSeek V4などの後訓練設計にもつながる論点として扱われている。