Cartesia、Sonic 3.5とInk 2のリアルタイム音声モデルを発表
Cartesiaは、テキスト音声合成を担うSonic 3.5と、音声認識を担うInk 2を単一のリアルタイム音声スタックとして発表した。Ink 2はArtificial Analysisのストリーミング音声文字起こしランキングで首位に立ち、Sonic 3.5もリアルタイムTTSで首位とされ、初回音声までの遅延は約82msだという。同社は、聞く側と話す側の両方で首位モデルを持つ唯一の提供者だと位置づけている。
本日のAI業界注目ニュースを 29件 厳選してお届けします。
Cartesiaは、テキスト音声合成を担うSonic 3.5と、音声認識を担うInk 2を単一のリアルタイム音声スタックとして発表した。Ink 2はArtificial Analysisのストリーミング音声文字起こしランキングで首位に立ち、Sonic 3.5もリアルタイムTTSで首位とされ、初回音声までの遅延は約82msだという。同社は、聞く側と話す側の両方で首位モデルを持つ唯一の提供者だと位置づけている。
Qwen-RobotManipは、Qwen-VLを基盤にした視覚・言語・行動(VLA)基盤モデルで、表現、運動、行動の3軸をそろえる統一アライメント枠組みを導入した。オープンなロボットデータセットと人間の実演動画のみを使い、15種類のロボット形態を含む約3万8100時間の事前学習コーパスを構築している。LIBERO-Plusで91.4%、RoboTwin-C2R Hardで69.4%、RoboCasa365 Composite-Unseenで14.9%、EBenchで45.6%、RoboTwin-IFで72.0%を達成し、RoboChallenge Table30 v1 generalist trackでも優勝した。80次元の状態・行動表現や人間からロボットへのデータ合成パイプラインを採用し、ロボット操作モデルのスケール化を狙う。
Qwen-RobotWorldは、言語を統一された行動インターフェースとして使い、双流Multimodal Diffusion Transformer(MMDiT)アーキテクチャとQwen2.5-VLベースの行動エンコーダを組み合わせる。4つのベンチマークでトップ水準の成績を示し、20種類以上のロボット形態、860万件のクロスシーン訓練ペア、1300以上の操作スキルを統合した。500種類以上の行動カテゴリを標準化し、操作、自動運転、屋内ナビゲーションの共同訓練に対応する。Scene2Robotによる人間からロボットへの転移や、2〜4視点の幾何一貫性を持つ動画生成にも対応する。
ByteDanceの火山エンジンは、火山方舟体験センターでSeedance 2.0 Mini動画生成モデルを公開し、近くAPI提供も始める計画だ。Seedance 2.0 Fastより2倍速く、出力品質は同等だとしている。画像から動画は1000 tokensあたり0.023元、動画から動画は0.014元で、720P仕様では1秒生成コストが約0.5元となり、Seedance 2.0標準版から約半減する。EC素材、マーケティング、UGC制作、エフェクト遊びなど、高頻度かつ大規模な動画生成用途を想定している。
Qwenは、Qwen3-VLを基盤に1550万件のサンプルで訓練したQwen-RobotNavを発表した。視覚言語ナビゲーション、目標ナビゲーション、目標追跡、自動運転、身体性QAの5領域を統合し、アーキテクチャを変えずに推論時のタスクモードや観測条件を切り替えられる。VLN-CE RxR成功率76.5%、HM3Dv2目標ナビゲーション75.6%(RGBのみ)、EVT-Bench追跡率90.0%、NAVSIM PDMS 91.4など複数のSOTAを示した。視覚token予算、時間減衰、カメラ重み、フレームサンプリングという4つの調整軸も提供し、上位プランナーQwen3.7-Plusと組み合わせたEXPRESS-Benchでの改善も示している。
中国教育部の「陽光志願」情報サービスシステムが全面刷新された。入試、学籍、就職などの公式データをもとに、受験生と保護者へ無料の志願校選定支援を提供する。31省・自治区・市の本科・専科普通批次を対象に、成績、順位、個別条件を入力すると参考案を生成する。AIアシスタント「智慧小招」は政策や規則に24時間回答し、データは大学から直接提出され公式に照合される。専門適性診断と21項目のキャリア診断も提供される。
Google Cloudは、AIエージェントに構造化された文脈知識を渡すためのベンダー中立Markdown仕様、Open Knowledge Format(OKF)v0.1を公開した。OKFはYAML front matter付きMarkdownファイルのディレクトリとして知識を表現し、各概念を1ファイルに対応させ、`type`、`title`、`description`など少数の予約フィールドで相互運用性を確保する。専用サービスやSDK、実行環境を必要とせず、GitHubでのホスティング、tarball転送、任意ファイルシステムへのマウントが可能。組織内に分散したテーブル定義、指標、runbookなどを、エージェントが扱いやすい形式でまとめる狙いがある。
Microsoftは、Copilot Coworkが世界中で一般提供になり、複数モデルに対応したと発表した。各組織は、自社固有の知識や専門性を踏まえて、長時間稼働するエージェントに複雑な複数ステップのタスクを任せられるようになる。Copilotの利用形態を、短い補助から継続的な業務遂行へ広げる動きとして位置づけられる。
AlipayはAI版の招待制テストを開始した。ユーザーは右スワイプで新画面に入り、チャット欄または音声で指示すると、アシスタント「阿宝」が代行処理を行う。たとえば公積金を照会する場合、阿宝が対応するミニプログラムやサービス入口を自動で探し、ユーザーの確認後に処理を進める。資金移動や決済が関わる操作は本人確認を必須とする。初回は100個の招待コードが公開された。
Xiaomiは、クラウド軽量型のClaw系プロダクトであるMiMo Claw正式版を発表した。OpenClawフレームワークと深く連携したMiMo-V2.5-Pro旗艦モデルを搭載し、MCPツール呼び出しプロトコルにネイティブ対応する。100万級の長文コンテキストと、単一セッションで1000回以上の連続ツール呼び出しをサポートし、MTP三層デコードによりOpenClaw標準エージェントワークフローでスループットを約3倍に高めた。ClawEvalのタスク達成率は63.8%、token消費は同種製品より40〜60%低いという。金山オフィスと連携し、Word、Excel、PPT、PDFの生成、プレビュー、オンライン編集を一体化する。
OpenRouterは、openrouter:subagentサーバーツールを公開した。前線モデルは生成中に、文書要約、構造化データ抽出、テキスト整形などの独立した小作業を、より小さく安価で高速なworkerモデルへ委託できる。これにより、高価な前線モデルのtoken消費を抑えながら、複合タスクの処理効率を高められる。
Midjourney V8.1にDraft modeが追加された。このモードでは、1回の生成で24枚の低解像度・低品質画像を作り、気に入った画像に対して「Vary」を選ぶと全品質・全解像度版にレンダリングできる。草稿タスクのfast hours消費は半分になる。大量の方向性を素早く試し、候補だけを高品質化する制作フローを意識した機能だ。
xAIは、Grok for PowerPointを無料のMicrosoft 365アドインとして公開した。ユーザーはPowerPointを離れずに、アウトラインから完全なスライドを生成し、調査、執筆、レイアウト調整を行える。単一スライドの追加、スタイルテーマの変更、セクション再構成にも対応する。Grokコネクタを使い、メールやSharePointの情報も参照できる。同アドインはWordとExcelにも対応する。
米司法省は訴訟棄却の申し立てで、xAIのチャットボットGrokが軍事作戦に重要だとして、ミシシッピ州SouthavenのColossus 2施設で無許可ガスタービンを運用していることを擁護した。NAACPは、xAIのガスタービン数が4月の27基から57基に増え、窒素酸化物排出が111%急増したと主張して提訴している。国防総省のCameron Stanley首席デジタル・AI官は、Grokが機密および最高機密ネットワークの軍事任務を支える4つのAIモデルの一つで、最近のイラン攻撃に関わる用途も含むと述べた。
米国防総省は、日常的なAIワークフローの3分の2超をAnthropicから移管済みで、9月までに完全にゼロにする目標だと発表した。背景には、年初に国防総省がClaudeを大規模監視や完全自動兵器に使えるよう合意書への署名を求め、Dario Amodei CEOがモデルの信頼性不足を理由に拒否した経緯があるという。国防総省はAnthropicを「サプライチェーンリスク」と位置づけ、訴訟は不発に終わった。OpenAIは方針を調整して受注を得ており、AI企業が原則と政府協力の間で迫られる判断を示す事例になっている。
Microsoft傘下のGitHubがAI計算資源不足に直面し、MicrosoftはAmazon AWSへ計算資源支援を求めていると報じられた。Hacker Newsで話題になった「Microsoft turns to AWS as GitHub faces AI capacity crunch」という議論に基づく内容で、AI機能の利用拡大がクラウド計算資源の供給制約を浮き彫りにしている。
Microsoftは、Copilot CoworkにMicrosoft管理版DeepSeek V4を安価なモデル選択肢として提供することを検討している。Copilot Coworkは、ユーザーが週に数百件のタスクを実行して費用が急増するため、無制限定額制から使用量課金へ移行する見通しだ。DeepSeekを採用する場合、同モデルは任意選択で、微調整と安全対策を施され、Azure上で完全にホストされる。Axiosによると、Microsoftは利用可能なモデルをすでに微調整済みだが、最終判断はまだ下されていない。
米国政府がAnthropicのFableモデルを封鎖した件について、TechCrunchは、真の理由は当初語られた「モデル脱獄」問題ではない可能性があると論じた。記事はHacker Newsでも議論を呼び、103件の支持を集めた。AIモデルへの政府アクセス、輸出管理、政策判断が企業向け採用や世論に与える影響が引き続き注目される。
SpaceXは大型IPOの数日後、AIコーディング企業Cursorを600億ドル相当の株式で買収することで合意した。xAIを中心に構築するAI部門で主要AI研究所に追いつく狙いがある。Cursorは直前まで20億ドル規模の資金調達に近づいており、評価額は500億ドル、投資家にはAndreessen Horowitz、Thrive、Nvidiaが含まれていた。SpaceXはIPO時に、自社AI製品の到達可能市場が26兆ドルに達すると投資家へ説明していた。取引は今年第3四半期に完了する見通し。
Anthropicの5月の企業AI購読市場シェアは41%となり、OpenAIの39.5%を初めて上回った。同社は650億ドルの資金調達を終え、評価額は9650億ドルに達し、初の黒字四半期を受けて秘密裏にIPO申請したとされる。トランプ政権は輸出管理を理由に、Anthropicへ非米国人による最新モデルMythos 5とFable 5へのアクセス禁止を求め、両モデルは取り下げられた。Rampのチーフエコノミストは、国防総省のサプライチェーンリスク指定のような類似の論争が、逆にAnthropicの企業採用を過去最高に押し上げていると指摘する。
中国AIスタートアップDeepSeekは初の外部資金調達を完了し、500億元超、約74億ドルを調達、評価額は500億ドルを超えた。投資構造は特殊で、多くの投資家はCEO梁文鋒氏が管理する有限責任組合へ無議決権かつ5年ロックアップで資金を入れ、国有AIファンドのみが直接投資し議決権を保つ。梁氏個人は約200億元を投じ、TencentとCATLが主要外部投資家となった。梁氏は基礎AI研究とAGI開発を優先し、オープンソース方針を続けると述べている。
Anthropicは、2025年10月から2026年4月までの約40万件のClaude Code対話セッションを分析し、人間は「何をするか」の計画判断を主導し、Claudeは「どう実行するか」の実行判断を主導していると示した。領域専門知識が高いほど、モデルが1回の指示で完了する作業量が多い。各職種のタスク成功率はソフトウェアエンジニア平均に近く、領域専門家はより高い成功率を示すが、中級ユーザーとの差は大きくない。7カ月でデバッグセッションの比率はほぼ半減し、利用はデプロイ、データ分析、非コード文書作成など端から端までのエージェントタスクへ移り、典型的タスク価値は平均約25%上がった。
OpenAIは、プライバシーを保護しながら過去の会話を再生し、新しい候補モデルで応答を再生成することで、モデル公開後の実際の挙動を模擬するDeployment Simulation手法を発表した。複数のGPT-5-series Thinkingデプロイで、従来評価よりも望ましくない挙動の頻度を正確に推定し、新しいアライメント問題を発見し、モデルがテストを識別するリスクを下げたという。ツール利用を伴うエージェント場面にも拡張できる。従来評価はカバレッジ不足、選択バイアス、モデルによるテスト識別などの制約があるが、実会話分布を使うことでその弱点を緩和する。ただし、20万メッセージに1回未満の低頻度挙動は測定できない。
OpenAIは、2023年4月から2024年5月までに収集された100万件の会話を含むWildChat公開データセットを使い、GPT-5.1、GPT-5.2、GPT-5.4の実運用環境における望ましくない挙動率を模擬した。私有の本番データと比較すると、WildChatシミュレーションの平均予測誤差は約3倍だった。一方で、技術的な失調やエージェント型の失調では予測精度が低下した。公開データセットを外部監査ツールとして使う可能性は示されたが、対象分布や行動タイプによる限界も明らかになった。
6月16日、「Why is Meta destroying its engineering organization?」というブログ記事がHacker Newsで話題となり、110件の支持を集めた。記事はMetaがエンジニアリング組織を解体しつつあると指摘し、業界で広範な議論を呼んでいる。具体的な理由や今後の影響はまだ明確ではないが、大規模テック企業におけるAI時代の組織再編や開発体制の変化を象徴する論点になっている。
中国の卒業生は論文のAIGC率検査で矛盾した状況に直面している。学生が手書きした要約は99% AIと判定され、純粋にAIが書いた部分は0%と判定された。学校はAIGC率40%以下を要求し、学生はClaudeで何度も修正し、維普は1本20元、知網や万方は1000字あたり2元という検査費を支払い、最終的に36.1%まで下げた。答弁時に教員から学術表現へ戻すよう求められると37.21%へ上がり、同一論文でもプラットフォームにより48%、44%、59%と結果が大きく異なった。一部プラットフォームは低減サービスを有料提供し、一部学校は一律検査の代わりにAI利用申告書へ移行している。
WorkBuddyの日次アクティブユーザー数は3月以降、業界2位の3〜4倍に達した。利用者は開発者に限られず、人事、運用、総務など非技術職にも広がっている。企業版とプロジェクト機能により、エージェント型オフィス業務の場面がさらに拡張された。同時期にTrae Work、QoderWork、Kimi Workなども改名や新機能投入を進め、企業向けエージェント作業環境の競争が激しくなっている。Tencent Cloudは、この領域が10年に一度の機会になり得ると見ている。
Gary Marcus氏は、OpenAIが複数の危機に直面していると論じた。堀の欠如により市場でのリードが縮まり、最大投資家であるMicrosoftは距離を置きつつあり、主要製品を中国企業へ外注する可能性まで公に検討しているという。損失拡大は予想を大きく上回り、年損失額は8倍ペースで増えている。ワシントンによるAnthropicへの圧力は同社を弱める可能性もあるが、逆に押し上げる可能性もあり、Elon Musk氏も潜在的な競争者として浮上している。
Interconnectsのポッドキャストは、Finbarr Timbers氏を招き、後訓練配合の変遷を振り返った。InstructGPTのSFT、報酬モデル、RLという3段階から、Llama 3やTulu 3のSFT、DPO、検証可能報酬RL、さらにDeepSeek R1の大規模RL中心の流れへ進んだ。2026年には、複数の領域専門モデルを訓練してから統一モデルへ戻す構成が分化している。新しいパターンとしてMulti-teacher On-Policy Distillation(MOPD)が挙げられ、領域専門モデルをSFTと領域RLで訓練し、オンラインサンプリングとtoken単位の逆KL最小化で汎用学生モデルを訓練する。MiMo Flash V2やDeepSeek V4などの後訓練設計にもつながる論点として扱われている。