OpenAI、双方向音声モデルBidi 1をChatGPTでテスト開始
一部ユーザーのChatGPT Web版とアプリ版で、標準音声や高度音声と並ぶ双方向AI音声モデルBidi 1が確認された。会話中の割り込みや新指示に即応する設計で、OpenAIはまだ正式発表していないが、より広いテストが見込まれる。
本日のAI業界注目ニュースを 21件 厳選してお届けします。
一部ユーザーのChatGPT Web版とアプリ版で、標準音声や高度音声と並ぶ双方向AI音声モデルBidi 1が確認された。会話中の割り込みや新指示に即応する設計で、OpenAIはまだ正式発表していないが、より広いテストが見込まれる。
通義千問は、MCP、検索、ターミナル、SWE、Web、OS、Androidを対象にする言語世界モデルQwen-AgentWorldを発表した。1000万件超の実インタラクション軌跡で訓練し、環境シミュレーターとエージェント基盤モデルの両用途を示している。
GoogleはComputer useをGemini 3.5 Flashの内蔵ツールとして統合し、ブラウザ、モバイル、デスクトップ環境をまたぐエージェント構築を可能にした。Gemini APIとGemini Enterprise Agent Platformから利用でき、機密操作の確認や間接プロンプト注入検知も備える。
OpenAIはGPT-5.5 Instantの新版を投入し、会話の意図理解や応答調整、複雑な制約の処理を改善した。買い物やローカル推薦などの用途で、より実用的で一貫した対話を狙う。
ByteDanceの豆包は、豆包2.1シリーズを基盤にした専門版をリリースした。ローカルPCやブラウザ操作、Skills、定時タスク、Office連携、バックエンド付きオンラインアプリ生成など、複雑なオフィス生産性タスクを扱う。
FigmaはConfig 2026で、コードレイヤー、Motion、深度レイヤー、Shader、生成プラグインなどを発表し、買収したWeaveのワークフロー機能も統合した。一方でAI機能はAnthropic、OpenAI、Googleなど外部モデルに依存しており、推論コストと競争圧力が課題になる。
火山引擎はFORCE大会で、企業向けエージェントアプリのAgent Ready基盤を発表した。AgentKitにIdentity、Runtime、Sandbox、Evaluationなどを追加し、ArkClaw企業版ではエージェント広場、スキルセンター、企業ナレッジ、IDP/SSO/OAuth連携を統合する。
NotionはCursor SDKを使い、ドキュメント、スレッド、データベースからCursorにタスクを割り当てられる機能を組み込んだ。計画、実装、テスト、検証、PR作成までをSSEストリーミングで扱い、MCPやテンプレート、スキル、サブエージェントにも対応する。
Perplexityは法律調査データベース、文書ツール、案件管理システムに接続するComputer for Counselを発表した。midpageAI、LegalZoom、Docusign、netdocumentsなどから引用可能な情報を抽出でき、ProとMax加入者が利用できる。
Mistral AIはConnectors向けに、ワークスペース単位の管理制御、コネクタースコープ付きAPIキー、複数アカウント接続、MCPデバッグ機能、Vibe CodeとWorkflowsでのコネクター利用を追加した。自動化AIワークロードでの権限管理と長時間タスクを強化する。
Treble TechnologiesとHugging Faceは、実環境の遠距離音響条件を対象にしたASR評価基準FFASRを公開した。14種類の部屋、複数のSNR条件、近距離乾燥条件を含み、WERとリアルタイム係数でモデル性能を比較する。
OpenAIとBroadcomは、大規模言語モデル推論に最適化したカスタムAIチップJalapeñoを発表した。AIシステムの性能、効率、スケールを高めることを目的とする。
米国家安全保障局は、Anthropicとの紛争によりMythosシステムへのアクセスを失ったと報じられた。政府機関とAI企業の契約、アクセス権、モデル利用制限をめぐる緊張を示す事例となる。
UC San DiegoのDFlashは、投機的デコード向けの軽量ブロック拡散ドラフトモデルだ。ブロック単位で候補トークンを生成し、目標モデルが並列検証することで、EAGLE-3を上回る無損失高速化と、Blackwell上での最大15倍の吞吐量向上を報告した。
Google Researchは、推論過程が単純な事実想起にも効くことを示した。Gemini 2.5 Flash/ProやQwen3-32Bで、推論トークンが計算バッファや事実プライミングとして働き、通常は答えられない事実の想起を助ける。
LinkedIn共同創業者のReid Hoffman氏は、SpaceXを「AI企業ではない」とし、xAIを「災難」と批判した。Cursor買収を関連性の購入と位置付け、xAIの共同創業者離脱やベンチマーク劣後、米政府によるAnthropicモデル制限にも言及した。
火山引擎Force大会で、ByteDanceの洪定坤氏はAI Codingの導入経験を共有した。コード貢献率やトークン消費は急増したが、単一指標では実態を見誤るとして、正解率、可交付性、基盤整備、協業設計を組み合わせる重要性を示した。
SignalFireの分析によると、大手テック企業の採用全体は2019年比で落ち込む一方、エンジニア職の減少幅は相対的に小さく、初期スタートアップでは増加した。AIによる雇用代替懸念とは対照的に、エンジニア需要の底堅さが示された。
OpenRouterは、ユーザーのプロンプトと応答を保存しないゼロデータ保持の取り組みを紹介した。1月以降に97モデルが対応し、月間トークン量は4.3倍、ルーティング全体の約半分を占めるまで伸びた。
NVIDIA NeMo AutoModelはTransformers v5を基盤に、Expert Parallelism、DeepEP、TransformerEngineカーネルを追加する。MoEモデル微調整で吞吐量を3.4から3.7倍に高め、GPUメモリを29から32%削減し、大規模モデルの全量微調整を可能にする。
OpenBMBは、MiniCPM-V 4.6がApple Core AI上で高速に動作する事例を紹介した。2B未満のパラメータ規模で効率的なマルチモーダルAIを実行できる点を強調している。