OpenAI、70以上の入力言語に対応するリアルタイム翻訳モデルを発表
OpenAIはリアルタイム翻訳向けモデルgpt-realtime-translateを紹介した。70以上の言語による音声入力を受け取り、13種類の出力言語の音声へ変換できる。汎用の大規模言語モデルだけではなく、特定用途に最適化した専用モデルが必要な場面があるという位置づけで、スマートグラス上で動作させていることも示された。
本日のAI業界注目ニュースを 24件 厳選してお届けします。
OpenAIはリアルタイム翻訳向けモデルgpt-realtime-translateを紹介した。70以上の言語による音声入力を受け取り、13種類の出力言語の音声へ変換できる。汎用の大規模言語モデルだけではなく、特定用途に最適化した専用モデルが必要な場面があるという位置づけで、スマートグラス上で動作させていることも示された。
StepFunは、エージェントワークフローの効率を重視したオープンモデルStep 3.7 Flashを公開した。198BパラメータのMoE構成で、約11Bパラメータがアクティブになり、256Kコンテキストをサポートする。ClawEval-1.1とSimpleVQA Searchで首位のスコアを示し、画像や文書の理解、コード生成、ツール実行にも対応する。τ²-benchでは98%超を記録し、Claude CodeやMCPプロトコルなどのツールチェーンとも互換性を持つ。モデル重みはApache 2.0ライセンスで公開され、Mac Studio M4 Maxなどでのローカル実行にも対応する。
小米の大規模モデル応用チームは、制御可能な動画効果音生成モデルControlFoleyをオープンソースで公開した。創作時に音を意図通り制御しにくい課題に対応するもので、テキスト誘導型の動画音付け、テキスト制御型の動画音付け、参照音声による動画音付けの三つのタスクを統一的に扱う。VGGSound-Testなど複数のベンチマークでオープンソースSOTAを達成し、コード、モデル重み、オンラインデモも公開されている。
Qwenは、Qwen-VLAに関連する発信の中で、チャットボット、画像・動画理解、画像生成、文書処理、Web検索連携、ツール利用、Artifactsなどを含むQwen Studioの包括的な機能を紹介した。視覚と言語を結びつけ、理解だけでなく操作や行動へ広げる方向性を示す内容となっている。
Greg Brockman氏は、CodexがCodexインターフェース自体を管理する用途を紹介した。Codexは対話スレッドの作成、検索、整理、重要スレッドの固定、並行タスク向けワークツリーの起動を行えるようになっている。複数の作業スレッドを人手で管理する負担を減らし、Codexを運用するためにCodexを使うというワークフローを示している。
Geminiは、Gemini Omniが簡単なスケッチを新しい現実へ変換できる例を紹介した。ユーザーが円を描く動画をアップロードし、円を描き終えたら何に変わるかをプロンプトで指定することで、入力映像をもとに生成結果を作れる。Geminiアプリ内で試せる機能として案内されている。
OpenAIは、Codexのコンピューター操作機能がWindowsでも利用可能になったと発表した。ChatGPTモバイルアプリからWindows上のCodex作業を開始、確認、誘導でき、Windows PCで進行中の作業を場所に縛られず管理しやすくする。現時点では早期体験という位置づけだが、Codexが対応できる作業環境を広げる重要な更新となる。
OpenRouterは、エージェント、データ、コストを保護するためのGuardrailsを発表した。予算執行、ゼロデータ保持、モデルとプロバイダーの制限、プロンプトインジェクション対策、データ損失防止などを設定できる。AIアプリケーションの運用時に、安全性とガバナンスを構成可能な形で組み込むための機能群である。
Runwayは、生成機能をアプリケーションや製品、プラットフォームへ直接統合しやすくするため、Runway APIに新しいモデルとエンドポイントを継続的に追加していると案内した。Seedance 2.0、GPT Image 2、HappyHorse 1.0、Nano Banana Pro、Magnific Precision Upscaler V2など、多様なモデルを一か所から利用できる点を訴求している。
OpenRouterは、対応モデルがResponses API経由でV4A diffを使い、ファイル編集の提案を行えるサーバーツールapply_patchをサポートした。モデルはファイルの作成、更新、削除を含むパッチを生成し、OpenRouter側でdiff構文を検証する。モデルをコード編集フローへ組み込みやすくする更新である。
ChatGPTは、長くなった会話を把握しやすくするためのディレクトリ機能を提供開始した。対象は5件以上の返信を含む会話で、最初は一つの質問から始まったものの、長いスレッドに発展した会話を整理する用途が想定されている。
Geminiは、今月の更新として新しく設計されたGeminiインターフェースや、Gemini Sparkによる常時稼働型のエージェント支援を紹介した。Geminiアプリの利用体験を刷新し、日常的な作業を支えるエージェント機能を前面に出すアップデートである。
中国の中央網信弁など四部門は、「2026年全民デジタル素養・技能向上作業要点」を共同で発表し、六つの重点任務を示した。その中で「全国民の人工知能リテラシー向上」が明記され、AIによる教育支援、AI人材育成の加速、AIの普及応用深化が掲げられている。ほかにもデジタル資源供給、応用シーン構築、包摂的な発展、安全で秩序あるネット空間、連携メカニズムなどが含まれる。
ボストン小児病院はOpenAI技術を導入し、患者ケアの改善と運用負担の軽減に活用している。これにより、40件を超える希少疾患症例の診断支援につながったとされる。医療現場でのAI活用が、臨床判断の補助と業務効率化の両面で進んでいることを示す事例である。
Googleは、ウォータールー大学未来ラボの学生が教育と仕事の未来を再構築するAIプロトタイプを開発したと紹介した。例として手話チューターなどが含まれており、AIを使って学習支援やアクセシビリティを高める取り組みが示されている。
Fei-Fei Li氏は、大規模生成モデル時代に向けた視覚生成ベンチマークデータセットGPICへの期待を表明した。視覚生成モデルの能力をより大規模かつ体系的に評価するための基盤として位置づけられ、生成AIの評価環境整備に関わる動きとなる。
洪明氏は、中国語コンテンツ制作者向けのSkillであるclaude-design-cardを紹介した。文章、URL、記事をもとに、WeChat公式アカウントのトップ画像、小紅書向け画像カード、チュートリアル手順カードなどの視覚素材を生成でき、28種類のレイアウトと10種類のテーマをサポートする。要点抽出、レイアウト選択、HTML生成、PNGスクリーンショット化を自動化し、FigmaやCanvaで手作業していた工程を置き換えることを狙うオープンソースツールである。
Rohan Paul氏は、Kogチームが標準的なデータセンターGPUで極めて高い単一ユーザー推論速度を実現した事例を紹介した。8基のAMD MI300X GPUで毎秒3,000トークン、8基のNVIDIA H200で毎秒2,100トークンに到達し、一般的な推論速度の10倍から30倍に相当する。LLMデコードをメモリストリーム問題として捉え、monokernel、同期機構の再構築、メモリアクセスマッピング、遅延テンソル並列を使うLaneformerモデル構造を協調設計した点が中核とされる。
Berry Xia氏は、FaceMindチームが100言語と四つの中核タスクで行った実験を紹介した。意味を変えずに、事前学習コーパスで出現頻度の高い語彙や表現を使ってプロンプトを書いたり微調整したりすると、大規模言語モデルの性能が大きく向上するという。これはAdam’s Law、すなわちテキスト頻度の法則として整理され、データエンジニアリングに頻度という新しい軸を加える考え方である。
邵猛氏は、Cursorチームの「開発者習慣レポート」を紹介した。レポートによると、AIは開発作業の形を大きく変えており、開発者の週あたりコード生成量は約3.6K行から8.6K行へ増え、1,000行以上の大規模PRの比率も上昇した。AIエージェントの単一セッション内ツール呼び出し数は約30%増え、より複雑なタスクを処理している。受け入れられたAI生成コードの60分後の残存率も約76%から81%へ上がり、AIが個人補助ツールから大規模な開発作業と自動化基盤を動かす中核へ移りつつあることを示している。
「Claude Codeのソースコードを読んだ」とする記事が、ドキュメントに記載されていない設定項目を扱う内容として紹介された。ただしAI HOT上の要約では、本文が画像と外部リンクのみで、モデルバージョン、パラメータ、性能、価格、機能の具体情報は示されていないとされる。Claude Codeの内部挙動や設定可能性への関心の高さを示す話題である。
TechCrunchは、Box創業者Aaron Levie氏の見解として、AIで従業員を置き換えようとする意思決定者ほど、実際の仕事の中身を理解していない場合が多いと紹介した。同氏はこれを「AI psychosis」と呼んでいる。ClickUpがAIエージェント導入に伴い22%の人員削減を行った例にも触れ、2026年のテック業界の人員削減規模がすでに2025年通年に近づいていることを示している。
Teslaは完全自動運転ソフトウェアFSDの安全性が人間の最大10倍に達すると主張しているが、Reutersの調査ではそのデータに疑問が投げかけられている。FSDの訓練に関わった従業員は技術がまだ成熟していないと述べ、安全性のデモは人手に大きく依存しているとされる。11人の交通安全研究者は、より広範な連邦事故データとの不適切な比較など、統計手法の欠陥を指摘した。Tesla FSDは依然として運転者の積極的な監督を必要としており、安全な展開にはまだ時間がかかる可能性がある。
TechCrunchによると、Cognitionの創業者Scott Wu氏は、同社のAIコーディングエージェントDevinについて、人間のプログラマーを置き換えることを目的としていないと明言した。Devinは最初期かつ成功したAIコーディングエージェントの一つとして紹介されているが、位置づけは人間の開発者の代替ではなく、支援や協働にあるという姿勢を示している。