2026年5月30日の記事には何件のニュースが含まれていますか？

2026年5月30日版には24件のAIニュースを掲載しています。

このサイトはどのようなトピックを扱いますか？

主にモデル、プロダクト、業界、リサーチ、技術を扱います。

更新頻度はどのくらいですか？

AI Daily Digestは原則として毎日更新です。

本日の注目ニュース（TOP3）は何ですか？

OpenAI、70以上の入力言語に対応するリアルタイム翻訳モデルを発表 / Step 3.7 Flash、エージェント効率を重視して公開 / Codex、Windowsでのコンピューター操作に対応

元記事へのリンクはありますか？

あります。各ニュース見出しから参照元リンクに移動できます（https://news.smartgeo.jp/posts/2026-05-30）。

AI Daily Digest — 2026年5月30日

本日のAI業界注目ニュースを 24件 厳選してお届けします。

TOP 3

1OpenAI、70以上の入力言語に対応するリアルタイム翻訳モデルを発表 2Step 3.7 Flash、エージェント効率を重視して公開 3Codex、Windowsでのコンピューター操作に対応

モデル

OpenAI、70以上の入力言語に対応するリアルタイム翻訳モデルを発表

OpenAIはリアルタイム翻訳向けモデルgpt-realtime-translateを紹介した。70以上の言語による音声入力を受け取り、13種類の出力言語の音声へ変換できる。汎用の大規模言語モデルだけではなく、特定用途に最適化した専用モデルが必要な場面があるという位置づけで、スマートグラス上で動作させていることも示された。

Step 3.7 Flash、エージェント効率を重視して公開

StepFunは、エージェントワークフローの効率を重視したオープンモデルStep 3.7 Flashを公開した。198BパラメータのMoE構成で、約11Bパラメータがアクティブになり、256Kコンテキストをサポートする。ClawEval-1.1とSimpleVQA Searchで首位のスコアを示し、画像や文書の理解、コード生成、ツール実行にも対応する。τ²-benchでは98%超を記録し、Claude CodeやMCPプロトコルなどのツールチェーンとも互換性を持つ。モデル重みはApache 2.0ライセンスで公開され、Mac Studio M4 Maxなどでのローカル実行にも対応する。

小米、制御可能な動画効果音生成モデルControlFoleyをオープンソース化

小米の大規模モデル応用チームは、制御可能な動画効果音生成モデルControlFoleyをオープンソースで公開した。創作時に音を意図通り制御しにくい課題に対応するもので、テキスト誘導型の動画音付け、テキスト制御型の動画音付け、参照音声による動画音付けの三つのタスクを統一的に扱う。VGGSound-Testなど複数のベンチマークでオープンソースSOTAを達成し、コード、モデル重み、オンラインデモも公開されている。

Qwen-VLA、世界の理解から行動へ向かう構想を提示

Qwenは、Qwen-VLAに関連する発信の中で、チャットボット、画像・動画理解、画像生成、文書処理、Web検索連携、ツール利用、Artifactsなどを含むQwen Studioの包括的な機能を紹介した。視覚と言語を結びつけ、理解だけでなく操作や行動へ広げる方向性を示す内容となっている。

プロダクト

Codex、対話スレッドと並行タスクを自律管理可能に

Greg Brockman氏は、CodexがCodexインターフェース自体を管理する用途を紹介した。Codexは対話スレッドの作成、検索、整理、重要スレッドの固定、並行タスク向けワークツリーの起動を行えるようになっている。複数の作業スレッドを人手で管理する負担を減らし、Codexを運用するためにCodexを使うというワークフローを示している。

Gemini Omni、スケッチを新しい現実へ変換

Geminiは、Gemini Omniが簡単なスケッチを新しい現実へ変換できる例を紹介した。ユーザーが円を描く動画をアップロードし、円を描き終えたら何に変わるかをプロンプトで指定することで、入力映像をもとに生成結果を作れる。Geminiアプリ内で試せる機能として案内されている。

Codex、Windowsでのコンピューター操作に対応

OpenAIは、Codexのコンピューター操作機能がWindowsでも利用可能になったと発表した。ChatGPTモバイルアプリからWindows上のCodex作業を開始、確認、誘導でき、Windows PCで進行中の作業を場所に縛られず管理しやすくする。現時点では早期体験という位置づけだが、Codexが対応できる作業環境を広げる重要な更新となる。

OpenRouter Guardrails、エージェント・データ・コストを保護

OpenRouterは、エージェント、データ、コストを保護するためのGuardrailsを発表した。予算執行、ゼロデータ保持、モデルとプロバイダーの制限、プロンプトインジェクション対策、データ損失防止などを設定できる。AIアプリケーションの運用時に、安全性とガバナンスを構成可能な形で組み込むための機能群である。

Runway API、モデルとエンドポイント対応を継続拡大

Runwayは、生成機能をアプリケーションや製品、プラットフォームへ直接統合しやすくするため、Runway APIに新しいモデルとエンドポイントを継続的に追加していると案内した。Seedance 2.0、GPT Image 2、HappyHorse 1.0、Nano Banana Pro、Magnific Precision Upscaler V2など、多様なモデルを一か所から利用できる点を訴求している。

OpenRouter、モデルによるファイルパッチ生成をサポート

OpenRouterは、対応モデルがResponses API経由でV4A diffを使い、ファイル編集の提案を行えるサーバーツールapply_patchをサポートした。モデルはファイルの作成、更新、削除を含むパッチを生成し、OpenRouter側でdiff構文を検証する。モデルをコード編集フローへ組み込みやすくする更新である。

ChatGPT、会話ディレクトリ機能を提供開始

ChatGPTは、長くなった会話を把握しやすくするためのディレクトリ機能を提供開始した。対象は5件以上の返信を含む会話で、最初は一つの質問から始まったものの、長いスレッドに発展した会話を整理する用途が想定されている。

Gemini、今月の更新として新UIとエージェント支援を紹介

Geminiは、今月の更新として新しく設計されたGeminiインターフェースや、Gemini Sparkによる常時稼働型のエージェント支援を紹介した。Geminiアプリの利用体験を刷新し、日常的な作業を支えるエージェント機能を前面に出すアップデートである。

業界

中国四部門、全国民のAIリテラシー向上を重点施策に

中国の中央網信弁など四部門は、「2026年全民デジタル素養・技能向上作業要点」を共同で発表し、六つの重点任務を示した。その中で「全国民の人工知能リテラシー向上」が明記され、AIによる教育支援、AI人材育成の加速、AIの普及応用深化が掲げられている。ほかにもデジタル資源供給、応用シーン構築、包摂的な発展、安全で秩序あるネット空間、連携メカニズムなどが含まれる。

ボストン小児病院、OpenAI技術で新たな診断を支援

ボストン小児病院はOpenAI技術を導入し、患者ケアの改善と運用負担の軽減に活用している。これにより、40件を超える希少疾患症例の診断支援につながったとされる。医療現場でのAI活用が、臨床判断の補助と業務効率化の両面で進んでいることを示す事例である。

ウォータールー大学未来ラボ、教育と仕事を変えるAIプロトタイプを展示

Googleは、ウォータールー大学未来ラボの学生が教育と仕事の未来を再構築するAIプロトタイプを開発したと紹介した。例として手話チューターなどが含まれており、AIを使って学習支援やアクセシビリティを高める取り組みが示されている。

リサーチ

GPIC、大規模視覚生成ベンチマークデータセットを公開

Fei-Fei Li氏は、大規模生成モデル時代に向けた視覚生成ベンチマークデータセットGPICへの期待を表明した。視覚生成モデルの能力をより大規模かつ体系的に評価するための基盤として位置づけられ、生成AIの評価環境整備に関わる動きとなる。