AI Daily Digest — 2026年5月16日

本日のAI業界注目ニュースを 24件 厳選してお届けします。

TOP 3

モデル

SenseNova、インフォグラフィック生成向け強化モデルSenseNova-U1-8B-MoT-Infographicを公開

SenseTimeは、インフォグラフィック生成に特化した強化モデルSenseNova-U1-8B-MoT-Infographicを発表した。同モデルは、ポスター、図表、レシピカード、ポストカード、学術風のarXivページなど、指示に基づいて多様な視覚形式のコンテンツを生成できる。BizGenEvalの難易度高評価とIGenBenchのQ-ACCで、基盤となるU1モデルからそれぞれ6.8点、18.2点の改善を示した。現在はHugging Faceでオープンソース公開され、100件超の生成例も提供されている。

inclusionAI、ARGenSeg-8Bを公開

inclusionAIチームは、ARGenSeg-8Bモデルを公開した。オープンソースとオープンサイエンスを通じてAIの進歩と普及を促す取り組みであり、より広いコミュニティがAI研究開発と応用へ参加できるようにすることを重視している。開放的なモデル公開は、協調的なイノベーションを促し、AIツールの多様な実利用シーンへの展開を加速させる。

プロダクト

Runway Agent、1回の会話で完成広告を生成

Runway Agentは、商品写真とアイデアから、1回の会話だけで完成度の高い広告を制作できるワークフローを提示した。クリエイティブ制作の初期案から仕上げまでを短縮し、広告制作の反復速度を高めることを狙っている。

X、For Youフィード推薦アルゴリズムをオープンソース化

Xは、For Youフィードの最新推薦アルゴリズムをGitHubでオープンソース化した。アルゴリズムは、フォロー中アカウントの投稿と類似性検索で発見したネットワーク外コンテンツを統合し、Grokアーキテクチャに基づくPhoenix Transformerモデルでスコアリングする。ユーザーの直近のインタラクションを分析し、いいね、返信、リポストなど複数の反応確率を予測したうえで関連性スコアを算出する。候補収集、文脈補完、AIモデル評価、多様性調整、スパムフィルタリングを含む実行可能なパイプライン、事前学習済みモデル、コンテンツ理解サービス、広告混合モジュールが公開されている。

セマンティックコードレビュー工具clawpatch 0.1.0が公開

clawpatch 0.1.0が公開された。clawpatchはコードベースを意味的な機能単位に分割し、その中からバグや品質問題をレビューし、検証済みの明確な修正試行を記録する。コードレビューの粒度を機能単位へ移すことで、通常の差分レビューでは見落とされやすい問題を発見しやすくする。

単一画像からインタラクティブな3D世界を構築するオープンソース3D生成ツールキット

開発者がClaude Code向けの包括的な3D生成ツールキットをオープンソース公開した。このツールは入力画像を自動分解し、環境、メッシュ、物理、ライティング、音声を含むインタラクティブな3Dシーンを生成する。画像と3D生成技術で物体を抽出して高品質メッシュを作成し、物体を除去した静的背景を生成したうえで、物理シミュレーション、リアルタイム照明、環境音を加える。付属ビューアでは生成物体のクリック編集とワンクリック書き出しが可能で、ゲーム開発、世界構築、製品可視化などの2Dから3Dへの制作を大幅に短縮する。

GrokをHermes Agentに接続可能に

xAIは、GrokサブスクリプションアカウントをNous Researchのオープンソース自己改善型エージェントHermes Agentに接続できるようにした。すべてのサブスクリプション階層で利用でき、Hermes環境からGrok 4.3のテキスト対話と高度推論、Grokのテキスト読み上げ、Grok Imagineによる画像・動画生成を利用できる。Hermes AgentはPC、サンドボックス、VPS上で永続稼働でき、セッションをまたぐ長期記憶とWhatsApp、Discordなどの通信プラットフォーム連携を備える。

ChatGPT、米国Proユーザー向けに個人理財体験を公開

OpenAIは、米国のChatGPT Proユーザー向けに個人理財機能のプレビュー版を公開した。ユーザーは個人の金融口座を安全に接続し、自身の財務状況、目標、優先順位に基づいたAIインサイトと助言を得られる。口座連携による個別分析を通じて、ChatGPTが個人向け金融アシスタント領域へ本格的に広がる動きとなる。

業界

Anthropicの評価額と収益が急伸

Anthropicの評価額は2026年2月の3,500億ドルから2026年5月には9,000億ドルへ上昇し、3カ月で約3倍となった。年間経常収益も2025年末の90億ドルから2026年5月末には450億ドルへ拡大し、5カ月で約5倍に伸びたとされる。フロンティアAI企業の成長速度と資本市場での評価の急騰を示す動きだ。

Microsoft、OpenAIへの累計投入額が1,000億ドル超に

「Musk対Altman」裁判で、Microsoftの企業開発責任者は同社のOpenAIへの累計投入額が1,000億ドルを超えたと確認した。内訳には130億ドルの初期投資と大量のAzureインフラコストが含まれる。この協業はMicrosoftに約300億ドルの収益をもたらした。CEOのSatya Nadella氏は、当時は誰も賭けようとしなかった段階でMicrosoftがリスクを取ったと述べている。両社は非独占契約を更新し、Microsoftは収益分配を終了、OpenAI側の分配上限を2030年まで累計380億ドルに設定した。これにより従来契約と比べ約970億ドルの節約になるという。

英国当局、最先端AIモデルのサイバー攻撃能力が専門人材を大きく上回ると警告

英国財務省、イングランド銀行、金融行動監視機構は、現在の最先端AIモデルが一般的な専門人材を大きく上回るサイバー攻撃能力を持つと共同で警告した。悪用されれば、攻撃はより高速、広範囲、低コストとなり、企業運営、顧客データ、金融市場の安定、金融システム全体に深刻な脅威をもたらす可能性がある。イングランド銀行総裁Andrew Bailey氏はAnthropicのMythos製品にも言及しており、専門家はこうしたAIが銀行業界と金融技術基盤への高度な攻撃を強化しかねないと警戒している。

Microsoft Research、新しいAIツール・モデル・コード・論文を公開

Microsoft Researchは、新しいAIツール、モデル、コードベース、論文を公開した。AIとエージェントを活用する開発者・研究者向けに、MSR AI FrontiersのMagenticLite、エージェント化されたGitHubワークフロー、検証優先エージェント、意味マッチング微調整、AI変革と経済発展に関する研究などが含まれる。

Kling AI、カンヌ映画祭イベントの登壇者を発表

Kling AIは、2026年カンヌ映画祭で開催するイベントの主要登壇者を発表した。中国のアニメーション監督Wei Li氏はAI生成アニメーション「Born of the Tide」を紹介し、Jon Erwin氏はAmazon Prime向けドラマ「House of David」の制作を解説する。Eekjun Yang氏は劇場映画「RAPHAEL」の制作プロセスを共有する。イベントは2026年5月18日15時30分から17時30分まで、カンヌ映画祭会場のメインステージで開催され、映画制作におけるAIの実用例を深掘りする。

技術

Show HN:ハードウェアに最適なローカルLLMを基準テストで探すWhichLLM

WhichLLMというオープンソースツールがGitHubで公開された。ユーザーのハードウェア構成に応じて、実際に動作し性能を発揮するローカル大規模言語モデルを推奨する。パラメータ数だけでなく、実測ベンチマークと新しさを考慮したランキングに基づき、各デバイスに合ったモデル選択を支援する。Hacker Newsでも注目を集め、ローカルAI導入の効率化に対する関心の高さを示している。

Lark CLI、45日で1万スター突破。AI操作の可視性と制御性が注目

LarkのオープンソースCLIツールlark-cliは、45日でGitHubスター数1万を突破した。AIがコマンドライン経由でLarkを直接操作し、グループ作成やドキュメント作成などを実行でき、各ステップをプレビュー・審査できる点が特徴だ。クラウド側で処理が見えにくいMCP型の運用と対照的に、操作が可視化され制御可能であることが、開発者がAI Agentへ安心してタスクを任せる前提として評価されている。

Oxford大学ポスドク、動画翻訳ツールViolinをオープンソース化

Oxford大学のポスドクKevin Lin氏は、動画翻訳ツールViolinをオープンソース公開した。高品質な動画コンテンツの言語障壁を下げることを目的とし、音声認識、大規模言語モデル翻訳、音声合成を統合した自動化パイプラインを備える。多言語翻訳と翻訳スタイルのカスタマイズに対応し、学術講演を子どもにも分かりやすい表現へ変換するような使い方も可能だ。ユーザーは動画内容と直接対話して関連する回答を得られる。Webアプリ、CLI、Agent Skillの3形態で提供され、MITライセンスで公開されている。

OpenSquilla、スマートルーティングでAIコストを約10分の1に削減

OpenSquillaは、スマートルーティング構成により、OpenClawに近い性能を維持しながら複雑なAIタスクの処理コストを6ドルから0.68ドルへ削減したとされるオープンソースプロジェクトだ。簡単なタスクは安価なモデルへ、複雑なタスクのみOpusなどの高性能モデルへ振り分ける。4層メモリ構造、16種類のオンデマンドツール、安全性を高める3段階のコードサンドボックスを備え、Web、CLI、Slack、Larkなど複数プラットフォームから利用できる。OpenAI、Claude、Gemini、DeepSeekなど20以上の主要モデルにも対応する。

トークンコストを気にせず、100個のAIインスタンスでオープンソース開発を自動化

開発者はOpenClawプロジェクトで大規模にAIを活用し、「トークンコストが重要ではなくなる未来」におけるソフトウェア開発を試している。チームは約100個のCodexインスタンスを継続稼働させ、コードとセキュリティ問題のレビュー、Issueの重複排除と分類、複雑なテスト環境の自動再現と検証動画の記録、会議内容からのタスク作成、スパムコメントのフィルタリング、性能回帰の監視などを自動化している。clawpatch.aiなどのツールでプロジェクトを機能単位に分割してレビューし、Vercel DeepSecなども統合することで、少人数でも高い開発効率を実現している。

推論の一次導関数:AIの波における成長ロジック

AI推論は現在、最大級かつ最速で成長する技術市場であり、7年以内に2,500億ドル規模へ達すると予測されている。推論サービスを直接販売または再販する企業は急成長しており、AnthropicやGoogle Cloudが代表例だ。AI以前から存在するソフトウェア企業では、DatadogとTwilioが「推論の一次導関数」として浮上している。DatadogのLLM観測製品はデータ量が直近四半期で約3倍に増え、AI顧客の約20%が年間経常収益の約80%を占めている。TwilioもAIで再構成した音声サービスを通じて顧客を引き付けており、非AIネイティブ企業にとっては推論サービスをどう再販し、その顧客の大量調達からどう利益を得るかが重要になる。

NVIDIA CEO、技術職の将来性はコンピューターサイエンス卒業生を上回ると発言

NVIDIA CEOのJensen Huang氏は、カーネギーメロン大学の2026年卒業生に対し、電気工や配管工などの技能職の方がコンピューターサイエンス卒業生よりも有望だと語った。Randstadの分析では技能職需要の成長はホワイトカラー職の3倍で、ロボット技術者の求人は107%増加している。一方、Stanfordの研究ではAI関連職の早期キャリア雇用が16%減少しているという。テック企業は今年だけでデータセンター建設に7,000億ドルを投じ、2030年までに世界で7兆ドル規模に達すると見込まれるが、こうしたインフラ整備には人手が不可欠だ。AI時代の大きな勝者は、プロンプトエンジニアではなくデータセンターを実際に建設できる技能者かもしれない。

Yann LeCunインタビュー:LLMの限界、AIの未来、起業の新展開を語る

Yann LeCun氏はUnsupervised Learningポッドキャストで、大規模言語モデルの限界に関する主流とは異なる見解を述べ、ロボティクスの発展経路について語った。Metaを離れた理由、Geoff Hinton氏やYoshua Bengio氏とのチューリング賞受賞者間の大きな見解の違い、2027年に関する予測、新会社AMIが世界モデルに賭ける理由なども取り上げている。さらにOpenAIとAnthropicをSun Microsystemsになぞらえ、博士課程の学生にはLLM研究をやめるよう勧め、AI安全性、ブレークスルー研究の発生メカニズム、Meta FAIRの得失について率直に語っている。