FastWan-QAD、RTX 5090 1枚で5秒動画を1.8秒で生成
Sky Computing Labは、量子化認識蒸留を用いたFastWan-QADを公開した。FastVideo上でRTX 5090 1枚による480p・5秒動画生成を1.8秒で実現し、モデル、コード、技術解説を公開している。
本日のAI業界注目ニュースを 26件 厳選してお届けします。
Sky Computing Labは、量子化認識蒸留を用いたFastWan-QADを公開した。FastVideo上でRTX 5090 1枚による480p・5秒動画生成を1.8秒で実現し、モデル、コード、技術解説を公開している。
JoyAI-VL-Interactionは映像ストリームを継続観測し、重要イベントを判断して応答する全スタック対話モデルとして公開された。カメラやライブ映像、音声対話、長期記憶を扱い、vLLMでの展開も想定する。
Confucius4-TTSは短い参照音声から多言語のゼロショット音声クローンを生成するオープンモデルだ。音色とスタイルの制御、長時間音声の一貫性を特徴とする。
KreaはKrea 2のデータ、アーキテクチャ、学習技術を解説する技術レポートを公開し、微調整向けのRawと高速版Turboの重みも提供した。
ByteDanceはテキストと音声参照から音声を生成するDoubao Seed Audio 1.0を発表した。複数話者、感情、BGM、環境音を単一プロンプトで扱い、長時間でも音色を維持する。
Mistral AIは、バウンディングボックス、ブロック分類、単語単位の信頼度を追加したOCR 4を発表した。APIとセルフホストの双方で利用できる。
ByteDanceのSeed2.1シリーズは、実務向けエージェント、コード開発、多モーダル理解を強化した。DoubaoとTRAEで提供され、API経由でも利用できる。
CUGAは計画、実行ループ、ツール呼び出し、状態管理を備える軽量エージェントフレームワークで、単一ファイルの実例を多数提供する。
RunwayはSeedance 4K、Seedance Mini、Kling 3.0 Turboをまとめて提供開始した。動画生成・編集の選択肢を拡充するリリースだ。
Unlimited OCRは、長時間の映像・文書を単一の処理で解析することを目指すオープンソースプロジェクトとして紹介された。
Qwenを用いた進学支援エージェントの評価では、事実問題、志望校選択、匿名比較で安定した性能が報告された。
AnthropicはSlackチャンネルでClaudeへメンションして作業を委任できるClaude Tagを発表した。権限を得たデータとチャンネルを利用し、非同期の継続作業にも対応する。
Claude Code v2.1.187はサンドボックスでの資格情報アクセス制御を追加し、MCPや構造化出力、リモート実行に関する複数の不具合を修正した。
Oracleはクラウド基盤への大型投資と債務調達を進める一方、AI導入と再編の中で大規模な人員削減を実施したと報じられた。
五眼同盟のサイバー機関は、高度なAIが攻撃コード作成やフィッシングを容易にし、一般利用者への影響が近づいていると警告した。
GitHub、Hugging Face、Mozillaなどは、下流利用者の不履行を理由にOSSライセンスを撤回させる条項がオープンソース原則と衝突すると主張した。
OpenAIは評価枠組み、安全実務、国際協力を含む先進AIの共有標準の整備を支援すると発表した。
OmioはOpenAI技術を活用し、旅行検索と支援を会話型に刷新しながら、AIネイティブ企業への移行を進めている。
数百万人規模の応募データを分析した研究は、AI採用スクリーニングにおける人種別の不利益と、同一ベンダーへの依存が生むリスクを報告した。
Appleの研究は、複数LLMを審査員として並べても誤りが強く相関するため、9モデルでも約2つの独立投票に相当すると示した。
ChaosNLIを用いた研究は、必要なアノテーター数がエントロピー相関やKLダイバージェンスなど、目標とする評価指標によって異なると報告した。
Hugging FaceはGitHub Actions、オープンツール、開放モデルを組み合わせ、最終承認を人間に残した週次リリース運用を紹介した。
ブラウザごとのキャッシュ分断によるモデル資産の重複ダウンロードを減らすため、Transformers.jsはCross-Origin Storage APIの実験的な利用を紹介した。
Metaは幅7mmのスチールケース電池を開発し、Ray-Ban Metaなどでの容量、放電特性、実装効率を改善した設計を公開した。
Claude Tagは共有チャンネルでユーザーを模倣せず独立したエージェントIDとして動作し、チャンネル単位の権限と記憶の分離を行う。
GPT-5 Proは免疫学者Derya Unutmaz氏の研究を支援し、T細胞の振る舞いに関する新しい知見につながる問題解決を後押しした。