AI版Alipay「Ant Abao」、招待不要で公開ベータ開始
AlipayのAIアシスタント「Abao」がiOSとAndroidで公開ベータを開始した。対話から公的サービスなどのミニアプリへ案内し、手続きを支援する。送金や決済など資金が動く操作は、必ず利用者本人の確認を求める設計としている。
本日のAI業界注目ニュースを 24件 厳選してお届けします。
AlipayのAIアシスタント「Abao」がiOSとAndroidで公開ベータを開始した。対話から公的サービスなどのミニアプリへ案内し、手続きを支援する。送金や決済など資金が動く操作は、必ず利用者本人の確認を求める設計としている。
Google Health API v4を扱うオープンソースCLI「ghealth」が公開された。Go製の単一バイナリで、歩数、心拍、睡眠、体重など40種類のデータを構造化JSONで出力する。AIエージェント向けの決定的な終了コード、dry-run、SKILL.mdも備える。
Senior SWE-Benchは、機能開発と高度な不具合調査を通じてAIエージェントの上級ソフトウェアエンジニア相当の能力を測るオープンベンチマークだ。首位でも通過率は24.0%で、最先端モデルが75%以上の課題で要求水準に届かない現状を示した。
オープンウェイトモデルKimi K2.7 CodeがGitHub Copilotのモデル選択肢に加わった。Azure上でGitHubがホストし、Copilot Pro、Pro+、Max利用者へ段階的に展開する。VS Code、Visual Studio、JetBrains、Xcode、CLIなどに対応する。
AlibabaはWebページ内でDOM要素を自然言語操作できるJavaScriptライブラリ「Page Agent」を公開した。画面画像ではなく圧縮したDOM表現をテキストモデルへ渡し、クリックやフォーム入力を実行する。MITライセンスでOpenAI互換エンドポイントを利用できる。
Kunlun TechのSkywork 3.2は、AIエージェントをSlack、Feishu、DingTalk、Discord、Telegramなどのグループチャットへ参加させる「Skywork Tags」を公開した。チームの会話文脈を継続的に学び、既存の作業場所を変えずに支援する。
Claude Enterpriseはグループ・利用者別の使用量とコスト分析、自然言語による分析チャット、Analytics APIを追加した。Claude Codeでは開発者活動と生産性価値を可視化し、管理者はモデル権限、組織の支出上限、段階的な警告を設定できる。
Microsoftは新部門「Frontier Company」に25億ドルを投じ、6000人の業界・エンジニアリング専門家を企業顧客へ派遣する。顧客とAIシステムを共同設計・導入・改善し、システムインテグレーターとも連携して展開規模を広げる。
裁判資料から、Anthropicと米国防総省がClaudeの軍事利用ガードレールを巡り交渉していたことが明らかになった。Anthropicは完全自律兵器と一部監視用途を禁止する立場で、国防総省は合法な国家安全保障用途への幅広い利用を求めている。
Financial TimesとCNBCの報道によると、OpenAIは米国政府へ自社株式の5%を提供する案を示した。直近の評価額8520億ドルを基準にすると約426億ドル相当で、Sam Altman CEOはAIの利益を社会と共有する方法だと説明した。
Citigroup、Adobe、Atlassianなどが従業員の最上位AIモデル利用を制限していると報じられた。一部企業では月間AI費用が3倍の1500万ドル超に拡大しており、低コストモデルへの切り替えや従量課金の見直しが進む。
KuaishouはKling AI関連資産を持つ北京可灵への投資契約を発表した。初期投資家21社が約20.28億ドルを出資し、追加投資を含む上限は30億ドル、投資後評価額は180億ドルとなる。今後12カ月以内の香港上場も計画する。
Googleの2025年の電力使用量は前年比37%増え、データセンターだけで4200万MWhを超えた。Cloud、YouTube、AI基盤の拡大が主因で、2019年比では総使用量が250%以上増加した。同社はクリーン電力の拡大と効率改善を進める。
Ethan Mollickは、Mythosとサイバーセキュリティを巡る議論は誇張ではなく、自律作業にFableを使った経験があれば理解できるとの見解を示した。高度なエージェント能力が安全保障へ与える現実的な影響を指摘している。
自己組織型の複数LLMチームは、専門家を明示しても最良メンバー単独より最大41.1%低い成績となった。原因は専門家の特定ではなく意見の活用不足で、人数が増えるほど平均的な妥協へ傾く。一方、この傾向は悪意あるエージェントへの耐性を高める。
VLMの強化学習微調整は基準精度を高める一方、誤解を招く説明や誤った思考連鎖に対する頑健性と推論の忠実性を損なうことが示された。忠実性を考慮した報酬は整合性を回復するが、敵対的拡張との併用では近道戦略へ崩れる課題がある。
VideoFlexTokは、抽象的な意味と動きから細部へ段階的に情報を加える可変長動画トークン表現を提案した。用途に応じてトークン数を調整でき、10秒・81フレームの動画を672トークンで処理し、同等の3Dグリッド方式から8分の1へ削減する。
browser-useはCodexやClaude Code向けのオープンソース動画編集Skillを公開した。音声をタイムスタンプ付きテキストへ変換し、必要な箇所だけフレーム画像を確認してEDLを生成、ffmpegでレンダリングする。字幕、HDR、縦動画、音量正規化にも対応する。
Emil KowalskiはAIコーディングツール向けに、UIアニメーションの設計・レビュー原則をまとめたSkillsを公開した。300ms以内、transformとopacity中心、利用頻度の高い操作は動かさない、prefers-reduced-motionを尊重するなど実務的な基準を提供する。
有償フリーランス業務240件を人間が評価するRemote Labor Indexで、Fable 5は16.1%の専門品質達成率を記録した。8カ月前の最高値2.5%から6倍以上に伸び、Opus 4.8の8.3%とGPT-5.5の6.3%を上回った。
OpenRouterは、Fable 5が4.44ドルの実行費用でルーブ・ゴールドバーグ装置を構築した事例を紹介した。複雑な制作タスクを低コストで完遂できるエージェント能力を示すデモとして、使用したプロンプトも共有されている。
Qwenチームは、調査や分析を行う消費者向けエージェントで、実行時間を3分の1、トークン消費を海外製品の10分の1へ削減したと説明した。User Memory、Environment、Task System、Assistantを組み合わせ、受動応答から能動支援への移行を探る。
SGLangチームはLLMサービング、分散ランタイム、GPUカーネル、拡散処理の作業手順をSKILL.md、スクリプト、ベンチマーク契約、レビュー循環として実装した。性能プロファイルを根拠に、継続的な最適化をLoop Engineeringへ発展させる。
Runwayは容量制御システム「deckard」で、時間帯に応じてGPUを本番推論と研究クラスタ間で移動する。北米の昼間に本番容量を確保し、夜間は余剰GPUを研究へ戻す。待ち行列理論で目標利用率を定め、過負荷による待ち時間の急増を避ける。