Allen AIは、LLMの継続開発で繰り返し評価を行うためのワークベンチolmo-evalを紹介した。OLMES標準を土台にしつつ、新しい評価を追加する実装負荷を下げ、エージェント型評価や多ターン評価を一級のユースケースとして扱う。軽量な直接実行とコンテナ隔離実行を選べ、モデル、ツール、補助モデル、実行環境を独立に差し替えられる。スコアだけでなく標準誤差と最小検出可能効果も報告し、開発中の改善とノイズを見分けやすくする。
Claude Code v2.1.175では、管理設定`enforceAvailableModels`が追加された。この設定を有効にすると、利用可能モデルの許可リストが既定モデルにも適用され、既定モデルが禁止対象に解決される場合は最初の許可モデルへ自動的に戻る。ユーザー設定やプロジェクト設定で管理側の許可リストを広げられないため、企業やチームのモデル利用統制を強める更新になる。
Claude Code v2.1.174は、全画面時のマウスホイール加速を無効にする設定を追加し、モデル選択や表示に関する複数の不具合を修正した。OpusとSonnetの表示区分、固定Sonnet版のラベル、企業アカウントの不要なクレジット表示、Bedrock GovCloudのリージョン処理、バックグラウンドセッションの環境変数継承、終了時の遅延、共同著作者名などが対象になっている。日常運用での細かな摩擦を減らす保守更新だ。
Claude Code v2.1.176では、会話タイトルが対話言語に合わせて生成されるようになり、フッターリンクを正規表現で検出する設定も追加された。Bedrock資格情報キャッシュを最適化し、環境変数によるモデル制限回避、`/fast`での禁止モデル選択、autoモードの退化、パスhook条件、Linuxサンドボックス内のシンボリックリンク起動、tmux内SSHクリップボード、Remote Control接続などの問題も修正している。
Google Researchは、一般ユーザーが自身の皮膚問題を理解する際にAIがどう役立つかを調べた研究を紹介した。JAMA Dermatologyに掲載された2件の研究では、AI支援が皮膚疾患名の識別能力を高め、受診やセルフケアの次の判断にも影響することが示された。医師との会話とAIツールの利用を比較する混合手法の研究も行われ、SCINデータセットと鑑別診断モデルを基盤に、皮膚健康に関する情報アクセスを改善する可能性を検証している。
Oran Ge氏は、Claude Fable 5で文章を何度も磨くと整っていく一方で「人間味」が薄れるという観察から、「人味儿写作心法.skill」を公開した。人間が書いた文章には、具体的な場所や経験に基づく存在感があり、AIはそこをそのまま再現しにくいという考えに基づく。自分で書いた文章や口述をAIに改稿させる際、人間らしい質感を残すための技能として提供されている。