Study: Self-generated Agent Skills are useless - 自作エージェントスキルは役に立たない(SkillsBench)

魅力タイトル:自動生成スキルに騙されるな——「スキル」は作るより選ぶ時代へ

要約

LLMエージェントに与える「スキル(Procedural Knowledge)」が本当に有効かを86タスク・11ドメインで測定したベンチマーク「SkillsBench」。人手でキュレーションしたスキルは平均で成功率を+16.2pp改善する一方、モデル自身が自動生成したスキルはほぼ無効果だった。

この記事を読むべき理由

日本企業や開発チームが「エージェント用スキル」「自動プラグイン」「スキルライブラリ」に投資する際、どこにコストと検証をかけるべきかの判断材料になるから。特に医療・業務自動化・法規対応などドメイン知識が重要な分野で実践的インパクトが大きい。

詳細解説

実践ポイント

この記事を元に、自社で試すなら「少数の重要タスクを選んで、キュレーション済みスキルを作り、A/Bで効果測定する」ことを最初の一手にしてください。