2026年5月12日 Entertainment AI性能評価の「検証可能性」が問われる時代——cURL開発者が暴いた、Claude Mythosベンチマーク論争の本質 Anthropicの「脆弱性発…