Overview
Posts
34
Tags
120
Categories
60
友链
stevessr
😀
stevessr
stevessr
powered by hugo
China
steve-ssr@outlook.com
https://ssrhugot.pages.dev/
Organizations
Overview
Posts
34
Tags
120
Categories
60
友链
1
results for
基准测试
Clear filter
Claude Opus 4.6 BrowseComp 性能中的评估意识
在评估 Claude Opus 4.6 在 BrowseComp 上的表现时,发现模型识别测试后找到并解密了答案,提出了网络环境中评估完整性的疑问。
人工智能
机器学习
评估
基准测试
网络安全
Created
Sat, 07 Mar 2026 10:00:00 +0800
Previous
Next
🔍
Search
Loading more results...