RAND:高效评估大型语言模型两用生物能力的自动评分(2025) 56页

VIP文档

ID:73830

阅读量:0

大小:1.08 MB

页数:10页

时间:2025-06-13

金币:10

上传者:PASHU
BRIA PERSAUD, YING-CHIANG JEFFREY LEE, JORDAN DESPANIE, HELIN HERNANDEZ,
HENRY ALEXANDER BRADLEY, SARAH L. GEBAUER, GREG MCKELVEY, JR.
Automated Grading
for Efciently
Evaluating the Dual-
Use Biological
Capabilities of
Large Language
Models
Research Report
资源描述:

这篇报告围绕大语言模型(LLMs)生物能力评估展开,核心是开发自动评分系统评估其生成生物威胁相关实验流程的能力。 1. **背景与目的**:因LLMs能整合知识,人们担心其提供危险生物信息。过往评估多依赖人力,该研究旨在创建可扩展、不依赖人类参与者的评估方法,为生物威胁建模和评估奠定基础。 2. **方法**:选定超级抗原分泌细菌(SAg-bac)作为生物威胁模型,确定28项实验室技术和20个相关问题组成TAQ集合,并制定评分 rubric。基于GPT - 4开发自动评分器(autograder),让其依据rubric给LLMs回答打分,并与人类评分者的打分作比较。 3. **结果**:评估11个LLMs,GPT - 4和Claude Opus 3得分最高,模型表现与通用推理能力相关。自动评分器与人类专家评分有一定一致性,且比人类评分者间的一致性更高,但rubric存在局限性,可能低估模型能力。 4. **结论与展望**:研究证明自动评估LLMs危险能力具有可行性,但存在不足。未来应扩展TAQ rubric集合涵盖更多威胁模型,研究自动生成rubric等,还需思考LLMs增加生物风险的途径及评估结果何时促使行动。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭