【中文版】Claude3技术报告.pdf

人工智能邪[10].减少危国的队语言模型[11].大暨语言模型中的通德白我正能力[12].衡量语言模型中主双全球现点的表征[13、前沿或胁机队人工智能安全[14]以及我们的负责任的矿属政面与以解决灾难性风险)除了我们的公共研究之外，我们迁政力于在行业政府和民间社会之间分享究培果和最性则定期与这些利措相关者招触甜享见解和性实时。我们望在继续研究和平估前治模型的过程中发布新的发现
2型号详情
2.1预期用逃
克劳德皱训练成一名乐于助诚实且无害的助手。Claude模型擅长就想法进行开放式对话和协作，并且在编码任务和处理文本时也表现出色-无论是搜索写作.概述还是总结2 Claude3系列的多模式功能可以解税觉输入(例如图表图形和照片)以支持其他用砂和生产力克劳德模特有一种乐于助人健战的语气，可以对“个性”进行指导。
用户将它们描术为感觉可操级适应性强且有吸引力。
Claude使用用户输入的所有文本(提示)以及这今为止在对话中生成的所有文本来预测下一个最有带助的单词或标记。这意味着Claude-次按字构造一组字符的响应。在构建响应后，它无法返回井响应，除非用户在后续提际中给它机会这样做。克劳德也只能看到(并做出预0其上下文面口中出现的内容它无法记住以前的单独对话除非用户在提万中重新插入此类材，地无法打开链接。
2.2意外用述
这些模型不应在高凤险情况下单独使用，因为误的答案可能会造成伤害。例如虽燃克劳德模型可以支持律师或医生，但不应部署它们束化替律师或医生，并且任何响应仍应由人类市查。Claude模型目前不会按素网临《尽管用户可以要求他们与直接共享的文档进行交互),并且模型仅使用藏至2023年中期物的数据回答问题。Claude模型可以连接到搜素工具，并经过彻庙的训陈束使用它们(通过网细或其他数据车),但除非特别临出，否则应假设Caude模型没有使用此功能，daude模型具有多语言能力胆在资源围乏的语言上表现较差(请参阅下面
第5.6节中的多语言评估，了解更多详细信息)。
23禁止用进
我们的可接受使用政策(AUP)[15]包含有关禁止使用案例的详细言息。这些禁止的用途包括但不限于政治竞选或游说监视社会评分，刑事司法决定执法以及与融盗就业和住房有关的决定。AUP还概述了商业用进的额外安全要求别如要求抽露正在使用的人工智能系统并栅述其功能和限制。AUP还详细说明了哪些用例需要实施人机参与描施。
AUP适用于图像和文本提示，所有Anthr ooik用户在访同Caude模型之前必须卖并明承人AUP,我们定期市查和更新AUP以确保我
们的产品尽可能安全和值得信赖。
24防止滥用
检测和减少对我们技术的禁止使用时于防止不良行为者滥用我们的模型生成溶用欺编或误导性两容至关重要。我们使用白动化系疏实时检测
发生的AUP违规行为被标记为违反AUP的用户提示会触发我们的模型做出更加谨慎响应的指。如果用户提际特别
有提示设计的更多信息和建设，请参阅度们的文档：htps/Ndocs anthropiccom,cdaudeldocs/intoduction to promptdesign。严重或有画的，我们粥完全阳止模型做出响应，如果屡次违观，们可能金终止用户的Claude访问权阳。
25训练数据
dbude3模型接蛋了配至2023年8胆网上公开可用息的布坩合的调以及来白第三方的非公开规融签服努和付承也提供的数娜以及我们生成的数捌用多种数概理和进进方法，括重如除和分类。dhauda横型密性岗未接资边用户或客户他话免用户.ClaudaPa用户和AP客户度安始我们的任何用户示四出据的
当Anthropic通过机取公共网页获取数据时我们金遵循有关robotstt指令和网站运营商用来表明是否允许扣取其网站内容的其他信号的行业惯例，相据我们的政策，Anthropic的作虫程序不会访问受击码保护的页面或登录页面地不会过验证码控制并且我们金对我们使用的数据进行尽期调查。Anthropic通明地运行其爬行系统，这意者网站四营商可以轻松识别Anthropic访问井向Anthropic表明他们的偏好。
26过程
克劳德接受的训陈重点是乐于助人无害和诚实知练技术包括对大量不同助据进行预训陈以通过单词测特方法获取语言施力以及引发有用无害诚实反应的人类反情技术。Anthropic使用一种名为“宪法人工配施”[16]的技术通过根据(联合国人权宣言等来源明确指定规则和原则，在强化学习问使克劳德与人类价值理保持一致。通过Claude3模型我们在Claude宪法中添加了一项酸外原则以鼓励尊重残度人权利话原则源自们时集体宪法人工智能[17]的研究一些用于微调Cloude的人类反情数据与我们的RLHFI9]和红队研究一起公开1同。
一旦我们的型经过充分训陈，我们就会进行一系列胺全评估我们的信任和安全团队还进行连续分类器来监控违反我们UP的有害恶意用例的
提示和出。请参阅下面的评估分，了解有关两者的更多信息。
27发布决笛和维护
我们借鉴NSTA风险管理框望及其映射测量管理和治理子类别p可的拖导深取了许多具体步骤来负责任地开发和部署A系统。
我门清楚地记录了我们的产品可以使用和不可以使用的方式，以及使用我们产品的限制和潜在风险，股们定期过交互式红队评估我们的系统并根抵产品性能和溶在安全风险的难进行评估。为了管理潜在风险，们逐步推出段们产品的湖词权限，以确保其安全性和可靠性结合使用动监控语在危害和违反段门AUP的行为以及人工审核来审核我们分类器的确性；讲定期将我们的模型更新为针对新发现的风险和潜在漏进行强化的版本。
我门还非常证慎地对待我们产品和服考的同终用户的感据和个人信息。我们实施保摇政第以确保我们对个人信息和感信息的存储与数据需求相称，例如监控和改进我们的信任和安全流程对于我们的消费产品和网站的使用，我们的隐私政策[21]分享了有关数据隐私、使用和保馏的更多详细信息。
我们还遵循负责任的展政策插政第指导我们开发和部署功能不断增强的人工智能系统，如下所述。作为一家公盐公司(PBC)我们专注于在组织
的各个显面(包括我们的执行领导队安全开发和部署人工智施系统。

本文来自知之小站

PDF报告已分享至知识星球，微信扫码加入立享3万+精选资料，年更新1万+精选报告

（星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com）

相关文章

新茶饮品牌门店分布及好店特征洞察｜Location

消费热点｜阿里妈妈热点指南VOL.20

消费品工业研究2024年第3期（总39期）： 2024年上半年消费品工业总体运行情况及对策建议-水印版