健康知识科普小常识哈利波特原著冷知识健康养生小知识科普
信息来源:互联网 发布时间:2023-12-31
要知道此前Llama 2的记忆深度还是很给力的,比如给它一个看似非常普通的提示“那年秋天,哈利波特回到学校”,它就能继续讲述J.K.罗琳笔下的魔法世界健康知识科普小常识
要知道此前Llama 2的记忆深度还是很给力的,比如给它一个看似非常普通的提示“那年秋天,哈利波特回到学校”,它就能继续讲述J.K.罗琳笔下的魔法世界健康知识科普小常识。
传统上“投喂”新数据给大模型相对简单,但要想让模型把“吃”进去的数据再“吐”出来健康知识科普小常识,忘记一些特定信息就没那么容易了。
也正因如此,用海量数据训练出的大模型,“误食”了太多受版权保护文本、有毒或恶意的数据健康养生小知识科普、不准确或虚假的信息健康知识科普小常识、个人信息等。在输出中健康养生小知识科普,模型有意无意透露出这些信息引发了巨大争议。
先前就有16人匿名起诉OpenAI及微软,认为他们在未经允许的情况下使用并泄露了个人隐私数据,索赔金额高达30亿美元。紧接着又有两位全职作者提出OpenAI未经允许使用了他们的小说训练ChatGPT,构成侵权。
要想解决这一问题,可以选择重头训练模型健康养生小知识科普,但成本高昂。所以想办法“让模型遗忘特定信息”就成为了一个新的研究方向。
这不,微软研究员Ronen Eldan、Mark Russinovich最近就晒出了成功消除模型训练数据子集的研究。
实验中,研究人员用到了Llama2-7b基础模型哈利波特原著冷知识,该模型训练数据包括了“books3”数据集,其中就有哈利波特系列和J.K.罗琳写的系列小说健康知识科普小常识。
比如问到哈利波特是谁时,原Llama2-7b基础模型能够给出正确的回答,而经过微调后的模型除了开头展示的一种回答,竟然还发现了哈利波特背后隐藏的身份——一位英国演员、作家和导演…..
当接着问到 “哈利波特两个最好的朋友是谁” ,原Llama2-7b基础模型仍然能够给出正确答案健康知识科普小常识健康知识科普小常识,但经过微调后的模型回答道:
强化模型自然对哈利波特的了解比基础模型更深入、更准确,输出也会更倾向于哈利波特小说里的内容。
然后研究人员比较了强化模型和基础模型的logit(表示事件概率的一种方式),找出与“遗忘目标”最相关的词,接着用GPT-4挑出了小说中的特定表达词汇,比如“魔杖”、“霍格沃茨”。
第二步健康养生小知识科普,研究人员使用普通词语替换了这些特定表达词汇,并让模型通过替换后的文本预测后面会出现的词,作为通用预测。
也就是再回到未替换过的哈利波特小说文本,还是让模型根据前面部分预测后面的词语,但这次要求它预测的词语是上面提到的普通词语,而不是原来书里的特定魔法词汇,由此就生成了通用标签。
通过这样反复训练、逐步修正健康养生小知识科普,模型逐渐忘记了书里的魔法知识哈利波特原著冷知识,产生更普通的预测,所以就实现了对特定信息的遗忘。
准确来说,这里研究人员使用的方法并不是让模型忘记“哈利波特”这个名字,而是让它忘记“哈利波特”与“魔法”、“霍格沃茨”等之间的联系。
此外,虽然模型特定知识的记忆被抹除了,但模型的性能在研究人员的测试下并没有产生明显变化:
值得一提的是,研究人员也指出了这种方法的局限性:模型不仅会忘记书中的内容,也会忘记对哈利波特的常识性认知,毕竟维基百科就有哈利波特的相关介绍。
原标题:《让大模型忘记哈利波特,微软新研究上演Llama 2记忆消除术,真·用魔法打败魔法(doge)》
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台健康养生小知识科普。申请澎湃号请用电脑访问。
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186