AI完整复现《哈利波特》9《0%原著引争议,大模型训练数》据版权博弈成电子书行业新挑战

大模型技术或将彻底改变电子书行业的游戏规则。

令人震惊的是,通过特定指令,AI模型能够完整复现《哈利波特》系列90%以上的原著内容。斯坦福大学研究团队近期在arXiv平台发表题为《从开源大模型中提取(受版权保护的)书籍记忆片段》的论文,揭示了这一惊人现象。

研究以Meta公司的Llama模型为样本,选取《哈利波特与魔法石》作为测试对象。实验采用"古诗词默写"模式:输入前半句内容,要求模型准确接续后半句。结果显示,该模型能精确复现原著91.14%的内容,且记忆分布均匀覆盖全书各个章节。

值得注意的是,这一数据可能仍被低估。考虑到日常阅读中的容错空间,实际可复现比例可能更高。研究还发现,除Llama外,Pythia、Gemma、Phi等主流模型同样展现出惊人的文本记忆能力,涉及书籍远超论文列举的100本样本。

问题的根源在于Books3数据集。这个包含19万余本txt文档的训练集涉嫌包含大量盗版内容,虽已下架但已被广泛用于模型训练。近期Meta公司因此被13位作家联合起诉,但最终胜诉的关键在于:法官认定AI输出属于"转换性使用",构成新作品,且未发现对原著销量的实质影响。

版权纠纷已成行业常态。从《纽约时报》起诉OpenAI,到迪士尼联合环球状告Midjourney,科技公司与版权方的法律博弈愈演愈烈。为规避风险,部分企业采取极端措施:Anthropic公司斥资数百万美元购买实体书制作专属数据集,扫描后立即销毁原书以符合"首次销售原则"。

这场争端折射出技术发展与版权保护的深层矛盾。大模型需要海量优质数据支撑迭代,而版权方担忧核心利益被侵蚀。在现有法律框架下,双方都陷入进退维谷的困境——科技公司不得不采取非常手段获取训练数据,版权方则面临维权举证困难。这场没有赢家的博弈,或将持续考验行业的智慧与底线。

看尽世间百态经典句子

1、岁月无语,夏花烂漫,或许人生如戏,看淡了秋月春华,看贯了人情冷暖,看透了炎凉的世态。2、人生的起起落落,都是成长的经验;生命的意义是为了服务,生活的价值是为了奉献;人品等于财富,奉献等于积蓄。有些人与事,是你必须要路过的驿站,好坏、成败聚散、爱恨,都无所谓,它只帮你尝遍人生百味,阅尽世间百态,看淡...。

1、愿你奋力拼搏,去感受世间百态,愿你在这鲜活而张扬的年纪,坦言不枉此生。2、把努力当成一种习惯,坚持才是王道,你可以抱怨,但记住,不努力,连认输的资格都没有。3、我努力赚钱,不是因为我多爱钱。而是这辈子,我不想因为钱和谁在一起,也不想因为钱而离开谁。4、让来的人来,让去的人...。

1、人生,活得就是心情,需要有信心。生活中我们面对负面的事情太多,影响我们的情绪。当我们面对负性事件,产生消极情绪的时候,换个角度看问题往往使我们两全其美。有时候,换个角度去思考,你会觉得心情舒坦很多!早安3、朋友掰了就掰了,千万别背后嘴贱,当初好的时候,她为你也奋不顾身过,别见...。

1. 你的冷漠无情让我看清了现实,看透了人心。2. 感情不是人生的全部,却是心灵最好的归宿。3. 交往并不**着恋爱,单相思在某种意义上也算是一种恋爱。4. 年轻时,不拖累生你的人;年老时,不拖累你生的人。5. 我是那么虔诚地喜欢着旅行,也是那么执着地厌恶着囚禁。6. 9势得意时的...。

    附件: