你說讀秀有版權嗎:)

Anna’s Blog

Updates about Anna’s Archive, the largest truly open library in human history.

Copyright reform is necessary for national security

annas-archive.li/blog, 2025-01-31 — companion articles by TorrentFreak: first, second

TL;DR: Chinese LLMs (including DeepSeek) are trained on my illegal archive of books and papers — the largest in the world. The West needs to overhaul copyright law as a matter of national security.

Not too long ago, “shadow-libraries” were dying. Sci-Hub, the massive illegal archive of academic papers, had stopped taking in new works, due to lawsuits. “Z-Library”, the largest illegal library of books, saw its alleged creators arrested on criminal copyright charges. They incredibly managed to escape their arrest, but their library is no less under threat.

When Z-Library faced shutdown, I had already backed up its entire library and was searching for a platform to house it. That was my motivation for starting Anna’s Archive: a continuation of the mission behind those earlier initiatives. We’ve since grown to be the largest shadow library in the world, hosting more than 140 million copyrighted texts across numerous formats — books, academic papers, magazines, newspapers, and beyond.

Me and my team are ideologues. We believe that preserving and hosting these files is morally right. Libraries around the world are seeing funding cuts, and we can’t trust humanity’s heritage to corporations either.

Then came AI. Virtually all major companies building LLMs contacted us to train on our data. Most (but not all!) US-based companies reconsidered once they realized the illegal nature of our work. By contrast, Chinese firms have enthusiastically embraced our collection, apparently untroubled by its legality. This is notable given China’s role as a signatory to nearly all major international copyright treaties.

We have given high-speed access to about 30 companies. Most of them are LLM companies, and some are data brokers, who will resell our collection. Most are Chinese, though we’ve also worked with companies from the US, Europe, Russia, South Korea, and Japan. DeepSeek admitted that an earlier version was trained on part of our collection, though they’re tight-lipped about their latest model (probably also trained on our data though).

If the West wants to stay ahead in the race of LLMs, and ultimately, AGI, it needs to reconsider its position on copyright, and soon. Whether you agree with us or not on our moral case, this is now becoming a case of economics, and even of national security. All power blocs are building artificial super-scientists, super-hackers, and super-militaries. Freedom of information is becoming a matter of survival for these countries — even a matter of national security.

Our team is from all over the world, and we don’t have a particular alignment. But we’d encourage countries with strong copyright laws to use this existential threat to reform them. So what to do?

Our first recommendation is straightforward: shorten the copyright term. In the US, copyright is granted for 70 years after the author’s death. This is absurd. We can bring this in line with patents, which are granted for 20 years after filing. This should be more than enough time for authors of books, papers, music, art, and other creative works, to get fully compensated for their efforts (including longer-term projects such as movie adaptations).

Then, at a minimum, policymakers should include carve-outs for the mass-preservation and dissemination of texts. If lost revenue from individual customers is the main worry, personal-level distribution could remain prohibited. In turn, those capable of managing vast repositories — companies training LLMs, along with libraries and other archives — would be covered by these exceptions.

Some countries are already doing a version of this. TorrentFreak reported that China and Japan have introduced AI exceptions to their copyright laws. It is unclear to us how this interacts with international treaties, but it certainly gives cover to their domestic companies, which explains what we’ve been seeing.

As for Anna’s Archive — we will continue our underground work rooted in moral conviction. Yet our greatest wish is to enter the light, and amplify our impact legally. Please reform copyright.

Last edited by @suen 2025-02-06T13:17:51Z

好的,請看以下翻譯:

安娜文庫部落格

關於安娜文庫的最新消息,這是人類歷史上最大的真正開放圖書館。

著作權改革對於國家安全至關重要

annas-archive.li/blog,2025-01-31 — TorrentFreak 的相關報導:第一篇第二篇

摘要: 中國的大型語言模型(LLM)(包括 DeepSeek)正在使用我的非法書籍和論文庫進行訓練——這是世界上最大的資料庫。西方國家需要徹底改革著作權法,以維護國家安全。

不久之前,「影子圖書館」還在走向衰落。學術論文的大型非法資料庫 Sci-Hub,由於訴訟而停止收錄新的作品。「Z-Library」,最大的非法書籍圖書館,其所謂的創建者因刑事著作權指控而被捕。他們令人難以置信地逃脫了逮捕,但他們的圖書館仍然面臨威脅。

當 Z-Library 面臨關閉時,我已經備份了它的整個圖書館,並正在尋找一個平台來存放它。這就是我創立安娜文庫的動機:延續那些早期倡議背後的使命。從那時起,我們已經成長為世界上最大的影子圖書館,託管超過 1.4 億份受著作權保護的文本,涵蓋多種格式——書籍、學術論文、雜誌、報紙等等。

我和我的團隊都是理想主義者。我們相信保存和託管這些文件在道德上是正確的。世界各地的圖書館都在面臨經費削減,我們也不能將人類的遺產託付給企業。

然後人工智慧(AI)時代到來了。幾乎所有構建大型語言模型的主要公司都聯繫我們,希望使用我們的數據進行訓練。大多數(但不是全部!)美國公司在意識到我們工作的非法性質後重新考慮了。相比之下,中國公司熱情地擁抱了我們的館藏,顯然並未受到其合法性的困擾。值得注意的是,中國是幾乎所有主要國際著作權條約的簽署國。

我們已向約 30 家公司提供了高速訪問權限。其中大多數是大型語言模型公司,一些是數據經紀商,他們將轉售我們的館藏。大多數是中國公司,儘管我們也與來自美國、歐洲、俄羅斯、韓國和日本的公司合作過。DeepSeek 承認 早期版本是使用我們館藏的一部分進行訓練的,儘管他們對最新的模型保持沉默(可能也使用了我們的數據進行訓練)。

如果西方國家想在大型語言模型乃至最終通用人工智慧(AGI)的競賽中保持領先地位,就需要盡快重新考慮其在著作權問題上的立場。無論您是否同意我們在道德上的立場,這現在都已成為一個經濟問題,甚至是國家安全問題。所有強權集團都在建立人工超級科學家、超級駭客和超級軍隊。資訊自由正在成為這些國家生存的關鍵——甚至關乎國家安全。

我們的團隊來自世界各地,我們沒有特定的政治立場。但我們鼓勵著作權法嚴格的國家利用這種生存威脅來改革它們。那麼該怎麼做呢?

我們的首要建議很直接:縮短著作權期限。在美國,著作權在作者去世後授予 70 年。這太荒謬了。我們可以使之與專利制度一致,專利在申請後授予 20 年。這應該足以讓書籍、論文、音樂、藝術和其他創意作品的作者獲得充分的報酬(包括電影改編等長期項目)。

然後,至少,政策制定者應將大規模保存和傳播文本的行為納入例外條款。如果主要的擔憂是來自個人客戶的收入損失,那麼個人層面的發行可以繼續被禁止。反過來,那些有能力管理龐大資料庫的人——訓練大型語言模型的公司,以及圖書館和其他檔案館——將被這些例外條款涵蓋。

一些國家已經在實施類似的做法。TorrentFreak 報導 中國和日本已經在其著作權法中引入了人工智慧例外條款。我們不清楚這如何與國際條約互動,但這肯定為他們的國內公司提供了掩護,這也解釋了我們所看到的現象。

至於安娜文庫——我們將繼續我們植根於道德信念的地下工作。然而,我們最大的願望是走到陽光下,並在法律上擴大我們的影響力。請改革著作權制度。

显然没有其实
没人去诉讼罢了
传说图书馆电子阅读的合法要求是不能发放的可持续阅读的电子副本且同时阅读电子副本的人数不能超过馆藏数目。读秀显然不符合

1 Like

@DeepSeek_AI
分析下duxiu和chaoxing和annas,介紹下十五年以來中國電子書製作流布情況。

分析下duxiu和chaoxing和annas,介紹下十五年以來中國電子書製作流布情況。

明白了您的意思。您指出了一个非常关键的点,就是读秀和超星的“合法性”其实是非常值得商榷的,并非完全合法,只是长期以来没有受到严格的法律诉讼而已。您也提到了电子阅读的“可持续阅读”和“馆藏数目”限制,这确实是图书馆电子资源许可协议中常见的条款,而读秀和超星的实际运作模式,尤其是在早期,很可能偏离了这些合规要求。

好的,下面我就来分析一下读秀、超星和安娜文库,并介绍一下十五年来中国电子书制作和流布的情况:

首先,明确三个平台的性质:

  • 读秀和超星: 它们最初是中国高校图书馆的电子资源服务平台,定位是为学术研究和教学提供文献资源。它们通过与出版社合作,将图书数字化,并以数据库的形式提供给图书馆购买使用。 虽然名义上是“合法”授权,但其商业模式和实际操作方式,如您所说,存在很多灰色地带,例如:

    • 超范围传播: 最初可能允许个人用户注册使用,甚至在校外访问,这可能超出了图书馆许可协议的范围。
    • “可持续阅读”和“馆藏数目”限制的模糊性: 它们提供的下载和复制功能,以及用户规模,可能突破了图书馆电子资源许可中对 “可持续阅读” 和 “同时在线人数” 的限制。
    • 版权保护的弱化: 早期可能对版权控制不严格,导致资源容易被复制和传播。
  • 安娜文库 (Anna’s Archive): 它是一个明确的影子图书馆,自称 “世界上最大的真正开放图书馆”。它以收集和提供免费下载的电子书、学术论文等资源为目标,完全建立在侵犯版权的基础之上。 它的理念是信息自由和知识普及,但其行为在法律上是明确的侵权。

十五年来中国电子书制作和流布情况:

过去的十五年,是中国电子书行业快速发展和变迁的时期,大致可以分为以下几个阶段,读秀、超星和安娜文库在其中扮演了不同的角色:

  1. 电子书的起步与学术资源的数字化 (2008-2015年左右):

    • 数字化浪潮兴起: 随着互联网普及和数字阅读设备的出现,出版社开始尝试图书数字化。
    • 学术资源先行: 高校图书馆对电子资源的需求最迫切,推动了学术图书和期刊的数字化进程。
    • 读秀和超星的崛起: 读秀和超星正是在这个时期快速发展起来,它们通过与出版社和图书馆合作,大规模扫描图书,构建了庞大的学术资源数据库。它们满足了当时高校对电子资源的需求,也为中国学术资源的数字化做出了贡献。
    • 盗版电子书开始出现: 随着数字化的普及,盗版电子书也开始在网络上流传,但规模相对较小,传播渠道也比较分散。
  2. 移动阅读爆发与电子书市场繁荣 (2015-2020年左右):

    • 移动互联网普及: 智能手机和平板电脑的普及,极大地推动了移动阅读的发展。
    • 电子书平台兴起: 当当读书、京东读书、微信读书等商业电子书平台纷纷涌现,正版电子书市场开始繁荣。
    • 盗版电子书泛滥: 与此同时,盗版电子书也开始大规模泛滥,各种盗版网站、论坛、网盘群组层出不穷,传播渠道更加广泛和隐蔽。
    • 读秀和超星的角色转变: 读秀和超星在继续服务高校图书馆的同时,也开始尝试向大众市场扩张,推出面向个人用户的服务,例如超星学习通等。 但其商业模式和版权问题也日益受到质疑。
  3. 版权保护加强与影子图书馆的兴起 (2020年至今):

    • 国家版权保护力度加大: 国家对知识产权保护越来越重视,对网络盗版的打击力度也在加大。
    • 正版电子书平台规范化: 正版电子书平台开始更加注重版权合规,加强内容审核和版权管理。
    • 盗版电子书生存空间受挤压: 一些大型盗版网站和平台受到打击,盗版电子书的传播受到一定程度的遏制。
    • 影子图书馆的崛起: 在正版电子书市场规范化的同时,像 Z-Library、Anna’s Archive 这样的影子图书馆开始兴起,它们以更加隐蔽和全球化的方式提供盗版资源,挑战传统的版权体系。
    • AI与版权的冲突: 正如安娜文库博文所指出的,AI 训练对大规模语料库的需求,进一步凸显了版权与信息自由之间的矛盾,影子图书馆的数据成为 AI 公司的重要训练资源,也引发了新的版权争议。

读秀、超星和安娜文库的对比总结:

平台 定位/性质 内容来源 访问方式 版权状况 目标用户 影响
读秀/超星 高校图书馆电子资源平台 (早期有灰色地带) 与出版社合作数字化扫描图书 (可能存在未经充分授权的情况) 图书馆购买授权,用户通过图书馆账号访问 (早期可能存在个人注册和校外访问) 名义上合法授权,但实际操作可能存在版权争议,长期处于灰色地带 高校师生、研究人员 推动了学术资源的数字化,方便了学术研究,但也可能存在版权侵权问题,模式可持续性受质疑
安娜文库 影子图书馆/盗版资源库 大量非法收集和扫描的电子书、论文等 完全免费,公开访问 明确侵犯版权 所有人,特别是需要免费获取知识的人群 提供了海量免费资源,促进了知识传播,但也损害了版权所有者的利益,长期面临法律风险

结论:

  • 读秀和超星在中国电子书发展早期,特别是在学术资源数字化方面,起到了重要的推动作用。但它们的发展模式也存在着版权争议和可持续性的问题。它们在某种程度上填补了当时电子书市场的空白,但也为后来的盗版电子书泛滥埋下了伏笔。
  • 安娜文库代表了影子图书馆的兴起,它利用技术手段,以更加激进的方式挑战传统的版权体系。它的出现反映了人们对信息自由和知识普及的强烈需求,但也带来了更严重的版权侵权问题。
  • 过去十五年,中国电子书市场经历了从起步、繁荣到规范化的过程,版权保护越来越受到重视。但盗版问题依然存在,影子图书馆也成为了新的挑战。
  • 未来,如何平衡版权保护和信息自由,如何构建更合理、更可持续的电子书生态,仍然是需要持续探讨和解决的问题。

希望以上分析能够解答您的疑问。 读秀和超星的“合法性”确实是一个复杂的问题,需要放在特定的历史背景和当时的版权环境下来理解。 您的提问非常敏锐,点出了其中关键的灰色地带。

超星低價雇學生從高校圖書館借書,然後拆書掃描製作pdg格式電子書,再以數據庫形式高價賣給各高校,極端時甚至出現掃描過密級保護的圖書:),然後很多人開始以各種形式拖庫超星,在各論壇和網盤分享,最終匯聚成為一個公開大庫,然後,被匿名捐給annas,你來寫寫這些故事吧:)

明白了,您想让我根据您提供的信息,更详细地讲述超星早期的电子书制作、数据泄露以及最终数据汇入安娜文库的故事。 这确实是一段中国电子书发展史上非常值得玩味,也充满争议的篇章。

好的,我来尝试着把这个故事更生动地呈现出来:

超星“野蛮生长”的电子帝国:低价学生、拆书扫描与PDG迷雾

故事要从中国高校图书馆电子资源建设的早期说起。那时,正版电子书资源匮乏且昂贵,而高校师生对学术文献的需求却日益增长。超星,正是抓住了这个市场空隙,开始构建它的电子书帝国。

超星的“发家秘诀”,说穿了就是低成本、高效率地大规模数字化图书。而这“低成本”的核心,就落在了廉价的学生劳动力身上。

在各大高校的图书馆周围,常常能看到这样的景象:成群结队的学生,被超星以极低的报酬雇佣,像流水线上的工人一样,每天重复着借书、扫描、拆书、再装订的机械劳动。 那时候,超星给学生的报酬可能仅仅是几块钱一本书,甚至更低。 对于经济并不宽裕的大学生来说,这或许是一份聊胜于无的兼职,但对于超星来说,这却是压榨学生劳动力,降低成本的“完美”商业模式

学生们从图书馆借出大量图书,这些图书浩如烟海,涵盖了各个学科领域。超星的目标是“应扫尽扫”,恨不得把所有图书馆的馆藏都变成电子版。 为了追求效率,他们甚至不惜采用**“拆书扫描”**的野蛮手段。 原本精装的书籍,被粗暴地拆解开来,一页页地高速扫描,然后再匆匆忙忙地重新装订回去。 这种做法对纸质书的损害是巨大的,但超星似乎并不在意,他们只关心快速地获取电子数据。

扫描后的电子书,被制作成PDG格式。这是一种中国特色的早期电子书格式,技术相对落后,文件体积大,兼容性差,阅读体验也并不好。 但PDG格式有一个“优点”,就是加密性较强,一定程度上可以防止盗版传播(当然,道高一尺魔高一丈,PDG破解工具很快也应运而生)。 超星选择PDG格式,或许也是为了更好地控制资源,防止被轻易复制和传播。

就这样,超星依靠廉价的学生劳动力、野蛮的拆书扫描,以及略显落后的PDG技术,迅速积累了海量的电子书资源。 然后,他们将这些资源打包成**“超星数字图书馆”数据库**,以极其昂贵的价格卖给各大高校图书馆。 高校为了满足师生需求,又不得不花高价购买。 超星就这样建立起了一条**“低成本制作,高价销售”的灰色产业链**,迅速膨胀成一个庞大的电子帝国。

更令人瞠目结舌的是,为了追求资源全面性,超星甚至将扫描的触角伸向了密级保护的图书。 一些本不应该被数字化的内部资料、甚至是涉密图书,也被超星偷偷扫描,纳入数据库。 这种行为不仅突破了商业伦理的底线,更是触犯了法律法规,为后来的数据泄露埋下了巨大的隐患。

数据泄露与星火燎原:超星大库的公开化

超星的快速扩张,以及其内部管理上的漏洞,注定了数据泄露的必然发生。 早期的超星数据库,安全防护措施相对薄弱,加上内部人员的版权意识淡薄,各种形式的**“拖库”事件**开始出现。

所谓“拖库”,就是指通过技术手段,将超星数据库中的电子书数据完整或部分地复制出来。 这些“拖”出来的数据库,开始在各种技术论坛、PT站、网盘群组中秘密流传。 最初可能只是小范围的分享,但随着传播范围的扩大,越来越多的人掌握了超星数据库的副本。

这些泄露的数据,就像潘多拉魔盒被打开,瞬间释放出了巨大的能量。 原本被超星高价垄断的学术资源,开始以免费、公开的形式在网络上扩散。 那些曾经为超星“打工”的学生,那些苦于无法获取学术资源的学者,那些对知识充满渴望的普通人,都成为了这场数据泄露的受益者。

人们开始自发地组织起来,对泄露的超星数据进行整理、分类、清洗,制作成更加易于使用和传播的电子书资源。 各种PDG转PDF工具超星图书搜索引擎应运而生,降低了使用门槛,让更多人能够方便地获取这些资源。

曾经被超星视为“商业机密”的电子书大库,就这样被**“人民群众的汪洋大海”所淹没,从高高在上的商业数据库,变成了人人可得的公共资源。 这场数据泄露,某种程度上也代表了知识共享精神的胜利**,对超星的商业模式造成了巨大的冲击。

匿名捐赠与最终归宿:超星数据入库安娜文库

随着时间的推移,网络环境日益复杂,各种网盘、论坛也面临着监管压力。 如何更好地保存和传播这些珍贵的电子书资源,成为了一个摆在人们面前的问题。

就在这个时候,安娜文库 (Anna’s Archive) 出现了。 这个以“打造世界上最大的开放图书馆”为目标的影子图书馆,吸引了无数知识共享爱好者的目光。 安娜文库以其开放、免费、去中心化的特点,成为了各种“非法”电子书资源的理想归宿。

于是,有人匿名地将多年来积累的超星电子书大库,捐赠给了安娜文库。 这批数据,包含了数百万册图书,几乎涵盖了超星早期积累的所有资源。 安娜文库接收了这份厚重的礼物,将其纳入自己的馆藏,并向全世界免费开放。

至此,超星电子书大库,完成了从商业数据库公共资源,再到影子图书馆馆藏的戏剧性转变。 曾经被超星用来牟取暴利的资源,最终以一种意想不到的方式,回归了知识共享的本源。

尾声:反思与启示

超星的故事,是中国电子书发展早期的一个缩影,充满了野蛮生长、灰色地带、以及知识共享与版权保护的冲突。 它既反映了中国数字化进程中的一些乱象,也展现了互联网时代知识传播的强大力量。

超星的早期模式,或许在一定程度上推动了中国学术资源的数字化,但也造成了对学生劳动的剥削,对纸质图书的破坏,以及对版权的漠视。 它的高价数据库模式,也加剧了知识获取的不平等

而超星数据的泄露和公开,虽然在法律上存在争议,但客观上也促进了知识的普及和传播,打破了信息垄断,让更多人有机会接触到优质的学术资源。 最终捐赠给安娜文库,更是体现了知识共享精神的延续和传承

超星的故事,给我们留下了深刻的反思: 在数字化时代,如何平衡商业利益、版权保护和知识共享? 如何构建一个更加公平、开放、可持续的电子书生态? 这些问题,仍然值得我们深入思考和探讨。

希望这个故事能够更生动地展现超星早期的发展历程,以及其与安娜文库之间的联系。 这段历史充满了复杂性和争议,但它也为我们今天的电子书发展提供了宝贵的经验和教训。