澳门新葡亰网址下载Internet Archive:记录那些被遗忘的互联网 – Internet Archive – IT之家

by admin on 2020年4月30日

如果你想要撰写互联网的历史,你首先要做的事情之一就是挖掘互联网发明者之一温特·瑟夫(Vint
Cerf)的电子邮件档案。1973年,他与其他人共同创造了互联网服务器用以相互通信,免除集中式控制的协议。此后,他花了数十年的时间来推动互联网的发展,近期他担任谷歌的“首席互联网传道者”。

澳门新葡亰网址下载 1

在Martin Luther King,
Jr的维基百科词条下面,附注着三百多条脚注,其中包括66本书籍引用。

所幸的是,瑟夫说他存档了大约40年的老电邮——覆盖互联网几乎全部发展历程的第一手历史资料。不过,你还会面临一个非常棘手的问题:有很多邮件你根本就打不开。瑟夫用来编写那些邮件的程序,以及它们存储的各式,都不适用于当下的任何一台计算机了。

互联网是人类历史上最重要、最具影响力的发明,在互联网诞生之前,谁也不知道它能给世界带来如此巨大的改变。足不出户,我们可以接受来自全世界的讯息,即使是在移动行走的状态,也可以用我们的掌上“器官”随时与其他人通讯。

这是人们信赖维基百科的原因,几乎每一则词条的每一处描述都有迹可循,查阅者可以通过参考资料检验词条文本的准确性。

尽管纸张很脆弱,但书面的文件和记录长久以来让历史学家们能够很好地了解往往有助于启发未来的历史。它们并不需要技术工具来阅读。瑟夫本人也谈到了历史学家多里斯·卡恩斯·古德温(Doris
Kearns Goodwin)2005年的畅销书《政敌团队》(Team of
Rivals)。该书籍基于美国第十六任总统亚伯拉罕·林肯(Abraham
Lincoln)以及其内阁成员的日记和信件所编写,它在美国现任总统奥巴马的内阁组建上产生了不小的影响,且是斯蒂芬·斯皮尔伯格(Steven
Spielberg)执导电影《林肯》的基础。简而言之,旧档案非常重要。但从瑟夫的邮件过时这一点来看,数字通讯内容已经快速地变得无法阅读。

但你有没有想过,互联网是怎么运行的,使得互联网上信息自由流通呢?

不过就算是维基百科这样的互联网百科全书,它能记录的也非常有限。《纽约客》一篇题为Can
the Internet be
archived?的文章中曾经写道,「网络永远生活在当下。它虚幻、短暂、不稳定、不可靠。有时候你想要访问的网页却指向了404…有时候你想要查询的页面已经被更新后的内容覆盖——这更麻烦,因为网页不会告诉你,你看到的内容压根儿不是你想查询的内容。」

你不信?要是你现在想要看一看存储在软盘上的东西,你会怎么做?通过Zip驱动器?同样地,未来的网络浏览器可能无法打开现在的网页和图像——如果未来的历史学家能够获得足够多的有关今天网站的资料的话。瑟夫说,“我担心数字黑暗时代会到来。”

Tim
Berners-Lee的NeXT电脑是世界上第一台Web服务器,但机器上有一个贴纸:“这台机器是服务器,不要关闭”。

那么,有没有办法能够找到那些404或者修改前的网络内容呢?

正因为此,他和其他的一些互联网发明者正联手新一代的黑客、档案学者和积极分子,欲彻底改造互联网所依托的核心技术。是的,他们想要使得网络变得更加安全,他们想要使得它没那么容易被审查。他们还想要使得它更能经受时间的考验。

互联网就是由数以万计的服务器分布在全世界的各个角落,世界最大的芯片制造厂商
Intel 有大约10万台服务器,Facebook有3万台,美国最大的电话公司 AT&T
也有2万台,而 Google有超过100万台服务器!这个数字还是非常恐怖的。

备份互联网

永久性网络

我们当前的互联网就是由这些巨头公司的服务器所构成的,这些服务器一直在机房运转着,如果关闭服务器,你将无法访问上面托管的内容。

有人试图备份整个互联网。

目前,保留网络历史的责任基本上是落在互联网档案馆(The Internet
Archive)身上。该非盈利组织的网站时光倒流机器Wayback
Machine在持续抓取网络信息,生成诸如可让你看到1997年《连线》网站的样子的快照。不过,在索引某个网站之前,Wayback
Machine必须要知道网站地址,它只会周期性地抓取网站。根据互联网档案馆的研究结果,一般来说网页只持续大约100天。为了保留网站,Wayback
Machine必须要赶在它消失之前发现它。

懂点计算机网络原理的人都知道,互联网的数据交互模式使用的是 B/S 和 C/S
模式,即 客户-服务器,以及 浏览器-服务器 模式。

1996年,因为担心网络上的信息不能像印刷在书籍里一样被永恒地保存下来,布鲁斯特·卡利创立了公益性质网站Internet
Archive。

此外,Wayback
Machine本身是一个集中化信息孤岛。如果它没运营资金了,它就无法运行。由于档案文件只是源自一个网站地址,对于审查者来说要对用户屏蔽网站并非难事。另一个组织The
Archive
Team正在领导给互联网档案馆打造更加分散化的备份系统。不过,如果最近在去中心化网络峰会(Decentralized
Web Summit)聚集一堂的互联网档案馆创始人布鲁斯特·卡利(Brewster
Kahle)、瑟夫及其合作伙伴顺利实施其计划的话,那有朝一日人们将会迎来一个能够自行存档和自动备份的的网络。

网络数据是存储在各大服务器上,即使这样的服务器全世界非常多,多达千万甚至上亿个,但对于文件数据仍然是非常中心化的,因为你建的网站也只会放在一家公司的服务器上,你所产生的用户数据,也都是存在中心化的公司服务器上的。

很多人将Internet
Archive定义为最伟大的搜索网站。Kahle开发的搜索工具Wayback
Machine定期收录和抓取全球网站的信息,并进行保存。Wayback
Machine的工作也有主次之分,对于不同的网站,收录的数量和频次也不相同。

这种新型网络的部分组件其实已经出现。IPFS文件系统是一个开源项目,借鉴了分散式数字货币比特币和点对点文件分享系统BitTorrent倡导的理念。网站选择加入IPFS后,该协议就会在参与用户之间分发文件。如果原始的网络服务器宕机,由于备份文件在其他人的计算机上运行,网站仍会存在。此外,这些分散管理的档案文件将可以让人们浏览网站以往的版本,就像你在维基百科上可以浏览词条以前的编辑记录,或者在Wayback
Machine当中看网站的旧版本那样。

一台服务器可能要每天应对百万次来自各个客户端和浏览器的访问,如果遭遇类似美国安全局这样的机构的审查,只需要控制这些服务器提供商,就可以轻易掌握用户数据。同样,黑客只需要发动对服务器的攻击,也有可能让普通用户无法访问服务器,DDOS攻击就是利用多台计算机对服务器进行大量的服务请求,占据服务器资源,导致正常用户也无法访问网站,出现我发经常看到502的情况。

截止到现在,Internet Archive已经保存了3300亿网页和页面快照,而Internet
Archive的伟大在于,除此之外,这个庞大的档案馆还记录了2000万册图书和文本,850万份音频和视频、300万幅图像和20万个软件程序。

“我们要给数字信息带来印刷般的质量。”IPFS创始人胡安·贝内特(Juan
Benet)说道,“如果我打印出一张纸给你,你就能拥有它,你可以用物理形式将其存档,将来就可以用得着。”你也可以拿它给给别人看。

现有的web协议——HTTP协议实际上已经存在很多问题。我这里引用官网

总而言之,Internet
Archive想做的是让信息获取更加简单和准确。最近,Internet
Archive和维基百科联手做了一件事情,让维基百科更靠谱了。Internet
Archive已经将维基百科脚注中13万条书籍引用定向链接到Internet Archive
5万本完成过数字化扫描,且对公众公开的书籍。查阅者可以通过点击脚注的页码,查看被引用部分的两页上下文预览。

现在,要参与IPFS系统,你得在电脑上安装IPFS的软件。不过贝内特说,其团队已经用JavaScript给该软件开发了一个可以在浏览器运行、无需再安装新软件的版本。按照他们的理念,如果IPFS出现在每一个人的浏览器上,那人人都能帮助备份网络。

  • HTTP效率低下,服务器成本昂贵

查阅者可以通过点击脚注的页码,查看被引用部分的两页上下文预览| Internet
Archive

与早期的网络不通,现在的网络并不只是静态HTML文件的集合。它是一个由Facebook、Twitter、Slack等动态的互联应用程序组成的丰富网络。真正的分散式网络将不仅仅需要备份网页,还需要备份应用程序和数据。这正是让问题变得非常棘手的地方——问一下上周被盗逾5000万美元以太币的分散式众筹系统DAO就知道。

使用HTTP协议从一台计算机服务器上一次只能下载一个文件,而不是同时从多台计算机中获取文件。通过P2P方式的视频传输可以节省带宽成本的60%。

网络图书馆

IPFS团队已经在努力打造一项可让网页应用在原始服务器消失不见时也能保持运行的功能,他们已经开发了一款聊天应用来展示这一概念。与此同时,另外几个项目,如Ethereum、ZeroNet和SAFE
Network,都在寻求打造不依靠单一服务器或者公司来保持运行的网站和应用程序。现在,得益于去中心化网络峰会的召开,它们很多都在着手给自己的系统带来跨平台兼容支持。

  • 历史文件被删除

上述《纽约客》文章中说,「脚注是人类文明史上的一个里程碑,发明和传播它花了几个世纪的时间,摧毁它仅仅用了几年。比如过去,书籍和论文的脚注能让你准确了解到额外的信息,以及信息的来源。现在,当一切搬到互联网上,你仍然可以通过点击脚注的链接获取更多信息,只不过你不知道兴许哪一天链接就失效了。」

为何如此费心?

网页的平均使用寿命为100天,大量的网站文件不能得以长期保存。有些重要的文件因操作不当,也有可能永远在互联网消失。

2016年10月,维基百科和Internet Archive宣布合作解决失效链接问题,Wayback
Machine主管Mark Graham开发的InternetArchive
Bot自动扫描维基百科脚注的失效链接,并自动将失效链接连接到Wayback
Machine保存的页面。「我们编辑了1400万链接,超过1100万链接到Internet
Archive。」Graham说到。

即便互联网有了全新的且更好的数字存档系统,还是会有不少的问题需要解决。今天的网络并不只是静态HTML文件的集合;它的组成部分还包括像Facebook、Twitter和Slack这样的动态应用。未来的操作系统和硬件可能无法识别或者运行这些应用,视频、照片甚至文本亦然。

  • 中心化的网络限制了机会

链接书籍的工作与之类似,但是更具有挑战性。Graham解释说,并非所有书籍都有ISBN编码,也并非所有脚注都参考了正确引用格式,标注了具体的页码。

当前有许多项目在努力解决那些问题。但为什么要如此费心呢?

互联网一直是人类进步的催化器,但中心化的网络容易被控制,是对互联网良性发展的的威胁。

Internet
Archive称自己为网络图书馆。不少线下图书馆也会对书籍数字化之后借阅给用户。当你对某一本引用的书籍感兴趣,就可以问Internet
Archive借阅到电子版。

毕竟,如果你觉得特定的文件或者网站很重要,直接将文件转移到新的媒介平台,将最重要的文件转化成新格式不就行了吗?瑟夫称,那种想法的问题在于,人们往往不能马上就知道哪些东西重要哪些不重要。举例来说,几个世纪以来,航行者一直都有仔细记录全球各个地方的气候情况,那种信息看上去似乎没什么用处,但在气候科学家们眼里,所有的那些天气数据可谓价值连城。(Old
Weather项目正在努力将那些旧的航海日志数字化。)

  • 网络应用太依赖骨干网

Internet
Archive从2005年开始着手书籍数字化的工作,它的「馆藏」里已经有了380万本。目前Internet
Archive在全球设了22个工作点,每天有100位员工以每天1000本的速度加快扫描工作,即便这样还有数百万本书排队等候。

不过,有的网站不应该长存。未来的人类真需要去看那些酩酊大醉的大学生照片和Facebook咒骂帖子?与此同时,积极分子和执法部门正在试图阻止网络出版商在未经许可的情况下发布他人的裸照。文件保留工具虽然会加大政府审查网络内容的难度,但也会让人们更难将不该存在的内容从网络移除。人们喜欢Snapchat是有理由的。

为保证数据的可靠性,我们开发的应用程序太依赖大型的中心服务器,并通过大量的备份来保证数据的安全。

数字时代,人们与书本的距离越来越远。Kahle称,「我们希望从维基百科开始,通过将书籍编织进互联网的方式,将读者与书籍连接起来。」

对于该问题,瑟夫建议在技术上寻找变通解决方案。例如,网络出版商可以指明其他人是否可以自动存档他们的网站。贝内特说,IPFS团队一直在考虑打造这么一项功能:让页面的原始出版商可以通过向所有其它托管页面的服务器发出删除信号,来将页面清除。IPFS服务器还可以实施黑名单机制来删除盗版材料。不过,那些黑名单本身也提醒着人们想要遗忘的内容。

HTTP协议已经用了20年的历史,从HTTP 1.0
到现在的HTTP5,网页的展示越来越美观丰富,但它背后的Browser/Server
模式是从来没变的。

互联网档案馆

围墙花园

如果你关注区块链的话,也许听说过IPFS——星际文件系统。IPFS就是用来解决或者弥补HTTP的一系列弊端。

80、90后的青春可能随着某天天涯和豆瓣的关闭而停驻,Facebook成立以来也不过十几年光景。互联网加速了信息的传播和迭代,相应地人们遗忘得也越快。但是在Internet
Archive,念旧的人可以看到当时的热点话题「制造机」天涯社区,以及现在看来有些「非主流」的新浪微博首页快照。

然而,去中心化网络面临的最大问题,或许既不是技术问题,也不是法律问题,而是如何让人们参与进来。当下,人们在网络上很大部分的时间花在像Facebook、Snapchat这样的封闭平台上,因而人类所产生的数字内容很多都处于封闭状态。将人们带回开放的网络,将意味着打造足够有趣且足够简便的用户体验,进而说服人们走出如今以应用为中心的互联网、

星际文件系统(InterPlanetary File
System,缩写IPFS)是一个旨在创建持久且分布式存储和共享文件的网络传输协议。它是一种内容可寻址的对等超媒体分发协议。在IPFS网络中的节点将构成一个分布式文件系统。它是一个开放源代码项目,自2014年开始由Protocol
Labs 在开源社区的帮助下发展。其最初由Juan Benet设计。

IPFS是点对点的超媒体协议,可以让网络更快、更安全、更开放。它是一个面向全球的、点对点的分布式版本文件系统,试图将所有具有相同文件系统的计算设备连接在一起。

▲Internet Archive保存的天涯和新浪微博的快照| Internet Archive

不过,“互联网之父”蒂姆·伯纳斯-李(Tim
Berners-Lee)并不感到担忧。毕竟,开放的网络已经打败了像美国在线、Compuserve和Prodigy这样的围墙花园。“你可以让围墙花园变得非常动人,”伯纳斯-李在去中心化网络峰会上表示,“但从长远来看,外面的丛林永远都是更有吸引力的那一个。”

IPFS可以从本质上改变网络数据的分发机制

正如《纽约客》评论道,几乎可以肯定,如果哪些东西没有被网页时光机收录,它们等于从来没有存在过。

(文/网易科技)    

来看看IPFS的工作原理:

2014年7月17日,马来西亚一架波音777客机起飞后不到三小时在乌克兰坠毁。乌克兰反对派指挥官Strelkov在俄罗斯社交媒体VKontakte发布一条消息,「我们刚刚击落一架飞机,一架AN-26。」这则帖子包含了飞机残骸的视频链接,看起来像是波音777,随后被删除。第二天,这则帖子被收录到Wayback
Machine,Internet Archive在Facebook发帖称,「这就是我们存在的意义。」

  • 每个文件及其中的所有块都被赋予一个称为加密散列的唯一指纹。

  • IPFS通过网络删除重复具有相同哈希值的文件,通过计算是可以判断哪些文件是冗余重复的。并跟踪每个文件的版本历史记录。

  • 每个网络节点只存储它感兴趣的内容,以及一些索引信息,有助于弄清楚谁在存储什么。

  • 查找文件时,你通过文件的哈希值就可以在网络查找到储存改文件的节点,找到想要的文件。

  • 使用称为IPNS,每个文件都可以被协作命名为易读的名字。通过搜索,就能很容易地找到想要查看的文件。从IPFS的介绍可以看出,
    IPFS设想的是让所有的网络终端节点不仅仅只充当
    Browser或Client的角色,其实人人都可以作为这个网络的运营者,人人都可以是服务器

正如《金融时报》评论,在一个虚假信息,极端主义内容被迅速创造和传播,社交媒体信息不断迭代和更新的时代里,能够记录「谁说了什么」,「何时说了什么」而且内容不可更改的重要性被放大了。通过Internet
Archive对不同时期的历史信息进行研究,是它更大的价值所在。比如在特朗普当选之后,Internet
Archive收集了包括特朗普就职前的6000多段视频帮助人们辨别和核实虚假信息。

对比HTTP,IPFS具有这样的一些特性:

然而,想要建立全球化的互联网档案馆不太容易,部分原因在于各个国家在法定送存、版权、隐私等法律问题上无法统一。今年年初,英国作家协会(The
Society of Authors)表示Internet
Archive做法涉嫌侵权——在英国所有的书籍扫描和借阅行为必须得到版权所有者的授权,且每一次借阅能为作者带来8.52便士的公共出借报酬。英国作家协会指摘Internet
Archive没有得到作者的许可,同时没有支付任何报酬。

  • 基于内容寻址,而非基于域名寻址。文件具有存在的唯一性,一个文件加入了IPFS的网络,将基于计算对内容赋予一个唯一加密的哈希值。这将改变我们使用域名访问网络的习惯。

  • 提供文件的历史版本控制器,并且让多节点使用保存不同版本的文件。

  • IPFS的网络上运行着一条区块链,即用来存储互联网文件的哈希值表,每次有网络访问,即要在链上查询该内容的地址。

  • 通过使用代币的激励作用,让各节点有动力去存储数据。 Filecoin
    是一个由加密货币驱动的存储网络。矿工通过为网络提供开放的硬盘空间获得Filecoin,而用户则用
    Filecoin 来支付在去中心化网络中储存加密文件的费用。

不久之后,一份由全美作家联盟发布,其余36个组织(包括The Society of
Authors)共同签署的文件,谴责Internet
Archive和合作图书馆扫描和分发电子书的行为。虽然Internet
Archive解释他签署了CDL(controlled digital
lending)协议——在没有获得版权所有者的许可下,允许图书馆数字化印刷书籍,并借出给用户。前提是规定借出数量和时间上限,并且基于合理使用制度,借出数量必须与数字化前实体书籍数目一致(一旦一本实体书被借出,它的对应电子版本则不能借出,反之亦然。)

比如我想观看一部叫ABC的视频

法律跟不上技术迭代的步伐,就如同许多敢为人先者一样,Internet
Archive身处在资源共享和版权至上的夹缝之中。

1,
加入IPFS网络,在网络中搜索叫ABC的文件,(通过IPNS——去中心化的文件命名系统)

▲互联网档案馆创始人Brewster Kahle |维基百科

2, IPFS网络迅速索引区块链上的哈希值,反馈出搜索结果。

「在中国互联网的古代,人们不仅只是使用互联网,那时候的人们参与建设互联网…比如说前往维基百科编纂词条,管理内容。在中文互联网世界里,人们去豆瓣网增添电影、书籍、音乐专辑的条目,便于其他网友标注、收藏和评论。」网络写手和菜头曾如此写道。

3, 你支付一点FileCoin代币,
获取ABC文件缓存到本地,ABC文件不是从云或者服务器上下载下来的,而是由这个网络的参与者贡献的,它可能是离你最近的一个网络节点。这样的好处就是不仅不需要中间服务器,而且网络效率最快。

这或许和Internet
Archive想要打造的互联网世界相似,用Graham的话说,Internet
Archive希望普及所有知识。Kahle表示,尽管Internet
Archive扎根在旧金山,但是与今天的硅谷共同点少之又少。他希望所有技术的「遗产」最后不是掌握在少数人手中,「我喜欢很多人都能赢的感觉。」

4,
如果ABC文件恰好你周边好几个人都有,那IPFS网络会把这个文件拆成一小片一小片,节省了这些节点的储存成本,也让你用最具效率的方式下载到该视频。

5, 这个视频文件缓存在自己电脑里,不仅自己观看,同时也为其他人提供资源。

6,
另外也可以自己发布新内容到这个网络上,并且有机会获得FileCoin代币,因为你也为网络做了贡献。

通过这样的方式,实现了整个网络的文件利用达到最优效率

如果你对IPFS感兴趣,又懂点编程的话,可以亲自试一下,IPFS已经有了Alpha版。

那说到这里,IPFS跟SC有什么不同?这个问题应该比较好回答了。

  • SC是一条做去中心化的存储的公链,通过代币购买存储空间,将文件备份在互联网的多个节点上,提高文件的安全性。

  • IPFS是一个底层的互联网协议,跟HTTP一样做的是信息交换的事,实现的方法不同,IPFS实现的是互联网上各个节点的文件读取、分享、交换。

是不是有满满的颠覆的感觉!

IPFS
的设计思维非常有意思,它从互联网的最底层——数据,也就是文件,来思考问题,颠覆式创新经常是从第一性原理出发,找出事物的本质,从而重新设计该系统的架构。

区块链技术的出现让分布式网络的设计成为了可能。区块链并不是万能的,反而区块链是一种低效且昂贵的存储数据的方式。IPFS的精妙之处是它把分布式账本可以被放置于IPFS之上,这个分布式账本只是记录了网络里各个文件的哈希值。

“如果你把它加到IPFS里,然后通过哈希算法把它录入区块里,那么你就可以通过IPFS直接在网上浏览交易以及文件。IPFS协议与区块链技术结合是个“完美的婚姻”。”
——Benet

IPFS协议让网络的自由和独立精神充分发挥,并且成本低廉。
无论如何,去中心化的网络与中心化的网络并存无疑会是一种趋势。

至于IPFS能否替代HTTP,个人认为,少用“代替“一词….

参考官网介绍:
链接:

我是苏江,长期分享区块链思考,欢迎加我微信与我交流:su466120534

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图