新闻中心 > 要闻

当今世界网页档案的作用与未来

作者:卡列夫 H·李塔鲁

来源:中国档案报

2015-01-19 星期一

    设想一下,在一个没有图书馆和档案馆的世界,没有机构系统地收集和保存过去,每一本书、每一封信、每一份文件在读后随即被扔掉了,那么人们将如何了解自己的过去呢?不幸的是,这恰好是网络世界正在发生的事,现代互联网已经诞生了20多年,我们的生活逐渐被数字世界包围,但这一世界的“图书馆”和“档案馆”才刚刚开始形成。

    每天,有2.5亿张照片被上传到脸书(美国社交网站)上,有3000亿封电子邮件被发送,有3.4亿条消息发布到推特(美国社交网络及微博服务网站)上,每日上传的博客超过1.56亿篇。在数量超过6.44亿个网站中,每天还有约15万个新网站加入其中。更不可思议的是,在数字世界中内容的增长是爆炸性的。在过去60年中,所有《纽约时报》上刊登的单词约30亿个,而现在通过推特发布的单词一天就达到了80亿个。

    据估计,在过去500年中出版的全部书籍中约有50万亿个单词。以目前的增长率来看,在推特上发布的单词量在3年之内就将达到这一数字。全球人口的三分之一都是网民,手机的保有量和全球人口数一样多。但是大多数时候,就在我们得到信息的同时,就迅速将其丢弃,几乎不为后世做任何考虑。这就是网页归档的缘起——为了确保几年、几十年、几百年、几千年后,我们至少还有一部分关于21世纪初期人类社会的书写记录。

    当今世界的网页档案

    亚历山大图书馆始建于公元前3世纪,是世界上最古老的图书馆之一,数百年后毁于战火,它的毁灭造成了我们对古代世界理解的巨大缺失。试想一下,如果这个图书馆一直延续至今,且在1000年的时间里持续收集材料将会怎样?现实情况是,在互联网领域我们正在遭受着这种损失的循环。不仅是通过像摧毁亚历山大图书馆那样的突发事件,更多的是因为我们的不作为——不去收集网页。

    从1996年初开始,因特网档案界开始以捕获快照的方式对网页进行记录,这些记录形成了人们关于网络世界早期样貌的一些记忆。如今,像国际互联网保存联盟(IIPC)这样的组织,正在帮助来自世界各地跨学科的网页档案管理员分享经验和最佳做法,拓展合作,为积极推动网页存档这一重要任务而作出不懈努力。

    几乎所有的网页档案馆都会用爬虫程序来衡量网站的变化率,以捕捉那些变化频繁、快速更新的网站。这样,可以让经常变化的网站优先使用存储器资源,而不是将存储器资源用于存储一些不更新网站的大量毫无变化的快照。在另外的研究中,抓取频率本身的动态变化也是个问题。因为档案馆必须在抓取新页面和重新抓取既有页面的新变化之间平衡分配它们有限的资源。

    那么,是什么构成了“变化”?答案在不同的研究项目之中会有戏剧性的不同。如果一个网页看上去毫无变化但是它的超文本链接标示语言(HTML)标签更改了,它是否应被视为发生了“变化”呢?如果标题或者背景颜色变化了又如何?顶部导航栏的变化和页面正文的变化要同等看待吗?这些答案的数量与研究项目的数量一样多,而且没有哪一种方案能同时解决这些问题。

    什么内容需要保存

    数字世界正在经历爆炸性的增长,在几个小时中产生的内容甚至多于印刷时代大半个世纪的产出。这种增长给我们描绘出一幅不可思议的全球化图景,在10年前甚至难以想象的沟通、合作和社会研究如今变为可能。然而,文件资料越丰富,存档便愈加困难。当互联网因为素材丰富而成为一个让人兴奋的沟通平台时,也意味着有太多的素材需要保存。

    防止“胀库”的一个老办法就是判断哪些是最“重要的”而哪些能够被舍弃。然而,我们如何才能决定哪些是干扰“噪声”?哪些是需要被保存的呢?要是与一个正在撰写历史人物传记的史学工作者聊聊,你会发现,他会将历史人物的日常信件和日记作为当事人情绪、情感和信念的重要信息来源。近来涌现出的通过推特来预测股票市场或衡量公众情绪的研究发现,只有把推特上每天全部的3.4亿条消息都考虑进去,主要研究模型才会出现。“我正在外面晾衣服,多么美好的一天啊!”这样一条消息乍看起来似乎没有任何保存价值,然而它反映出发布者平静、怡然、放松的情绪,这恰巧是社会科学家感兴趣的重要因素,是考察人口学层面状态变化的一个指标。另外,在考虑什么内容需要保存时,可以舍弃高度重复的事项,如同一事项的多个版本。

    电子档案加纸质档案双套制的兴起,引发了对于一个事项要收集两种载体的需求。网站通过多媒体互动功能发布的电子书包括视频、照片等,带给人们与纸质版本完全不同的体验。有时候,纸质文本作为官方记录的主要领域,电子版本因其易于使用成为了主要的记录方式。比如,美国公民为了获取政府新闻发布和政府声明,往往会打开白宫的官网浏览,而不是去附近的联邦寄存图书馆浏览最新的总统公开文件。2008年笔者与他人合作开展的一项研究发现,美国白宫网站上的官方新闻发布在不断被编辑,随着时间的推移添加或删除主要内容,这是出于不断变化的政治现实。在这个世界上,信息太容易发生变化,甚至往往被认为难以改变的政府的各种文件材料,在轻点鼠标之间就会发生变化。作为网页档案工作者,我们如何有效地捕捉这个世界呢?

    在印刷时代,一本书在它出版之后被存档,如果后来修订发行新版本了,出版商会通知图书馆。如果20家图书馆同时收藏了一本书的同一版本,那么可以确定这20本书都是相同的。在数字时代,我们必须不断地为新的网页存档,同时也扮演了一个全新的角色——检查现有档案的变化。每个网页的每次存档都必须被不断且有规律地复检,以确认它是不是发生了变化,这件事可不轻松。

    美国国家科学基金会社会、行为和经济学董事会副主任迈伦·古特曼认为,在印刷时代由于生产成本高,出版物的出版要经过层层审查,所以往往也都是“值得”保存的;相比之下,数字时代极低的成本意味着,任何人都可以不经任何形式的审查发布信息,这就提出了什么是“值得”保存的问题。在学术领域也是如此,如果有一件档案特别热门,有大规模的研究者队伍都对其加以利用,而另外一份材料只有10个人在使用,那么在销毁问题上谁的意见更重要呢?在过去这是由图书馆或者档案馆自行决定的,但是随着用户和数据挖掘者对档案信息愈发频繁的利用,则引发了在作出决定时如何兼顾这些群体利益的问题。

    并行网络的兴起

    当我们说“给网页归档”的时候,我们通常把“网页”作为一个能够被归档的庞大整体,其内容从产生到阅览及使用都通过一个网络浏览器。最初互联网的形成就是基于一种这样的观念:所有材料通过开放、统一的平台提供给所有用户。这一观念盛行于网络时代的早期。然而在过去的10年间,随着社交媒体的兴起,一个新的趋势出现了,即创建网页的“并行”版本。

    每天上传到脸书上的两亿多张照片都是通过网络发布并获取的,无论是通过电脑的浏览器,还是智能手机上的移动应用程序。然而,尽管都以网络作为物理的通信基础设施,但是通过社交媒体发布的那些照片、文字信息被储存在一个并行网络中,完全由一个商业实体拥有并管理。它不是公共网络的一部分,也不会被网页档案馆获得。正如图书馆在专注于收集书籍的同时,大量存在于信件、日记、图纸和艺术品中的信息和文化都散失了。而在数字时代,与此不同的是所有这些材料不是分散在个人手中,而是被集中到了商业化的“档案馆”和“图书馆”之中。

    并不是每个人都希望自己与他人的每一番谈话都被保存下来。在印刷时代,一个人拥有选择权。信件、日记和照片都是有物质实体的,被其所有者保存并传给后代。在数字时代,一个公司往往以服务之名拥有我们的这些私人“档案”。比如,脸书托管在互联网上,事实上已经成为一个互联网的并行版本,但它又是和公共互联网全然区隔开的,用户无法为由自己产生的材料存档。目前,几乎只有一个社交媒体平台提供了“输出”按键,允许人们下载这些早前本就是由自己产生“档案”的拷贝,那就是谷歌+(Google Plus)社群网站提供的谷歌数据下载(Google Takeout)工具。

    推特已经认识到人们通过其平台发布的交流信息的重要性,并且将这些内容提供给了美国国会图书馆,为后代存档。而同类机构如脸书、中国新浪微博和俄罗斯知名社交网站VK等国际化平台则大多没有这么做。

    关于商业化的社交平台如何与网络归档组织相互配合,确保通过社交平台产生的信息能为后世存档,推特提供了一个有益的例子。像谷歌数据下载这样的自动归档服务,能给用户提供了一个为后代归档的中间步骤。随着越来越多并行网站的创建,关于人们如何能利用这些服务,确保由自己产生的信息能够留存的办法,还应在网络归档过程中进行更广泛、更深入的探讨。(张理平 编译)

    原载于《中国档案报》2015年1月19日 总第2713期 第三版

 
 
责任编辑:张雪
 
版权所有,未经许可,不得转载。