Deep Web(深层网络or深度网络)

深层网络:揭示网络中隐藏的价值

  World Wide Web(简称WWW,或Web网)自20世纪90年代发明以来就一直呈现蓬勃发展之势,到今天为止其蕴含着海量的丰富资源,包罗万象,是人类一笔宝贵的知识财产。Web网按其分布状况可以分为“表层网”(Surface Web)和“深层网”(Deep Web,也有称Invisible Web,HiddenWeb)。

  Surface Web指存储在Web空间、由超链接连接起来的静态网页、文件等资源,一般来说通过超链接就可以访问这些资源。这里所说的Surface Web是指传统网页搜索引擎可以索引的Web,以超链接可以到达的静态网页为主构成的Web。

  Deep Web指那些存储在网络数据库里、不能通过超链接访问而需要通过动态网页技术访问的资源集合。网络数据库包括搜索引擎数据库、在线专业数据库及站内搜索数据库,统称为可搜索数据库(Searchable Database)。

  因为担心爬行器会陷入巨量动态网页库而浪费网络带宽资源和存储资源,以及目前的技术还无法发现潜藏在网络数据库中的信息,所以传统搜索引擎,比如Google、百度等网页搜索引擎,一般只索引Surface Web中由超链接可以到达的静态网页、文件等资源,却不索引或很少索引Deep Web中的资源。

  我们熟知的是Surface Web,那么Deep Web情况如何呢?容量多大?包含那些内容?内容质量如何?

  据BrightPlanet公司技术白皮书(The Deep Web-Surfacing the Hidden Value),Deep Web资源容量约为Surface Web的500倍,而且包含着更多有价值的资源。以下简述他们的研究结果:

(1)Deep Web里包含的可访问公共信息容量是我们熟知的Surface Web的400-500倍。

(2)Deep Web包含7500TB的信息,而Surface Web包含的信息容量只有19TB。

(3)Deep Web包含5500亿独立文档,想对应的Surface Web只包含10亿个。

(4)现有的Deep Web站点估计超过100,000个。

(5)60个最大Deep Web站点就已包含750TB信息,超过Surface Web所包含信息的40倍。

(6)平均看,Deep Web站点的月访问量比Surface Web站点搞出50%,并且与Surface Web站点相比有更多的链接。可是那些典型的大型Deep Web站点在互联网搜索领域却不知名。

(7)Deep Web是互联网新信息增长的最大来源。

(8)Deep Web站点在信息内容范围上比一般Surface Web站点更专更深。

(9)Deep Web包含的有效高质内容总量至少是Surface Web的1000到2000倍。

(10)超过一半的Deep Web内容都保存在专业领域的数据库中。

(11) 95%的Deep Web信息都是面向公共访问的,而不是需要付费或者订阅的。

  该白皮书还指出,当时最大的搜索引擎只索引了Surface Web中的16%信息量,而如果算上那些无法被传统搜索引擎索引的Deep Web中的信息,那么一般搜索引擎只能搜索0.03%的Web信息。可见,研究和挖掘Deep Web对于提高搜索覆盖率和准确率有着非常重要的意义。

  欲了解这方面的信息,请参阅该书:The Deep Web-Surfacing the Hidden Value。