暗网(又称作深网,不可见网,隐藏网)是指互联网上的内容,不属于那些可以被标准搜索引擎索引的表面网络。 迈克尔·伯格曼
将当今互联网上的搜索服务比喻为像在地球的海洋表面的拉起一个大网的搜索,巨量的表面信息固然可以通过这种方式被查找得到,可是还有相当大量的信息由于隐藏在深处而被搜索引擎错失掉。绝大部分这些隐藏的信息是须通过动态请求产生的网页信息,而标准的搜索引擎却无法对其进行查找。传统的搜索引擎“看”不到,也获取不了这些存在于暗网的内容,除非通过特定的搜查这些页面才会动态产生。于是相对的,暗网就隐藏了起来。据估计,暗网要比表面网站大几个数量级。 迈克尔·伯格曼引用
法兰克·加西亚
在1996年1月的一篇文章指出,早在1994年的时候,
吉尔.艾尔斯沃夫
曾经使用“不可见网络”这一术语表示那些没有被任何搜索引擎索引注册的网站: “这些网站可能已经被合理地设计出来了,但是他们却没有被任何搜索引擎编列索引,以至于事实上没有人能找到他们。我可以这样对这些不可见的网站说,你们是隐藏了的。” 另外早期使用“不可见网络”这一术语的,是一家叫做“个人图书馆软件”公司的
布鲁斯·芒特
(产品开发总监)和
马修·B·科尔
(首席执行官和创建人),当他们公司在1996年12月推出和发行的一款软件时,他们对暗网工具的有过这样的一番描述。 不可见网络这一术语其实并不准确,它描述的只是那些在暗网中,可被搜索的数据库不被标准搜索引擎索引和查询的内容,而对于知道如何进入访问这些内容的人来说,它们又是相当可见的。 第一次使用暗网这一特定术语,是2001年伯格曼的研究当中。 2001年, Sriram Raghavan 和 Hector Garcia-Molina 发明了一个从用户请求界面表格收集关键词的暗网抓取模型并且抓取暗网资源。
加利福尼亚大学洛杉矶分校
的 Alexandros Ntoulas 、 Petros Zerfos 和 Junghoo Cho 创建了一个自动生成有意义的查询词的程序。 商业搜索引擎已经开始使用以上两种方法之一抓取暗网。
Sitemap协议
(始创于 Google)和 mod oai 是允许搜索引擎和其他网络服务探索暗网解决方法。以上两种解决方法允许网络服务主动公布网址,这对于他们来说是容易的,因而允许自动探寻资源而不直接通过网络表面的链接。Google 的暗网探寻系统预先计算每个 HTML 表单并且添加结果 HTML 页面到 Google 搜索引擎索引。在这个系统里,使用三种方法计算提交词: (1) 为输入搜索选择关键词允许的输入值、(2) 确定是否只接受特定的值(例如时间)和 (3) 选择少量的组合生成适合纳入网站的搜索索引网址。 “深网”是一个潜在的梦魇,是窃贼、儿童色情产品经销商、人贩子、假币制造者、刺客、出卖国家情报者的乐园。 十年前,美国政府打造了一个完全私密、匿名的网络空间。如今,它成了毒品交易、儿童色情、伪造身份等非法活动的“罪恶天堂”。 在这个网站上,人们可以自由交易各种非法商品:毒品、假身份证、烟花、盗版软件等,却不必担心被追踪,因为“丝绸之路”位于互联网上一个鲜为人知的领域——“深网”。 一些检察官和政府机构认为,“丝绸之路”只是冰山一角,“深网”是一个潜在的梦魇,是窃贼、儿童色情产品经销商、人贩子、假币制造者、刺客、出卖国家情报者的乐园。 1996年5月,美国海军研究实验所的3名科学家提交了一篇论文,题目是《隐藏路径信息》,提出打造一个系统,让使用者在连接互联网时不会向服务器泄露身份。他们称之为“洋葱路由”,因为保护数据的密码像洋葱一样层层叠叠。 2003年10月,这一想法开始正式实施。系统最初被命名为Tor,是“洋葱路由”英文首字母缩写,后被“深网”所取代。它的设计高度精密,以至于设计者本人都无法摧毁它。 美国政府为何要建造这样一个系统?原因很多。警方可以通过它调查非法网站而不打草惊蛇;军方和情报机构可以进行秘密联络;国务院可以培训国外异见人士…… Tor目前由一个非营利组织运作,得到谷歌(微博)、奈特基金会等赞助。但直到2011年,其60%资金仍来自美国政府。 然而,“深网”建立不久就走向“堕落”。2006年初,一个名叫“农贸市场”的网站开始出售大麻和克他命。“深网”不仅是毒品的“窝点”,还是极端分子的联络站、垃圾邮件的生产基地、武器交易站、儿童色情网站…… “棱镜”项目揭秘者斯诺登泄露了一份美国国家安全局2012年6月的文件,题目是《Tor糟透了》。文件讲述了国家安全局在摧毁Tor过程中遭遇的种种困难,并明确表示:“我们将永远无法破解所有Tor用户的真实身份。” 也许,Tor之类的系统不会消失,因为人们总是受困于两种追求之间:一个是可以匿名的网络空间,这是网络的初始形态;一个是秩序井然的牢笼,这是网络的发展趋势。正如乌布利希的落网虽令“丝绸之路”遭遇重创,但眼下已有东山再起的苗头。网站论坛上有帖子讨论利用旧网站的备份版本重建“丝绸之路”,同时加入更多安全设计。 “深网”指谷歌等搜索引擎不去搜索或无法搜索的所有网站和数据库,其信息量远远超出我们的想象。同时,它还有一大特点:完全匿名,将你与现实世界里的身份彻底分离。而要想进入“深网”,只需花不到三分钟下载并安装一个免费软件即可。 “深网”本身并不违法,绝大多数使用者也非罪犯,但其匿名特质一旦被犯罪分子利用,尤其是与虚拟电子货币“比特币”相结合后,极易成为“罪恶天堂”。 那如何进入“深网” Tor (The Onion Router), 在中文世界中被戏谑为“套”。Tor最初是用来避免网络跟踪的,但是时至今日,它更多的普通用户用它突破网络封锁。只要给浏览器带上“套”,就可以访问一 切被封锁的网站。而今的“套”也早已与当年不可同日而语,新的“网桥”机制已经使封锁网络的企图成为一个无聊的冷笑话而已。 警告 通常情况下,仅仅带“套”访问被封锁的网站本身安全的。但是,如果你在一个极权国家,最好不要在网上随意发言——哪怕你带着“套”,你依然可能并不是安全 的,因为你的计算机上的某些其它设置可能依然是有漏洞的。另外,不要用带“套”访问支付网站,因为你的密码可能会中途被窃取。 获取Vidalia bundle (一)使用emule下载软件下载 浏览至
北京时间3月31日消息,DuckDuckGo搜索引擎近来发展迅猛,3个月来搜索请求以平均每天227%的速度高速增长。虽然现在它尚不能撼动Google搜索霸主地位,但谷歌亦也应该提起重视。
报道称,不少国外企业家在其个人电脑上使用的是另类的搜索引擎DuckDuckGo,而不是谷歌或者Bing。另外据ycombinator报道称,使用这个搜索引擎的人也不是一个两个。
从下面的图表中可以看出,到今年为止,DuckDuckGo每天的搜索量如同曲棍球球棍一样快速增长,平均每天搜索请求增速达227%。自去年年底到现在为止,用户数已接近150万。
这巨大的上升势头,一方面是来自去年一月推动的视觉界面设计,另一方面也是数据隐私日活动的鞭策。正是因为DuckDuckGo对数据隐私的保护,黑客甚至都集体使用它。
因此有人提出建议,谷歌应该对此感到重视。不过分析人士指出,DuckDuckGo目前对谷歌而言还不是最大的威胁,谷歌现在还没精力关注它,这对DuckDuckGo来说无异是一件好事。
就目前许多人而言,DuckDuckGo已经被定位成一个有友好隐私保护的搜索引擎。因此它不会在众多竞争中被淘汰掉,也更不用说非要和其他的搜索引擎一决高下,因为DuckDuckgo推动发展方向和战略是对的。
此外在早些访谈中,DuckDuckGo创始人Gabriel Weinberg称,目前的工作重点将是对搜索算法进行改进和加快相应速度。
据悉DuckDuckGo是一个综合性搜索引擎,它索引的搜索结果包括了Google、Bing、维基百科、亚马逊等。另外DuckDuckGo把隐私放在第一位,它不存储用户IP地址、也不记录用户信息,同时DuckDuckGo搜索结果更加实时化,Spam也更少。http://duckduckgo.com/
http://www.howtoforge.com/how-to-enable-adobes-flash-player-in-google-chrome-ubuntu-9.04-p2
Open a terminal (Applications > Accessories > Terminal):
If the Flash plugin is already installed for Firefox, we have to find out where it is located:
sudo updatedb
sudo locate libflashplayer.so
If it is installed, output should be similar to this one…
falko@falko-desktop:~$ sudo locate libflashplayer.so
/opt/Adobe AIR/Versions/1.0/Resources/libflashplayer.so
/usr/lib/flashplugin-installer/libflashplayer.so
falko@falko-desktop:~$
… which means the Flash plugin is located in /usr/lib/flashplugin-installer/libflashplayer.so. If there’s no output, this means that the Flash plugin isn’t installed – you can then install it as follows:
searching the Deep web
While the Semantic Web may be a long time coming,
Deep Web search strategies offer the promise of a semantic Web.
THE WEB IS bigger than it looks. Beyond the billions of pages that populate the major search engines lies an even vaster, hidden Web of data: classified ads, library catalogs, air-line reservation systems, phone books, scientific databases, and all kinds of other information that remains largely concealed from view behind a curtain of query forms.
robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。
当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
robots.txt写法
我们来看一个robots.txt范例:http://www.w3.org/robots.txt
访问以上具体地址,我们可以看到robots.txt的具体内容如下:
#
# robots.txt for http://www.w3.org/
#
# $Id: robots.txt,v 1.48 2007/10/16 05:31:15 gerald Exp $
#
# For use by search.w3.org
User-agent: W3C-gsa
Disallow: /Out-Of-Date
User-agent: W3T_SE
Disallow: /Out-Of-Date
User-agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT; MS Search 4.0 Robot)
Disallow: /
# W3C Link checker
User-agent: W3C-checklink
Disallow:
# exclude some access-controlled areas
User-agent: *
Disallow: /2004/ontaria/basic
Disallow: /Team
Disallow: /Project
Disallow: /Web
摘要 为什么会出现所谓的msn/QQ sniffer[1][2],为什么一台机器能捕获其它机器的信息。 这些现象让大多数不懂网络的人感到困惑,也感到害怕,因为个人隐私可能 被某些不良人员(包括很多只是好奇的人)所利用,更严重的是一些信息可以 被利用来作出更大的危害,那么我们来了解下这其中的原理,以及个人和网络 管理人员如何察觉和避免这种窥探。 Sniffer的原理 如图所示,有多台pc终端交换机上构成一个局域网,当PC1向其它机器发送消息时, 根据交换机的不同有两种模式 1) 如果交换机是管理模式,他会记录下每一口所连计算机的MAC地址(一种网卡 的物理地址,无法更改)当交换机收一个消息帧,会根据目标地址来决定发往哪个 端口。 2) 如果交换机是passive,那么交换机收到消息帧会向交换机的每一个口复制发送一 份并且发送。 能够被窥探者利用的是第二种模式,即交换机会向每一个口上的网卡发送数据帧,但 是为什么一般情况上不会发生问题,是因为网卡也有两种工作模式: 1) 一般模式,网卡只接收目标地址是自己的数据帧,其它数据帧被丢弃。 2) 混杂模式(promiscuous mode)网卡接收所有到达网卡的数据帧。 把交换机的第二种情况和网卡的混杂模式综合起来,就使得一台机器能捕捉到局域网 内所有通讯的数据包,加以分析就形成了我们所看到的msn,qq和其它的消息。 为什么网卡可以设置成混杂模式? 这多半是由于网络监控的需要,但是一般的使用者也能很轻松的把自己的网卡设置成 混杂模式。 1) 最简单的办法,多款著名的packet capture自由软件直接提供了混杂模式功能,比 如ethereal (Google it), 应用它能直接捕获局域网的数据包。 2) 对于Linux机器,可以直接修改其驱动,重新编译装载即可,关于修改网上有很多 文章,http://www.linuxdiyf.com/viewarticle.php?id=52177 3) 对于windows机器,利用winpcap做应用程序来实现, http://www.leftworld.net/wenzhang/show/1816.html 如何反sniffer 如何反sniffer是我们最关心的问题,可以从两个方面来分析 第一是个人,个人可以通过给通讯加密,使得捕获者即使获得数据包也无法读懂内容, 当然如果它还能成功破译那就是另外的问题。现在网上能直接下载msn,qq的发sniffer软 件[3][4], 它的原理就是给通讯加密;不要直接使用telnet,而用ssh等。 第二对于网络管理员,有两种途径 一是不要使用广播式的hub或者交换机来连接局域网(很可能处于经费考虑没法解决)。 二是成功的监控网络上是否有sniffer,也就是网络上是否出现混杂模式的网卡,最直接的 办法是ping本机,如果得到其它机器的icmp响应就证明那台机器是处于混杂模式;或者把 监控软件安装在客户端,一旦有sniffer就及时报告。 总结 以上只是对网络捕获的初步分析,有待深入,文档会继续更新。 引用 【1】 msn sniffer http://www.effetech.com/msn-sniffer/ 【2】 QQ sniffer http://www.skycn.com/soft/550.html 【3】 SimpLite For ICQ 2.1.3 anti-sniffer 【4】 SimpLite For MSN Messenger