our country crack down the tor Tor (The Onion Router) 为洋葱的缩减词,是为了更好的保护用户信息,然而这也给犯罪分子,恐怖袭击等提供了便利,但是就最近各个大学生因为信息泄露而导致电信”诈“
????骗的成功,无疑也是给我们敲响了警钟,我们的信息到底是如何泄露的?
=========================================================================
【图示】:
A====O====O=======O=======》B
从A发送到B,途中,要经过很多节点,也就是路由器,每一个路由器都可以截获你的信息,这就是之前说的不要随意在外面随意连来路不明的wifi用来进行付款什么的。那如果说我们链接这种WiFi后不登陆支付宝或者微信账户是否就意味着安全了呢?其实也不尽然。有些存在着陷阱的这种WiFi一旦连上,它会模拟一个APP账户登录你手机里相应的APP程序,也就是说,即使你不登陆支付宝或者微信,你链接的这种WiFi的背后力量都有能力在你手机上在你神不知鬼不觉的情况下登陆你的这些账号。
那么TOR是怎么处理用户信息的呢,各个节点加密,一层一层直到发送到接收方,接收方又像剥洋葱那样一层一层剥开。所以现在国外很多软件都使用tor来加密。
【一切都有两面】:使用tor固然很大程度上保障了用户信息的安全性,但是同时也带来了一些安全隐患,无法追踪,散发恐怖信息,而且每个节点加密十分麻烦,作为一个国家,无法掌控公民动向,无疑对国家是十分危险的,所以中国前几十年严厉打击tor.
=======================================================================
【利用漏洞】利用计算机漏洞来犯法的事情层出不穷,所以各个大佬都奖励数量可观的美金来奖励漏洞发现者。windows奖励10万美金一个漏洞。近几年来各个国家漏洞报告以及遭受攻击的热点图如下:
颜色最深的最红的表示所受攻击最多的。
[img]http://dl2.iteye.com/upload/attachment/0120/2102/d0a80304-349c-3b3a-af2d-8af6a76e3bac.png[/img]
无疑看到美国和俄罗斯所受的攻击最多,其实是因为这两个国家本来就不和,今天美国在本土软件发现俄罗斯的app里面出现了了什么漏洞窃取机密什么的,明天俄罗斯在美国的软件里面发现了什么漏洞。
像南美地区,这些经济还不算发达的地方,比如墨西哥,基本都是没有网的我们老师过去,买的手机卡都是不能上网的,所以也可以理解漏洞出现的比较少了。
Mozilla(缩写MF或MoFo)全称Mozilla基金会,是为支持和领导开源的Mozilla项目而设立的一个非营利组织。它把自己描述为“一个致力于在互联网领域提供多样化选择和创新的公益组织”。Tor通常用来匿名上网,一般自带一个浏览器,即Firefox。Firefox,是开源社区Mozilla开发的一款浏览器。
Mozilla计划发布一个火狐Firefox的更新版来解决此跨平台的RCE(远程代码执行)漏洞,它最近发行了Tor洋葱浏览器浏览器版本的补丁。
它计划修复对Tor产生匿名威胁的跨平台RCE漏洞。该漏洞影响到由Mozilla开发者网络的证书保护,可以被攻击者利用来冒充Mozilla服务器,通过伪造证书的发起中间人(MITM)攻击。Tor邀用户快点更新安全工具,Mozilla紧随其后发行补丁。
技术门槛——数百个域的伪证书
根据TorProject,一旦攻击者的立场是要推出一个中间人攻击,他能打造一个独立的addons.mozilla.org TLS证书,他可以在NoScript或许多其他火狐扩展程序中注入恶意交互更新。
研究员Ryan Duff写道:“我花了一天时间仔细考虑Tor-Fork开发者的索求,如果你既能够连接一个中间人(MITM)攻击,又能为addons.mozilla.org伪造一个单独的TLS证书,便可以获得一个跨平台的RCE。这能体现任何体一个体面的国家的资源和能力。”
假证书必须得由一个火狐信任的证书颁发机构(CA)颁发。对常见的能够伪造addons.mozilla.org证书的攻击者,这种攻击也很有技术难度。不论是国家级的行动者,还是经常性的攻击者,都可以利用该漏洞对被保护的流量或匿名Tor用户发起攻击和窃听,然而这存在具体风险。
持续的攻击者能以伪造数字证书的意图对准CA。2011年,据称与伊朗政府有染的黑客入侵荷兰的CA DigiNotar,并颁发了数百个域的伪造证书,包括Mozilla的附加域。
Firefox的决断——HPKP方法
Ryan Duff解释说:“Firefox的新版本受到了此缺陷的影响。但是,9月4日发布的版本是不易被入侵的。火狐使用它自己的静态密钥固定方法而非基于HPKP的它自己的Mozilla证书。此静态方法执行起来似乎比HPKP方法弱得多,且在这种攻击它有旁路缺陷。9月4日火狐似乎修复了这个bug,但显然当前的火狐和Tor浏览器的版本都还未打补丁。”
Duff分析了跨平台RCE并再现了研究员@ movrcx提到的攻击过程。”@ movrcx的研究名为,“Tor 浏览器暴露信息记录,植入大规模的反隐私机制”, Firefox的“证书pinning”机制对这里提到的攻击是无效的。Duff强调,问题的关键在于,一个静态 key pinning 并不总是基于HTTP的Public key pinning 协议。
Mozilla声明:“9月20日将发布新的火狐浏览器。我们将对addons.mozilla.org服务器打开HPKP,以便用户保护他们曾经访问过的网站,即使内置引脚到期了,也能持续保护用户隐私。我们将改变我们的内部流程,所以内置的证书引脚不会在未来的版本中过早发行。”
等更新后,用户应考虑停止自动接受扩展更新。
本文由漏洞银行(BUGBANK.cn)小编 Feya 翻译,源文译自 securityaffairs.co。
作者:Feya
链接:http://www.bugbank.cn/news/detail/57e0a27849eaa4df1311fecb.html
来源:漏洞银行
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 点赞 收藏 分享 文章举报 nani1114 发布了0 篇原创文章 ·
获赞 1 ·
访问量 2万+ 私信 关注
颜色的几种写法 1.颜色第一种写法:用颜色名来表示,red,blue,green,pink,dark,yellow等
background-color: green;
效果:
2.颜色第二种写法:通过16进制值表示(把图片拖进PS工具,按I,按住CTRL左击你所想要的颜色就能获取颜色代码);
纯红:#FF0000=#F00;
黑色:#000000=#000;
纯白:#FFFFFF=#FFF;
background-color: #7c5c2b;
效果:
3.颜色第三种写法:通过rgb(0-255,0-255,0-255);rgb(255,255,255)代表纯红和纯绿和纯蓝混合
background-color:rgb(144,134,156);
效果:
4.颜色第四种写法:采用百分比,相对于255来取百分比.例如;
background-color:rgb(10%,40%,32%);
效果:
5.颜色第五种颜色写法:用rgba(0-255,0-255,0-255,0-1);
其中a表示颜色的透明度,取值范围为0-1(可写小数),0表示完全透明
background-color:rgba(255,0,0,0.1);
效果:
win10白色图标制作: 一、软件准备IcoFX:提取图标、生成图标。
Photoshop:修改编辑图标。
二、制作步骤1、 提取图标打开IcoFX,直接在桌面上选择快捷方式,拉拽以icoFX打开。
打开后提取图标
打开图标后保存为:png格式
2,然后使用ps打开,开始编辑
先建立一块透明背景,256×256就够了,然后打开图片,将需要保留的白色部分保留,删除其他部分,或者根据自己的需要自定义
1,点击魔术棒,选择白色区域以外的地方,删除
删除不需要的地方,保留需要的地方,然后使用白色前景色,再用油漆桶将需要的地方涂为白色
弄好之后就是上面的那张图片,然后保存,做好的图片在次使用icoFX打开,选择创建一个图标
然后保存为图标之后就可以开始替换了。
替换图标: 替换图标的方式有多种,我只说两种我用的。 1,图标可以放在统一的地方,也可以放在程序安装路径 桌面快捷方式右键——属性——–打开文件位置——-然后将图标移动到此处——-在回去属性页面点击更换图标——–浏览找到图标位置—-替换成功 2.用exe资源查看器(我用的Restorator 2007)打开程序exe文件,然后找到图标,用制作的白色图标替换,然后保存,软件会自动帮助备份 注意:exe替换成功后有些软件会将通知栏图标也变为白色,但有些软件不会,exe替换成功后需要清理一下
Windows通知区域图标历史记录 在网上找到的方法是下面这两种:第一种方法,手工修改注册表:1、按“Win R”组合键,输入“regedit”打开注册表编辑器,然后打开如下键值: HKEY_CLASSES_ROOT\Local Settings\Software\Microsoft\Windows\CurrentVersion\TrayNotify 在右边你可以看到两个键值:IconStreams和PastIconsStream,将它们的值删除。2、然后调出任务管理器将进程“explorer.exe”终止,再在任务管理器中点击“文件——新建任务”,输入“explorer”,回车,以此重新启动该系统进程。(或者重新启动计算机)。现在再来查看一下通知区域的图标,过期的图标已经被成功清理了。第二种方法:用批处理文件清理Windows通知区域图标历史记录:第一种方法虽好,但是有点技术问题在其中,对于菜鸟们来说有点难度,有没有简单的方法?网上有人提供了一个BAT批处理小工具,专门用来清理Windows通知区域图标历史记录。这个BAT文件安全性高,不会造成系统损坏,适用于当前主流的Windows7\vista\XP系统,使用如图所示: bat清理我只在win7上用过,在win10上还没有测试 批处理: @ ECHO OFF
SET PROG=清理系统通知区域 (XP/WIN7/VISTA)
COLOR 0a
@ ECHO.
@ ECHO. 说 明
@ ECHO.
@ ECHO ——————————————————————————–
@ ECHO.
@ ECHO. WINDOWS 系统能在通知区域自动隐藏不活动的图标,这是个非常实用的功能。但是日积
@ ECHO.月累之下,通知区域的图标越来越多,有的是很久之前的图标,甚至该软件已经卸载。图标
@ ECHO.的增多不仅臃肿且看起来十分的不舒服。此批处理文件能帮你清理掉通知区域的历史图标。
@ ECHO.
@ ECHO ——————————————————————————–
TITLE %PROG%
PAUSE
CLS
@ ECHO.
@ ECHO.
VMware中虚拟机网络的三种设置 NAT :默认使用VMnet8 设置步骤: 第一步:在菜单栏 虚拟机 -> 设置 -> 硬件 -> 网络适配器,右侧选择NAT模式 第二步: vi /etc/network/interfaces,打开该文件,把static改为dhcp,让虚拟机以dhcp方式分配IP地址: auto lo iface lo inet loopback auto eth0 iface eth0 inet dhcp address 192.168.1.141 netmask 255.255.255.0 gateway 192.168.1.1
保存并退出。 第三步:执行/etc/init.d/networking restart 重启网卡 2. 桥接(bridged) :默认使用VMnet0 第一步:桥接。在菜单栏 虚拟机 -> 设置 -> 硬件 -> 网络适配器,右侧选择桥接模式。 第二步:桥接到可以上网的网卡。在菜单栏 编辑 -> 虚拟网络编辑器,选择桥接到自己Windows中可以上网的网卡上(一般就是Wifi网络或者有线网络) 第三步:设置dhcp并重启网卡。 vi /etc/network/interfaces,打开该文件,将内容编辑成为: auto lo iface lo inet loopback
auto eth0 iface eth0 inet dhcp //把static改为dhcp,让虚拟机以dhcp方式分配IP地址 address 192.
最新在学习使用 Java 来写网络爬虫,模拟浏览器发送 HTTP 请求,并抓取返回页面中的信息。由于对 Java 刚接触,以前用 .Net 写的一些网络请求相关的工具类都派不上用场,于是对如何使用 Java 模拟 HTTP 请求潜心研究了一番,在此写下这个《Java 和 HTTP 的那些事》系列的博客,并记录一些我中途遇到了明坑和暗坑,供后来人参考。此为第一篇。
一、使用 HttpURLConnection 发送 HTTP 请求 Java 自带的 java.net 这个包中包含了很多与网络请求相关的类,但是对于我们来说,最关心的应该是 HttpURLConnection 这个类了。
1.1 创建 HTTP 连接对象 要得到一个 HttpURLConnection HTTP 连接对象,首先需要一个 URL,代码如下:
1 2 URL obj =
new
URL(url); HttpURLConnection con = (HttpURLConnection) obj.openConnection(); 1.2 添加 HTTP 请求头 得到 HTTP 连接对象之后,我们就可以进行 HTTP 操作了,我们可以添加任意的 HTTP 请求头,然后执行我们需要的 GET 或者 POST 请求。我们像下面这样,添加两个 HTTP 头(User-Agent 和 Accept-Language):
1 2 con.
访问深网的工具:
FreeLunch(免费午餐)
使用这个工具可以访问到经济学、人口学和金融方面的数据,普通搜索引擎的爬虫无法爬到的内容。
Shodan
这个搜索引擎在安全圈已经任人皆知了,有人叫它“撒丹”,也有人戏称之为“傻蛋”。不管叫什么,它搜索的内容是物联网社备。如包括摄像头、路由器等智能家居,还有一些工控系统等。国内类似的一个搜索引擎就是ZoomEye,但后者全面些,还可搜索网站组件。
探索暗网
如何搜索暗网呢?下面是一些基于Tor网络的搜索引擎:
Ahmia.fi
这是一个基础的Tor隐藏服务搜索引擎,内容不是很庞大,但做为暗网之旅的开始还是不错的选择。
普通URL: https://ahmia.fi
暗网URL: msydqjihosw2fsu3.onion
Torch(火炬)
这是最好的Tor网络搜索引擎,有着巨大的数据库,约110万个页面。
暗网URL: http://xmh5752oemp2sztk.onion
Grams
这个引擎是专门设计用来搜索暗网的,堪称暗网中的谷歌。
暗网URL: http://grams72tru2gdpl2.onion
Not Evil(不做恶)
这是个简易搜索引擎,但,没有广告。
暗网URL:http://hss3uro2hsxfogfq.onion
Sinbad Search(辛巴达搜索)
另一个拥有大型数据库的Tor搜索引擎。
暗网URL:http://sinbad66644fr5lq.onion
另一个暗网
上面介绍了Tor网络的访问,下面我们介绍一下另一张暗网,I2P。
1. 下载I2P
https://geti2p.net/en/download
2. 安装后并启动程序,即可看到I2P的路由控制台( Router Console ):
然后你必须把浏览器设置成使用I2P,以Firefox为例:
打开浏览器–>菜单–>选项–>高级–>网络–>设置
在连接设置窗口选择,“手动代理配置”:
HTTP Proxy 栏中填入127.0.0.1,端口填4444;
SSL Proxy 栏中填入127.0.0.1,端口填4445;
No Proxy for 框中填入“localhost 127.0.0.1”。
FTP代理设置相同。
3. 确定
4. 转到控制台(Router console)点击你想访问的隐藏服务,如果发生错误就点击另一个。
这里是一些使用I2P网络的搜索引擎:
Direct(导向)
这是一个简易界面的搜索引擎,但它主面上显示的活动主机列表很有帮助。
URL: http://direct.i2p
BTDigg
这是一个搜索免费BT种子的搜索引擎,可以找到各种内容的torrent链接。
URL: http://btdigg.i2p
<style name="SplashScreenAppTheme" parent="AppTheme"> <item name="android:windowFullscreen">trueitem> <item name="android:windowContentOverlay">@null "android:windowBackground">@color/bg_white style>
在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”,有时会把网络数据采集程序称为网络机器人(bots)。最常用的方法是写一个自动化程序向网络服务器请求数据(通常是用HTML表单或其他网页文件),然后对数据进行解析,提取需要的信息。
本文假定读者已经了解如何用代码来抓取一个远程的URL,并具备表单如何提交及JavaScript在浏览器如何运行的机制。想更多了解网络数据采集基础知识,可以参考文后的资料。
在采集网站的时会遇到一些比数据显示在浏览器上却抓取不出来更令人沮丧的事情。也许是向服务器提交自认为已经处理得很好的表单却被拒绝,也许是自己的IP地址不知道什么原因直接被网站封杀,无法继续访问。
原因可能是一些最复杂的bug,也可能是这些bug让人意想不到(程序在一个网站上可以正常使用,但在另一个看起来完全一样的网站上却用不了)。最有可能出现的情况是:对方有意不让爬虫抓取信息。网站已经把你定性为一个网络机器人直接拒绝了,你无法找出原因。
接下来就介绍一些网络采集的黑魔法(HTTP headers、CSS和HTML表单等),以克服网站阻止自动采集。不过,先让我们聊聊道德问题。
网络爬虫的道德与礼仪 说实话,从道德角度讲,写作以下文字不易。我自己的网站被网络机器人、垃圾邮件生成器、网络爬虫和其他各种不受欢迎的虚拟访问者骚扰过很多次了,你的网站可能也一样。既然如此,为什么还要介绍那些更强大的网络机器人呢?有几个很重要的理由。
白帽子工作。在采集那些不想被采集的网站时,其实存在一些非常符合道德和法律规范的理由。比如我之前的工作就是做网络爬虫,我曾做过一个自动信息收集器,从未经许可的网站上自动收集客户的名称、地址、电话号码和其他个人信息,然后把采集的信息提交到网站上,让服务器删除这些客户信息。为了避免竞争,这些网站都会对网络爬虫严防死守。但是,我的工作要确保公司的客户们都匿名(这些人都是家庭暴力受害者,或者因其他正当理由想保持低调的人),这为网络数据采集工作创造了极其合理的条件,我很高兴自己有能力从事这项工作。 虽然不太可能建立一个完全“防爬虫”的网站(最起码得让合法的用户可以方便地访问网站),但我还是希望以下内容可以帮助人们保护自己的网站不被恶意攻击。下文将指出每一种网络数据采集技术的缺点,你可以利用这些缺点保护自己的网站。其实,大多数网络机器人一开始都只能做一些宽泛的信息和漏洞扫描,接下来介绍的几个简单技术就可以挡住99%的机器人。但是,它们进化的速度非常快,最好时刻准备迎接新的攻击。 和大多数程序员一样,我从来不相信禁止某一类信息的传播就可以让世界变得更和谐。 阅读之前,请牢记: 这里演示的许多程序和介绍的技术都不应该在网站上使用。
爬虫黑科技:网络机器人看起来像人类用户的一些方法 网站防采集的前提就是要正确地区分人类访问用户和网络机器人。虽然网站可以使用很多识别技术(比如验证码)来防止爬虫,但还是有一些十分简单的方法,可以让你的网络机器人看起来更像人类访问用户。
1. 构造合理的HTTP请求头 除了处理网站表单,requests模块还是一个设置请求头的利器。HTTP的请求头是在你每次向网络服务器发送请求时,传递的一组属性和配置信息。HTTP定义了十几种古怪的请求头类型,不过大多数都不常用。只有下面的七个字段被大多数浏览器用来初始化所有网络请求(表中信息是我自己浏览器的数据)。
经典的Python爬虫在使用urllib标准库时,都会发送如下的请求头:
如果你是一个防范爬虫的网站管理员,你会让哪个请求头访问你的网站呢?
安装Requests
可在模块的网站上找到下载链接 (http://docs.python-requests.org/en/latest/user/install/)和安装方法,或者用任意第三方Python模块安装器进行安装。 请求头可以通过requests模块进行自定义。https://www.whatismybrowser.com/网站就是一个非常棒的网站,可以让服务器测试浏览器的属性。我们用下面的程序来采集这个网站的信息,验证我们浏览器的cookie设置:
程序输出结果中的请求头应该和程序中设置的headers是一样的。
虽然网站可能会对HTTP请求头的每个属性进行“是否具有人性”的检查,但是我发现通常真正重要的参数就是User-Agent。无论做什么项目,一定要记得把User-Agent属性设置成不容易引起怀疑的内容,不要用Python-urllib/3.4。另外,如果你正在处理一个警觉性非常高的网站,就要注意那些经常用却很少检查的请求头,比如Accept-Language属性,也许它正是那个网站判断你是个人类访问者的关键。
请求头会改变你观看网络世界的方式 假设你想为一个机器学习的研究项目写一个语言翻译机,却没有大量的翻译文本来测试它的效果。很多大型网站都会为同样的内容提供不同的语言翻译,根据请求头的参数响应网站不同的语言版本。因此,你只要简单地把请求头属性从Accept-Language:en-US修改成Accept-Language:fr,就可以从网站上获得“Bonjour”(法语,你好)这些数据来改善翻译机的翻译效果了(大型跨国企业通常都是好的采集对象)。 请求头还可以让网站改变内容的布局样式。例如,用移动设备浏览网站时,通常会看到一个没有广告、Flash以及其他干扰的简化的网站版本。因此,把你的请求头User-Agent改成下面这样,就可以看到一个更容易采集的网站了! User-Agent:Mozilla/5.0 (iPhone; CPU iPhone OS 712 like Mac OS X) App leWebKit/537.51.2 (KHTML, like Gecko) Version/7.0 Mobile/11D257 Safari/9537.53
2. 设置cookie的学问 虽然cookie是一把双刃剑,但正确地处理cookie可以避免许多采集问题。网站会用cookie跟踪你的访问过程,如果发现了爬虫异常行为就会中断你的访问,比如特别快速地填写表单,或者浏览大量页面。虽然这些行为可以通过关闭并重新连接或者改变IP地址来伪装,但是如果cookie暴露了你的身份,再多努力也是白费。
在采集一些网站时cookie是不可或缺的。要在一个网站上持续保持登录状态,需要在多个页面中保存一个cookie。有些网站不要求在每次登录时都获得一个新cookie,只要保存一个旧的“已登录”的cookie就可以访问。
如果你在采集一个或者几个目标网站,建议你检查这些网站生成的cookie,然后想想哪一个cookie是爬虫需要处理的。有一些浏览器插件可以为你显示访问网站和离开网站时cookie是如何设置的。EditThisCookie(http://www.editthiscookie.com/)是我最喜欢的Chrome浏览器插件之一。
因为requests模块不能执行JavaScript,所以它不能处理很多新式的跟踪软件生成的cookie,比如GoogleAnalytics,只有当客户端脚本执行后才设置cookie(或者在用户浏览页面时基于网页事件产生cookie,比如点击按钮)。要处理这些动作,需要用Selenium和PhantomJS包。
Selenium与PhantomJS Selenium(http://www.seleniumhq.org/)是一个强大的网络数据采集工具,最初是为网站自动化测试而开发的。近几年,它还被广泛用于获取精确的网站快照,因为它们可以直接运行在浏览器上。Selenium可以让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。 Selenium自己不带浏览器,它需要与第三方浏览器结合在一起使用。例如,如果你在Firefox上运行Selenium,可以直接看到Firefox窗口被打开,进入网站,然后执行你在代码中设置的动作。虽然这样可以看得更清楚,但是我更喜欢让程序在后台运行,所以我PhantomJS(http://phantomjs.org/download.html)代替真实的浏览器。 PhantomJS是一个“无头”(headless)浏览器。它会把网站加载到内存并执行页面上的JavaScript,但不会向用户展示网页的图形界面。将Selenium和PhantomJS结合在一起,就可以运行一个非常强大的网络爬虫了,可以处理cookie、JavaScrip、header,以及任何你需要做的事情。 可以从PyPI网站(https://pypi.python.org/simple/selenium/)下载Selenium库,也可以用第三方管理器(像pip)用命令行安装。
你可以对任意网站(本例用的是http://pythonscraping.com)调用webdriver的get_cookie()方法来查看cookie:
这样就可以获得一个非常典型的Google Analytics的cookie列表:
还可以调用deletecookie()、addcookie()和deleteallcookies()方法来处理cookie。另外,还可以保存cookie以备其他网络爬虫使用。下面的例子演示了如何把这些函数组合在一起:
在这个例子中,第一个webdriver获得了一个网站,打印cookie并把它们保存到变量savedCookies里。第二个webdriver加载同一个网站(技术提示:必须首先加载网站,这样Selenium才能知道cookie属于哪个网站,即使加载网站的行为对我们没任何用处),删除所有的cookie,然后替换成第一个webdriver得到的cookie。当再次加载这个页面时,两组cookie的时间戳、源代码和其他信息应该完全一致。从GoogleAnalytics的角度看,第二个webdriver现在和第一个webdriver完全一样。
3. 正常的时间访问路径 有一些防护措施完备的网站可能会阻止你快速地提交表单,或者快速地与网站进行交互。即使没有这些安全措施,用一个比普通人快很多的速度从一个网站下载大量信息也可能让自己被网站封杀。
因此,虽然多线程程序可能是一个快速加载页面的好办法——在一个线程中处理数据,另一个线程中加载页面——但是这对编写好的爬虫来说是恐怖的策略。还是应该尽量保证一次加载页面加载且数据请求最小化。如果条件允许,尽量为每个页面访问增加一点儿时间间隔,即使你要增加一行代码:
**
time.sleep(3) (小编:3 + 随机数 是不是更好一些?) **