爬虫———–简介

1.分类

通用爬虫(General Purpose Web Crawler)

聚焦爬虫(Focused Web Crawler) 

增量爬虫(Incremental  Web Crawler)

深度爬虫(Deep  Web Crawler)

2.爬虫分类:网页抓取,数据提取,数据存储

3.HTTP 协议:超文本传输协议

   HTTP为明文传输

   HTTPS是在HTTP下添加SSL层,通过SSL安全传输协议进行加密的,在传输层对网络连接进行加密

    HTTP的端口号为80

    HTTPS的端口号为443

4.Requests

特性:支持TTP链接保持和连接池,

           支持使用cookie保持回话,

           支持文件上传,

           支持自动确定相应内容的编码,

           支持国际化的URL和POST数据自动编码

5.get与post的区别

6.常见的反爬措施

         一、检测User-Agent

        二、检测非人行为,封禁IP地址

        三、登陆限制

       四、动态网页爬取

       五、验证码

 

7、绕过反扒的策略

       一、伪造User-Agent

  # 写入User-Agent信息,指定请求头
    head['User-Agent']='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'
    # data携带表单数据
    response=requests.post(Request_URL,data=Form_Data,headers=head)

      二、a、设置随机的延迟时间

             b、设置代理IP

      三、模拟登陆

            a、使用登录之后的cookie信息模拟登陆(cookie池)

            b、模拟提交表单实现登录

            c、用selenium模拟登陆网站

    四、a、selenium+浏览器

           b、分析请求响应过程,模拟ajax请求

    五、a、用登录之后的coolie绕过登录验证码

           b、OCR技术识别传统验证码

            c、使用打码平台

           d、处理点触式验证码

            e、对于滑动验证码的处理

8.cookies和sission

cookies  在客户端,保存的较少,能保存登录之后的信息

sission    保存在服务端,占用服务器内存,保存一些重要的信息