python爬虫(1)


1.简述

累积式爬虫:累积并去重

增量式爬虫:增量式更新

deep web:需要登录

请求头:

host 主机和端口

Connection 链接类型

Upgrade-Insecure-Requests 升级为https

User-Agent 身份

Accept 接收的文件类型

Referer 来源,用于防爬和防盗链(防止盗用链接,只允许按要求站内跳转)

Accept-Encoding 支持编码类型 

cookie

”’

”’

2.爬虫基本包requests

注意是响应对象                     参数位置有严格要求

response = requests.get(url网址,params路径中?参数用字典格式,headers伪装身份)

response.status_code 状态码

response.headers    响应头

response.request    响应对应的请求

response.text       str类型 响应

response.content    bytes类型响应 (常用)

params说明: 可以在路径中?后边带参数

或者构造dict放到params参数位置

data = input(‘需要搜索的关键字’)

params = { ‘kw’ : data }

”’

”’

3.request.post(url,data=data,headers=headers)

data = data 请求体 字典数据

代理IP

proxies = { } 字典格式

request.get(url,proxies=proxies)

”’

”’

4.cookie和session

cookie

在请求头headers中带上去

使用cookie参数,字典格式

session

session = requests.Session() 初始化session对象,之后使用它来请求,当做requests来用

session.get(url)

session.post(url,data=data)

”’

”’

5.

cookiejar = response.cookies    获取的是cookiejar对象

将cookiesjar对象转换成字典

dict_cookies = requests.utils.dict_from_cookiejar(cookiejar)

将字典转换成cookiejar对象

cookiejar1 = requests.utils.cookiejar_from_dict(dict_cookies)

关闭SSL即https的证书验证

requests.get(url,verify=False)

设置超时报错

requests.get(url,timeout=10)

”’