爬虫
爬虫
- 爬虫是什么?
- 自动化批量获取已存在的数据
爬虫的分类
- 聚焦爬虫
- 按照我们开发者的意愿实现特定的数据获取
- 应用最多
- 使用
- 定向获取
- 通用爬虫
- 什么都爬
- 数据仓库
- 使用
- 搜索引擎
- 增量爬虫
- 爬虫晋级
- 过滤已爬取过内容
- 使用
- 优化既有爬虫
- 深网爬虫
- 获取深网中的信息
深网?
- 暗网
- 见不得光
- 暗网交易货币
- 比特币
- 翻墙
- Tor
爬虫知识体系
- 数据获取(初期难点)
- 模拟客户端发送请求
- 数据提取
- 提取有用的
- 数据存储(后期难点)
- 数据持久化,存储下来
数据获取
- 模拟请求
- requests
- 爬虫
- 中间层服务器
- 双R
- Request
- 请求
- 开发者根据自己的业务需求手动创建的
- 构建
- 给个地址
- Response
- 响应
- 框架根据返回的内容自动生成的
- Request
- requests
反爬
- 频率限制
- ip (代理ip)(代理池)
- UA UA池
- 用户令牌
- 动态加载(抓取ajax)(仿真 selenium appium)
- 验证码 机器学习 云打码