爬虫





爬虫

  • 爬虫是什么?
    • 自动化批量获取已存在的数据

爬虫的分类

  • 聚焦爬虫
    • 按照我们开发者的意愿实现特定的数据获取
    • 应用最多
    • 使用
      • 定向获取
  • 通用爬虫
    • 什么都爬
    • 数据仓库
    • 使用
      • 搜索引擎
  • 增量爬虫
    • 爬虫晋级
    • 过滤已爬取过内容
    • 使用
      • 优化既有爬虫
  • 深网爬虫
    • 获取深网中的信息

深网?

  • 暗网
  • 见不得光
  • 暗网交易货币
    • 比特币
  • 翻墙
    • Tor

爬虫知识体系

  • 数据获取(初期难点)
    • 模拟客户端发送请求
  • 数据提取
    • 提取有用的
  • 数据存储(后期难点)
    • 数据持久化,存储下来

数据获取

  • 模拟请求
    • requests
      • 爬虫
      • 中间层服务器
    • 双R
      • Request
        • 请求
        • 开发者根据自己的业务需求手动创建的
        • 构建
          • 给个地址
      • Response
        • 响应
        • 框架根据返回的内容自动生成的

反爬

  • 频率限制
    • ip (代理ip)(代理池)
    • UA UA池
    • 用户令牌
  • 动态加载(抓取ajax)(仿真 selenium appium)
  • 验证码 机器学习 云打码
发布了579 篇原创文章 ·
获赞 22 ·
访问量 3万+