104个实用网络爬虫项目资源整理（超全）

2019-04-16

104个实用网络爬虫项目资源整理（超全）

*不带括弧注明的默认都是 Python爬虫

因为头条对外链不支持等其他原因，上图所有爬虫项目地址可在实验楼微信公众号（实验楼）后台回复关键字 “爬虫” 获取。以下为字母顺序的列表：

A

暗网爬虫(Go)

B

Bilibili 用户 | Bilibili 小视频 | B站760万视频信息爬虫
Bing美图爬虫
博客园(node.js)
百度百科(node.js)
百度云网盘
Boss 直聘
博客园

D

豆瓣读书 | 豆瓣爬虫集 | 豆瓣害羞组
DNS记录和子域名
DHT网络磁力种子爬虫
抖音

G

Girl-atlas
girl13
GitHub trending
GitHub 仓库及用户分析爬虫

H

HDOJ爬虫

I

Instagram
INC500 世界5000强爬虫

J

京东
京东搜索+评论
京东商品+评论
机票
煎蛋妹纸
煎蛋妹纸selenium版本
今日头条，网易，腾讯等新闻
计算机书籍控图书

K

看知乎
konachan

L

链家
链家成交在售在租房源
拉勾
炉石传说
leetcode
领英销售导航器爬虫 LinkedInSalesNavigator

M

马蜂窝用户足迹
MyCar
漫画喵一键下载漫画~
MM131性感美女写真图全爬取
美女写真套图爬虫（一）（二）（三）
妹子图
猫眼网电影评分

N

新闻监控
你好污啊

P

Pixiv
PornHub
packtpub
91porn

Q

QQ空间
QQ 群
清华大学网络学堂爬虫
去哪儿
前程无忧Python招聘岗位信息爬取分析

R

人人影视
RSS 爬虫
rosi 妹子图
reddit 壁纸
reddit

S

soundcloud
Stackoverflow 100万问答爬虫
Shadowsocks 账号爬虫
spider163 网易云音乐爬虫
时光网电影数据和海报爬虫

T

tumblr
下载tumblr喜欢内容
TuShare
天猫双12爬虫
Taobao mm
Tmall 女性文胸尺码爬虫
淘宝直播弹幕爬虫(node)
天涯论坛文章

V

Youtube字幕下载
视频信息爬虫
电影网站

W

乌云公开漏洞
微信公众号
“代理”方式抓取微信公众号文章
网易新闻
网易精彩评论
微博主题搜索分析
网易云音乐
新.网易热评
唯品会商品

X

雪球股票信息(java)
新浪微博
新浪微博分布式爬虫
心灵毒鸡汤

Y

英美剧 TV (node.js)

Z

ZOL 手机壁纸爬虫
知乎(python)
知乎(php)
知网
知乎妹子
自如实时房源提醒

其他

各大门户服务网站爬虫
DHT 爬虫
SimDHT
p2pspider
80s 影视资源爬虫 – JianSo_Movie

什么是爬虫

爬虫是一种可以爬取指定网站页面的指定信息的应用程序，通过爬虫，我们可以获取网站中我们需要的数据。

爬虫的核心逻辑包括以下几个步骤：

通过一个 URI 地址，模拟类似浏览器的行为获取这个 URI 地址对应的 HTML 页面，部分爬虫甚至还可以支持 JavaScript 的执行。

获取之后通过页面解析，从页面中的指定的 HTML 标签下提取得到我们需要的数据。

对数据进行处理之后存入指定的存储，比如文件系统，MySQL 等关系型数据库，Redis，MongoDB 等 NoSQL 数据库中。

继续爬取其他的 URI 地址，这些 URI 地址可以从之前爬取得到的页面中提取，也可以通过一个 URI 库直接由启动爬虫的用户来输入。

继续回到步骤1爬取并分析页面。

爬虫技术目前经常遇到的难点问题：

登录及验证码：有些页面在爬取的过程中，经常会遇到页面的交互操作，比如需要你输入用户名及密码进行登录才可以获取，有的网站还会提供验证码进行验证，这一类的数据获取都非常不容易。

JavaScript 等异步数据：部分网页的数据并不是在网页加载后就能够获得的，需要执行 JavaScript 来获取然后再更新到网页，这种情况下部分爬虫是无法爬取到的。通常会采用的解决方案是模拟浏览器去访问页面并执行 JavaScript 后获得完整的数据再进行页面解析。

反爬措施：有些网站会禁止无限制的爬取，会对 IP 地址及 User Agent 等爬虫标志进行限制，避免网站因为爬虫造成压力过大或者信息泄漏。在这种情况下，很多爬虫会选择进行 User Agent 伪装或者 IP 代理池的机制。

什么是通用爬虫？

这里所说的通用爬虫指的是能够爬取任何网站页面的爬虫，常见的爬虫都是特定的爬虫，特定爬虫需要根据爬取的目标网站进行设计实现。比如知乎爬虫或者豆瓣爬虫，这一类的文章在网上可以找到很多，都会针对于知乎及豆瓣的特定页面进行分析，并设计爬虫的实现逻辑。

104个实用网络爬虫项目资源整理（超全）

WARNING: Authorbox is activated, but [Author] parameters are not specified.