Graph Convolutional Neural Networks for Web-Scale Recommender Systems 用于Web级推荐系统的图形卷积神经网络 ABSTRACT Recent advancements in deep neural networks for graph-structured data have led to state-of-the-art performance on recommender system benchmarks. However, making these methods practical and scalable to web-scale recommendation tasks with billions of items and hundreds of millions of users remains a challenge.
Here we describe a large-scale deep recommendation engine that we developed and deployed at Pinterest. We develop a data-efficient Graph Convolutional Network (GCN) algorithm PinSage, which combines efficient random walks and graph convolutions to generate embeddings of nodes (i.
From:https://blog.csdn.net/jsd2honey/article/details/62237768
此文针对很少涉及深网与暗网的读者。
主要内容包括:什么是深网和暗网,如何访问深网和暗网以及如何搜索暗网三大部分。
闲话少说,开始:
一、深网
深网是互联网上无法通过普通方法访问到的内容,这些普通的方法包括使用谷歌、百度等搜索引擎。深网的内容主要是一些需要某些条件如注册、付费,才能访问的内容,如数据库和某些服务。
下面是访问深网的工具:
FreeLunch(免费午餐)
使用这个工具可以访问到经济学、人口学和金融方面的数据,普通搜索引擎的爬虫无法爬到的内容。
Shodan
这个搜索引擎在安全圈已经任人皆知了,有人叫它“撒丹”,也有人戏称之为“傻蛋”。不管叫什么,它搜索的内容是物联网社备。如包括摄像头、路由器等智能家居,还有一些工控系统等。国内类似的一个搜索引擎就是 ZoomEye,但后者全面些,还可搜索网站组件。
二、暗网
暗网简单的解释就是加密网络,它必需使用匿名代理工具才能访问。
有人认为暗网是一个丑陋凶险的地方,的确,暗网里有儿童色情和非法物品的售卖,比如武器和毒品。但这些人不知道的是,实际上这些邪恶的东西,只占暗网的很小一部分,大部分内容则是有价值的资料和信息。
2014年,一个慈善机构——互联网观察基金,与执法部门和互联网服务提供商合作清除儿童色情网站。他们共发现了3.1万个包含儿童色情图片的网址,但只有51个,即 0.2% 属于暗网。
还有人以为暗网是政府和执法机构很难触及的法外之地,对于这种认识,一个字足以回答:错。
下面是如何安装和使用访问暗网的工具TOR:
1. 下载Tor浏览器
https://www.torproject.org/projects/torbrowser.html
2. 安装后启动程序
3. 点击“Coonect”(连接),出现下面的窗口:
等待一会儿,Tor浏览器的窗口出现后,就能够开始暗网之旅了!
三、探索暗网
如何搜索暗网呢?下面是一些 基于 Tor网络 的 搜索引擎:
Ahmia.fi
这是一个基础的Tor隐藏服务搜索引擎,内容不是很庞大,但做为暗网之旅的开始还是不错的选择。
普通URL: https://ahmia.fi
暗网URL: msydqjihosw2fsu3.onion
Torch(火炬)
这是最好的Tor网络搜索引擎,有着巨大的数据库,约110万个页面。
暗网URL: http://xmh5752oemp2sztk.onion
Grams
这个引擎是专门设计用来搜索暗网的,堪称暗网中的谷歌。
暗网URL: http://grams72tru2gdpl2.onion
Not Evil(不做恶)
这是个简易搜索引擎,但,没有广告。
暗网URL: http://hss3uro2hsxfogfq.onion
Sinbad Search(辛巴达搜索)
另一个拥有大型数据库的Tor搜索引擎。
暗网URL: http://sinbad66644fr5lq.onion
四、另一个暗网
上面介绍了Tor网络的访问,下面我们介绍一下另一张暗网,I2P。1. 下载 I2P:https://geti2p.net/en/download
2. 安装后并启动程序,即可看到 I2P 的路由控制台( Router Console ):
*不带括弧注明的默认都是 Python爬虫
因为头条对外链不支持等其他原因,上图所有爬虫项目地址可在实验楼微信公众号(实验楼)后台回复关键字 “爬虫” 获取。以下为字母顺序的列表:
A
暗网爬虫(Go) B
Bilibili 用户 | Bilibili 小视频 | B站760万视频信息爬虫 Bing美图爬虫 博客园(node.js) 百度百科(node.js) 百度云网盘 Boss 直聘 博客园 D
豆瓣读书 | 豆瓣爬虫集 | 豆瓣害羞组 DNS记录和子域名 DHT网络磁力种子爬虫 抖音 G
Girl-atlas girl13 GitHub trending GitHub 仓库及用户分析爬虫 H
HDOJ爬虫 I
Instagram INC500 世界5000强爬虫 J
京东 京东搜索+评论 京东商品+评论 机票 煎蛋妹纸 煎蛋妹纸selenium版本 今日头条,网易,腾讯等新闻 计算机书籍控图书 K
看知乎 konachan L
链家 链家成交在售在租房源 拉勾 炉石传说 leetcode 领英销售导航器爬虫 LinkedInSalesNavigator M
马蜂窝 用户足迹 MyCar 漫画喵 一键下载漫画~ MM131性感美女写真图全爬取 美女写真套图爬虫 (一)(二)(三) 妹子图 猫眼网电影评分 N
分类 来自:百度百科
网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。 实际的网络爬虫系统通常是几种爬虫技术相结合实现的 。
通用网络爬虫 通用网络爬虫又称全网爬虫(Scalable Web Crawler),爬行对象从一些种子 URL 扩充到整个 Web,主要为门户站点搜索引擎和大型 Web 服务提供商采集数据。 由于商业原因,它们的技术细节很少公布出来。 这类网络爬虫的爬行范围和数量巨大,对于爬行速度和存储空间要求较高,对于爬行页面的顺序要求相对较低,同时由于待刷新的页面太多,通常采用并行工作方式,但需要较长时间才能刷新一次页面。 虽然存在一定缺陷,通用网络爬虫适用于为搜索引擎搜索广泛的主题,有较强的应用价值。
通用网络爬虫的结构大致可以分为页面爬行模块 、页面分析模块、链接过滤模块、页面数据库、URL 队列、初始 URL 集合几个部分。为提高工作效率,通用网络爬虫会采取一定的爬行策略。 常用的爬行策略有:深度优先策略、广度优先策略 。
1) 深度优先策略:其基本方法是按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止。 爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接。 当所有链接遍历完后,爬行任务结束。 这种策略比较适合垂直搜索或站内搜索, 但爬行页面内容层次较深的站点时会造成资源的巨大浪费 。
2) 广度优先策略:此策略按照网页内容目录层次深浅来爬行页面,处于较浅目录层次的页面首先被爬行。 当同一层次中的页面爬行完毕后,爬虫再深入下一层继续爬行。 这种策略能够有效控制页面的爬行深度,避免遇到一个无穷深层分支时无法结束爬行的问题,实现方便,无需存储大量中间节点,不足之处在于需较长时间才能爬行到目录层次较深的页面 。
聚焦网络爬虫 聚焦网络爬虫(Focused Crawler),又称主题网络爬虫(Topical Crawler),是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫[8]。 和通用网络爬虫相比,聚焦爬虫只需要爬行与主题相关的页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快,还可以很好地满足一些特定人群对特定领域信息的需求 。
聚焦网络爬虫和通用网络爬虫相比,增加了链接评价模块以及内容评价模块。聚焦爬虫爬行策略实现的关键是评价页面内容和链接的重要性,不同的方法计算出的重要性不同,由此导致链接的访问顺序也不同 。
1) 基于内容评价的爬行策略:DeBra将文本相似度的计算方法引入到网络爬虫中,提出了 Fish Search 算法,它将用户输入的查询词作为主题,包含查询词的页面被视为与主题相关,其局限性在于无法评价页面与主题相关 度 的 高 低 。 Herseovic对 Fish Search 算 法 进 行 了 改 进 ,提 出 了 Sharksearch 算法,利用空间向量模型计算页面与主题的相关度大小 。
需安装Tor浏览器,动态切换IP
import socket,socks,requests from stem import Signal from stem.control import Controller import time from lxml import etree controller = Controller.from_port(port = 9151) controller.authenticate() socks.set_default_proxy(socks.SOCKS5, "127.0.0.1", 9150) socket.socket = socks.socksocket urls = ['https://movie.douban.com/top250?start={}&filter='.format(str(i)) for i in range(0, 250, 25)] headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.112 Safari/537.36'} for url in urls: a = requests.get("http://checkip.amazonaws.com").text print("第n次更新的IP:", a) time1 = time.time() html = requests.get(url, headers=headers) selector = etree.
网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。 实际的网络爬虫系统通常是几种爬虫技术相结合实现的 [1] 。 通用网络爬虫
通用网络爬虫又称全网爬虫(Scalable Web Crawler),爬行对象从一些种子 URL 扩充到整个 Web,主要为门户站点搜索引擎和大型 Web 服务提供商采集数据。 由于商业原因,它们的技术细节很少公布出来。 这类网络爬虫的爬行范围和数量巨大,对于爬行速度和存储空间要求较高,对于爬行页面的顺序要求相对较低,同时由于待刷新的页面太多,通常采用并行工作方式,但需要较长时间才能刷新一次页面。 虽然存在一定缺陷,通用网络爬虫适用于为搜索引擎搜索广泛的主题,有较强的应用价值 [1] 。
通用网络爬虫的结构大致可以分为页面爬行模块 、页面分析模块、链接过滤模块、页面数据库、URL 队列、初始 URL 集合几个部分。为提高工作效率,通用网络爬虫会采取一定的爬行策略。 常用的爬行策略有:深度优先策略、广度优先策略 [1] 。 深度优先策略:其基本方法是按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止。 爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接。 当所有链接遍历完后,爬行任务结束。 这种策略比较适合垂直搜索或站内搜索, 但爬行页面内容层次较深的站点时会造成资源的巨大浪费 [1] 。 广度优先策略:此策略按照网页内容目录层次深浅来爬行页面,处于较浅目录层次的页面首先被爬行。 当同一层次中的页面爬行完毕后,爬虫再深入下一层继续爬行。 这种策略能够有效控制页面的爬行深度,避免遇到一个无穷深层分支时无法结束爬行的问题,实现方便,无需存储大量中间节点,不足之处在于需较长时间才能爬行到目录层次较深的页面 [1] 。
聚焦网络爬虫
聚焦网络爬虫(Focused Crawler),又称主题网络爬虫(Topical Crawler),是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫[8]。 和通用网络爬虫相比,聚焦爬虫只需要爬行与主题相关的页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快,还可以很好地满足一些特定人群对特定领域信息的需求 [1] 。
聚焦网络爬虫和通用网络爬虫相比,增加了链接评价模块以及内容评价模块。聚焦爬虫爬行策略实现的关键是评价页面内容和链接的重要性,不同的方法计算出的重要性不同,由此导致链接的访问顺序也不同 [1] 。 基于内容评价的爬行策略:DeBra将文本相似度的计算方法引入到网络爬虫中,提出了 Fish Search 算法,它将用户输入的查询词作为主题,包含查询词的页面被视为与主题相关,其局限性在于无法评价页面与主题相关 度 的 高 低 。 Herseovic对 Fish Search 算 法 进 行 了 改 进 ,提 出 了 Sharksearch 算法,利用空间向量模型计算页面与主题的相关度大小 [1] 。 基于链接结构评价的爬行策略 :Web 页面作为一种半结构化文档,包含很多结构信息,可用来评价链接重要性。 PageRank 算法最初用于搜索引擎信息检索中对查询结果进行排序,也可用于评价链接重要性,具体做法就是每次选择 PageRank 值较大页面中的链接来访问。 另一个利用 Web结构评价链接价值的方法是 HITS 方法,它通过计算每个已访问页面的 Authority 权重和 Hub 权重,并以此决定链接的访问顺序 [1] 。 基于增强学习的爬行策略:Rennie 和 McCallum 将增强学习引入聚焦爬虫,利用贝叶斯分类器,根据整个网页文本和链接文本对超链接进行分类,为每个链接计算出重要性,从而决定链接的访问顺序 [1] 。 基于语境图的爬行策略:Diligenti 等人提出了一种通过建立语境图(Context Graphs)学习网页之间的相关度,训练一个机器学习系统,通过该系统可计算当前页面到相关 Web 页面的距离,距离越近的页面中的链接优先访问。印度理工大学(IIT)和 IBM 研究中心的研究人员开发了一个典型的聚焦网络爬虫。 该爬虫对主题的定义既不是采用关键词也不是加权矢量,而是一组具有相同主题的网页。 它包含两个重要模块:一个是分类器,用来计算所爬行的页面与主题的相关度,确定是否与主题相关;另一个是净化器,用来识别通过较少链接连接到大量相关页面的中心页面 [1] 。 增量式网络爬虫 增量式网络爬虫(Incremental Web Crawler)是 指 对 已 下 载 网 页 采 取 增 量式更新和只爬行新产生的或者已经发生变化网页的爬虫,它能够在一定程度上保证所爬行的页面是尽可能新的页面。 和周期性爬行和刷新页面的网络爬虫相比,增量式爬虫只会在需要的时候爬行新产生或发生更新的页面 ,并不重新下载没有发生变化的页面,可有效减少数据下载量,及时更新已爬行的网页,减小时间和空间上的耗费,但是增加了爬行算法的复杂度和实现难度。增量式网络爬虫的体系结构[包含爬行模块、排序模块、更新模块、本地页面集、待爬行 URL 集以及本地页面URL 集 [1] 。
From:https://blog.csdn.net/bjzhaoxiao/article/details/81458061
如何访问”暗网”(慎入):https://blog.csdn.net/yilovexing/article/details/54928618
如何进入暗网:https://blog.csdn.net/qq_38656841/article/details/82393190
暗网购物指南:https://blog.csdn.net/Ni_dhogg/article/details/71235630
Tor 网桥获取 deep web
Tor获得最新网桥ip及设置方法:https://blog.csdn.net/weixin_40539125/article/details/82178212
访问网桥帮助文档:https://tb-manual.torproject.org/en-US/bridges.html
在线获取:https://bridges.torproject.org
通过Gmail发送电子至邮件 [email protected]
暗网导航:https://jpe6qltxg6am3jwk.tor2web.io
Deep Web:https://thehiddenwiki.org
什么是暗网?
所谓的“暗网”,其英文原名叫作“Deep Web”,又称深层网络。
广泛意义上的“暗网”,指的是那些无法被搜索引擎收录内容的站点。也就是说,一切有着非公开访问机制的网站——比如1024,哈哈大家都懂得,甚至一个注册才能进入的小型BBS——都属于“暗网”的一部分;另外,由于搜索引擎对于网站内容的抓取通常都是通过追溯超链接来完成,有着相当多的页面因为没有任何超链接的指向,也处于搜索引擎的盲区,故而它们也被纳入“暗网”的范畴。与“暗网”对应的,是“明网”,也称表层网络(Surface Web),曾有学术机构统计过“暗网”与“明网”分别蕴含的数据比例,结果显示前者的数据存量百倍于后者,且增长速度更快。
提及的软件工具Tor,正是一枚货真价实的钥匙,持有这枚钥匙,就打开了一扇通往“暗网”世界的大门。
Tor(The Onion Router)或许不是网络匿名访问的唯一手段,但毫无疑问它是目前最流行、最受开发者欢迎的。
这个免费、开源的程序可以给网络流量进行三重加密,并将用户流量在世界各地的电脑终端里跳跃传递,这样就很难去追踪它的来源。大部分的Tor用户只把它作为一个匿名浏览网页的工具,不过实际上它潜力十足:Tor软件可以在操作系统后台运行,创建一个代理链接将用户连接到Tor网络。随着越来越多的软件甚至操作系统都开始允许用户选择通过Tor链接发送所有流量,这使得你几乎可以用任何类型的在线服务来掩盖自己的身份。
访问暗网的方法有很多种,目前最流行的则是Tor(The Onion Router洋葱网络),给大家来个示范
警告:仅供学习了解,千万别做犯法的事情!!!! 以“onion”为后缀的域名定为暗网,普通浏览器是无法访问的,这就是暗网网址的一个特征。 关于Tor比较全面的讲解 隐身术 —— 使用 Tor匿名网络 与 proxychains 构建 SOCKS 代理链 IP 跳板,在渗透测试与攻击入侵时销声匿迹
用最简单的语言来描述,Tor 匿名网络是一个由位于世界各地的志愿者维护的各自的匿名网络组成的大型分布式匿名网络,类似于分布式的 VPN,但它是免费,开放的,而且其规模之大超乎想象
Tor 匿名网络 使用的核心技术是美国海军研究室开发的第三代洋葱路由器系统,其初衷用于保护政府机关的数据通信隐私,现在它被广泛应用在任何民间企业,组织,机构,以及家庭,个人的安全数据传输等场合
为了切合主题以及限于篇幅,本博文不对 Tor 匿名网络的技术实现细节,它与 TCP/IP 之间的关系,以及与 IPSec,PPTP,L2TP,MPLS,等 VPN 技术之间的异同做分析对比。
对 Tor 内幕感兴趣的,可以自行浏览其项目官方站点:https://www.torproject.org
Tor 匿名网络不仅可以保护你的网络通信不被“监听”,同时也可以在访问站点时,让对方无从判断你的真实物理地址,因为所有你访问目标站点的数据包,其 IP头部的源地址,都是某个 Tor 网络出口节点的 IP,它已经替换掉你的 ISP 给你分配的公网 IP,
三个目标:
1、更全
“更全”是从搜索引擎所索引的网页数量的角度来说的,数据显示,目前能够搜索到的数据大概只有信息量的千分之二,因此,对于“暗网”的抓取需要在“爬虫”上下功夫。
2、更快
“更快”主要指的是建立索引的速度以及检索的速度。
3、更准
“更准”指的是搜索结果的准确性,“链接分析”、“排序”、“用户研究”等技术都会影响搜索结果,当然,搜索结果是否准确或者“相关”带有一定的主观性。
三个核心问题:
1、用户的真正需求是什么
每个人的表达方式不同,用户输入的关键词可谓多姿多彩,然而,用户所输入的并不一定能准确地体现用户所期望的搜索需求。
2、哪些信息和用户的真正需求相关
果农输入“苹果”关键词应该是为了查询有关农业的信息而不是“iPhone”的信息吧。
3、哪些信息是可以让用户信赖的
很多时候都是由我们自己判断哪些网站可信,哪些不可信,其实应该由机器判断的。