python爬虫常用库和安装 — windows7环境

1:urllib python自带 2:re python自带 3:requests pip install requests 4:selenium 需要依赖chromedriver (selenium目前有版本限制:https://blog.csdn.net/qq_36625806/article/details/81463872) 下载地址:https://download.csdn.net/my 安装方式:解压后 python setup.py install –>>添加到环境变量path中 5:chromedriver 下载地址:https://download.csdn.net/download/qq_36625806/10589319 放到python安装目录中即可。 6:phantomjs 无界面浏览器,相当于一个网页控制台 下载地址:https://download.csdn.net/download/qq_36625806/10589328 将bin目录配置到环境变量的path中 7:xlml pip install lxml 或访问:https://pypi.python.org/pypi/lxml 下载 8:beautifulsoup pip install beautifulsoup4 (网页解析库,依赖xlml) 9:pyquery pip install pyquery (网页解析库,语法跟jquery完全一致) 官方api:https://pythonhosted.org/pyquery/api.html 10:pymysql pip install pymysql (操作mysql的库) 11:pymongo pip install pymongo (操作Mongodb数据库) 12:redis pip install redis (操作redis) 13:flask pip install flask (代理) 14:django pip install django (python前端框架) 官网:https://www.djangoproject.com 15:jupyter pip install jupyter (记事本,可以在线运行代码)

离线安装lrzsz

1:下载并解压lrzsz安装包: 1.1:cd /usr/local/src/ 1.2:wget https://ohse.de/uwe/releases/lrzsz-0.12.20.tar.gz 1.2:tar zxf lrzsz-0.12.20.tar.gz 2:编译安装lrzsz: 2.1:cd lrzsz-0.12.20 2.2:./configure –prefix=/usr/local/lrzsz 2.3:make && make install 3:设置lrzsz的环境变量 3.1:cd /usr/bin 3.2:ln -s /usr/local/lrzsz/bin/lrz rz 3.3:ln -s /usr/local/lrzsz/bin/lsz sz 4:测试 rz是否可以上传文件 sz是否可以下载文件到本地 注:rz sz 只可以上传4GB以下的文件或压缩包如果需要上传大于4GB的可以考虑一下winscp这个windows工具虽然慢了些也ojbk的

Spring Boot实战——公共页

进行web开发的时候会经常遇到某些页面,它们的页面中某些地方是一样的,也就是说,这部分地方是公共的,每个页面的html代码都是一样的,这样的页面我们称为公共页。而本次实战中,我们要对公共页进行操作,简化公共页的繁杂性。 导言如下: (0)预准备 (1)抽取公共页 (2)点击高亮 (0)预准备 准备工作我曾经在Spring Boot实战——登录页中说过,其实步骤差不多,就是首先导入资源文件,我这次导入了两个公共页,并对其html代码进行部分修改,一个设置为主页(dashboard.html),另一个设置为副页(list.html)。项目目录结构如下: 其中我将公共部分放入了bar.html,这个我稍后会说。 除此之外,项目还要导入thymeleaf的依赖,导入bootstrap 的依赖,在html代码中加入thymeleaf的语法提示,这些我在登录页的实战中都有说,大家可以去看看。 下面展示两个html页面的公共部分的代码,核心部分代码因功能不同而做自行修改(*单纯代码是不会有页面渲染,还要加入css,js,图片才行): Company name Sign out 主页 (current) 员工管理 而完整代码运行效果如下: dashboard.html: list.html: 这时候我们准备就完成了,我们首先要做的就是页面可以登录,这时候我们需要编辑controller,而编辑之前我们需要对旁边的主页和员工管理页面进行部分修改: 而我们观察html中有两段是有关两个按钮的a标签,a标签中有href进行链接(先dashboard.html再list.html): 我们使用thymeleaf进行修改: 这时候我们编辑controller: @Controller public class MyController { //dashboard.html作为主页面 @RequestMapping({"/","/dashboard"}) public String dashboard(){ return "dashboard"; } //通过按钮“员工管理”跳转,通过get请求获取“/emp” @GetMapping("/emp") public String dashboardtolist(){ //返回的是emp目录下的list.html //而thymeleaf默认拼串,所以前面静态资源文件夹不用存在 return "emp/list"; } //通过按钮“主页”跳转,通过get请求获取“/dashboard” @GetMapping("/dashboard") public String backdashboard(){ return "dashboard"; } } (1)公共页抽取 抽取公共部分我们首先需要知道公共部分是那些,所以我们需要在浏览器中打开页面通过开发者工具(F12打开),使用开发者工具观察公共部分是哪些: 找到公共部分,及它们对应的代码,这时候在IDEA中对公共部分抽取出来放在新建的一个html文件(bar.html)中 这时候我们就需要使用的thymeleaf中对公共部分的操作了: (1)抽取公共片段 (将公共部分抽取出来) 公共部分代码 (2)引入公共片段 (在原先html代码中插入) 其中: ~{templatename::selector}:模板名::选择器

Three.js – MeshLambertMaterial 用于暗淡不光亮表面的材质

这种材质,可以创建看上去并不光亮(不具有光滑度)的表面,例如墙体等。该材质会对场景中的光源产生反应,并且该材质自身也会发出颜色,自身发出的颜色不受环境的影响。 示例:https://ithanmang.gitee.io/threejs/home/201808/20180807/01-meshLambertMaterial.html 基础材质中很多属性,它基本上都具有,不同的是,它具有一个自发光的属性emissive,可以设置自发光的颜色、强度、以及贴图属性。 它的color属性是漫反射的颜色,默认为白色。 示例代码 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>MeshLambertMaterial 暗淡并不光亮的材质</title> <style> body { margin: 0; overflow: hidden; /*溢出隐藏*/ } </style> <script src="../../libs/build/three-r93.min.js"></script> <script src="../../libs/examples/js/controls/OrbitControls.js"></script> <script src="../../libs/examples/js/libs/dat.gui.min.js"></script> <script src="../../libs/examples/js/libs/stats.min.js"></script> <script src="../../libs/examples/js/Detector.js"></script> </head> <body> <script> let stats = initStats(); let scene, camera, renderer, controls, guiControls; let directionalLightHelper; // 场景 function initScene() { scene = new THREE.Scene(); scene.background = new THREE.Color(0xB0E2FF); scene.fog = new THREE.Fog(scene.background, 1, 5000); } // 相机 function initCamera() { camera = new THREE.

ubuntu16.04下nvidia显卡驱动安装

1.在NVIDIA官网上下载对应型号的显卡驱动离线包(以.run为后缀): 链接:http://www.nvidia.cn/Download/Find.aspx?lang=cn 2. 确认关闭系统自带的X服务, 命令: service lightdm stop 验证:无报错即可 3.进入下载目录,找到驱动离线包,并给予可安装的权限: 命令:chmod +x NVIDIA-Linux-x86_64-378.13.linux.run (以实际包名为准) 验证:运行ls 命令,可以看到包名绿色高亮显示即可 4.开始安装驱动: 命令:./NVIDIA-Linux-x86_64-378.13.linux.run –no-opengl-files (集显需加opengl相关参数,如若关闭x后仍然提示有x任务,则添加–no-x-check -sX选项) 验证: 5.一系列的对话选项设置,如下图: 5.无报错情况下,退回到命令行,即完成了显卡驱动的安装!: ) 命令:nvidia-smi 验证:出现如图,能查看到GPU卡对应的类似信息,即可! 6.至此,NVIDIA显卡驱动和cuda都已安装完成,重启后,显示器接集显输出! 7.安装完成后如果,无法正常进入图形化界面可能的问题是系统的Xauthority文件出现了问题,当前用户无权限调用他,所以使用rm -rf ~/.Xauthority删除他,也有说使用sudo chown usrname ~/.Xauthority将权修改为当前用户的

【论文简读】 Deep web data extraction based on visual

原文链接: https://segmentfault.com/a/1190000015903503 《 Deep web data extraction based on visual information processing》 作者 J Liu 上海海事大学 2017 AIHC会议登载 引用 Liu J, Lin L, Cai Z, et al. Deep web data extraction based on visual information processing[J]. Journal of Ambient Intelligence & Humanized Computing, 2017(1):1-11. 简介 一种基于卷积神经网络(CNN)的数据区域定位方法 结合视觉信息进行网页的分割(作者命名为VIBS) 1、CNN 基于卷积神经网路进行区域定位 CNN网络结构由3个阶段组成,如图所示 。第一阶段设置卷积层和汇集层以学习图像的特征。第二阶段是设置展平图层所必需的,展平图层会将卷积图层和合并图层生成的特征图转换为一维矢量,以计算完整的连接图层。除了为输出设置最后一个完全连接之外,第三阶段设置多个连接层以过滤先前层学习的特征。 网络架构设计使用13级CNN,包括5个采样层(S),6个卷积层(C)和2个完全连接层。 据区域检测的标准IOU,如果IOU > 50%,则数据区域被视为正样本。 区域定位主要步骤流程图如下 2、基于视觉信息的网页分割方法 VIBS 3、实验结果和分析 数据集(Lianjia、Complanet、Fangjia) 58,500个样本数据集,其中有195种具有不同大小和不同位置的图像样本,包含数据区域,总共300个组。 实验结果 总结 总体看下来,文章的创新意义大于实际意义吧,这么高的精确度,感觉像是过拟合了,而且速度不可能这么快,应该是把网页先行保存成图片了的,文章写得很不错,对比什么的体系也比较完善,就是有些地方没有讲清楚,比如能否divide的判定等。

seaborn中有关机器学习的一些知识点笔记6

seaborn是python中一个可视化的图像处理库,是在matplotlib的基础上进行封装,提供丰富的模板,通过调用模板并传入参数实现画图。 1.整体布局风格:set_style:设置图表的样式 1.1.5种主题风格:暗网格(darkgrid),白网格(whitegrid),全黑(dark),全白(white),全刻度(ticks) 1.2.风格细节的设置:despine():可删除图表两边的边框 set_context():设置图表的线宽大小,里面的参数可进行细节的设置 import numpy as np import matplotlib as mpl import matplotlib.pyplot as plt import seaborn as sns def simplot(flip=1): x=np.linspace(0,14,100) for i in range(1,7): plt.plot(x,np.sin(x+i*.5)*(7-i)*flip) sns.set()#设置参数simplot() plt.show() #1.整体布局风格:set_style:设置图表的样式 #1.1.5种主题风格:暗网格(darkgrid),白网格(whitegrid),全黑(dark),全白(white),全刻度(ticks) sns.set_style("whitegrid")#设置主题样式 data=np.random.normal(size=(20,6))+np.arange(6)/2 sns.boxplot(data=data) #盒图 plt.show() #主题为全黑色 sns.set_style("dark")#将“dark”进行改变就能获得其他主题色 simplot() plt.show() #1.2风格细节的设置:用despine():可删除图表两边的边框 sns.violinplot(data)#图的类型,sns格式就是调用模板然后传入数据 sns.despine(offset=100,left=True )#**图的下端离X轴的距离,左边的轴消失,即删除边框** plt.show() #设置图表的线宽大小:set_context() sns.set_context("paper",re={"lines.linewidth":1.5})#“talk”,“poster”,“notebook”有这四种形式的表现方式,还可通过linewidth设置线宽 simplot() plt.show() 2.接下来是关于调色板方面的一些知识:其中有一点去掉图片的边框这在matplotlib中是无法实现的,但可以通过seaborn实现,sns.despine(left=True,right=True,top=True,bottom=True)#去掉图片的边框 import numpy as np import matplotlib as mpl import matplotlib.pyplot as plt import seaborn as sns #2.调色板(color_palette()能传入任何matplotlib所支持的颜色 #color_palette()不写参数默认颜色 #set_palette()设置所有图的颜色 #2.

图像处理经典文章合集

Colorization and Color Transfer(图像上色和颜色迁移) Semantic Colorization with Internet Images, Chia et al. SIGGRAPH ASIA 2011 Color Harmonization, Cohen-Or, Sorkine, Gal, Leyvand, and Xu. Web Page Computing the alpha-Channel with Probabilistic Segmentation for Image Colorization, Dalmau-Cedeno, Rivera, and Mayorga Bayesian Color Constancy Revisited, Gehler, Rother, Blake, Minka, and Sharp Color2Gray: Salience-Preserving Color Removal, Gooch, Olsen, Tumblin, and Gooch Color Conceptualization, Hou and Zhang Light Mixture Estimation for Spatially Varying White Balance, Hsu, Mertens, Paris, Avidan, and Durand.

深度学习(五)

卷积神经网络 边缘检测 适用的滤波核为: 用于检测垂直边缘,经过卷积之后,会将从亮变暗的边缘检测出来,结果显示高亮 水平边缘检测器: padding 1、单纯使用卷积时,根据公式最终结果是 ( n − f + 1 ) ∗ ( n − f + 1 ) (n – f + 1)*(n – f + 1) (n−f+1)∗(n−f+1) ,图像的大小会缩小,边缘信息也会缺失,这时可以进行填充操作,在矩阵外补零来避免,这也就是平常所用的卷积,卷积核中心遍历所有的元素 2、填充共分两种类型:一种是valid,即输入输出尺寸不一致,大小为 ( n − f + 1 ) ∗ ( n − f + 1 ) (n – f + 1)*(n – f + 1) (n−f+1)∗(n−f+1),另一种为same,输入与输出大小一致,padding为(f-1)/2 步长 如果步长变化,卷积之后结果为 ( n + 2 p − f s

8月第1周业务风控关注 |苹果App商店、iMessage被赌博、色情信息“轰炸”

1.苹果App商店、iMessage被赌博、色情信息“轰炸” 近来,不少网友反映,iMessage垃圾信息越来越多,有时候一天能收到两三条,举报也不管用,后续依然会收到。记者联系了苹果相关负责人得到回应,正在探索更多的办法以进一步减少垃圾信息,包括采用更先进的机器学习模型识别垃圾信息,以及推出更多的工具来阻止恶意发件账号。苹果还透露,正在跟国内的电信企业接触,并探索其他可采取的方法来减轻垃圾信息带来的困扰。 此外,在央视第13套新闻频道9点开播的新闻进行时栏目当中,央视以“苹果官方应用商店管理存漏洞”为标题进行了专题报道,报道曝光了App Store网络彩票、马甲包、非法App等多方面存在的问题。而同一天,新华社在官方微信账号发布了一篇名为《黄、赌、药都敢发!苹果,你怎么连这样的事都不管?》的文章,直接批评苹果在审核上的失职,忽视iMessage漏洞致使用户受到包含赌场、色情、贷款等垃圾内容信息的轰炸。 2.严查低俗内容!文旅部查B站、抖音、快手等27家网站 近期,为规范网络文化市场经营秩序,严查含有低俗内容的网络文化产品,文化和旅游部部署开展专项查处工作,依法从重查处部分内容违规网络文化经营单位,组织开展网络动漫、网络音乐市场集中执法检查,27家主要网络动漫、网络音乐网站被列入检查对象名单。 哔哩哔哩”“快看漫画”等动漫视频网站和漫画网站提供含有低俗内容的网络动漫产品问题,文化和旅游部部署北京市、上海市文化市场行政执法总队依法查处上海宽娱数码科技有限公司、快看世界(北京)科技有限公司的违规经营行为。文化和旅游部要求11家主要网络动漫经营单位加强内容自审,开展自查清理,下线违规网络动漫产品,目前已下线涉嫌违规动漫视频977条、漫画167部。 其中,秒拍等平台被下架,包括弹幕社区网站哔哩哔哩(以下简称:B站)、洋葱视频在内的一些视频网站暂停下架,内部整改。 3.浙江省1000万学籍数据正在暗网售卖 昨天下午,威胁猎人通过暗网监测到,浙江省1000万学籍数据正在暗网上售卖。从暗网截图显示来看,售卖的学籍数据覆盖了浙江的大部分市区,被泄露的信息包含了学生姓名、身份证、学籍号、户籍位置、监护人、监护人号码、居住地址、出生地、学校名称等。售卖的学籍数据里还提供有照片链接,数据在100G左右。 4.Reddit再曝数据泄露事件,05-07年曾遭黑客入侵 美国社交媒体Reddit昨日宣布,该公司的几个系统遭到黑客入侵,导致一些用户数据被盗,其中包括用户目前使用的电子邮箱以及2007年的一份包含旧加密密码的数据库备份。Reddit称,黑客获取了旧数据库备份的一个副本,其中包含了早期Reddit用户数据,时间跨度从2005年该网站成立到2007年5月。 5.涉及账户信息安全,俩第三方支付机构被重罚 中国人民银行官网30日公布,中国人民银行查实,卡友支付服务有限公司(以下简称“卡友公司”)和付临门支付有限公司(以下简称“付临门公司”)均存在多项违规问题,人民银行没收其违法所得并处高额罚款。 经查实,卡友公司存在违反收单交易信息管理规定、违规留存银行卡敏感信息、未按规定完整保存交易记录、严重违反商户实名制管理规定等违规行为。付临门公司存在违反商户实名制管理规定、违反收单交易信息管理规定等违规问题。最终对卡友公司给予警告,没收违法所得92万余元,并处罚款249万余元,合计处罚金额258万余元。对付临门公司给予警告,没收违法所得147万余元,并处罚款745万元,合计处罚金额892万余元。同时,为防范金融风险,两家非银行支付机构一年内有序退出严重违规区域的银行卡收单业务。 6.短信验证码不安全,两步验证App急需普及 目前,短信验证码已被广泛应用于社交媒体、网站等各种平台上。可以帮助用户进行一系列敏感操作,也能让用户不输账号密码直接登陆。短信验证码一直是使用最广泛的两步验证法。但存在很多安全隐患。 SIM卡劫持可以通过多种方式实现(比如SIM卡克隆),可以完全控制一个手机号。比较低级的方法甚至可以在网上随便搜到教程,2017年黑帽大会上曾演示了只需一个手机号码就在一分钟之内劫持SIM卡的方法。 基于此,又衍生出了基于TOTP机制的两步验证APP,不需要任何网络连接(包括Wi-Fi),也不需要短信和SIM卡,验证码完全在手机本地生成。APP两步验证的存在将SIM卡劫持的可能性大幅降低。 7.中远集团美洲计算机网络遭勒索软件攻击 国有中远集团的美洲区计算机网络本周遭勒索软件攻击,48 小时后情况仍然没有好转。在周四发表的声明(PDF)中,中远集团称受影响的网络包括美国、加拿大、巴拿马、阿根廷、巴西、秘鲁、智利和乌拉圭。声明称,想要联络这些地区中远集团雇员的人必须改用特定的邮箱地址进行联络,该公司提供的邮箱地址除了中远集团自己的邮箱外,还有免费电邮服务 Yahoo、Gmail 和 Hotmail。勒索软件会通过加密计算机文件锁定系统,目前并不清楚中远集团遭到了哪种勒索软件的攻击。中远集团的代表通过 Twitter 表示,该公司已经初步隔离了所有区域性网络,在确认安全之后将逐步恢复连接。 8.黑客从 KICKICO 窃取了价值 770 万美元的数字货币 黑客从 KICKICO 平台窃取了价值 770 万美元的数字货币,采用的方法比较新颖——销毁现有的币后再创造同等量的新币到黑客控制的地址。这种方法逃脱了 KICKICO 的监视,因为它没有改变已发行的 KICKICO 令牌数量。黑客首先设法窃取了 KICKICO 智能合同控制的加密密钥。KICKICO 直到用户投诉钱包内价值大约 80 万美元的数字货币消失之后才知道密钥失窃。 KICKICO 称已经收回了窃取的令牌将其退还给了原拥有者。KICKICO 表示,黑客利用密钥销毁了 40 个地址的数字货币,在另外 40 个地址创造同等量的新令牌。它没有披露黑客是如何窃取到密钥的。 点击免费试用网易云易盾安全服务。