DeepLearning

Deep 3D Face Identification 论文地址:https://arxiv.org/abs/1703.10714 github开源代码: https://github.com/jongmoochoi/irisfaceRGBD

一、DeepDive简介 DeepDive是信息抽取的工具，它可以从各种dark data（文本、图片、表格）中将非结构数据抽取到关系数据库中。DeepDive的主要功能是抽取dark data中的实体以及实体之间的关系。 DeepDive文档： http://deepdive.stanford.edu/ DeepDive GitHub： https://github.com/HazyResearch/deepdive 二、DeepDive安装 DeepDive有三种安装方式，Docker镜像安装、快速安装、源包安装采用快速安装的方式进行，机器系统为CentOS-7.3.1611 1.bash <(curl -fsSL git.io/getdeepdive) deepdive //安装deepdive包 1.1 vi ~/.bash_profile //编辑bash_profile文件，将deepdive命令加入当前user环境 1.2 export PATH=~/local/bin:"$PATH" //将这句追加到bash_profile 1.3 source ~/.bash_profile //使配置生效 2.bash <(curl -fsSL git.io/getdeepdive) spouse_example //安装spouse demo包 3.安装postgre作为关系数据库（刚开始想使用mysql，但是deepdive文档中说 minimal support mysql，所以还是使用推荐的postgre），使用bash <(curl -fsSL git.io/getdeepdive) progres 安装会有各种权限的问题，建议使用root用户安装 3.1 yum install https://download.postgresql.org/pub/repos/yum/9.5/redhat/rhel-7-x86_64/pgdg-centos95-9.5-2.noarch.rpm //添加RPM 3.2 yum install postgresql95-server postgresql95-contrib //安装PostgreSQL 9.5 3.3 /usr/pgsql-9.5/bin/postgresql95-setup initdb //初始化数据库 3.4 systemctl enable postgresql-9.5.service //设置开机启动 3.5 systemctl start postgresql-9.

目前大多数深度估计方法是通过2D的图片到2.5D的表面形状（场景深度）。比较成功的基于几何图像方法包括：Structure from motion，Shape from X，Monocular stereo，Binocular stereo和Multi-view stereo 其中Shape from X中的X包括：shading（单幅图像明暗）、stereo vision（立体视觉法–上边的单目，双目和多目立体视觉）、Photometric stereo（光度立体法）、texture（纹理）、motion（运动–structure from motion）、contour（轮廓）、shadow（阴影）目前通过深度学习的方法结合传统几何图像法：（单目，双目，多目）—监督学习，非监督学习，半监督学习具体方法引自： https://wenku.baidu.com/view/ad3b9a6ce009581b6ad9eb06.html 从明暗恢复形状( shape f rom shading , 简称SFS)：是计算机视觉中三维形状恢复问题的关键技术之一，其任务是利用单幅图象中物体表面的明暗变化来恢复其表面各点的相对高度或表面法方向等参数值，为进一步对物体进行三维重构奠定基础。由单幅图像灰度明暗变化恢复三维形状的过程可以看作成像过程的逆过程。对实际图像而言，其表面点图像亮度受到了许多因素，如光源、物体表面材料性质和形状，以及摄像机(或观察者)位置和参数等的影响。由单幅图像灰度明暗变化恢复三维形状是在一定的约束条件下从平滑变化的灰度图像恢复出表面法向信息，即根据物体表面反射模型建立物体表面三维形状与采集的图像灰度之间关系的反射图方程，以及由先验知识所建立的对物体表面形状参数的约束条件，对这些关系求解可得到物体表面三维形状。传统SFS方法均进行了如下假设：( 1)光源为无限远处点光源；( 2)反射模型为朗伯体表面反射模型( Lambertian)； ( 3)成象几何关系为正交投影。立体视觉法(shape from Stereo vision) 可以分为双目和多目立体视觉两种类型。简要说明双目立体视觉的原理。与人类双目视觉的感知过程类似，双目立体视觉从两个不同视点观察同一物体可以得到不同视角下的图像，通过分析不同图像中同一像点的不同视差来获取物体表面的三维空间信息。立体视觉系统可以分为图像采集、摄像机标定、特征提取、立体匹配、深度恢复及三维表面插值等部分组成。目前有MTI人工智能实验室、Yale机器视觉机器人实验室、哈尔滨工业大学、中科院自动化所、西安交通大学、Sony公司、Intel公司等国内外多家研究机构都在从事立体视觉方面的研究。立体视觉法测量方法简单，但该方法的主要缺点是摄像机需要标定，图像特征匹算法复杂。光度立体法(shape from photometric Stereo) 避免了对应点匹配问题，使用单目多幅图像中蕴涵的三维信息恢复被测对象三维形状。一幅图像像素点的灰度主要由如下因素决定：物体的形状、物体相对于光源和摄像机的位置、光源和摄像机的相对位置，以及物体的物理表面反射特性等。光度立体法固定摄像机和物体的位置，通过控制光源方向，在一系列不同光照条件下采集图像，然后由这几幅图像的反射图方程求解物体表面法向量，进而重构物体三维形状。Ikeuchi等使用光度立体法开发出一套机器人视觉系统，Lee提出一种将光度立体法和SFS方法相结合的三维重构方法。光度立体方法不需要求解反射图方程，方法实现简便。但需要改变光源位置，采集多幅图像，无法使用于自然光或固定光源的物体表面三维重构。由纹理恢复形状方法(ShaPe from texture) 利用物体表面的纹理信息确定表面方向进而恢复出表面三维形状。纹理由纹理元组成，纹理元可以看作是图像区域中具有重复性和不变性的视觉基元，纹理元在不同的位置和方向反复出现。由纹理元的变化可以对物体表面法向量方向进行恢复。常用的纹理恢复形状方法有三类：利用纹理元尺寸变化、利用纹理元形状变化以及利用纹理元之间关系变化对物体表面梯度进行恢复。Gibson在1950年首先提出了由纹理或纹理梯度表面深度的变化，Kender提出了一种恢复由规则的平行线组成的栅格表面取向的方法。这种方法对物体表面的纹理信息要求严格,需要掌握成像投影中纹理元的畸变信息，只有在纹理特性确定的条件下才能应用。该方法精度较低，而且适用性差，实际应用较少。由运动恢复形状方法(Shape from motion) 当目标与摄像机在发生相对运动时，摄像机拍摄对应的图像序列,可通过分析该图象序列获得场景的三维信息。摄像机与场景目标间有相对运动时所观察到的亮度模式变化显示出的运动称为光流(optical flow)。光流表示图像的变化，它包含了目标的运动信息，由此可以确定观测者与目标的相对运动，并且可以根据光流求解表面法向量。从运动恢复形状方法适用于被测对象处于运动状态,利用目标与摄像机相对运动来获得场景中目标之间的位置关系，需要多幅图像，不使用静态的场景。同时序列图象像素间的匹配对测量计算精确度影响较大。由轮廓恢复形状方法(Shape from Contour) 图像的轮廓是物体表面的边缘在图像平面的投影。Barrow与Tennnenboum将轮廓线分为两类，一是不连续轮廓线，它对应物体表面的中断或转折处，形成原因是物体表面法向量在这里发生不连续变化，另一种是Occluding轮廓线，它对应物体表面的法向量光滑地与摄像机垂直，形成原因是物体表面到摄像机的距离在这里发生不连续变化。不连续轮廓线应用于多面体结构的重构和定位，occluding轮廓线用于恢复物体表面的局部特征或全局特征。Karl研究了正交投影下用Occluding轮廓线全局地恢复非退化二次曲面形状。由阴影恢复形状方法(Shape from shadow) 图像的阴影边界蕴涵了图像的轮廓信息，因此可以根据不同的光照条件下图像的阴影恢复物体表面的三维形状。Michael提出了一种由阴影恢复形状的优化算法。目前国内外对这种方法的研究比较少。其他的非接触三维测量方法有如CT方法，飞行时间法等。

Learning to See in the Dark ref：http://web.engr.illinois.edu/~cchen156/SID.html 介绍去噪、去模糊都有，不过在低光照下还是比较难的。高ISO可以提亮，但也会放大噪声。直接缩放或者拉伸直方图，也有一定效果，不过并不能弥补光子不足的缺陷。增加曝光时间，如果移动了会变模糊。这篇文章就是喜欢严重缺少亮度的低光照条件，最好曝光时间还短。传统的去噪方法不行，拍一系列暗图也不行，这些在极低光照条件下基本都会失效。本文采用的是数据驱动的方法，设计了一个深度神经网络，能实现颜色转换、去马赛克、减少噪声和图像增强。这种端到端的设计能减少噪声的放大和误差的积累。这篇文章提到以往大家做低光照的研究都是用的合成图像，或者没有ground truth的低光照，因此他们就收集了一些与低光照对应的清晰图像（可作为benchmark）。相关工作：去噪：全变分、小波域变换、稀疏编码、核范数最小化、BM3D（光滑、稀疏、低秩、自适应）。缺点：数据集一般都是合成的。一般认为BM3D在真实图片的表现结果比大部分其他算法好（Benchmarking denoising algorithms with real photographs）。多图效果不错，但本文想单图。低光照图像增强：直方图均衡化、图像灰度校正（伽马校正）、暗通道反转、小波变换、Retinex model、光强映射估计。这些方法都认为退化图已经包含比较好的潜在信息，而没有考虑噪声和颜色扭曲的影响。含噪数据集：RENOIR对应图片不是完美匹配、HDR+没有极低光照照片、DND也是白天获取的。本文收集了一些数据。 “看见黑暗”数据集数据集是作者采集的，有5094张低曝光和高曝光的数据集。场景包含室内室外，都是在固定位置用三脚架拍的。采用app远程设置光圈、ISO等参数，室外光照在0.2勒克斯和5勒克斯之间，室内的更加黑暗。数据采集的原则是高曝光的只要保持视觉效果好即可，不一味追求移除全部噪声。他们称自己的数据集叫SID 方法 pipeline 部分方法流程图，其中L3指local,linear and learned filters。传统和L3都没有很好处理极低光照的情况。burst序列虽然可以满足一定的需求，但比较苛刻，而且需要“lucky imaging”。本文用的是全卷积网络（FCN），而且不是处理普通的sRGB图片，而是用原始的传感器数据。文章用到多尺度聚集网络（multi-scale context aggregation network (CAN)）和U-net（U-net: Convolutional networks for biomedical image segmentation），其中U-net是本文默认的网络。其他方法如残差并不适合这里，也许是因为色彩空间不一样。另外要尽量避免全连接层，因为完整的分辨率图可能有6000×4000。放大率决定了输出的亮度，这是输入的时候提供的，网络的最终输出直接就是sRGB空间。训练 L1和Adam，剪裁成512，学习率1e-4到1e-5，共4000个epoch。实验质量和感知与传统的比，传统的含噪严重，颜色扭曲。他说BM3D在真实图片的去噪效果好，所以就用BM3D来比。不过BM3D需要手动输入一个预估的噪声等级，对结果非常有影响。实验结果放到Amazon Mechanical Turk平台上对比，由10个工作者来完成。控制变量实验用CAN替换U-net、用sRGB替换原始信号，SSIM或L2替换L1等等。其中不用原始信号那个掉得最快，其余的差并不太多。整体的实验效果显然这个算法无敌，看起来就和白天一样。有时候会稍微过平滑一点，不过看上去视觉效果都还可以。讨论低光照成像有很少的光子数量和低信噪比。本文设计了数据驱动的方法，能有效提高成像表现，还贡献了SID数据集。未来的方向：没有处理亮度域的映射，可能会损失一些两端的信息。缺少动态物体。放大倍数也要人为来选，以后可以让它像自动ISO那样。算法也不够实时，在两个数据集上需要0.38或0.66秒。我个人觉得这个算法是很不错的benchmark，但是数据集实在太大了，而且RAM的消耗非常大。

一、Kaggle的任务描述 kaggle-CNN手写数据集下载网址 MNIST（“国家标准与技术研究院修改版”）是计算机视觉领域的“hello world”数据集。训练集 (training set) 由来自 250 个不同人手写的数字构成, 其中 50% 是高中学生, 50% 来自人口普查局 (the Census Bureau) 的工作人员. 测试集(test set) 也是同样比例的手写数字数据. 数据文件train.csv和test.csv包含从零到九的手绘数字的灰度图像。每张图像的高度为28像素，宽度为28像素，总共为784像素。每个像素都有一个与之相关的像素值，表示该像素的亮度或暗度，较高的数字意味着较暗。此像素值是一个介于0和255之间的整数，包括0和255。训练数据集（train.csv）有785列。称为“标签”的第一列是由用户绘制的数字。其余列包含关联图像的像素值。训练集中的每个像素列都有一个像pixelx这样的名称，其中x是0到783之间的整数，包括0和783之间的整数。为了在图像上定位这个像素，假设我们已经将x分解为x = i * 28 + j，其中i和j是0到27之间的整数，包括0和27。然后，pixelx位于28 x 28矩阵的第i行和第j列（索引为零）。例如，像素31指示位于2行4列的位置。在视觉上，如果我们省略“像素”前缀，则像素组成如下图像： 000 001 002 003 … 026 027 028 029 030 031 … 054 055 056 057 058 059 … 082 083 | | | | … | | 728 729 730 731 … 754 755 756 757 758 759 … 782 783 测试数据集（test.

1、Distilling the Knowledge in a Neural Network Hinton的文章”Distilling the Knowledge in a Neural Network”首次提出了知识蒸馏（暗知识提取）的概念，通过引入与教师网络（teacher network：复杂、但推理性能优越）相关的软目标（soft-target）作为total loss的一部分，以诱导学生网络（student network：精简、低复杂度）的训练，实现知识迁移（knowledge transfer）。如上图所示，教师网络（左侧）的预测输出除以温度参数（Temperature）之后、再做softmax变换，可以获得软化的概率分布（软目标），数值介于0~1之间，取值分布较为缓和。Temperature数值越大，分布越缓和；而Temperature数值减小，容易放大错误分类的概率，引入不必要的噪声。针对较困难的分类或检测任务，Temperature通常取1，确保教师网络中正确预测的贡献。硬目标则是样本的真实标注，可以用one-hot矢量表示。total loss设计为软目标与硬目标所对应的交叉熵的加权平均（表示为KD loss与CE loss），其中软目标交叉熵的加权系数越大，表明迁移诱导越依赖教师网络的贡献，这对训练初期阶段是很有必要的，有助于让学生网络更轻松的鉴别简单样本，但训练后期需要适当减小软目标的比重，让真实标注帮助鉴别困难样本。另外，教师网络的推理性能通常要优于学生网络，而模型容量则无具体限制，且教师网络推理精度越高，越有利于学生网络的学习。教师网络与学生网络也可以联合训练，此时教师网络的暗知识及学习方式都会影响学生网络的学习，具体如下（式中三项分别为教师网络softmax输出的交叉熵loss、学生网络softmax输出的交叉熵loss、以及教师网络数值输出与学生网络softmax输出的交叉熵loss）：联合训练的Paper地址：https://arxiv.org/abs/1711.05852 2、Exploring Knowledge Distillation of Deep Neural Networks for Efficient Hardware Solutions 这篇文章将total loss重新定义如下： GitHub地址：https://github.com/peterliht/knowledge-distillation-pytorch total loss的Pytorch代码如下，引入了精简网络输出与教师网络输出的KL散度，并在诱导训练期间，先将teacher network的预测输出缓存到CPU内存中，可以减轻GPU显存的overhead： def loss_fn_kd(outputs, labels, teacher_outputs, params): """ Compute the knowledge-distillation (KD) loss given outputs, labels. "Hyperparameters": temperature and alpha NOTE: the KL Divergence for PyTorch comparing the softmaxs of teacher and student expects the input tensor to be log probabilities!

本文是CVPR2018论文，主要提出一种通过FCN方法将在黑暗环境中进行的拍摄还原的方法，实现让机器让机器“看破”黑暗。本文的主要创新点为： 1.提出了一个新的照片数据集，包含原始的short-exposure low-light图像，并附有long-exposure reference图像作为Groud truth，以往类似的研究使用的都是人工合成的图像； 2.与以往方法使用相机拍摄出的sRGB图像进行复原不同，本文使用的是原始的传感器数据。 3.提出了一种端到端的学习方法，通过训练一个全卷积网络FCN来直接处理快速成像系统中的低亮度图像。结构如图：本文最后提出了该模型待改进的几个地方： 1.数据集中目前不包含人和运动物体； 2.模型中的放大率amplification ratio是人工选择的，如果能根据图像自动选择，效果会更好。 3.可以进行进一步的运行时优化，目前处理一幅照片的时间不能满足实时处理的时限要求。 …………………………………………………………………………………………………………………………………………………………………………………. 下面的内容转载自：https://blog.csdn.net/linchunmian/article/details/80291921，个人认为是对本文比较好的一篇翻译：整理下最近一篇论文的学习笔记。这是由UIUC的陈晨和Intel Labs的陈启峰、许佳、Vladlen Koltun 合作提出的一种在黑暗中也能快速、清晰的成像系统，让机器“看破”黑暗。以下是论文的主要部分。摘要在暗光条件下，受到低信噪比和低亮度的影响，图片的质量会受到很大的影响。此外，低曝光率的照片会出现很多噪声，而长曝光时间会让照片变得模糊、不真实。目前，很多关于去噪、去模糊、图像增强等技术的研究已被相继提出，但是在一些极端条件下，这些技术的作用就很有限了。为了发展基于学习的低亮度图像处理技术，本文提出了一种在黑暗中也能快速、清晰的成像系统，效果令人非常惊讶。此外，我们引入了一个数据集，包含有原始的低曝光率、低亮度图片，同时还有对应的长曝光率图像。利用该数据集，提出了一种端到端训练模式的全卷积网络结构，用于处理低亮度图像。该网络直接使用原始传感器数据，并替代了大量的传统图像处理流程。最终，实验结果表明这种网络结构在新数据集上能够表现出出色的性能，并在未来工作中有很大前途。简介任何的图像成像系统都存在噪声，但这很大地影响在弱光条件下图像的质量。高ISO 可以用于增加亮度，但它同时也会放大噪音。诸如缩放或直方图拉伸等图像后处理可以缓解这种噪声影响，但这并不能从根本上解决低信噪比 (SNR) 问题。在物理学上，这可以解释为在弱光条件下增加SNR，包括开放光圈，延长曝光时间以及使用闪光灯等，但这些也都有其自身的缺陷。例如，曝光时间的延长可能会引起相机抖动或物体运动模糊。众所周知，暗光条件下的快速成像系统一直都是计算摄影界的一大挑战，也是一直以来开放性的研究领域。目前，许多关于图像去噪，去模糊和低光图像增强等技术相继提出，但这些技术通常假设这些在昏暗环境下捕获到的图像带有中等程度的噪音。相反，我们更感兴趣的是在极端低光条件下，如光照严重受限 (例如月光) 和短时间曝光 (理想情况下是视频率) 等条件下的图像成像系统。在这种情况下，传统相机的处理方式显然已不适用，图像必须根据原始的传感器数据来重建。为此，本文提出了一种新的图像处理技术：通过一种数据驱动的方法来解决极端低光条件下快速成像系统的挑战。具体来说，我们训练深度神经网络来学习低光照条件下原始数据的图像处理技术，包括颜色转换，去马赛克，降噪和图像增强等。我们通过端对端的训练方式来避免放大噪声，还能表征这种环境下传统相机处理的累积误差。据我们所知，现有用于处理低光图像的方法，在合成数据或真实的低光图像上测试都缺乏事实根据。此外，用于处理不同真实环境下的低光图像数据集也相当匮乏。因此，我们收集了一个在低光条件下快速曝光的原始图像数据集。每个低光图像都有对应的长曝光时间的高质量图像用于参考。在新的数据集上我们的方法表现出不出色的结果：将低光图像放大300倍，成功减少了图像中的噪音并正确实现了颜色转换。我们系统地分析方法中的关键要素并讨论未来的研究方向。下图1展示了我们的设置。我们可以看到，在很高的ISO 8,000条件下，尽管使用全帧的索尼高光灵敏度相机，但相机仍会产生全黑的图像。在ISO 409,600条件下，图像仍会产生朦胧，嘈杂，颜色扭曲等现象。换而言之，即使是当前最先进的图像去噪技术也无法消除这种噪音，也无法解决颜色偏差问题。而我们提出的全卷积网络结构能够有效地克服这些问题。图1卷积网络下的极端低光成像。黑暗的室内环境：:相机的照度 <0.1 lux。Sony α7S II传感器曝光1/30秒。左图：ISO 8,000相机产生的图像。中间图：ISO 409,600相机产生的图像，图像受到噪声和颜色偏差的影响。右图：由我们的全卷积网络生生的图像。数据集 (SID) 我们收集了一个新的数据集，用于原始低光图像的训练和基准测试。See-in-the-Dark(SID) 数据集包含5094张原始的短曝光图像，每张都有相应的长曝光时间的参考图像。值得注意的是，多张短曝光的图像可以对应于相同的长曝光时间的参考图像。例如，我们收集了短时间曝光图像用于评估去燥方法。序列中的每张图像都可视为一张独特的低光图像，这样包含真实世界伪像的图片能够更有利于模型的训练和培训测试。SID 数据集中长时间曝光的参考图像是424。此外，我们的数据集包含了室内和室外图像。室外图像通常是在月光或街道照明条件下拍摄。在室外场景下，相机的亮度一般在0.2 lux 和5 lux 之间。室内图像通常更暗。在室内场景中的相机亮度一般在0.03 lux 和0.3 lux 之间。输入图像的曝光时间设置为1/30和1/10秒。相应的参考图像 (真实图像) 的曝光时间通常会延长100到300倍：即10至30秒。各数据集的具体情况如下表1中所示。表1. SID 数据集包含5094个原始的短曝光率图像，每张图像都有一个长曝光的参考图像。图像由顶部和底部两台相机收集得到。表中的指标参数分别是(从左到右)：输入与参考图像之间的曝光时间率，滤波器阵列，输入图像的曝光时间以及在每种条件下的图像数量。下图2显示了数据集中一部分的参考图像。在每种条件下，我们随机选择大约20％的图像是组成测试集，另外选定10％的数据用于模型验证。图2 SID 数据库的实例。前两行是SID 数据集中室外的图像，底部两行是室内的图像。长曝光时间的参考图像 (地面实况) 显示在前面。短曝光的输入图像(基本上是黑色) 显示在背部。室外场景下相机的亮度一般在0.2到5 lux，而室内的相机亮度在0.

前两天为了深度学习要安装ubuntu系统，心想那还不简单，搞个U盘刻录一下安装下，岂不是完美。谁曾想安装这东西来来回回数十遍，期间还重置了电脑，好不容易安装好了，杂七杂八的问题贼多，好在最后都解决了。。。。。。。深深地体会到了从安装到放弃。“新的风暴已经出现，怎么能够停滞不前，穿越时空，坚定向前” 开始我的坚强吧。 1、开辟空闲空间右键我的电脑，选择管理选择磁盘管理，选择一个硬盘(别选C盘），然后右键，选择压缩卷，会显示要压缩的大小。建议不要太小，我压缩了100G（10 0000MB） 2、制作系统启动U盘直接去官网，按如下图步骤下载好之后，下一个映像写入软件。这里我用的是UltraISO,按照下面图片步骤。 3、安装ubuntu系统电脑先关机，再打开，在开机时（狂）按F12进入BOOT Manager 里面选择U盘启动（不同品牌的电脑可能打开方式不同，自行百度，我的是联想）然后会出现一个选择界面，你可以选择Try without installing ，也可以选择Install Ubuntu，都一样。选择语言为图形…这个选项可选可不选，我也没有去查过资料，不知道有什么大的区别。（建议先选上）这里选择其他选项，来配置分区这里的分区教程照片是引用https://blog.csdn.net/sinat_18897273/article/details/71191389博主的图片。（如果有问题，可以联系我，我进行修改）。分区大小推荐设置：（选择空闲，即你之前在windows分配的空间，然后再点击左下角的加号） swap （电脑内存）8000MB 逻辑分区用于交换空间 / 30000MB 逻辑分区 Ext4日志文件系统 /boot 500MB 主分区 Ext4日志文件系统 /home 剩余空间逻辑分区 Ext4日志文件系统这里一定要注意新分区的类型和用于配置完成后，在安装启动引导器的设备这一栏选择与你/boot相同的sdb，看接下来的第五张图。然后点继续，安装就行了在重启时，（狂）按F12，进入Boot Manager选择windows启动，进行最后的配置。我这里用EasyBCD软件来操作。重启即可。如果你没碰到什么问题，那你真是个lucky guy。如果你每次开机时都是直接进入一个系统，这个问题我也没解决（只能通过开机按F12来选择系统启动） 4、关机卡死解决方案如果你发现你每次ubuntu系统关机都会卡死，那你先去看看系统设置->软件和更新->附加驱动里面有没有显卡驱动。有的话关机还卡死的话，我也不太清楚，如果没有显卡驱动，按下面步骤来。此处引用https://blog.csdn.net/tianrolin/article/details/52830422的博文（如有问题，请联系我进行修改）搜索NVIDIA linux 选择你对应的版本进行下载。如果你的ubuntu无法连wifi（如果你有宽带，那就没这个问题，可怜我们学校的闪讯没有linux版，无法连接wifi的问题我待会再讲），你可以先去windows系统下载，拷贝到U盘里，再复制过来。（这里我建议你把文件名字改成简单易记，后面命令要用到）拷贝过来后，你可以直接将文件移动到/home/（你的用户名）的目录下（因为待会我的命令就是基于文件已经在那个文件夹下）当然你也可以在输入命令时加上相应的路径。 1、首先我们要禁止集成的nouveau驱动。（按Ctrl+Alt+T调出终端）按下面命令进行输入（黑体字不用输入）查看属性(下面的Is和lh是小写的L） sudo ls -lh /etc/modprobe.d/blacklist.conf 修改属性 sudo chmod 666 /etc/modprobe.d/blacklist.conf 用gedit编辑器打开 sudo gedit /etc/modprobe.

6.18-22 日，CVPR 2018 将在美国盐湖城举办。所有workshop，见如下网址http://cvpr2018.thecvf.com/program/workshops，有时间的同学参考下。 Date & Time Location Workshop Organizer(s) Monday, June 18, 2018 TBA First International Workshop on Disguised Faces in the Wild Nalini Ratha Monday, June 18, 2018 TBA Fine-grained Instructional Video undERstanding (FIVER) Jason Corso Monday, June 18, 2018 TBA Low-Power Image Recognition Challenge Yung-Hsiang Lu Monday, June 18, 2018 TBA NVIDIA AI City Challenge Milind Naphade Monday, June 18, 2018 TBA DeepGlobe: A Challenge for Parsing the Earth through Satellite Images Ilke Demir Monday, June 18, 2018 TBA VQA Challenge and Visual Dialog Workshop Yash Goyal Monday, June 18, 2018 TBA Visual Understanding of Humans in Crowd Scene and the 2nd Look Into Person (LIP) Challenge Xiaodan Liang, Jian Zhao Monday, June 18, 2018 TBA Language and Vision Andrei Barbu Monday, June 18, 2018 TBA Robust Vision Challenge Andreas Geiger Monday, June 18, 2018 TBA Workshop and Challenge on Learnt Image Compression George Toderici Monday, June 18, 2018 (PM) TBA Large-Scale Landmark Recognition: A Challenge Bohyung Han Monday, June 18, 2018 TBA The DAVIS Challenge on Video Object Segmentation 2018 Jordi Pont-Tuset Monday, June 18, 2018 TBA Bridging the Gap between Computational Photography and Visual Recognition: the UG2 Prize Challenge Walter J.

Attention! 我的Dr.Sure项目正式上线了，主旨在分享学习Tensorflow以及DeepLearning中的一些想法。期间随时更新我的论文心得以及想法。 Github地址：https://github.com/wangqingbaidu/Dr.Sure CSDN地址：http://blog.csdn.net/wangqingbaidu 个人博客地址：http://www.wangqingbaidu.cn/ DSSMs: Deep Structured Semantic Models DSSM(Deep Structured Semantic Model):基于深度网络的语义模型，这篇论文的核心思想是把文本数据以及用户的点击历史记录映射到一个相同维度的语义空间，通过最大化两个空间的cosine相似度，最终达到信息检索的目的。 DSSM这篇论文是在13年被首次提出，14，15经过两年的发展，分别演化出了基于卷积网络的C-DSSM(Convolutional DSSM)、基于循环神经网络的R-DSSM(Recurrent DSSM)、针对不同信息来源的MV-DSSM(Multi-View DSSM)、最后还有一个专门针对Caption的DMSM(Deep Multimodal Similarity Model)。注：C-DSSM在论文里面的模型名称叫CLSM(Convolutional Latent Semantic Model)，但是为了前后的连贯性，Dr.Sure就私自改成了C-DSSM。 DSSM的设计初衷是为了做信息检索（IR，应用到搜索引擎），但是后来逐渐被演化到不同数据源的语义空间映射问题，包括但是不仅仅包括信息检索、图文匹配、Caption、Sent2Vec。这几个相关工作都有Xiaodong He的工作，他在CVPR2015上做了一个主题报告，专门针对DSSM以及内容理解做了一个比较详细的阐述，详见PPT。他在slides里面highlight出来的一些问题，感觉相当有参考价值。这个博客汇总了13年到15年5篇论文有关DSSM的相关工作，详细介绍DSSM相关算法的发展。一、 DSSM: Deep Structured Semantic Models 从模型的名称中可以看出，这个模型是基于深度学习的算法，并且是将数据映射到一个语义空间的模型。所以相比于以往其它的语义模型来说，最大的优势就是引入了深度网络。 1. 相关Semantic Models a.) Latent Semantic Models 这些模型里面最常被提及的就是Latent Semantic Analysis(LSA)、Probabilistic LSA(PLSA)以及LDA等，这些都是基于无监督的模型，而且大部分是基于矩阵分析以及概率模型的基础建立而来。对于不同单词的相同语义不能很好的建模。这里引用He博士在slides中的一个例子： Minnesota became a state on? When was the state Minnesota created? 这个例子只有Minnesota state关键词是共享的，句式包括其他的单词和句式都不相同，这样的数据放到传统的语义模型中很可能不会被映射到一个相同的语义空间，然而对于理解来说，这两句话的语义是完全相同的。 b.) Auto Encoder Decoder 前面基于矩阵分析的模型存在最大的问题就是算法为无监督的，虽然这些算法具有很强的鲁棒性，但是真是的应用场景中，每个任务的目标函数各不相同，这就好像用一个瑞士军刀削一个苹果，反而不如一个更合适的水果刀。 Auto encoder decoder的提出就是想解决上面的一些问题，使用深度网络，引入监督信息，通过encoder编码输入数据，映射到一个语义空间，然后在用decoder还原成原始数据。其网络结构如下：

DeepLearning

Deep 3D Face Identification

DeepDive-信息抽取工具安装教程

深度估计方法的介绍

Learning to See in the Dark

【R语言】kaggle-CNN手写数据集识别

知识蒸馏（Knowledge Distillation）

【论文阅读笔记】Learning to see in the dark

Ubuntu——从安装到放弃（/逃）【此教程包括ubuntu的安装、关机卡死（Nvidia安装）、无法连接wifi等解决方案】

CVPR 2018 挑战赛

DSSMs: Deep Structured Semantic Models