CV–深度学习–神经网络–卷积神经网络

– 计算机视觉是人工智能中发展最迅速的内容。
– 2016年思科估计80%的网络数据是像素数据，进入到一个信息爆炸的时代，原因：1、互联网载体；2、传感器–手机、摄像头
– 互联网暗物质–数据冗余，像素信息很难理解，就像银河系内的暗物质。
– YouTube服务器接受150h video/60s。人眼很难给这些数据做标记、分类、索引，操作这些数据需要自动化。

CV–跨学科领域

这里写图片描述
– 涉及：工程、物理、生物、心理学、计算机科学以及数学
– CV–深度学习–神经网络

斯坦福cs231n类似的课程

cs131 – 本科介绍课程
cs231a – 核心CV课程、课题包括图像处理、成像、3D重建、视频分段、目标识别以及场景理解
cs231n – 神经网络（深度学习）在图像识别中的应用

CV的简短历史

1、寒武纪大爆发（BIG BANG）-公元前5.43亿年

浮游生物漂浮在水中，等着食物进入嘴中，突然有一天生物爆发
澳大利亚研究起源是生物进化出了眼睛，捕捉光线，进行环境信息交换，获取食物。
视觉的出现是大爆发的最主要驱动力

2、文艺复兴时期

现代意义上的相机的出现-达芬奇，现代视觉工程的开端，记录世界，但是没有信息的理解，仅仅是复制。
电影、商用相机（柯达）、摄像机。

3、动物视觉原理&架构–Hubel&Wiesel

将电极放入猫的大脑中，基础视觉皮质（primary visual cortex）– 处理视觉
神经元处理视觉信息，实际上后脑处理视觉部分远离眼睛，50%的大脑参与视觉处理
视觉占据更多资源，因为视觉处理太难了，视觉信息含量大。
猫的实验中，目标是鱼-神经元脉冲，实际上鱼、花、草都不会产生神经元脉冲。更换幻灯片产生边缘切换会激发神经元信号
基础视觉区的神经元是按照列组成，每一列响应不同的线条。

4、Block world

by Lary Roberts in 1963，计算机视觉博士论文，后来从事互联网
大脑对信息的处理是基于边缘和形状，边缘决定结构

5、1966年

人工智能实验室：1、MIT；2、Stanford John McCarthy建立，比计算机科学还要早
AI一次由John McCarthy提出，计算机视觉由MIT开始研究
暑期工程目标，未完成。

6、《Vision》–David Marr，1970

这里写图片描述

视觉是分层的，图像时多层的：输入层、边缘层、2.5D层、3D（最后重建）
视觉是复杂的，像素的排列组合无穷无尽。

7、视觉算法研究

Generalized Cylinder，1979年：整个世界的形状是有圆柱体组成
Pictorial Structure，1973：物体有简单部分形状组成，各个部位有“弹簧”组成，允许变形
线条边缘，David Lowe，1987：线条边缘，圆形和方形
Normalized Cut，Shi & Malik，1997：第一次使用现实图片，通过感知分组对彩色图片进行分类
Face Detection， Vio & Jones， 2001：黑白条形过滤寻找人脸，第一个人工智能人脸检测算法
“SIFT” & Object Recognition, David Lowe,1999: 特征映射，目标识别
Spatial Pyramid Matching, Lazebnik, Schmid & Ponce, 2006：金字塔特征提取
Histogram of Gradients(HOG),Dalal & Triggs, 2005: 梯度直方图
Deformable Part Model，Felzenswalb, McAllester, Ramanan, 2009：可变形部件模型

8、PASCAL 视觉目标检测挑战

20种目标检测，2006-2012

9、Imagenet-2010

22k种类和14Millon图片，集合的dataset
IMAGENET,大尺寸视觉识别挑战赛（计算机视觉顶级挑战赛）：1000种类，1431167图片
2012年AlexNet-CNN卷积神经网络使得错误率大幅下降，后续都是神经网络模型，2015年已经低于人类的识别率5.1%

cs231n综述

1、cs231n聚焦解决图像分类问题–视觉识别中最重要的问题之一

互联网公司、初创公司、手机拍照、食物识别、电商分类

2、图像分类：目标检测、图像描述、运动识别

3、目标检测的压倒性工具——CNN（Convolutional Neural Network）

这里写图片描述

2012年迎来的计算机视觉新起点–CNN的使用，DeepLearning威力得意体现
1998年杨乐昆提出首个卷积神经网络结构：卷积滤波-池化-卷积滤波-池化的结构
2012年AlexNet几乎相同的结构的成功得益于：算力的提升&训练数据的增长

4、视觉智能不仅仅是目标识别

感知分组、识别&3D、场景重建

这里写图片描述

图片理解：动作识别、目标关系、语义识别——Visual Genome
愿景：生物视觉系统的强大，看图说话，人500ms后形成一个故事。使我们的生活更好。
相关作业链接：http://cs231n.github.io/assignments2018/assignment1/