cs231n-Lecture1



CV–深度学习–神经网络–卷积神经网络


– 计算机视觉是人工智能中发展最迅速的内容。
– 2016年思科估计80%的网络数据是像素数据,进入到一个信息爆炸的时代,原因:1、互联网载体;2、传感器–手机、摄像头
– 互联网暗物质–数据冗余,像素信息很难理解,就像银河系内的暗物质。
– YouTube服务器接受150h video/60s。人眼很难给这些数据做标记、分类、索引,操作这些数据需要自动化。

CV–跨学科领域

这里写图片描述
– 涉及:工程、物理、生物、心理学、计算机科学以及数学
– CV–深度学习–神经网络

斯坦福cs231n类似的课程

  • cs131 – 本科介绍课程
  • cs231a – 核心CV课程、课题包括图像处理、成像、3D重建、视频分段、目标识别以及场景理解
  • cs231n – 神经网络(深度学习)在图像识别中的应用

CV的简短历史

1、寒武纪大爆发(BIG BANG)-公元前5.43亿年

  • 浮游生物漂浮在水中,等着食物进入嘴中,突然有一天生物爆发
  • 澳大利亚研究起源是生物进化出了眼睛,捕捉光线,进行环境信息交换,获取食物。
  • 视觉的出现是大爆发的最主要驱动力

2、文艺复兴时期

  • 现代意义上的相机的出现-达芬奇,现代视觉工程的开端,记录世界,但是没有信息的理解,仅仅是复制。
  • 电影、商用相机(柯达)、摄像机。

3、动物视觉原理&架构–Hubel&Wiesel

  • 将电极放入猫的大脑中,基础视觉皮质(primary visual cortex)– 处理视觉
  • 神经元处理视觉信息,实际上后脑处理视觉部分远离眼睛,50%的大脑参与视觉处理
  • 视觉占据更多资源,因为视觉处理太难了,视觉信息含量大。
  • 猫的实验中,目标是鱼-神经元脉冲,实际上鱼、花、草都不会产生神经元脉冲。更换幻灯片产生边缘切换会激发神经元信号
  • 基础视觉区的神经元是按照列组成,每一列响应不同的线条。

4、Block world

  • by Lary Roberts in 1963,计算机视觉博士论文,后来从事互联网
  • 大脑对信息的处理是基于边缘和形状,边缘决定结构

5、1966年

  • 人工智能实验室:1、MIT;2、Stanford John McCarthy建立,比计算机科学还要早
  • AI一次由John McCarthy提出,计算机视觉由MIT开始研究
  • 暑期工程目标,未完成。

6、《Vision》–David Marr,1970

这里写图片描述

  • 视觉是分层的,图像时多层的:输入层、边缘层、2.5D层、3D(最后重建)
  • 视觉是复杂的,像素的排列组合无穷无尽。

7、视觉算法研究

  • Generalized Cylinder,1979年:整个世界的形状是有圆柱体组成
  • Pictorial Structure,1973:物体有简单部分形状组成,各个部位有“弹簧”组成,允许变形
  • 线条边缘,David Lowe,1987:线条边缘,圆形和方形
  • Normalized Cut,Shi & Malik,1997:第一次使用现实图片,通过感知分组对彩色图片进行分类
  • Face Detection, Vio & Jones, 2001:黑白条形过滤寻找人脸,第一个人工智能人脸检测算法
  • “SIFT” & Object Recognition, David Lowe,1999: 特征映射,目标识别
  • Spatial Pyramid Matching, Lazebnik, Schmid & Ponce, 2006:金字塔特征提取
  • Histogram of Gradients(HOG),Dalal & Triggs, 2005: 梯度直方图
  • Deformable Part Model,Felzenswalb, McAllester, Ramanan, 2009:可变形部件模型

8、PASCAL 视觉目标检测挑战

  • 20种目标检测,2006-2012

9、Imagenet-2010

  • 22k种类和14Millon图片,集合的dataset
  • IMAGENET,大尺寸视觉识别挑战赛(计算机视觉顶级挑战赛):1000种类,1431167图片
    这里写图片描述

  • 2012年AlexNet-CNN卷积神经网络使得错误率大幅下降,后续都是神经网络模型,2015年已经低于人类的识别率5.1%

cs231n综述

1、cs231n聚焦解决图像分类问题–视觉识别中最重要的问题之一

  • 互联网公司、初创公司、手机拍照、食物识别、电商分类

2、图像分类:目标检测、图像描述、运动识别

3、目标检测的压倒性工具——CNN(Convolutional Neural Network)

这里写图片描述

  • 2012年迎来的计算机视觉新起点–CNN的使用,DeepLearning威力得意体现
  • 1998年杨乐昆提出首个卷积神经网络结构:卷积滤波-池化-卷积滤波-池化的结构
  • 2012年AlexNet几乎相同的结构的成功得益于:算力的提升&训练数据的增长

4、视觉智能不仅仅是目标识别

  • 感知分组、识别&3D、场景重建

这里写图片描述

  • 图片理解:动作识别、目标关系、语义识别——Visual Genome
  • 愿景:生物视觉系统的强大,看图说话,人500ms后形成一个故事。使我们的生活更好。
  • 相关作业链接:http://cs231n.github.io/assignments2018/assignment1/