Distilling the Knowledge in a Neural Network Distilling the Knowledge in a Neural Network”首次提出了知识蒸馏(暗知识提取)的概念,通过引入与教师网络(teacher network:复杂、但推理性能优越)相关的软目标(soft-target)作为total loss的一部分,以诱导学生网络(student network:精简、低复杂度)的训练,实现知识迁移(knowledge transfer)。
那什么是soft-target呢?与之对应的是hard-target,就是样本的真实标签,soft-target是teacher network的预测输出。
引进soft-target的原因是因为har-target的信息熵很低,soft target包含的信息量大,拥有不同类之间关系的信息(比如同时分类驴和马的时候,尽管某张图片是马,但是soft target就不会像hard target 那样只有马的index处的值为1,其余为0,而是在驴的部分也会有概率)。
这样做的好处就是表明这个图像除了像马更像驴一点,而不是车、人之类。
此外,当soft-target熵值较高时,相对hard-target,它每次训练可以提供更多的信息和更小的梯度方差,因此小模型可以用更少的数据和更高的学习率进行训练。
而这样的soft信息存在于概率中,以及label之间的高低相似性都存在于soft target中。但是如果soft targe是像这样的信息[0.98 0.01 0.01],就意义不大了,所以需要在softmax中增加温度参数T(这个设置在最终训练完之后的推理中是不需要的)。
T就是调节参数,一般设为1。T越大,分类的概率分布越“软”
loss是两者的结合,Hindon认为,最好的训练目标函数为下图,并且第一个权重要大一点
算法框架示意图如下:
步骤如下:
使用hard-target训练大模型。 计算soft target:利用训练好的大模型来计算soft target。也就是大模型“软化后”再经过softmax的output。 训练小模型,小规模的神经网络用相同的T值来学习由大规模神经产生的软目标,接近这个软目标从而学习到数据的结构分布特征;在小模型的基础上再加一个额外的soft target的loss function,通过lambda来调节两个loss functions的比重。 预测时,将训练好的小模型按常规方式(右图)使用。 知识蒸馏,简单来说就是利用一个复杂度高的大模型进行训练,得到类别概率分布(soft-target),然后利用这个概率分布的损失和真实标签(hard-target)的概率分布损失做加权,形成小模型的total损失来指导小模型学习。
至于为何要引入这个soft-target,是因为大模型学习得到的soft-target包含了很多类之间的信息(我觉得就是学习了很正确的类别之间的信息得到的,所以可以反过来说它包含了很多类别之间的信息,包含类别之间的相似度等。)
这个soft-targe我感觉跟label-smooth有点像,只是label-smooth并没有用到把label-smooth后的标签和真实标签结合在一起指导模型学习。
soft-target,可以理解为是学习得到的,更加准确的类似label-smooth后的值。
而label-smooth是认为指定的,存在不准确因素。
点赞 收藏 分享 文章举报 梦坠凡尘 发布了67 篇原创文章 ·
获赞 17 ·
访问量 2万+ 私信 关注
简介: AI图像处理技术在光伏、纺织、LCD、PCB、芯片等多个行业取得的成功,证明了图像技术的可塑性。AI图像处理技术的跨界复制与持续迭代能力将加速该技术的产品化落地,最终实现在制造业的规模化应用。
一、黎明前的至暗时刻
正泰新能源是正泰集团旗下集清洁能源开发、建设、运营、管理于一体的能源解决方案提供商。致力于光伏组件的的生产和销售,光伏电站、储能、配网售电、微电网、多能互补等综合能源的投资建设,全球累计投资建设光伏电站3500兆瓦,光伏组件产能达到2500兆瓦。
正泰新能源的发展有很强的行业代表性。一方面,光伏发电成本正快速逼近化石能源。一旦成本持平,凭借其在绿色发电上的绝对优势,光伏产业将迎来市场拐点。但现实依然很严峻。正泰新能源副总裁黄海燕女士表示,当前中国光伏产业主要有三大难局。一是利润微薄,光伏企业严重依赖国家补贴。企业市场行为受补贴政策影响巨大。二是经常成为国家间贸易壁垒的受害者。全球60%的硅料,85%的硅片以及70%的电池片都来自中国。欧洲“地板价”、美国“双反税”等地方保护政策严重影响到中国光伏企业在国际市场的竞争力。三是客户对产品品质的要求更为“苛刻”,间接增加企业的生产与运营成本。
二、单点突破
自身能力的提升才能从容应对外界市场环境的波动。正泰新能源多年来,一直是智能制造的最佳实践者。从引进先进的自动化生产线,到自行开发MES系统(生产执行系统),随着大数据、人工智能、云计算等新一代数字技术的产业化落地,正泰嗅到了新的机会。那么哪里才是属于自己的机会? 正泰新能源质检经理罗刚表示,公司在选择大数据与AI落地场景上,并不是一上来挑战高难度,而是从复杂度相对较低、数据采集难度较小、数据质量能够得到保证,且收益明显的场景入手,这样才能确保项目的成功率,起到示范作用。而对正泰来讲,电池片和组件的质量检测环节正好满足上述条件。
质检素来是生产环节中占用人工多、耗时长、且不产生直接价值,但又无法忽视的环节。在光伏行业,车间质检人员都是通过EL设备对产品进行检测, 再用肉眼寻找瑕疵判定产品等级。辨认每张EL照片一般耗时在2秒以上,遇到难以判断的图片,甚至要花上更多功夫,即低效又低质。而为了控制劳动力成本,正泰同其它多晶电池生产企业一样,不得已采用抽检方式,这就导致出现漏网之鱼,影响客户满意度。正泰新能源寄希望利用AI图像技术,由人工抽检变为机器全检,提升产品出厂合格率。
何为AI图像质检?简单地讲,就是将一块电池片放到一个与计算机相连接的摄像头下面,由计算机来识别产品是否存在缺陷。其实正泰多年前就已经利用该技术代替人力做单晶电池片的自动检测。然而多晶电池片的复杂程度远高于单晶,多晶中每个晶粒的大小和形状都各不相同,即便当前行业中最聪明的算法也难以在密密麻麻的晶粒中,准确捕捉到细小瑕疵。因此,当看到了阿里云工业大脑在协鑫集团、天合光能等光伏企业上的成功, 正泰新能源副总裁黄海燕女士毅然决定与阿里云AI专家合作,借助阿里云ET工业大脑AI图像质检技术,共同攻克多晶电池片及组件瑕疵检测这一难题。
三、工业大脑四步走
其实AI质检的思考逻辑与人类质检员相似,都是在大脑中形成对缺陷产品的记忆,并通过记忆与所检测产品的比对,判定产品缺陷。而AI的优势在于远超人类的记忆力与推算能力,且不受外界干扰,也毫无疲惫感,毫秒间便能做出判断。以下四个步骤是工业大脑的正确打开方式:
记忆植入 – 记忆是决策的依据。项目首要任务就是要为工业大脑植入记忆。正泰质检部门将过去两、三年中收集到的带有产品缺陷的5万多张图片上传到算法服务器中。图片涵盖20余种的缺陷类型,例如 隐裂、缺角、黑斑、黑点、黑线、舟印、指纹印、区域发暗、烧结不良等。
智力训练 – 大脑虽然有了记忆,但智力仍处于婴儿水平,并无判断对错的能力。因此,需要在每一张图片中,把不同缺陷类型都清晰地标注出来,再输入到云计算平台,通过深度学习与图像处理技术做算法训练。算法就好比是数学公式,相同的答案可以有多种解题思路。一个聪明的算法可以在EL设备的协助下,每天在几万张图片中,以最优的方式识别出产品缺陷、并清晰描述缺陷类别、缺陷长度、面积、形状等,同时做到实时报警。
离线测试 – 模拟环境中训练出的算法,需要在离线环境中进行测试、优化。从最初的几千张到上万张,通过向算法不断输入新的图片进行训练,并对产品缺陷做进一步精细化标注,让算法可以从容应对所有可能出现的产品缺陷。
线上实测 – 实际生产过程中的质检环境与离线环境相比更为复杂,AI算法要经过实际产线上的考验。实测中出现的新问题需要反馈到算法模型中,把算法打磨的更聪明,判断问题更全面。
最终, 经过多轮的线上实测,AI算法的识别准确度可达到97%,不仅如此,从图像拍摄到数据接收、处理,然后到数据上传MES系统做缺陷判定,再到最后MES系统下达指令给机械手臂抓取缺陷产品, 整个流程耗时不到一秒,仅为原先的一半,且检测过程无需人工参与。这一结果意味着质检效率增加了一倍的同时,还可以腾出更多人工从事更为有价值的工作。
四、新起点、新征程
AI图像质检仅仅是正泰工业大脑之旅的起点。未来,工业大脑在跨工厂、跨价值流与跨产品三个层面都将有更大的发挥空间:
1.跨工厂 – 工业大脑目前仅是在正泰杭州工厂进行试点,未来几个月,大脑将复制、推广到正泰海宁、泰国等全球各个工厂。
2.跨产品线 – 工业大脑在多晶电池片积累的know-how,正快速复制到单晶电池片与电池组件的质检环节。
3.跨价值流 – 工业大脑可以通过对产品瑕疵的分析,进一步做产品质量溯源,识别上游的问题工序,并通过关键因子识别与参数调优,对生产工艺进行改善。
五、正泰工业大脑项目的三点启示
当前,中国制造企业整体自动化、数字化与智能化水平相对初级。以点作为突破口,带动线与面的发展,是一个相对稳健的工业智能发展路径。
工业智能项目收益与风险并存。在业务场景识别上,除了考虑业务价值, 更要正确评估自身的数字化水平以及外部大数据合作伙伴的能力与最佳实践,确保项目成功率,这样才能进一步赢得管理层信任,加速工业智能的整体推进。
AI图像处理技术在光伏、纺织、LCD、PCB、芯片等多个行业取得的成功,证明了图像技术的可塑性。AI图像处理技术的跨界复制与持续迭代能力将加速该技术的产品化落地,最终实现在制造业的规模化应用。
点赞 收藏 分享 文章举报 kongpingyuansu 发布了8 篇原创文章 ·
获赞 2 ·
访问量 2644 私信 关注