IT课程

line-W

IT技术专业学习平台
IT人才专业服务提供商

 

line-W

全国热线:400-004-8626

line-W

01|计算机视觉任务

首页    技术博文    计算机视觉    01|计算机视觉任务

计算机视觉技术是一种多学科混合技术,旨在让计算机模拟人类视觉来理解看到的东西,所以“看懂”是计算机视觉的核心理念,任何计算机视觉任务、技术与应用必须围绕这个理念来设计与实现。本系列文章将会带你走进计算机视觉的世界,看到近几年计算机视觉技术发展的成果,体验人类是怎样从动物视觉甚至人类视觉的生物特征中提炼技术模型,应用在计算机视觉任务中。

学习计算机视觉,首先应该了解目前所流行的计算机视觉任务,即我们使用计算机视觉技术来做什么,而这些任务的完成质量将直接影响到计算机视觉产品的性能,总体上计算机视觉技术包含四大主要任务。


  • 图像分类(Image Classfication)

在Yeslab公会第一次活动中,大家看到的那个实例(猫狗血统分析)就是一个典型的图像分类任务。在训练过程中,必须提供猫(或狗)图片的所属类型,而在应用阶段,输入新的图片后,该图片也会被AI进行分析,然后输出各个类型的所属概率,获得概率最高的那一类我们可以认为就是本次分类的结果。

图像分类任务不在乎图像中的物体位置、物体数量、物体形态等信息,只要图像中有该类物体,那么如果AI认为图像很大概率属于该类物体就是最正确的结果。然而我们的猫狗实验中发现这个实例在真实使用中确实大有问题,经常出现分类错误的情况,后来想一想,其实猫狗的身体差异往往很难判断,但是脸部应该是识别率最高的部分,所以接下来要讲解下一个任务,如何在图片中找到猫或狗的脸部。

计算机视觉01

  • 图像定位(Object Localization)

图像定位与图像分类这两个任务,在实际使用时往往相互依赖,例如上面的猫狗实验应用主旨是做图像分类,但是如果先进行脸部定位会使图像分类任务容易的多,而完成脸部定位则需要图像定位任务的支持。在图像分类任务中我们需要对已经分类的图片进行训练,而图像定位的任务则要求输入已标注的图片,图像定位算法本身也是在图片的各个位置遍历一定大小的框框,试图以最合适优雅的位置大小框住目标。

计算机视觉01-01

  • 语义分割(Semantic Segmentation)

语义分割比图像定位更加困难一些,这个任务需要判断图片中哪些像素属于哪类物体,能完成语义分割任务的技术被广泛应用在自动驾驶,即自动驾驶汽车不需要知道前面这一堆行人都是谁,只需要把哪些像素属于他们标记出来,然后利用其它传感器与系统判断行人的距离,规划完成躲避、停车、行驶等动作。值得一提的是,对于语义分割任务,同类物体之间是没有区别的,而下面这个任务却有所不同。

计算机视觉01-02

  • 实例分割(Instance Segmentation)

实例分割任务是在语义分割任务的基础上,增加区分同类物体的不同个类,即最终输出结果为每个物体都标记为不同的颜色,这将有利于知识图谱的介入,例如在击剑比赛中对双方运动员做实例分割,提取其动作特征来完成后续的一系列智能运算,包含源于体态的战术分析等。

以上四个任务组成了计算机视觉的基本技术实现范围,也许有童鞋会问基于视频的识别呢?基于3D的计算机视觉呢?首先基于视频的识别是可以看作基于一连串图片的识别(每一帧)而基于3D的计算机视觉会牵扯更多其他学科的内容,其次人类对于计算机视觉本身仍处于探索状态,相信未来会有更多的任务等待我们去发掘与完成。接下来的文章中你将学习到能够应对以上四种主要任务的各种深度学习技术,相信计算机视觉是值得你一直关注的兴趣方向。

2018年9月19日 17:57
浏览量:0
收藏
本网站由阿里云提供云计算及安全服务 Powered by CloudDream