【白话讲AI】计算机视觉技术应用概览

计算机视觉是让计算机“看”到物体及场景的技术,它已经在许多领域得到广泛应用:

识别图像中的主要物体或场景类别,如猫狗分类、皮肤病检测等。典型方法是通过卷积神经网络处理图像像素信息,训练出分类模型。

不仅判断图像主题,还可以定位图片中的物体位置,给出物体边界框。这用于自动驾驶、视频监控等领域。

对图像像素级分割,精确判断每个像素属于哪类物体。可用于医学影像分析、无人车辆视觉理解等。

在视频流中跟踪移动目标,如运动员跟踪、无人机跟踪。通常结合深度学习持续学习目标特征。

从图像中检测面部,并识别面部特征以判断身份。应用于安防和手机面部解锁等。

通过图像序列分析像素的运动轨迹,用于场景理解、自主导航等,可补充传感器信息。

通过视角变化重建三维场景或物体,用于机器人感知环境。结合深度学习可从单图像估计深度。

使用生成对抗网络等深度学习技术,根据需求自动生成实用的图像,如产品渲染图、人像翻转等。

计算机视觉技术正在渗透到生活各个领域,未来还将拓展更多应用,使机器能够像人类一样感知和理解视觉世界。