03B

拍照就能识别万物,AI是怎么看“懂”图片的? 2025年01月20日

生活中,AI图像识别无处不在。

看到不认识的植物?拍张照片,分分钟就能找到答案。自动驾驶汽车也好像长了眼睛一样,能轻轻松松判断出,哪里是道路,哪里是树木。人脸识别技术,也让我们实现了刷脸支付。

而这一切,都离不开一项技术——卷积神经网络。这项技术,就像AI的眼睛。

想了解AI的眼睛是怎么工作的,我们先要看一看动物的眼睛是怎么工作的。

从猫眼到AI眼:视觉神经元的启示

20世纪50到60年代,大卫·休伯尔和托斯坦·威泽尔对猫的视觉进行了研究,他们发现,在一幅画面进入猫的视野之后,猫大脑中负责视觉的神经元,被不同的东西激活了。

为了方便理解,我们看个例子。比如这样一幅画面,有的神经元对画面中物体的边缘线条非常感兴趣,会着重处理这些信息,有的神经元对大块的颜色比较敏感,更擅长处理这些信息。这些神经细胞一起工作,帮助生物识别各种复杂的图像。这项研究,让大卫和托斯坦获得了1981年诺贝尔生理学或医学奖,也启发了人工智能领域一个非常重要的算法,卷积神经网络。

卷积神经网络:图像识别的幕后英雄

和神经网络相比,卷积神经网络在识别图片的时候,多了两个过程:卷积和汇聚。

卷积,这个过程,是由一个叫卷积核的东西完成的。一张图片,在计算机的眼里,其实是一个个像素点组成的矩阵,卷积核不是单独去考虑每一个像素点上的信息,而是同时对某个区域,比如3×3,5×5的像素点信息进行处理。这样可以综合考虑相邻像素点的信息,更好地提取出更高级特征。

你可以想象一下,卷积核就像是一个观测员拿着有特定视野的望远镜去看一幅图片,把看到的信息处理记录下来。而且我们可以设置有不同侧重点的观测员,以提取图片中的不同维度信息。

卷积和汇聚,让卷积神经网络能够非常好地对图片信息进行提取,对于图像的学习处理效率上有了非常大的提升。当然,卷积神经网络也会使用跟神经网络一样的反向传播算法,不断根据已知结果逆向调整神经网络中的参数,以做出越来越准确的判断。(据科普中国)