广州日报-人工神经网络如何认出它是猫

陈俊龙

雷视一体机

路口实时灯态系统

无线探地雷达广州日报全媒体记者王维宣摄

　　10月初，2024年诺贝尔物理学奖被授予美国科学家约翰·霍普菲尔德和英国裔加拿大科学家杰弗里·欣顿，以表彰他们在使用人工神经网络进行机器学习方面的基础性发现和发明。

　　人工神经网络实际是一类先进的算法，由其构筑的机器学习功能则是当今人工智能技术的基底。我们日常生活中遇到的人脸识别、语音翻译乃至各类大语言模型，背后都依靠人工神经网络带来的机器学习能力去实现。本期《科技周刊》，我们邀请广州的人工智能科学家和科技企业，向大家介绍人工神经网络的原理与应用。

　　文、图/广州日报全媒体记者武威（署名除外）

　　陈俊龙琶洲实验室副主任、华南理工大学计算机学院院长

　　何为人工神经网络

　　为何能让机器学习

　　人工神经网络实际是一种受人脑启发的机器学习算法及模型。它以类似人类神经元的方式作出决策，通过使用模仿生物神经元协同工作方式的过程来识别现象，用代码或程序形式来权衡利弊并得出结论。

　　简言之，人工神经网络就是一场仿生学+数学的极致演绎。在人类神经元上，有树突和轴突两类突起，这些结构实现了它与其他神经元或肌肉细胞间的连接，因此可以接收和传导信息，控制机体运行。而人工神经网络中的神经元实则为一个计算节点，节点之间通过电信号实现连接和通信，接收输入信号，计算产生输出信号，再传导给之后的神经元。

　　一个经典人工神经网络可分为输入层、隐藏层（若干）和输出层，每一层都由若干个神经元构成。（以右方概念图举例）

　　人工神经网络概念示意图

　　1 将图像分解为若干像素

　　当人看到一张猫的照片时，视神经产生的信号会通过神经元层层传导，最终帮助大脑判断这是不是一只猫。机器的方法则是，首先将猫的图像分解为若干个像素，像素转化为RGB三基色的数据。

　　2 输入层：神经元接收数据

　　RGB三基色会分别进入输入层的一组神经元中。

　　3 隐藏层：进行复杂计算

　　经过计算传导给隐藏层神经元，再经过复杂的计算，最终来到输出层。

　　4 输出层：根据概率作最终判断

　　输出层会出现两个值P0和P1。P0代表图片上动物是猫的概率，P1代表图片上动物不是猫的概率，当P0值大于一定数值，那么机器就会判断——这是一只猫。

　　到这里，各位还在上班的小伙伴应该就能理解，为啥你刷脸后单位的大门就为你敞开了？因为单位的人脸识别装置作了判断，认为它眼前的“你”极大概率就是你。

　　支持系统：

　　训练+算力

　　当然，机器要实现这些功能，还需要大数据预训练以及算力的支持。对机器的大数据预训练也可以想象为我们教育孩子的方式。比如我们要想让孩子认识猫，就会给孩子看很多猫，并告诉孩子这种动物是猫，于是，孩子就渐渐理解了猫的概念，再给孩子一张动物图片时，孩子就可以判断它是不是猫。不仅如此，当我们希望孩子再画一只猫时，很多孩子就能凭着脑海中猫的形象作画。

　　诺奖贡献1

　　联想记忆网络

　　如今的人工智能已实现生成一只猫的图片、视频的功能，追本溯源，这要归功本次诺奖得主约翰·霍普菲尔德于1982年发明的具有联想记忆功能的霍普菲尔德人工神经网络。

　　诺奖贡献2

　　玻尔兹曼机

　　另一位诺奖得主杰弗里·欣顿对人工神经网络的贡献则是发明玻尔兹曼机这一神经网络。利用玻尔兹曼机，机器可以通过提供的训练样本进行学习。训练好的玻尔兹曼机能够在先前未见过的信息中识别出熟悉的特征，并可以识别一个完全新的样本，只要它属于训练材料中已存在的类别，并且能将其与不相似的材料区分开来。

　　技术迭代

　　新神经网络催生大语言模型

　　● Transformer神经网络于2017年诞生，成为ChatGPT等大语言模型的核心技术

　　● 最初的霍普菲尔德神经网络参数约500个，如今大语言模型已超一万亿个

　　不难看出，两位诺奖得主的贡献为近40年来人工智能的高速发展奠定了重要基础。当前，人工智能的发展与研究正处于第三次高潮之中，助推此次高潮的，是人类在大数据、算力和算法3个领域的不断优化和能力的大幅度提升。

　　随着全世界科学家对算法的深入研究，人工神经网络正在飞速迭代和演化，并出现了不少新名词。比较著名的包括：卷积神经网络（Convolutional Neural Networks，CNNs），擅长处理具有网格结构的数据，如图像；循环神经网络（Recurrent Neural Networks，RNNs），擅长处理序列数据，如时间序列或自然语言，因为它们可以捕捉时间上的依赖关系；深度信念网络（Deep Belief Networks，DBNs），它由多个受限玻尔兹曼机堆叠而成，可以用于特征学习……

　　2017年诞生的Transformer神经网络颇具划时代的意义，它已经成为现代自然语言处理领域的核心技术之一，大家熟知的ChatGPT等大语言模型，正是基于Transformer架构构建的。Transformer为大语言模型提供了强大的基础，使其在理解和生成自然语言方面取得了显著的成果，这些模型的成功也反过来推动了Transformer架构的进一步发展和优化。

　　40年多来，人类在算法方面的发展是飞速的，最初的霍普菲尔德神经网络总共才有大约500个参数需要跟踪，而如今的大语言模型背后已包含超过一万亿个参数。

　　琶洲算法大赛为广州留住“算法师”

　　作为推动人工智能发展的核心引擎之一，广州市政府、科研机构、科技企业一直非常重视算法的发展。

　　由广州市人民政府、中国人工智能学会主办的琶洲算法大赛至今已经开展3届，并已形成全球影响。刚刚结束的第三届琶洲算法大赛吸引了全球36个国家、超过6000支队伍参与，参赛规模创历史新高。

　　大赛每年都会评选“琶洲领军算法师”，助力来自算法领域的人才和项目向广州汇聚。“算法师”的评定工作由琶洲实验室与中国人工智能学会等机构组织行业权威专家，按照公平公正公开的原则进行评定。大赛举办3年来，琶洲已经评选出41位琶洲领军算法师，落地人才团队170个，极大程度扩充丰富了本地算法人才数量和层级。

　　在琶洲算法大赛过程中，一批优秀的算法解决方案和产品被发掘。例如，通过大模型预测行人轨迹，服务无人系统、智慧城市、人类行为理解和服务系统等领域的共性问题；利用AI算法为消费者提供个性化的购物体验，构建一个去中心化的普惠平台；集成先进的政务知识库和大模型算法，深度解析政策文件和政务流程，提升政务服务的智能化水平和效率。

　　今年，成都球形世界科技有限公司荣膺第三届琶洲算法大赛全球总冠军。该公司提交的“‘唱鸭·天谱乐’AI音乐大模型”作品实现了文生音乐、音频生音乐功能，还首创图片、视频生音乐功能，降低了普通用户体验音乐创作乐趣的门槛。

　　广州科学家谈诺奖

　　我和学生对诺奖成果做了很多延伸研究

　　诺奖得主欣顿“十分讨厌飞行，只要有可能，他都乐于通过陆路交通参加学术会议”。

　　谈到今年的诺贝尔物理学奖，琶洲实验室副主任、华南理工大学计算机学院院长陈俊龙告诉记者，他对两位学者的主要研究成果非常敬仰，同时也做了对应的研究工作。

　　“其中一位诺奖得主欣顿，我与他有过比较深度的交流。”陈俊龙告诉记者，他曾担任IEEE系统人机及智能学会主席，该学会在人工智能领域颇有影响力，旨在表彰在人工智能、人机系统、系统科学及工业应用方向上做出杰出研究成果的学者。10多年前，他以学会主席的身份邀请欣顿前来参加国际会议，并作学术演讲。

　　“也是在那次国际大会上，我与欣顿就人工智能算法有了比较深度的交流。”陈俊龙说，“当时，我们坐在同一个主桌里讨论，他给我的印象是温文尔雅，非常有学者风范，话语不多，但思路清晰观点明确。他还有一个特点，就是十分讨厌飞行，只要有可能，他都乐于通过陆路交通参加学术会议。那次与他交流之后，我就回国了，比较少跟他有学术上的交流。但他的诺奖成果玻尔兹曼机我们研究很多，我和我的学生都对玻尔兹曼机作了很多延伸和深入的研究。”

　　陈俊龙表示：“我与霍普菲尔德本人没有亲身的交流，但他的神经网络非常经典，他将物理学的相关知识和概念应用到人工神经网络上，这也是人工神经网络方面最重要的发现之一。在我给学生上课的时候，会花很多时间去讲解。”

　　主要瓶颈：电力和算力

　　当然，人工智能在当下也遇到了一定瓶颈，特别是受到电力和算力的限制，目前，ChatGPT每天的耗电量已超过50万千瓦时。“至今，ChatGPT的数据只有20%利用率。未来，研究者应该试图去把模型变小，从而降低能耗。”来自香港科技大学（广州）的人工智能学域助理教授、博士生导师梁俊卫向记者直言。

　　陈俊龙同样认为，现有的大模型在电力、算力的限制之下，很难无限制地扩充。

　　“要突破瓶颈，就要期待有新的算法和模型以及各种新的技术出现，到那时，新的大模型可能就不需要那么大的电力、算力来支撑。我比较看好的是量子技术，它成熟了以后，目前传统的人工智能算法，可能就会被突破，相应的限制也会解锁。”陈俊龙说。

　　应用

　　算法底座正在赋能千行百业

　　在务实的广州，各类“小精尖”的垂类大模型正赋能广州千行百业，解决传统痛点，培育新质生产力。

　　交通大模型实现智能信号优化

　　佳都科技首席人工智能科学家兼通用大模型研究中心主任王凯博士告诉记者，佳都自主研发的知行交通大模型，正在为广州城市道路拥堵“排忧解难”。

　　“目前，佳都知行交通大模型正在赋能珠江新城花城广场区域的16个路口，实现智能交通信号优化。我们利用在各路口加装的雷视一体机，将雷达的轨迹数据和视频的图像数据相结合，精准刻画路口机非人的行为活动。”王凯告诉记者，经过大模型的分析推理，可以深入挖掘这些精细化数据的价值，实现交通流预测、信控方案自动生成与优化等功能，通过提供更合理的交通信号配时，减少或减轻拥堵情况的发生，“我们的大模型也将很快应用于花都区的160多个路口，实现较大面积的区域协调控制。”

　　透视雷达检测墙壁钢筋混凝土情况

　　在清华珠三角研究院内，广州水木星尘信息科技有限公司的工作人员对着墙壁操演着一款透视雷达。演示屏上，墙壁内部的钢筋、混凝土情况一目了然。公司总经理陈雁群向记者介绍：“这款雷达主要基于原来的探地雷达进行了硬件升级改造，并通过我们开发的AI算法，不断提高准确率，原先的雷达精度差，准确率不到50%，现在，通过AI的大数据训练，准确率能达到90%以上。雷达可以用于大坝、高铁隧道等基础设施的检测，应用前景十分广阔。”