宋教授:嗯,这个不确定能不能说,之后跟领导确认下,如果不方便公布你们就剪掉吧。
主持人:没问题。
宋教授:其实这个项目除来自国家专项基金外,还有几家大科技公司资助,他们希望能从前期介入,看看这项技术商业化前景如何,另外点,们需要更多样本帮助机器进行深度学习,而真实环境中对象远远比实验室里
,这是女儿挑照片。对于人类来说,即便是个小孩,只要他见过猫,不管是大猫小猫,黑猫白猫,猫头猫尾,他都能够分辨出来。但对于机器则不是这样。
(16张图中13张都被打上红叉,只剩下3张猫咪头部正面特写,萌态可掬。)
宋教授:之前们做机器图像识别,无法像人样从事物不同状态中提取出某种底层不变性。抱歉又要拿猫举例子,只猫胖瘦,掉毛生病,或者给它穿戴上各种装饰品,它打个呵欠、发怒、舔舌头,它都是同只猫。而对于机器来说,图像尺寸、背景、光照、位移、旋转、畸变、遮挡……都会影响它判断,它只能根据既定算法进行有限层级映射,而无法模仿人脑通过多层神经网络进行分层递阶多粒度计算……
主持人:抱歉打断您下,这部分内容或许对于欠缺背景知识们来说有点难以理解,那您发明CATNIP系统是如何解决这个问题呢?
宋教授面露尴尬:不好意思不小心就说多。确切地说,们只脚才刚刚跨过门槛,离真正解决问题还早着呢,这个系统也只是整个大计划中个前驱项目。们灵感其实来自语义分析,大家知道,信息意义其实并不在于信息本身,而存在于其结构中,就像文本意义存在于上下文,图像意义存在于时空结构之中。们能否通过索引对象存在于整个时空结构中信息来帮助机器识别对象,这是整个项目灵感源起。
主持人:问个外行话,如果机器都无法准确识别对象,怎能去寻找它存在于,嗯,所谓时空结构中信息呢?
宋教授:你这个问题提得非常好。就像照片里小猫,你是先知道什是猫,再去找猫在哪儿,还是先知道猫在哪儿,再去识别什是猫?这就是个“鸡生蛋蛋生鸡”悖论。目前们神经科学和生理学知识尚无法解释人类认知过程是如何发生,更不用说教会机器。于是们采用另种思路。
主持人:这听起来就像是推理小说啊。
宋教授:呵呵,这个比喻有意思。们是这做,从语义上给定个对象,通过对接外部数据库去抓取相关信息,包括语义和图像,并按时间序列构建起意义连续体,然后们把真实对象摆到机器面前,比如说,只猫,机器会在捕捉到动态画面与意义连续体之间寻找可能流形映射,当它确定两者之间能够建立映射时,也就是说它“认出”这只猫时,就会“咔嚓”下,按下快门。当然这只是个简化比喻,背后有许多艰深算法,们希望以这种倒推方式找到提升机器识别能力办法,它更多是个数学上问题。
主持人:听起来蛮有意思,那怎会想到把这项技术从实验室里带到CCES呢?
请关闭浏览器阅读模式后查看本章节,否则可能部分章节内容会丢失。