我院教师郑秋梅、硕士生于涛在中科院大类分区2区TOP期刊《Engineering Applications of Artificial Intelligence》发表题为“Self-Supervised Monocular Depth Estimation Based on Combining Convolution and Multilayer Perceptron”的研究论文。《Engineering Applications of Artificial Intelligence》2021年影响因子为7.802,近五年平均影响因子为6.694,为银河电子游戏1331T2期刊。
目前用于自监督单目深度估计的方法分为两种,一种是采用全卷积的方式来构建编码器和解码器,但局部的线性运算以及采用池化的方式导致特征图在每一层都会有像素信息的损失,从而限制了性能。另一种方式是在编码器端采用transformer等进行特征提取,在每个阶段都以恒定分辨率进行处理,并具有全局感受野,因此可以捕捉到更细微的深度特征,获得更高的精度。但同时自注意力的计算量过于庞大,加重了内存开销。综合分析上述两种方法的优点和缺点,本文采用分解的大核卷积以及多层感知器 (MLP) 等组合的方式,设计出了一个全新的框架CSMHNet(a hybrid of a Convolution, self-attention, and an MLP network)。既可以弥补卷积静态权重和局部性的劣势,又大大减少了内存开销,同时获得更加精确和一致性的深度。
CSMHNet framework
原文链接:https://www.sciencedirect.com/science/article/abs/pii/S0952197622005772