美摄科技侯康:汽车图像及视频解决方案技术路径解析
随着智能汽车不断发展,消费者对车身娱乐系统的要求也不断提高。尽管车身摄像头数量越来越多,但依然面临画质不佳、画面畸变等问题。在前不久结束的LiveVideoStackCon2022音视频技术大会上海站中,美摄科技AI算法团队负责人侯康分享了最新推出的汽车图像及视频处理方案,详细介绍了团队在解决上述问题中的探索与实践。
侯康首先介绍了车载摄像头畸变校正处理。他提到,车内拍摄与一般拍摄不同,车内摄像头一般放置在车的正中间,拍摄对象主要是人。而车内前排的主驾和副驾分坐两边,后排分坐三个人,此时主驾、副驾和后排坐两边的人的点会出现严重扭曲,导致画面不可使用。针对这种情况,美摄团队开发出了一套基于人脸特征的畸变校正算法,校正时更多关注人脸及人体,从而实现车内画面校正。
随后,他分享了美摄研发团队在传统方案基础上研发的智能校色方案。方案首先对原始图片的画面像素进行统计得到统计值并对其进行处理,通过算法得到十几项基本的调色参数(如亮度、曝光度、对比度、自然饱和度等),最后通过调节这些参数得到画质较好的图片。此外,他们还开发了一种清晰度算法来增强画面的局部色块、特征,结合边缘细节的增强可得到一个较柔和的增强后的画面。
摄像头防抖也是关键的一环。由于车辆行驶中拍摄到的场景复杂多变,此时若采用传统算法检测角点,根据角点匹配得到的单应矩阵或仿射变换矩阵来调节画面,可能无法消除抖动。而且当画面突变,如场景从开阔变为狭窄时,甚至会引入抖动。为了解决这个问题,美摄研发团队对局部进行防抖处理,借助AI算法判断画面中的静止部分和运动部分,基于这些状态判断画面抖动的具体参数,然后再进行处理,即可得到稳定的拍摄画面。
接下来是方案核心内容——汽车智能剪辑方案,这是目前美摄科技主推的一套方案,在一些大厂已经落地。智能剪辑方案的大致思路是对采集到的视频画面进行多维度分析,根据分析结果将视频结构化,并为每一段打上标签,得到对于视频的立体的理解。再根据客户的要求,如定制的拍摄主题、拍摄思路等,定制检测和匹配的规则,最终生成包装完成的视频。
整个框架主要分为三个部分。首先是AI检测,除了检测外,还会记录汽车行驶过程中的重要信息,比如车速、GPS信息等,并将所有数据存储到开发的数据库里,以后想再使用相同视频时,可直接在数据库中提取相关内容,无需再次检测。剪辑的时候也可直接从数据库中提取内容。
在画面智能分析内容方面,美摄SDK可支持2000多种标签类型。画面智能分析的难点不在于如何训练模型或得到好的结果,而是减小芯片的算力占用。汽车在行驶过程中除了拍摄还要执行其他功能,因此后台处理信息时需要保证小的算力占用。针对这个问题,美摄研发团队对模型结构和训练策略进行了优化。目前方案中使用了七八个模型,但在运行过程中只占用了低于5%的CPU就可以完成检测。
画面信息之外,车辆信息也非常关键。车辆信息包括时速、转向、时间、温度、天气预报和GPS信息等,这些信息本身是剪辑时所需的有效信息,也可以与AI检测结果联通,校正AI检测结果。
在剪辑策略方面,美摄的方案结合了深度学习检测和专家系统,即后期为前期的检测结果匹配一套剪辑的规则,通过分析用户选择的感兴趣的视频内容,推荐与之相关的剪辑主题,再根据剪辑主题内容提取出所选视频中的重要片段对其进行包装。
此外,侯康还向与会者介绍了车内AR互动、智能语音助手、AI图像识别等模块。据了解,目前美摄智能汽车及图像处理方案已应用在IM智己汽车等多家头部汽车品牌中,并已实现实车量产落地。下一步,美摄科技研发团队将持续根据车辆运行场景对方案进行针对性优化,与车企一道为用户带来更加高品质的驾乘体验。