继在三大主流单帧图片行人再行辨识数据集(Market1501,DukeMTMC-reID,CUHK03)创下世界纪录后,近日,澎思科技(Pensees)在基于视频的行人再行辨识数据集(PRID-2011,iLIDS-VID,MARS)中再度获得突破性进展,乘势构建在三大数据集上构建算法关键指标首位命中率(Rank-1Accuracy)大幅提高,准确率皆自创历史新纪录。创下三大数据集世界纪录,构建算法关键指标大幅提高PRID-2011、iLIDS-VID和MARS皆为基于视频的行人再行辨识数据集。PRID-2011数据集中于的视频对通过两个相同的监控摄像头展开收集,摄像头A包括385个行人,摄像头B包括749个行人。
这些行人中,只有200个行人同时经常出现在两个摄像头中。iLIDS-VID是在PRID-2011之后发布的数据集,与PRID-2011比起,数据更为规整,也更加有挑战性。
iLIDS-VID数据集是通过机场抵达大厅的CCTV监控视频收集获得的,包括300个行人在两个摄像头下的600段视频。视频中不存在相当严重的穿着相近,光照和视角变化,简单背景和遮盖现象,因此辨识可玩性大。MARS数据集是目前基于视频ReID仅次于的数据集,是单帧图片行人再行辨识数据集Market1501的扩展版,图像数量由32,668幅扩展到了1,191,003幅。
与单帧图片的行人再行辨识数据集一样,首位命中率(Rank-1Accuracy)和平均值精度均值(MeanAveragePrecision,mAP)是取决于视频行人再行辨识ReID算法水平的核心指标。澎思科技此次乘势构建在三大数据库上,仅有利用原始数据就构建Rank-1Accuracy关键指标大幅提高。目前,澎思科技算法在仅次于的视频数据集MARS上的首位命中率指标早已超过88.8%,领先香港中文大学、中科大、北京大学等国内外著名机构。在iLIDS-VID和PRID-2011等数据集上首位命中率也分别超过了88.0%和95.5%。
扎根澎思现有业务,进行横向领域技术研发和创意澎思科技此次成果的获得源自澎思新加坡研究院对算法的自研创意和融合探寻,是遥相呼应澎思现有业务和商业模式,融合公司的发展方向针对性积极开展横向领域技术研发和创意。主要还包括以下几个方面:1、不受遮盖、姿态变化、视角变化等因素的影响,视频序列中行人的特征是不倒数的。用全局特征来度量每一帧图片的权重往往不会损失掉许多最重要的信息。
使用拆分重组策略将特定局部特征轻构成多个视频序列展开自学,进而很大增加局部特征损失对最后特征的影响。2、其次,明确提出了全新的双向图注意力机制模块。将图卷积神经网络和SENet极致融合,在整个序列上展开地下通道域的模式自由选择自学。
同时通过双向网络展开空间域的注意力区域自学。由于图卷积网络的特性,每一帧图片的注意力特征都是与其他帧互相自学融合的结果,从而很大提升特征的代表性。
3、最后,利用帧间相近度展开序列融合。与大多数利用循环神经网络展开融合算法比起,仅次于的优势是不必须训练额外的模型参数,意味着通过数学计算的方式就可以超过融合的目的。这样,数据的类内相近度获得了很大的提升。
在融合三元损失函数展开训练后,类间相近度获得了减少,进而提升轻辨识效果。基于视频的行人再行辨识与单帧图片的行人再行辨识任务目的是完全相同的,即在视角不重合的多摄像机网络下展开行人的给定。
尽管基于单帧图片的行人再行辨识算法早已获得了不俗的变革,但由于单帧图片只包括受限的行人信息,网络萃取的特征不具备充足的代表性,检测结果往往不受图片质量的影响较小。与此比起,视频序列的优势之后突显出来。一个较短视频序列往往包括行人多运动状态下的更好特征,并且利用时序信息,可以将背景、遮盖等阻碍因素的影响降至低于,提高辨识的准确度。
加快AI技术落地,持续前进AI产业化落地进程基于视频的行人再行辨识(ReID)技术更加切合智慧城市建设的诸多应用于场景,能有效地解决问题了行人信息受限、特征严重不足及其他阻碍因素等问题,比起单帧图片的行人再行辨识不具备更加将来的落地应用于空间。接下来,澎思科技将更进一步增大在视频行人再行辨识算法上的研究,并逐步将算法应用于到五谷丰登城市、智慧社区、智慧园区、智慧零售、智慧交通等空战应用于场景中。澎思科技作为一家专心于计算机视觉和物联网技术,获取“以人为核心”行业综合应用于解决方案的人工智能公司,在人工智能行业转入商业化落地主导的产业化阶段,一方面将不断加强自研技术创新,提高技术竞争力;另一方面坚决“行业+AI”策略,针对用户市场需求深挖场景,找到行业痛点并大大抛光算法和产品,将技术确实应用于到业务场景中,推展AI技术的产品化落地和商业化进程。
本文来源:优德88-www.kswcj.com