视频图像结构化的研究-北京明景科技行业新闻-北京明景科技 - 视频侦查|影像鉴定|火灾调查|视频勘察|

视频图像结构化的研究

2020/04/13

视频结构化是指根据视频画面中呈现出的人、车、物、颜色、数字及其他属性特征，建立视频大数据结构化平台。视频被结构化后，存入相应的结构化数据仓库，存储的容量极大降低。

结构化系统可以从海量资料库中查找到某张截图上的嫌疑目标，有助于进行社会治安监控的风险评估和事件预警，并可通过不同位置采集的监控资料，研判目标的行为过程。

作为安防大数据最为重要的数据来源，视频图像实际上是一种非结构化的数据，它不能直接被计算机读取和识别，而在电商、舆情分析等目前大数据取得较好应用效果的领域，它们所产生的都是结构化的数据，能够直接利用计算机来进行数据的分析和挖掘。因此，视频图像能否通过智能分析技术经济而又高效地进行结构化处理，是视频大数据在安防领域落地的关键。

视频结构化，即视频数据的结构化处理，就是通过原始视频进行智能分析，提取出关键信息，并进行文本的语义描述。一段视频里，需要提取的关键信息有哪些？目前来看，主要有三类：第一类是运动目标的识别，也就是画面中运动对象的识别，是人还是车；第二类是运动目标特征的识别，也就是画面中运动的人、车、物有什么特征，如果是人，是男人还是女人，有没有戴眼镜，穿什么颜色的衣服，如果是车，车牌号号码是多少，什么颜色什么车型等等；第三类是运动目标的轨迹分析，也就是画面中人或车是左转了还是右转了或是徘徊了等等。

所谓视频数据的结构化处理，就是通过对原始视频进行智能分析，提取出关键信息，并进行文本的语义描述。一段视频里面，需要提取的关键信息有哪些？目前来看，主要是有三类：第一类是运动目标的识别，也就是画面中运动对象的识别，是人还是车；第二类是运动目标特征的识别，也就是画面中运动的人、车、物有什么特征，如果是人，是男人还是女人，有没有戴眼镜，穿什么颜色的衣服，如果是车，车牌号码多少，什么颜色什么车型等等；第三类是运动目标的轨迹分析，也就是画面中人或车是左转了还是右转了或是徘徊了等等。

事实上，智能分析很早就开始应用于安防领域，不过受限于算法的成熟度和硬件性能，早期的智能分析更多的是依靠后端的智能服务器来实现，直到各类智能分析算法日渐成熟，同时前端硬件性能得到大幅提升，前端智能的趋势才越来越明显，各类智能摄像机也纷纷涌现。视频图像的结构化处理是依赖于智能分析算法，因此，视频图像结构化的处理方式也有两种，一种是通过具有感知能力的智能摄像机提取结构化数据，再将数据传送到后端进行存储或是开展深入分析，另一种是前端摄像机只采集原始视频，由后端的智能服务器来对原始视频进行智能分析，形成结构化数据。

从实际表现来看，上述两种结构化处理方式都有自己的优势，但同时也各有劣势。比如前端智能摄像机进行结构化处理具有实时性的优势，能够减轻后端计算的压力，但是摄像机的硬件性能有限，无法实现复杂算法的运行；后端的计算能力强大，能够加载更多复杂算法，但是后端智能无法做到实时结构化，而且所有智能分析全部在后端实现，对后端计算资源的要求也会非常高。

随着芯片技术的不断优化，前端处理能力不断强大，将后端处理的压力逐步向前端转移是一个不可逆转的趋势。不过，要实现大数据应用，仅有前端智能还不够，还需要在后端按照规则对数据进行清洗、装载后进入数据仓库，然后才能够谈到上层的相关应用或是展现。因此，前端智能会用来实现一些相对基础的图像智能分析工作，更深层次的数据分析、应用还是要依靠后端平台。

前端智能分析的优势在于每一路前端摄像机都可以做智能的实时分析，消灭延时，减轻后端的计算压力，可以做到无遗漏的智能分析，同时，解放后端的计算资源；后端服务器的智能化则主要集中优势计算资源做更深入的二次分析。通过两种方式的配合，实现视频数据的结构化处理，并开展大数据应用。

智能分析如果全部在后端实现，计算资源、存储资源和网络资源的消耗都会相当大。如果都在前端实现，则因前端产品的差异性以及前端设备性能限制，不同厂家设备处理的结果可利用程度不一样，能处理的程度也有限，难以最终满足应用要求。因此，应该采用前端设备进行结构化的预处理工作，后端针对重要地点数据进行处理和对案事件关联数据进行精细化二次处理。

长远来看，随着视图云中心的发展，应该会逐渐弱化前端的智能分析功能，仅仅保留部分最基础的轻量型智能分析功能，如车牌识别，但是车型二次分析等有较大运算需求和定期算法升级更新需求的结构化计算会在后端处理，涉及大量的事后分析的计算也会放在后端云中心。

在小数据时代，前端智能和后端智能是可以相互替代或是两者结合的，但到了大数据时代，因为数据量非常大，且是多点多域多元的，两种智能分析模式一定是相互结合，将一部分预处理工作放在前端，后端的大数据中心实现更为复杂的数据处理。

对于到底是在前端还是在后端实现视频图像结构化的问题，前端摄像机的处理能力有限，加载一些简单的算法问题不大，如车牌识别和一些行为分析，但是要识别更为复杂的信息就有难度了，比如越界，是一个行为，要识别这个行为很简单，但是要分析越界的这个人的特征，什么发型，有没有戴眼镜等就有难度了，前端摄像机很难做到。后端平台的处理能力能够无限扩展，可以做大量复杂场景下的分析，而且能够灵活部署调配，哪里需要做智能分析就往哪部署，但是后端需要大量的投资，而且无法做到实时，因此一般都是用于事后分析。目前采用后端平台进行结构化处理的居多，因为大部分摄像机还是非智能的，要利用大数据进行研判、布控，利用后端强大的计算能力来做智能分析会更现实。

视频数据的结构化处理是制约安防大数据落地的关键，尽管不少业内企业都在这方面下了很大功夫，但目前绝大多数企业都只是实现了视频数据的半结构化处理，还无法直接完成视频图像的完全结构化。究其原因，一方面是要做到全实时的结构化对硬件资源和处理资源的要求非常高，另一方面是视频图像处理的人工智能技术目前也还达不到文本的智能的高度，算法还有待进一步完善。

智能分析技术仅仅是实现了对视频图像、图片等非结构化数据的语义描述，使之成为结构化（或半结构化）的数据，但要实现大数据应用，仅仅做到这一步还不够，还需要借助于云计算和云存储，为大数据提供强大的计算和存储资源，再深度结合各行业的实际业务应用，如此，大数据才能带来真正的价值。

视频结构化技术存在的不足点：

视频结构化会检测视频中整个画面内容，无法有效的针对同一目标特征值进行提取。
视频结构化特征识别的颗粒度较大，识别准度较差。
视频结构化在比对时，会把所有的特征值进行比对。

因此，在针对视频中的行人进行识别检测时可以考虑使用行人再识别（Re-ID）技术，进行对行人的精准重识别。

视频图像结构化的研究

导航

热门Tags