GIS和视频监控的集成

时间:2024-03-07 09:31:56

本文讨论了使用增强现实(AR)技术的三维(3D)地理信息系统(GIS)和视频监视系统的集成。进行这种集成的动机是要克服常规视频监视系统面临的问题。关于哪个摄像机当前监视此类系统中哪个区域的明确信息;因此,对情况的洞察力在很大程度上取决于操作员的培训和经验。为了确保在具有多个摄像机的系统中完全协调和监视情况,有必要引入一个参考系统。 GIS之所以成为一种自然的解决方案,是因为它不仅提供了坚实的基础事实,而且还提供了在某些视频监控应用中可能非常重要的语义信息。要将信息集成到GIS应用程序中,必须对该信息进行地理参考。基于我们先前关于在监视视频中添加地理配准信息的研究(regarding the addition of georeferencing information to surveillance video),本文介绍了可用于帮助集成视频和GIS的模型。类似于米尔格拉姆在现实世界和虚拟现实之间的连续体,并类似于米尔格拉姆连续体中的增强现实和增强虚拟性,这里定义了两种集成模型:GIS增强视频和视频增强GIS。然后,我们基于这些提出的集成模型定义了基于GIS的视频监视的体系结构,最后实现了原型。所实现的原型是基于GIS和视频的集成来分析现实世界系统的可能应用程序的基础。

1.简介

  实时视频监控在众多安全,执法和军事应用的监控系统中扮演着越来越重要的角色(Oner Sebe等,2003)。 但是,传统的视频监控系统在多点监控方面存在各种问题(Kawasaki and Takai 2002)。 用于常规视频监视的典型系统将每个摄像机直接连接到相应的监视器。 因此,我们拥有与摄像机一样多的监视器。 当监视系统的规模大于监视人员的能力时,可能会出现严重的问题。 安全操作人员必须在心理上将每个监视监视器的图像映射到现实世界中的相应区域,而这一复杂的任务需要培训和经验(Kawasaki and Takai 2002)。

  为了促进多摄像机的协调和跟踪,Sankaranarayanan和Davis(2008)强调了建立可映射这些摄像机的通用参考系的重要性。 他们建议使用GIS作为通用参考框架,因为它不仅可以提供坚实的基础事实,而且(更重要的是)还可以用于存储语义信息(例如,建筑物,道路,敏感区域等)以用于在跟踪和活动分析等应用程序中使用。

  我们针对此问题的解决方案依赖于应用于GIS的增强现实技术的使用。增强现实技术旨在将用户观察到的真实场景和由计算机创建的虚拟场景结合在一起,该计算机通过补充信息来增强真实场景。与为用户提供合成环境代替现实的虚拟现实不同,增强现实可确保用户看到已被虚拟环境中的对象和信息增强的真实环境。为了更好地理解这些技术,必须检查Milgram和Kishino(1994)定义的现实-虚拟连续性。现实世界和完全虚拟的环境在这个连续体的相对两端,而介于两者之间的区域称为“混合现实”。增强现实更接近真实环境,而增强虚拟化更接近于该连续体的虚拟环境。与增强现实不同,增强虚拟化将真实图像添加到虚拟环境中,以增加虚拟对象的现实程度。

  如果我们将基于GIS的视频监控视为增强现实系统,则视频监控系统可以提供真实世界的视图,而3D GIS用于创建虚拟环境,该虚拟环境可以通过以下方式增强或增强现实。 要将监视视频与虚拟3D GIS环境链接,必须对视频进行地理参考(the video must be georeferenced)。 由于视频是由单独的图像(帧)组成的,因此地理配准包括使用有关捕获帧时摄像机视点的信息,向每个帧添加地理配准信息。 可以通过七个参数(称为观察者视点模型 the observer viewpoint model)来确定此信息

  为了定义3D GIS和地理空间视频之间的集成模型,我们依赖于Milgram先前提到的(1994年)现实世界与虚拟现实之间的连续体。 类似于连续体中的增强现实和增强虚拟性,我们定义了两种集成模型:GIS增强视频视频增强GIS。 第一个模型类似于增强现实,并且它更接近于视频方面,代表了真实世界。 第二个模型类似于增强虚拟化,它更接近使用3D GIS构建的虚拟现实方面。 基于所提出的集成模型和我们先前定义的视频地理配准(video georeferencing)定向全景摄像机(PTZ)directing Pan-Tilt-Zoom (PTZ) cameras 的方法(Milosavljević等人,2010年),我们的研究旨在定义架构并实现GIS- 基于视频监控(GIS-based video surveillance)。 然后将已实现的原型用于探索此类系统的可能应用。

  该文件的结构如下:第2节概述了有关视频监视和GIS的相关工作。 在第3节中,我们讨论监视视频地理配准(surveillance video georeferencing),并定义用于集成GIS和地理空间视频(integrating GIS and geospatial video)的模型。 第4节介绍了所建议的基于GIS的视频监视系统的体系结构,并概述了关键系统功能。 第5节总结了已实施的基于GIS的视频监视系统的好处和可能的应用。 最后,第6节介绍了结论。

2.相关工作

  视频监视,也称为闭路电视(CCTV),是基于使用摄像机将图像发送到一组有限的监视器上的特定位置的。 1942年,西门子公司在德国安装了第一套视频监视系统,以监视V-2火箭的发射(Dornberger,1954年)。 为了打击犯罪,1968年,美国第一个在其主要商业街上安装了摄像机的城市是纽约的奥利安(Greston,2010年)。 当前,城市中有成千上万的摄像机每天收集大量数据(Wang 2013)。 为了应对越来越多的已安装摄像机,现代视频监控系统依靠智能视频监控来实现自动化,并通过上下文感知解决方案和GIS更好地呈现监控数据。

  智能视频监控的目标是通过自动检测,跟踪和识别感兴趣的对象并了解和分析其活动,从监视摄像机创建的大量视频中有效地提取有用的信息(Wang 2013)。视频分析是智能视频监控的重要组成部分(Louw 2009)。松散定义为对由多个摄像机监视的场景中发生的事件的自主理解,在过去的二十年中,视频分析一直在迅速发展(Regazzoni等,2010)。除视频分析外,高级智能视频监控系统还能够通过分析来自多个不同传感器的输入来检测异常情况。传统上,视频监控系统的用户界面基于视频显示,地图和间接控件的阵列(Haan等,2010)。为了解决随着照相机数量的增加而出现的这种接口的局限性,新颖的视频监视系统旨在改善上下文感知。但是,空间导航仍然很困难,尤其是对于涉及许多摄像机的复杂事件的实时跟踪。在这种情况下,操作员必须快速,准确地决定要使用哪些摄像机在众多可用摄像机之间导航。

  为了克服已确定的局限性,Girgensohn等人。 (2007年)依赖于2D地图,该地图描绘了摄像机的位置和视图方向以及多个视频显示。 除了显示所有可用的摄像机视图外,仅显示“附近”视图。 更重要的是,在*视频图像周围放置了多个较小的视频视图,这样一个人走出一个摄像机的视野可能会出现在摄像机视图中,与他们走出前一个视图的方向相邻。 所选摄像机在地图上以颜色编码。 相同的颜色用作相机视图的边框,有助于将两个显示器绑在一起。

  视频监视中的空间上下文研究的第二个方向取决于将视频帧投影到正在观看的区域的3D模型中(video surveillance relies on projecting video frames into a 3D model of an area that is being watched.) 增强虚拟环境(Augmented Virtual Environment)(AVE)(Neumann等,2003; Oner Sebe等,2003)和视频闪光灯(VideoFlashlight)(Sawhney等,2002)就是此类系统的示例。 两种系统都依赖于投影纹理映射技术(projective texture mapping techniques)(Segal等,1992)在感兴趣区域的精确3D模型中显示视频。 这种方法的主要优点是,它允许操作员脱离真实的摄像机位置,而是从任意位置查看多个视频流。

  依赖于直接将视频投影到3D场景中(projecting video into a 3D scene)的解决方案的主要缺点在于,它们既需要环境的精确3D模型,又需要相机姿态估计(camera pose estimation)该技术的一种变体是将视频帧投影到放置在3D场景中的特殊面板上。 王等人的著作。 (2007,2008)和Haan等。 (2009年,2010年)在用于视频监控系统中摄像机之间导航的用户界面上演示了这种方法。

  要将视频集成到GIS,必须对视频进行地理参考(video must be geographically referenced.)Lewis等人考虑了将空间视频表示为地理参考视频数据的可能性,将其作为GIS中的其他数据类型。 (2011年),其工作重点是使用Viewpoint数据结构表示视频帧以实现视频地理空间分析(work focused on representing video frames using Viewpoint data structures to enable video geospatial analysis.)。在许多方面,地理配准视频等效于室外增强现实的相机姿态估计(Georeferencing video is, in many ways, equivalent to camera pose estimation for outdoor augmented reality)。 Min等。 (2007年)概述了解决此问题的不同方法。他们认为,任何户外增强现实系统都必须使用空间信息作为基本信息,以为该系统提供数字平台。 Mower(2009)提出了一种增强的场景交付系统,该系统用于从捕获的静止图像实时创建和分配带注释的制图产品。他关注的一个关键问题是通过Internet分发增强场景。 Sourimant等人研究了使用地理空间数据进行相机姿态估计。 (2007)在他们的研究中考虑了3D建筑物的重建。他们提出了一种基于GPS测量,视频序列和建筑物的粗糙3D模型的配准的方法。 Schall等人提出了一个关于如何将增强现实应用于地下GIS基础设施的可视化的绝妙想法。 (2009)。他们依靠GPS和惯性测量单元进行摄像机姿态估计在Ghadrian和Bishop(2008)的工作中可以找到集成GIS和增强现实的另一个例子,他们专注于基于GIS的真实感可视化方法,该方法使用基于离线视频的增强现实技术来表示基于GIS模型的景观身临其境的环境中进行修改。

  最后,我们应该强调,视频监控与GIS的集成不会与已经讨论过的智能和上下文感知视频监控技术相冲突。 相反,与GIS的集成提供了许多创新功能,这些功能为范围更广的上下文感知视频监视铺平了道路,例如链接多个视频监视系统的能力或集成地理位置传感器和其他地理空间视频源的能力 (例如,安装在直升机上的摄像头)。

3. 3D GIS和视频的集成 Integration of 3D GIS and video

  “视频”一词用于表示以一系列静态图像(称为“帧”)呈现的运动图像,这些图像代表以规则间隔的时间间隔捕获的场景的快照(FOLDOC 2011)。 由于视频由单独的帧组成,因此要对整个视频进行地理配准,必须对每个帧进行地理配准。 为了对视频帧进行地理配准,我们依赖于在捕获帧时有关摄像机视点的信息。 在我们之前的论文中,一组描述相机视点的数据被定义为观察者视点模型 observer viewpoint model(Milosavljević等人,2010年)。 观察者视点模型指定了七个参数,这些参数可以完全确定3D空间中的相机视图。 这些参数指定摄像机的位置,方向和视野。

  关于地理配准视频监视摄像机框架,此类摄像机的基本特征是将它们绑定到固定位置。 因此,在摄像机安装过程中确定了摄像机视点的位置参数(纬度,经度和纬度 lat, lon and alt),这些参数是恒定的。 对于固定摄像机,其他四个参数也保持不变,而对于PTZ摄像机,可以从本地摄像机参数(例如,平移,倾斜和缩放)确定它们。 相应的转换已在我们之前的论文中进行了描述(Milosavljević等,2010)。

  无论用于视频地理配准的方法如何,都有几种将地理空间视频与3D GIS集成(integrate geospatial video with 3D GIS)的方法。 为了定义3D GIS和地理空间视频集成的两个模型,我们使用了与Milgram(1994)连续体的类比。 但是,我们用地理空间视频代替现实世界,而不是现实世界,而用虚拟3D GIS代替虚拟现实,来创建现实世界。 集成的第一个模型类似于增强现实( augmented reality)。 我们将此模型称为GIS增强视频(GIS-augmented video)。 第二种模型类似于增强虚拟性。 我们称此模型为视频增强型GIS(video-augmented GIS.)。 修改后的米尔格拉姆连续体(Milgram’scontinuum)的图示如图1所示。

  

 

图1.使用Milgram在现实世界和虚拟现实之间的连续体的修改版,确定了两种地理空间视频和3D GIS集成模型。

   GIS增强视频的关键功能是直接显示视频,同时在后台创建相应的3D GIS场景,从而为图像中的任何点提供地理位置。 当然,地理位置和显示对象上的信息的质量直接取决于用于创建场景的模型的质量。 此模型更接近连续体的视频端,因此可以认为是以视频为中心。 焦点放在视频显示器上,而对地理空间数据的访问仅限于当前的摄像机视图。

  表1.地理空间视频和3D GIS集成的两种模型的比较概述。

 

  第二种模型是视频增强型GIS(video-augmented GIS),位于连续体的3D GIS一侧,因此可以视为以GIS为中心。 该模型的主要功能是将视频帧投影到虚拟3D GIS场景中,同时允许场景内的*移动。 这种方法的主要优点是它支持将多个视频流混合到一个虚拟场景中的能力。 表1显示了这两个模型具有的功能的比较概述。

  所提出的模型虽然有所不同,但没有冲突。 对于某些操作,例如直接控制PTZ摄像机,第一种模型更合适,而对于其他一些操作,例如监视一组固定摄像机覆盖的区域,第二种模型似乎更好。 因此,实现基于GIS的视频监视的软件应支持两种集成模型。

4.基于GIS的视频监视系统的体系结构

  基于提出的集成模型以及视频地理配准(video georeferencing)定向PTZ摄像机(directing PTZ cameras)的方法,我们设计并实现了基于GIS的视频监视系统(GIS-based video surveillance system)的原型

   架构设计的主要目标是提供一个灵活开放的系统,该系统可以轻松扩展以应对各种视频和地理数据源。 为此,我们依靠客户端/服务器架构模型并确定了两个子系统:GeoVideo服务器(GeoVideo Server)VideoGIS应用程序(VideoGIS Application)GeoVideo服务器是一个调解器组件,可抽象化对视频源(在这种情况下为监视摄像机)的访问,从而简化了VideoGIS应用程序的设计。 另一方面,作为胖客户端的VideoGIS应用程序的主要作用是基于所提供的地理数据存储库(geodata repository)创建虚拟3D GIS场景并集成所提供的地理空间视频。 图2显示了描述此基于GIS的视频监视系统体系结构的UML图。

 

 图2.基于GIS的视频监视系统的子系统级体系结构。

4.1 GeoVideo服务器的体系结构(Architecture of the GeoVideo Server)

如前所述,GeoVideo服务器子系统代表与基础视频监视系统的接口。 更准确地说,GeoVideo服务器的作用是获取和地理参考视频帧,计算本地参数以将PTZ摄像机定向到给定的地理位置。

  GeoVideo Server子系统的体系结构使用具有三层的分层模型(请参见图3中的UML图)。 顶层实现用于与VideoGIS应用程序通信的HTTP接口底层实现了可以支持多个视频源的接口中间层用于对视频帧进行地理参考并在本地和全局摄像机方向参数之间执行转换

  为了更好地了解GeoVideo Server提供的功能,表2中列出了带有相应参数的一整套HTTP接口命令。

 表2. GeoVideo服务器的HTTP接口。

 

 

 4.2 VideoGIS应用程序的体系结构

 VideoGIS应用程序是一个非常复杂的胖客户端子系统,集成了视频、GIS和3D可视化功能。 为了更好地应对此应用程序的复杂性,我们还使用多层体系结构对其进行了组织。 图4显示了描述VideoGIS Application三层体系结构的UML图。

 

 

图3. GeoVideo服务器的多层体系结构。

 

 图4. VideoGIS应用程序的多层体系结构。

  最底层称为“ GIS”, 该层实现地理空间数据的组织和访问, 可以将其视为上层的数据和功能提供者。 中间层称为“虚拟地球”, 顾名思义,该层实现了地理数据的3D可视化,因此它在全局级别上介导了与3D对象的交互最后,在顶部我们有一个“ Video Globe”层,它实现了VideoGIS应用程序的前端。 该层处理地理空间视频和虚拟3D GIS场景的混合和显示。

  可视化和与获取的地理空间视频的交互是使用与三种不同查看模式相对应的三种不同技术实现的:

  • 以视频为中心的模式
  • 视频广告牌模式
  • 投影视频模式

  以视频为中心的模式基于称为GIS增强视频的集成模型(Milosavljević等,2010)。该模型的特点是直接显示视频,而在后台构造关联的虚拟场景,使用户能够与基础GIS对象进行交互。作为扩展,以视频为中心的模式还包括使用先前讨论的空间上下文技术显示附近摄像机的视频的能力(Girgensohn等人,2006,2007)。相应的视频流显示在*视频周围的插槽中(请参见图5),并且操作员可以在摄像机之间快速切换。视频广告牌模式的灵感来自Wang等人的工作,(2007,2008)和Haan等。 (2009)。在这种查看模式下,使用始终面向观看者的特殊面板(广告牌)在构建的虚拟场景中显示视频。面板位置由摄像机位置决定。使用附加的指针显示摄像机的方向(请参见图6)。视频广告牌模式连接到以视频为中心的模式,因此,当操作员选择视频广告牌(双击)时,应用程序将切换到该摄像机的以视频为中心的模式。

  

 

图5.以视频为中心的可视化示意图。

   最后和最苛刻的观看模式涉及将多个视频流投影到虚拟3D GIS场景中。 投影视频模式(Projected video mode)对应于第二种集成模型,称为视频增强GIS(video-augmented GIS)。 这种模式的灵感来自Sawhney等人的工作。 (2002),Neumann等。 (2003),和Oner Sebe等。 (2003)。 该模式的关键功能是能够将多个视频流混合到一个场景中,并从任意位置观看它们。

 

 

 图6.视频广告牌元素的示意图。

   视频帧投影基于称为投影纹理映射(projective texture mapping)的技术(Segal等,1992)。这类似于将幻灯机添加到3D GIS场景中,使用框架地理参考信息对其进行定位和定向,然后将该框架投影到场景中的对象上。自1.0版以来,OpenGL图形库已支持投影纹理映射有关如何在OpenGL中应用此技术的说明,请参见(Everitt 2001)。不幸的是,OpenGL中的投影纹理映射不能像实际的幻灯机一样工作。这种技术的第一个问题是向后投影,而第二个问题是它没有考虑物体的遮挡。换句话说,当我们将视频投影到场景中的建筑物上时,实际上是将其投影到目标建筑物后面的建筑物上。为了克服这些问题,我们将投影纹理映射与通常用于硬件阴影映射的类似技术相结合(Everitt等,2001)。解决这些问题后,现在可以使用以下三个步骤来投影视频帧:

(1)创建深度纹理:深度纹理与硬件阴影映射一起使用。当从摄像机的视点绘制场景时,通过将z缓冲区映射到纹理为每个摄像机创建深度纹理。
(2)创建遮罩纹理:当从用户的角度绘制场景时,通过将场景亮度映射到纹理中,为每个摄像机创建一个遮罩纹理,并将场景照明设置为摄像机的位置和阴影
映射已打开(这需要先前创建的深度纹理)。
(3)使用遮罩投影视频帧:投影视频模式需要几个渲染步骤。首先,渲染3D GIS场景,接下来,对于每台“可见”摄像机,我们都需要使用当前视频帧纹理的蒙版投影对场景进行一个额外的渲染。在我们开发的片段着色器中应用了遮罩(请参见表3)。实施的片段着色器启用半透明遮罩,从而可以更好地控制投影视频帧。

表3.用于投影视频帧的片段着色器的源代码。

uniform sampler2D texFrame; // Video frame texture (0)视频帧纹理
uniform sampler2D texMask; // Masking texture (1) 遮罩纹理
uniform vec4 vp; // Viewport 视口
uniform float scale; // Masking value scale (3.0f)
uniform float threshold; // Masking value threshold (0.1f) 掩蔽值阈值
uniform float alpha; // Projected frame max. alpha (1.0f) 最大投影框
void main() 
{ 
   if(gl_TexCoord[0].q > 0.0) // Eliminates couter projection 消除繁琐的投影
   { 
     vec4 colorFrame = texture2DProj(texFrame, gl_TexCoord[0]); 
     if(colorFrame.a > 0.0) 
   { 
     vec2 pos; // Masking texture coordinate  遮罩纹理坐标
     pos.x = (gl_FragCoord.x - vp[0]) / (vp[2] - vp[0]); 
     pos.y = (gl_FragCoord.y - vp[1]) / (vp[3] - vp[1]); 
 
     vec4 colorMask = texture2D(texMask, pos); 
     if(colorMask.r > threshold) 
     { 
       gl_FragColor = vec4(colorFrame.rgb, 
       min(alpha, scale * colorMask.r)); 
     } 
     else discard; // Discards fragment  丢弃片段
   } 
   else discard; // Discards fragment 
 } 
 else discard; // Discards fragment
}

  图7显示了直接使用投影纹理映射(a)和基于阴影映射的已实现技术(b)的比较。 重要的是要注意,投影视频帧(projecting video frames)的已实现技术在计算上是密集的。 最好的情况是观察者是静态的,即场景被创建并且投影视频时每个摄像机仅需要一个附加的场景渲染。 但是,当观察者移动时,需要为每个摄像头进行其他渲染以生成遮罩纹理。 因此,当前从其同时投影视频的摄像机数量受到限制(在我们的示例中为4至5个)。 为了选择适合当前环境的相机,系统必须依靠空间标准(即代表用户和相机可见区域的多边形的交集)。 这是当前实现缺少的功能。

   本文稍后将在讨论基于GIS的视频监视的可能应用的部分中,找到该原型提供的已实现视频模式和其他功能的更详细介绍。 此外,可通过以下链接观看视频演示:http://www.youtube.com/watch?v=VJGC2P3t8xg

 

 图7.直接使用投影纹理映射(a)并使用基于阴影映射的已实现的遮罩技术(b)投影的视频帧。

 5.基于GIS的视频监视的好处和可能的应用

 将视频监视与GIS链接在一起,开辟了传统视频监视系统无法实现的新机遇。 这些类型的功能对于大型户外视频监视特别有趣。 具体来说,基于GIS的视频监视具有以下优点:

  • 基于GIS的用户界面,可提高态势感知能力
  • 自动将一台或多台PTZ摄像机定向到给定的地理位置
  • 与地理位置传感器集成
  • 与执行器系统集成
  • 基于地理位置的自动化处理事件

 5.1基于GIS的用户界面

 常规视频监视系统的用户界面包括监视器,该监视器显示来自选定摄像机的视频,提供在摄像机之间切换的方式,并提供PTZ控制器来控制PTZ摄像机。 随着摄像机数量的增加,这种类型的界面变得越来越不可用。 当必须实时监视一组复杂事件时,该问题会更加严重。 在这种情况下,当被监视物体移出当前摄像机的视线时,操作员需要快速,准确地切换摄像机。 由于传统系统没有关于摄像机位置和方向的明确信息,因此操作员的决策仅基于他们对摄像机的布置方式以及所监视区域的覆盖范围的了解。 那需要经验和训练。 在这种情况下,PTZ摄像机尤其成问题,因为它们可以移动以观察不同的兴趣区域。

   通过对监视视频进行地理配准,我们可以获得有关在捕获帧时摄像机位置,方向和视野的信息。 将此信息与GIS相结合,为设计视频监视系统的用户界面提供了许多机会。 带有投影视频或视频广告牌的虚拟3D GIS场景,使附近的摄像机以视频为中心模式显示,代表了一些可能的解决方案。

  将视频帧投影到虚拟3D GIS场景中,可以完全脱离传统的以摄像机为中心的视频监视方法。 在投影视频模式下,操作员任务从选择合适的摄像机变为选择合适的区域。 发生此更改是因为系统现在可以自动选择最合适的摄像机。

  除了其明显的优点外,该方法还具有一些缺点。 这些缺点源于用于构建将视频帧投影到其中的虚拟场景的3D模型中的缺陷。 无论3D地理空间数据的精确度如何,它们目前都无法完全对现实世界中的所有对象(例如车辆,人,树木,路灯等)进行建模。 因此,将视频投影到这些“丢失”的物体上会导致视觉失真。 这些失真虽然在观察者的视点与相机的视点对齐时是无缝的,但随着观察者视点偏离相机的视点而变得越来越明显。 图8展示了此问题。

  

 图8.从摄像机的视点(a)和从任意视点(b)观看的投影视频。 在第二种情况下,可以观察到汽车和广告牌的视觉失真。

  除了投影视频模式之外,为了增强态势感知,已实现的基于GIS的视频监视原型还具有图9所示的视频广告牌模式。
  与投影视频不同,公告板模式可以将视频流集成到3D GIS场景中,从而清晰地描绘出摄像机的位置和方向。 通过这样做,操作员可以对提供附加视频流的摄像机的布置和存在情况有一个全面的了解。 作为3D GIS场景中的特殊对象的广告牌也用于在摄像机之间切换,即,对于任何特定摄像机都切换到以视频为中心的模式。

 

 

 图9.包含视频广告牌的虚拟3D GIS场景概述。

   最后,为了实现更好的态势感知,以视频为中心的模式还补充了任何周围摄像机的与空间相关的视频预览。 这些预览围绕当前活动摄像机的*视频排列。 进行该布置以从活动摄像机视图的中心反映周围摄像机视图的中心的相对位置。 这些预览面板还可以用作切换活动摄像机的方法。 图10显示了以视频为中心的模式。

 

 

图10.以视频为中心的显示模式,显示了一个活动的GIS增强型摄像机

  视频在中心,并补充附近摄像机的空间背景预览。

 5.2自动将PTZ摄像机定向到给定的地理位置

 基于GIS的视频监视的主要优势之一是该系统可以引导PTZ摄像机查看给定的地理位置。 在更广泛的上下文中,这表示将摄像机定向到某些地理参考对象或事件的能力。 如果该对象是可移动的,即地理位置随时间变化的对象,则该功能将启用对象跟踪。

   与传统的PTZ摄像机控制不同,在传统的PTZ摄像机控制中,操作员使用操纵杆控制摄像机,而自动控制则使用绝对(地理)位置信息将摄像机定向到给定的地理位置。 此功能还可以选择合适的摄像机并将其同步定向到空间中的单个位置。

  对于需要在最大监视下跟踪高优先级对象的任务,几个摄像机的同步方向可能很有用。 受益于此功能的另一种情况包括投影视频模式。 在投影视频模式下,可以确定用户视图的*地理位置,然后将所有相关摄像机定向到该地理位置。 此外,根据用户进入虚拟场景的视野和场景与用户视角的距离,可以计算出观看区域的直径。 每个摄像机的视野(即缩放)都可以反向计算,并可以通过该参数进行设置。 如果每次用户的视图改变时都应用这种定向方法,则可以实现摄像机“跟随用户”的效果。 图11描绘了将两个PTZ摄像机对准同一地理位置时同一建筑物的两个不同视图。

 

 图11.使用投影视频的场景的两个不同视图,其中几个摄像机被定向(并缩放)到当前的中心视图。

 5.3与地理位置传感器集成

 集成地理位置传感器的能力是基于GIS的视频监视的另一个重要功能。 我们认为“地理位置传感器”一词包括可以检测某些类型的事件且已知地理位置的任何设备。 通过知道传感器的位置,事件本身就成为地理参考。 此外,通过将此类信息引入GIS,可以在地图上可视化所感测到的事件,同时基于GIS的视频监视也带来了更多的机会。

  对于检测到的地理位置事件,基于GIS的基本视频监视反应是激活可观察事件,在视频中突出显示事件并警告操作员的摄像机。 当视频监控系统包括PTZ摄像机时,也可以使用最合适的PTZ摄像机进行定向和/或放大。

  例如,考虑如何将这样的系统与入侵检测系统集成在一起。 入侵检测系统由相当简单的传感器组成,这些传感器可以检测运动,例如门的打开。 当传感器检测到某些警报事件时,系统可以指示最合适的PTZ摄像机进行查看和放大以检查该事件。 甚至有可能使用视频分析来自动进行此类事件检查,从而减少误报。

   集成地理位置传感器的主要好处是可以更有效地使用视频监视系统。 这里,我们特别指的是PTZ摄像机,它是系统中功能最强大(也是最昂贵)的组件之一。 PTZ摄像机的传统用法涉及所谓的“巡逻模式”,其中摄像机操纵并监视一组预定义的位置。 但是,通过将事件检测与一组廉价的传感器集成在一起,该系统可以确保更有效的监视,从而可以减少所需的摄像头数量,甚至可以减少参与监视和安全性的人员数量。 另一方面,从入侵检测系统的角度来看,与视频监视的集成提供了一种识别犯罪者并记录任何对视频的入侵的方法。

  传感器集成为将较小的(本地)安全系统集成到较大的(全局,集中式)安全系统中提供了机会。 例如,将银行的本地安全系统与城市的全球安全系统一起考虑。 这些系统之间的直接耦合确保了更快的反应,这对于抢劫案至关重要。 警报启动后,立即将城市控制的PTZ摄像机定向到银行所在地,可以帮助识别抢劫犯的车辆并跟踪其逃逸情况。 下一部分将介绍在这种情况下进行警察巡逻。

  5.4与执行器系统集成

当应用视频分析技术时,监控摄像机本身就成为用于对象检测和跟踪的传感器。 利用集成的视频地理配准和对感兴趣区域建模的地理空间数据,可以确定摄像机视图中对象的确切地理位置。 此类信息可以轻松转发到可以采取适当措施的其他系统。

  请考虑以下情形。视频监视操作员检测到事件,例如房屋盗窃。借助GIS的强大功能,操作员可以立即获取房屋的地理位置并将其标记在视频上,以便将其位置自动发送给警察。假设警察有一个跟踪现役警察巡逻当前位置并具有路线规划功能的系统。因此,给定事件的地理位置可以自动用于确定并发送最近的可用警察巡逻。如果罪犯逃跑,操作员可以使用PTZ摄像机跟踪他,而警察可以不断接收他的最新位置。继续这种情况,最终犯罪者将开始离开跟踪他的摄像机视野。但是,此时,系统会自动找到操作员应切换到以保持监视的摄像机。将此基于GIS的视频监视系统配备视频分析功能可以进一步自动化此方案。

 5.5 事件处理中基于地理位置的自动化

 每个事件都经过地理定位的事实(无论它是源自传感器视图还是来自摄像机视图)都可以用于自动处理该事件。 定义地理空间标准以处理检测到的事件可以提高系统的灵活性和效率。 当潜在威胁的数量和系统本身都很大时,此功能尤其重要。 根据事件的地理位置指定事件优先级可以确保同时处理多个事件并具有足够的资源共享。

6结论

本文提出的研究目标是通过有利于视频监视操作的方式将视频集成到GIS中。 要将监视视频与虚拟3D GIS环境链接,必须对视频进行地理参考。 在我们之前的论文中(Milosavljević等人,2010年)提出了一种将PTZ摄像机视频进行地理配准的方法,该方法允许将其与相应的虚拟3D GIS场景合并。 在该论文中,我们还提出了一种将PTZ摄像机定向到特定地理位置的逆方法。 本文基于这些早期的结果,代表了一种更加系统的视频和GIS集成方法。 主要贡献如下:  

  • 确定两个视频-GIS集成模型
  • 定义了依赖地理视频的开放和可扩展的系统架构
  • 分析此类系统对视频监控的可能影响

   结合3D GIS和地理空间视频的模型是根据Milgram(1994)在现实世界和虚拟现实之间的连续体定义的。 类似于此连续世界中的增强现实和增强虚拟性,我们定义了两种集成模型,分别称为GIS增强视频和GIS增强视频。 第一个模型类似于增强现实,它更靠近视频,因为它代表了现实世界。 第二个模型类似于增强虚拟化,因为它是使用3D GIS构建的,因此更接近虚拟现实。

  基于这两个提议的集成模型,我们的研究旨在确定基于GIS的视频监视的体系结构并实现原型。 该架构依赖于客户端/服务器模型,因此我们确定了两个基本子系统:GeoVideo服务器和VideoGIS应用程序。

  第一个子系统处理监视视频的获取和地理配准,包括将PTZ摄像机定向到给定地理位置所需的计算。 从VideoGIS应用程序的角度来看,GeoVideo服务器代表了地理空间视频的来源。 该中介组件抽象了对原始视频源的访问,从而简化了客户端应用程序的实现。

  VideoGIS应用程序代表了一个复杂的子系统,除了域服务外,还集成了GIS和3D可视化功能。 这三个功能反映在应用程序体系结构中,该体系结构分为三层:GIS,虚拟地球仪和视频地球仪。

  所提议的体系结构的主要优点是引入了由GeoVideo服务器提供服务的地理空间视频,从而无需其他更复杂的客户端VideoGIS应用程序即可将提议的解决方案开放给其他地理空间视频源。该体系结构还分配责任:客户端处理可视化,而服务器处理视频地理配准和控制。这种体系结构既简化了软件的实现,又使其更强大。基于提出的体系结构,我们实现了基于GIS的视频监视系统的原型,该原型既可以作为概念证明,又可以作为未来研究的平台。目前,已实现的原型仅涵盖可视化和摄像机控制。然而,所提出的架构适合于添加与智能视频分析有关的其他功能以及提取视频中动态对象的时空信息。提出的解决方案包括用于将此类对象映射到地理空间的框架。

  建立在建议的原则上的系统对于实时处理某些“现实生活”情况可能非常有用。 现在,视频监视主要仅在事件发生之后(用于事件后分析)而不是在事件本身(用于处理或预防事件)期间使用。 包含的基于案例的分析试图证明可能性。

  参考文献

Dornberger, W. 1954. V-2, Ballantine Books, ISBN: 978-0553126600.
Everitt, C., 2001. Projective Texture Mapping. White Paper, nVidia Corporation. Available
from:
http://developer.download.nvidia.com/assets/gamedev/docs/projective_texture_mappin
g.pdf [Accessed 1 November 2015].
Everitt, C., Rege, A., Cebenoyan, C., 2001. Hardware Shadow Mapping. White Paper, nVidia
Corporation. Available from:
http://developer.download.nvidia.com/assets/gamedev/docs/shadow_mapping.pdf
[Accessed 1 November 2015].
FOLDOC, 2011. Video. Free On-Line Dictionary Of Computing (FOLDOC), Available from:
http://foldoc.org/video [Accessed 1 November 2015].
Haan, G. de, Scheuer, J., Vries, R. de, and Post, F. H., 2009. Egocentric Navigation for Video
Surveillance in 3D Virtual Environments. In Proc. of IEEE Symp. on 3D User
Interfaces (3DUI\'09), 14–15 March 2009, Lafayette, Louisiana, USA, 103–110.
Haan, G. de, Piguillet, H., Post, F. H., 2010. Spatial Navigation for Context-Aware Video
Surveillance. IEEE Computer Graphics and Applications, 30 (5), 20–31.
Ghadirian, P. and Bishop, I.D., 2008. Integration of augmented reality and GIS: A new
approach to realistic landscape visualisation. Landscape and Urban Planning, 86, 226–
232.
Girgensohn, A., Shipman, F., Turner, T., and Wilcox, L., 2007. Effects of Presenting
Geographic Context on Tracking Activity between Cameras. In Proc. of SIGCHI Conf.
Human Factors in Computing Systems (CHI 2007), April 28-May 3 2007, San Jose,
California, USA, 1167–1176.
Greston, C., 2010. CCTV Monitors - Stay Secure in Mind and Home, EzineArticles.com.
Available from: http://ezinearticles.com/?CCTV-Monitors---Stay-Secure-in-Mind-and
Home&id=3756658 [Accessed 1 November 2015].
Kawasaki, N. and Takai, Y., 2002. Video Monitoring System for Security Surveillance based on
Augmented Reality, In Proceedings of the 12th International Conference on Artificial
Reality and Telexistence, 4-6 December 2002, Tokyo, Japan, 180–181.
Milgram, P. and Kishino, F., 1994. A Taxonomy of Mixed Reality Visual Displays. IEICE
Transactions on Information Systems, E77–D (12), 1321–1329.
Milosavljević, A., Dimitrijević, A., and Rančić, D., 2010. GIS-augmented video surveillance.
International Journal of Geographical Information Science, 24 (9), 1415–1433.
Min, S., Mei, L., Feizhou, Z., Zhipeng, W. and Daozheng, W., 2007. Hybrid Tracking for
Augmented Reality GIS Registration, In Proceedings of the 2007 Japan-China Joint
Workshop on Frontier of Computer Science and Technology, 1-3 November 2007,
Wuhan, China, 139–145.
Mower, J. E., 2009. Creating and delivering augmented scenes. International Journal of
Geographical Information Science, 23 (8), 993–1011.
Neumann, U., You, S., Hu, J., Jiang, B., Lee, J., 2003. Augmented Virtual Environments
(AVE): Dynamic Fusion of Imagery and 3D Models. In Proc. of the IEEE Virtual
Reality (VR 2003), 22–26 March 2003, 61–67.
Lewis, P., Fotheringham, S., and Winstanley, A., 2011. Spatial video and GIS. International
Journal of Geographical Information Science, 25 (5), 697–716.
Louw, E., 2009. Intelligent video surveillance and GIS. Hi-Tech Security Solutions, The Journal
for Security, Operations & Risk Management. Available from:
http://securitysa.com/article.aspx?pklarticleid=5560 [Accessed 1 November 2015].
Oner Sebe, I., Hu, J., You, S. and Neumann, U., 2003. 3D Video Surveillance with Augmented
Virtual Environments, In First ACM SIGMM international workshop on Video
surveillance, 2–8 November 2003, Berkeley, CA, 107–112.
Regazzoni, C. S., Cavallaro, A., Wu, Y., Konrad, J., and Hampapur, A., 2010. Video analytics
for surveillance: Theory and practice [from the guest editors]. IEEE Signal Processing
Magazine, 27 (5), 16–17.
Sawhney, H. S., Arpa, A., Kumar, R., Samrasekera, S., Aggarwal, M., Hsu, S., Nister, D., and
Hanna, K., 2002. Video Flashlights: Real Time Rendering of Multiple Videos for
Immersive Model Visualization. In Proc. of 13th Eurographics Workshop on Rendering
(EGWR\'02), The Eurographics Association, 157–168.
Sankaranarayanan, K. and Davis, J.W., 2008. A Fast Linear Registration Framework for Multi
Camera GIS Coordination, In Proceedings of the 5th IEEE International Conference on
Advanced Video and Signal Based Surveillance (AVSS\'08), 1–3 September 2008, Santa
Fe, NM, 245–251.
Schall, G., Mendez, E., Kruijff, E., Veas, E., Junghanns, S., Reitinger, B. and Schmalstieg, D.,
2009. Handheld Augmented Reality for underground infrastructure visualization.
Personal and Ubiquitous Computing, 13 (4), 281–291.
Segal, M., Korobkin, C., Widenfelt, R. van, Foran, J., and Haeberli, P., 1992. Fast shadows and
lighting effects using texture mapping. In Proceedings of SIGGRAPH ’92, 249–252.
Sourimant, G., Morin, L. and Bouatouch, K., 2007. GPS, GIS and Video Registration for
Building Reconstruction. In Proceedings of the 2007 IEEE International Conference on
Image Processing (Vol. 6), 16 September – 19 October 2007, San Antonio, TX, 401–
404.
Wang, Y., Krum, D. M., Coelho, E. M., and Bowman, D. A., 2007. Contextualized Videos:
Combining Videos with Environment Models to Support Situational Understanding.
IEEE Transactions on Visualization and Computer Graphics, 13 (6), 1568–1575.
Wang, Y., Bowman, D., Krum, D., Coelho, E., Smith-Jackson, T., Bailey, D., Peck, S., Anand,
S., Kennedy, T., and Abdrazakov, Y., 2008. Effects of Video Placement and Spatial
Context Presentation on Path Reconstruction Tasks with Contextualized Videos. IEEE
Transactions on Visualization and Computer Graphics, 14 (6), 1755–1762.
Wang, X., 2013. Intelligent multi-camera video surveillance: A review. Pattern recognition
letters, 34 (1), 3–19.