,北京系统工程研究所,(,*,/37,),(,*,/37,),(,*,/37,),(,*,/37,),(,*,/37,),(,*,/37,),(,*,/37,),(,*,/37,),(,*,/37,),(,*,/37,),(,*,/37,),(,*,/37,),(,*,/37,),(,*,/37,),面向空间大数据的存储与,并行优化技术,面向空间大数据的存储与,(,2,/26,),1.,背景及意义,2.,面向空间大数据的分布式存储技术,3.,基于,Spark,的并行镶嵌技术,报告提要,(2/26)1.背景及意义2.面向空间大数据的分布式存储技,(,3,/26,),1.,背景及意义,(3/26)1.背景及意义,(,4,/26,),1.,背景及意义,随着传感器网络、遥感技术、数字测绘以及图像处理技术的迅速发展,地理空间信息获取技术日渐成熟,地理空间数据的规模迅速扩大。获取的空间数据已达,EB,级,(10,15,字节,),。,(4/26)1.背景及意义 随着传感器网络、遥感技术,(,5,/26,),1.,背景及意义,空间数据分析的意义,(5/26)1.背景及意义 空间数据分析的意义,(,6,/26,),“今天,地理空间信息被越来越多的企业认为是企业的战略资产。空间数据的处理、存储和分析已成为商务智慧的重要组成部分。”,-Jack Dangermond,1.,背景及意义,(6/26)“今天,地理空间信息被越来越多的企业认为是企业的,大数据厂商图谱,(,7,/26,),1.,背景及意义,大数据厂商图谱(7/26)1.背景及意义,2.,面向空间大数据的分布式存储技术,(,8,/26,),2.面向空间大数据的分布式存储技术(8/26),(,9,/26,),2.,面向空间大数据的存储技术,SuperMap,分布式处理框架,到目前为止仅实现了对于地图切片数据、地图缓存和,OSGB,数据的分布式存储,无法将遥感数据均存储到分布式系统中。,缺乏主流的,MapReduce,框架支撑,在数据处理过程中的并行化程度有限,无法从根本上提高遥感数据的存储性能。,应用,SurparMap iServer 8C,MongoDB/,FastDFS,等,地图切片数据,地图缓存数据,OSGB,数据,发布,读取,写入,存,储,(9/26)2.面向空间大数据的存储技术SuperMap分,(,10,/26,),空间,数据的分布式存储模型,2.,面向空间大数据的存储技术,(10/26)空间数据的分布式存储模型2.面向空间大数据的,(,11,/26,),元数据,遥感元数据是遥感影像的描述性数据信息,构建元数据在,HBase,中的,存储模型,模型可以支持对于元数据的查看功能,切片数据,遥感影像经过融合、切割和图像金字塔操作后形成,HBase,存储切片数据,建立切片数据的,存储模型,满足面向应用的遥感数据处理框架的读取和写入需求,原始影像数据,文件体积大,采用,HDFS,存储影响数据,建立由影像传感器和时间信息所组成的数据结构作为唯一,id,2.,面向空间大数据的存储技术,(11/26)元数据遥感元数据是遥感影像的描述性数据信息构建,(,12,/26,),实现了面向,SuperMap,数据交换接口,可以满足,MongoDB,与,HBase/HDFS,的双向读写需求。,在,HDFS,上实现了完整的,API,函数,应用,SurperMap iServer 8C,MongoDB/,FastDFS,等,发布,读取,写入,接,口,HDFS,HBase,原始影像数据,切片数据,元数据,存储,接口,2.,面向空间大数据的存储技术,(12/26)实现了面向SuperMap数据交换接口,可以,3.,基于,Spark,的遥感影像并行镶嵌技术,(,13,/26,),3.基于Spark的遥感影像并行镶嵌技术(13/26),(,14,/26,),基于,Pearson,函数的遥感影像数据并行分类方法,3.,基于,Spark,并行镶嵌技术,(14/26)基于Pearson函数的遥感影像数据并行分类,(,15,/26,),3.,基于,Spark,并行镶嵌技术,(15/26)3.基于Spark并行镶嵌技术,(,16,/26,),基于,SIFT,的遥感影像并行配准模型,3.,基于,Spark,并行镶嵌技术,对已进行分类的图像,提交到,Spark,平台进行处理,设定作业的,Stage,个数,将作业中待配准的图像提交到,Task,上并行处理。,首先构建二维图像的尺度空间:,为了有效的在尺度空间检测到稳定的关键点,利用不同尺度的高斯差分核和图像卷积得到高斯差分尺度空间:,(16/26)基于SIFT的遥感影像并行配准模型3.基于S,(,17,/26,),基于,SIFT,的遥感影像并行配准模型,3.,基于,Spark,并行镶嵌技术,通过上述方法初步确定了关键点的位置和所在的尺度,然后通过曲面拟合的方法对关键点进行进一步的精确定位,则该尺度空间函数的泰勒展开式为:,确定了遥感影像的关键点后,采用关键点特征向量的欧式距离来作为两幅图像中关键点的相似性判定度量。,(17/26)基于SIFT的遥感影像并行配准模型3.基于S,(,18,/26,),基于梯度域的遥感影像并行融合方法,3.,基于,Spark,并行镶嵌技术,Spark,作业中图像的融合的计算采用基于梯度域的泊松图像编辑方法,该方法根据指定的边界条件求解出一个泊松方程,实现了梯度域上的连续,从而达到边界处的无缝融合。泊松图像编辑是根据原图像的梯度信息以及目标图像的边界信息利用插值的方法重构出重叠区域的图像像素,根据图像的梯度信息以及目标图像的边界信息,利用插值的方法重建出合成区域内的图像像素。,(18/26)基于梯度域的遥感影像并行融合方法3.基于Sp,(,19,/26,),实验环境:,15,个节点构成的,Spark,集群,集群计算节点配准为,一颗,InterXeon E5-2620,六核,2.1GHZ,处理器,,8GB,内存,硬盘,300G,。,Hadoop,的版本是,hadoop-2.5.2,,,Spark,的版本是,spark-1.2.0,3.,基于,Spark,并行镶嵌技术,(19/26)实验环境:15个节点构成的Spark集,(,20,/26,),3.,基于,Spark,并行镶嵌技术,通过镶嵌图可以看出本文应用的方法在图像的重叠区域无明显的拼接缝,具有良好的镶嵌效果,(20/26)3.基于Spark并行镶嵌技术通过镶嵌图可以,(,21,/26,),。,该实验数据选取,352,景,ETM+15,米分辨率的,PAN,传感器遥感影像,这些影像基本能够覆盖大半个中国,3.,基于,Spark,并行镶嵌技术,(21/26)。该实验数据选取352景ETM+15米分辨,(,22,/26,),。,实验对比基于,Spark,的并行镶嵌算法与基于,MPI,并行镶嵌算法的性能差异,3.,基于,Spark,并行镶嵌技术,(22/26)。实验对比基于Spark的并行镶嵌算法与基于,(,23,/26,),。,运行时间和吞吐量,3.,基于,Spark,并行镶嵌技术,(23/26)。运行时间和吞吐量3.基于Spark并行镶嵌,(,24,/26,),。,团队情况,(24/26)。团队情况,