2008.03.12,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,*,*,*,*,AIS岸基网络系统故障检测与分析,二,一,年六月二十八日,内容提要,AIS岸基网络系统,故障检测与分析,内容提要,AIS岸基系统应用情况及运行现状,AIS故障的统计分析,AIS故障检测及取得的经验,AIS岸基系统故障类别,AIS岸基系统故障的成因,AIS故障的对策,前言,中国海事局自2003-2009年底,经过渤海湾、珠江口、长江口、琼州海峡AIS岸基系统工程和北方海区、东海海区、南海海区AIS一期、二期、三期岸基网络系统工程和后期的补点建设,在全国沿海共建设完成89个AIS岸站,一个国家AIS管理维护中心、3个海区AIS管理维护中心,18个辖区AIS管理维护中心,标志着全国沿海海区AIS岸基系统网络建成,AIS信号基本覆盖全国海区沿海水域,重点港口、航道已实现多重覆盖。,AIS岸基系统应用情况及运行现状,一、应用概况,据不完全统计,自2004-2009年系统投入使用后,全国各省、市搜救中心成功的组织了海上搜救6000多起,仅2009年就1400多起;设置虚拟航标800多座次,特别是沉船位置及时地设置虚拟航标,显示在船舶的电子海图上,避免了因沉船造成的次生搁浅或碰撞事故的发生;海事调查8000多起,为海事诉讼提供技术服务20多起,涉及外轮案件最多。,AIS岸基系统应用情况及运行现状,由于IMO规定了300总吨以上的国际航行的船舶、500总吨以上的货船及所有客轮、危险品船、油轮等必须安装AIS船用设备,因此,基本上在中国海区所有船舶碰撞、搁浅、进入海产养殖区的搜救和事故调查,均使用该系统的数据进行检索和分析;制作船舶流量轨迹统计图10000多张,用于各省、市海事主管部门、大专院校、航运公司、海洋石油等单位进行航路规划、评估、调整,海上工程建设的规划方案的制定、海上石油平台的建设等;,AIS岸基系统应用情况及运行现状,二、运行现状,AIS岸基系统搭建了海上船舶AIS动、静态数据的收发、存储、延伸服务的一个管理平台,建立了各项管理制度,如各海区有AIS系统运行管理实施细则、值班规则等,数据的存储、备份都按照有关规定有序的开展。,目前,按照部海事局的要求,全国三个海区AIS管理维护中心均建立了AIS岸基系统应急抢修预案,实行24小时监控管理并提供实时的数据服务,处理系统日常的运行监控、故障排除、技术支持和技术服务等工作,几年来,系统运行基本满足要求,但仍存在一些管理层次上不够清晰、巡检检查不够规范、考核指标不够明确、软件功能及网络运行结构不够统一等问题。然而AIS岸基系统故障将对VTS中心海上交通组织、搜救及航海保障带来一定得影响。,AIS岸基系统故障类别,故障的分类,可以从AIS岸基系统故障统计中概括为以下几个方面:,1、基站故障。包括R40岸站,基站的附属设备(VHF天线,GPS天线,基站电源及相关线缆等)的故障。,2、服务器故障。包括海区中心及各辖区的NMR-500,NMR-800,DataLog及应用推广系统等服务器的故障。,3、网络设备故障。包括路由器、交换机、光端机、协议转换器、数字微波装置的故障。,4、链路故障。含AIS专网和海事网,包括基站到辖区中心,辖区中心到海区中心的各条省(市)内和长途链路的故障。,5、雷击造成的故障。,6、其他因素。包括巡检,设备改造升级,设备维修、链路测试等。,AIS岸基系统故障的成因,一个庞大的AIS岸基系统,涉及到设备自身、网络运营商、用户网络(海事网)、无线电收发设备、数据存储与服务等很多环节,产生的故障是多种多样的,原因也不尽相同,归结起来不外乎来自于管理和技术上的原因,在管理上包括网络运营商、AIS中心和海事网信息的管理部门等单位,在技术上有来自于管理软件、应用软件及通信技术上环节上;另外涉及有光缆被盗割的、因施工被损坏的、电信机房停电、路由调整存在问题等现象,还有海事网受病毒攻击及辖区AIS中心、基站或网络运营商机房停电等现象。归纳起来可分为内部原因和外部原因两类。,AIS岸基系统故障的成因,笔者建议,为了规范AIS中心故障记录,建立故障的类型分类纪录的统一的标准,避免描述不清,表意混淆的问题,为故障预防和故障分析提供准确的高置信度的资料,可参考此表制定AIS岸基系统故障记录分类规范。,AIS故障检测及取得的经验,AIS岸基系统的检测包括正常的系统指标检测和故障检测,对于AIS基站,目前的检测手段有:天线驻波比测试、使用PSS软件进行系统数据收发检测,UPS电源检测,链路通信数据包检测等,针对AIS中心系统的检测包括:数据库检测、软件运行监测、通信链路数据包检测和操作系统、UPS电源网络安全通信设备端口检测等。因此建立一整套科学的检测方法对于确保AIS岸基系统正常运行是非常必要的,据了解,到目前为止还没有非常完整的系统检测规范,为了快速查找故障原因,有些单位相应的建立了检测要求,如:北方海区AIS中心制订了AIS网络故障快速检测指南,在实际的运行管理工作中也发挥了关键的作用。链路故障排查,可以参照以下步骤:,AIS故障检测及取得的经验,1、检测:,第一步.右键点击告警设备查看故障原因查看链路监控软件显示的故障状态,若为GPS卫星丢失等非设备故障,不需要处理。否则继续查找故障原因。,第二步 查看相应基站所在区域得船舶信号是否丢失,如果船舶信号接收正常,则为监控链路的NMR-1000服务器异常,否则链路确实发生实质性中断。,AIS故障检测及取得的经验,第三步 排查链路中断的具体位置。根据网络拓扑图,按照数据流方向,逐节点ping,找出故障点。,第四步 若重启故障点网络设备依然无效,对故障点网络进行打环测试。若测试结果出现误码,则为链路问题,否则就很可能是设备故障。,第五步 若为链路故障,协调服务提供商,对链路进行分段打环测试,寻找原因、排除故障。,第六步 若联合测试认不能确定故障点,可与网络运营商协商跳接一个端口,争取在最短的时间内使故障恢复正常。,AIS故障检测及取得的经验,2、经验:,(1)、NMR-1000服务器的网络监控程序工作时间过久可能发生崩溃,重启软件程序即可解决问题。,(2)、排查故障时首先检查故障点的链路接口是否接触良好,统计表明,有很大一部分的故障源于接头接触不好。,(3)、在AIS巡检时对设备进行清理能有效减少故障的发生概率。,(4)、定期重启软件,定期进行系统维护,有效降低故障频率,AIS故障的统计分析,AIS岸基系统建成投入使用后,其监控、管理、维护和服务工作是确保AIS正常运行重要的环节,故障统计分析是评估系统管理和运行的基础资料,从中找出规律,防微杜渐。在此,仅以北方海区2009年AIS岸基系统故障统计为例,进行分析。,AIS故障的统计分析,2009年全年北方海区AIS岸基网络系统共发生故障231次,总共持续时间941小时27分钟.其中第一季度23次,持续时间65小时58分钟;第二季度50次,持续时间147小时38分钟;第三季度81次,持续时间291小时03分钟,第四季度79次,持续时间436小时48分钟。,20,80,23次,66小时,50次,148小时,81次,291小时,79次,437小时,2009年,北方海区,AIS系统故障概览,季度,第一季度故障次数,第一季度故障时间,第二季度故障次数,第二季度故障时间,第三季度故障次数,第三季度故障时间,第四季度故障次数,第四季度故障时间,40,60,100,200,300,400,持续时间/小时,故障次数,2009,年,北方海区AIS岸基网络系统季度故障统计,90,80,70,60,50,40,30,20,10,0,故障类型,设备故障,链路故障,不详,季度,第一季度,第二季度,第三季度,第四季度,AIS故障的统计分析,可以看到一季度故障低,但实际情况并不是偏低,而是由于机构未落实,管理制度不健全,人员兼职等人为因素造成,有些故障没有记录到位。第四季度的故障次数与上一季度基本持平。从图上看,已经开始规范记录,这时北方海区AIS中心已经搬迁至天津海事局办公大楼,有专人管理。这些故障基本上反应的是实际运行情况。造成这种状况的原因,刨除季度与偶发因素外,很大程度上与AIS中心加强对故障的排查记录工作有关,使一些以往易被忽视的小故障,小隐患得到了及时妥善的处置和翔实完备的记录,有力的保障了AIS岸基系统的正常运行,并为事后的分析总结提供了第一手资料。其中,第三季度,北方海区AIS中心与营口辖区AIS中心等地的链路出现了持续的误帧与误码,造成同期链路故障有较大幅度的上升,原因是由天津至营口的新建链路运行不稳定造成,后与网通协调解决后,第四季度链路故障高发的状况有了显著的改观。由于第四季度出现的一些故障成因比较复杂,有的甚至自动恢复,原因难以定位,这对于故障的分析与预防工作带来了一些困扰,在以后的工作中还要加强故障的实时监控与分析工作,尽量查明事故原因,对于确实无法做出准确判断的,也因详细记录故障的产生、排除过程及具体表现,为故障分析提供了依据。,第二季度AIS故障原因分析,停电,40%,30%,20%,10%,网通故障,设备重启,巡检维护,其他,AIS故障的统计分析,例如:在第二季度的故障统计中,停电引起的故障依然高发,紧随其后的就是网通的原因造成的AIS网络的中断,由于和网通协商过程中涉及诸多中间环节,故障处置效率低下,如何建立于通信服务运营商的沟通协作,建立统一高效的应急处置机制,应作为下阶段AIS故障控制工作的重点。,AIS故障的统计分析,2010年第一季度,北方海区的链路故障时间为189小时26分钟,故障计数61次。可以看到,随着对链路检测工作的加强和故障排除经验的丰富,单次故障的持续时间呈大幅缩短的趋势,其结果是整个系统运行正常率的稳步提升。,从今年下半年开始,北方海区新引入了故障记录软件,实现对AIS岸基系统的故障全方位的监控和完备的数据库管理,全部的数据记录都将存储在服务器上,更加安全可靠,并支持远程访问管理,该软件的投入使用,必将进一步完善北方海区的AIS故障监测体系。,AIS故障的统计分析,另外设备老化情况不容忽视,目前AIS内网所用的部分服务器已接近使用年限,以海区AIS中心的NMR服务器组为例,该批次IBM X系列服务器购置于2005年,经过了6年超过30万小时的不间断运行,其各项核心组件的稳定性都出现了明显的下降,出现故障的几率明显提高。在2009年的12月,AIS中心的NMR服务器组总共重启了4次,其中3次为承载的服务失去响应,一次为网卡失效,与此相对比的新购置的国家中心服务器在同一时间段没有一次重启。除此之外,随着AIS网络建设的稳步推进和船舶数量的快速增加,NMR服务器组需要处理的数据量日益庞大,负荷也越来越重,其中尤以DATALOG服务器为甚:目前该服务器内存使用量一直维持在2.7GB左右(总共3GB),硬盘使用时常超限,甚至该服务器上的SQL数据库时不时的会因数据积压出现崩溃与出错的情况。,AIS故障的统计分析,与此相类似的还有海事网的船舶流量统计服务器,其硬盘也已全部占满,目前只能采用外挂移动硬盘作为临时的解决方案。自然这种牺牲数据存储可靠性和存储性能的做法并非长久之计,要从源头上解决问题,就必须更换老旧的服务器,消除数据处理瓶颈,提升存储系统容量,改善整个系统运行的可靠性与稳定性,只有这样才能使AIS岸基网络系统的硬件水平和设备性能与其日益提升的重要性相适应,以更好的服务于数字化航海保障体系与海上交通管理的大局。,AIS故障的对策,1、按照质量管理体系要求,建立AIS岸基系统质量管理体系,加强值班管理,加大巡检力度,不留故障隐患,备齐备品备件。,2、规范故障统计和排查流程,完善应