地理数据的基本特征十篇

发布时间：2024-04-25 20:03:31

地理数据的基本特征篇1

关键词：符号数据分析；特征选择；最近邻分类器；区间型数据

中图分类号：0235

文章标识码：a

文章编号：1007-3221（2015）01-0067-08

引言

随着数据收集和存储技术的不断进步，越来越多的数据出现在各个领域当中。数据的不断丰富也加大了对海量数据分析方法和技术的需求。传统的数据分析方法在处理海量数据时，往往计算量很大，且难以从整体上掌握样本的性质。针对此类问题，edwinDiday于1988年在国际分类协会联合会（CFCS）的第一次大会上首次提出了符号数据分析（SymbolicDataanalysis，SDa）技术。

所谓符号数据，是指通过对大的数据样本空间进行降维处理，实现“数据合并”而形成的一个“数据包”，这个“数据包”就被定义为符号数据。常用的符号变量类型有区间型、多值型和分布型。区间型符号数据描述的是一个变量的上下限区间，通常情况下，它是从一组定量数据中找出上限和下限，并利用上下限描述这组定量数据的符号数据。例如，收集某支股票某日的价格数据，用该日该支股票价格的最低值和最高值组成的区间表示此股票在一天内的价格。多值型符号数据描述的是有多个取值的变量，一个样本的值是这个多个取值集合的子集。例如，一个宿舍学生的生源地变量X={河南，辽宁，吉林}。分布型符号数据描述的是一个变量中的各种取值以及各个取值的分布比例或者权重。例如，一个办公室内的性别变量S=[男性（0.7），女性（0.3）]，其中圆括号中的小数就描述的是各个性别所占的比例。SDa技术运用“数据打包”思想，使得数据降维在样本空间中得以实现。相较于传统方法，因为SDa技术能使原始数据样本的个数大大缩小，所以能够高效地处理海量数据，甚至发现传统分析方法所不能发现的知识。

区间型符号数据作为最常见的一种符号数据，具有重要的研究意义。目前针对区间型符号数据的研究主要集中在主成分分析、回归分析和聚类分析等方面。文将主成分分析法应用到区间型符号数据。文针对区间型符号数据进行了回归分析。文对区间型符号数据进行聚类分析。然而，针对区间型符号数据的特征选择问题，却很少有学者研究。

特征选择也叫特征子集选择，它的目的是从样本的所有特征中选择出对描述目标概念比较重要的一组特征子集。对区间型符号数据进行特征选择，不仅能够降低数据的复杂程度和处理时间，而且通常能够提高预测器的性能。

文基于相似性边界，建立了优化模型，通过模型求解，得出了一种针对区间型符号数据的特征选择方法interSym。然而，interSym也有一些不足之处。第一，相似性度量标准忽略了区间中心之间距离对相似性的影响，导致其并不适用于样本点集中在中心位置的区间型符号数据；第二，inteSym中计算特征权重的方法，并不适用于在某些特征下，数据的多个类中心分别相互靠近的情形。

本文首先基于区间数Hausdorff距离和区间数欧氏距离给出了更符合现实意义的区间数相似性度量。然后，本文充分地考虑了区间型数据的多个类中心分别相互靠近的情形，并建立了新的优化模型估计特征权重，得到了模型的解析解。本文的第1节，给出了一些基本概念和定义，包括区间数的Hausdorff距离和欧氏距离，以及样本类中心的表示，并对区间数的几种相似性度量进行了比较分析。在第2节，建立了优化模型，得到了模型的解析解。第3节给出了一种新的区间型符号数据特征选择方法。第4节是数值实验，将所提出的特征选择方法应用到三个区间型数据集（包括一组人工生成数据和两组真实数据），在分类精度上验证了方法的有效性。第5节结束语部分对全文进行了总结。

1基本概念

1.1区间数相似性度量

相似性度量是分类和聚类的基础，本文分别应用Hausdorff距离和欧氏距离作为区间型符号数据相似性度量的标准，以有效地处理数据分布集中在区间中心位置的区间型符号数据。Hausdorff距离由德国数学家Hausdorff于20世纪初提出，用来定义Rp空间上两个紧集之间的距离。区间数是紧集，因此可以用Hausdorff距离来度量。欧氏距离是n维空间中点与点之间最常用的一种距离度量方法，目前已经将其推广到度量区间数的情形。下面给出区间数Hausdorff距离和欧氏距离的定义。

区间数的Hausdorff距离综合了两个区间数中心之间的距离和半径之间的差异，其中|C（a）-C（B）|为区间中心之间的距离，|r（a）-r（B）|为半径之间的差异。令为整个区间样本的域，其中Xmin为所有区间左侧的下限，为所有区间右侧的上限。那么，即可得到两个区间数之间的相似性：不难验证，式（3）可以改写为：上式由两部分组成，第一部分为区间中心之间的距离，第二部分为半径之间的差异。在欧氏距离的基础卜，即可得到两个区间数之间的相似性，

基于欧氏距离和Hausdorff距离的相似性度量方法均能够有效地处理集中在区间中心位置的区间型符号数据，由式（1）和式（4）可以看出，它们本质上并无差异，都是基于区间中心之间的距离和半径之间的差异。

文提出的相似性标准如下：

与文的相似性度量方法相比，基于Hausdorff距离和欧氏距离的相似性度量克服了其忽视区间中心对区间数相似性影响的缺点。例如服从高斯分布的区间型符号数据a1=[0，7]，a2=[1，2]，a3=[3，4]。取U=[0，7]，在文的相似性度量方法下，S（a1，a2）=S（a1，a3）=0.5714，a1与a2，a1与a3之间的相似性是相同的，而实际情况应该是a1与a3的相似性要比a1与a2的相似性更大一些。在Hausdorff距离下，S（a1，a2）=0.2857，S（a1，a3）=0.5714。在欧氏距离下，S（a1，a2）=0.4849，S（a1，a3）=0.5714。本文分别应用Hausdorff距离和欧氏距离来度量两个区间数的相似性，能够有效地处理集中在区间中心位置的区间型符号数据。

1.2样本类中心

令为数据集：其中表示数据集中的一个样本点，是一个区间数，它表示样本点xn的第i个特征取值范围，n为数据集X中样本的个数，K为样本集中所包含的类的个数，是样本的类标签集。为了计算的需要，可以用下面的符号表示样本集的各个类中心。

假设类Ck内有nk个样本点xn，n=l，2，…，nk.令那么类ck的中心可以用区间向量表示，其中。

对各个类中心进行表示后，可以计算每个样本点与各个类中心之间的相似性向量。第n个样本点xn和第k个类Ck的中心之间的相似性可用下面的向量表示：

2模型建立与求解

为了更合理地度量两个区间样本点之间的相似性，需要知道特征的权重。设第i个特征的权重为wi，i=1，2，…，n。由式（7），可以得到第n个样本点和第k个类Ck的中心之间的整体相似性为：一个自然的想法是使每一个样本点与其所在类中心的相似性与其他类中心的相似性差值最大化。因此，假设第n个样本点xn属于类，可以建立如下优化模型：可以看出，ai为在第i个特征下，所有样本属于其所在类的可能性之和。由式（11），式（10）可以写为：

在式（10）和式（12）中的归一化约束之所以取平方和是为了得到更合理的解，因为若取w1+w2+…+wm=1，则其为线性优化问题，所得的解在边界的交点处取到，即w=[0，…，1，…，0]，取1的项为目标函数变量系数最大的项，即最大的ai，这样仅仅得到了权重最大的特征，其他特征全被忽略，这显然不是想要的结果。

为求约束优化模型（12）的解，本文采用惩罚函数法，先将（12）化成仅含等式约束的情形。令m为足够大的正数，则优化问题（12）可以化为下面的形式：式（13）的Lagrange函数为：目标函数取得最大值的必要条件为：

整理式（15），可得：

令m一十∞，则有：记γ为非负ai的平方和，

3区间型符号数据特征选择算法

上一节基于所有样本点与其所在类中心的相似性与其他类中心的相似性差值最大化的想法，建立了优化模型，通过模型求解，得到了每个特征的权重。然后计算每个样本点与各个类中心之间的加权相似性。本节选用最近邻分类器，特征搜索时采用带验证集的前向选择方法，得到了一种区间型符号数据特征选择方法FSmSiD（FeatureSelectionmethodforSymbolicintervalData）。最近邻分类器，即每个样本被划分到与自身距离最近的类（也是相似度最大的类中心），简单高效，易于理解，已经被广泛应用于人工智能的各个问题。FSmSiD在选择特征时采用的是带验证集的前向选择方法，即每次从剩余特征中加入一个新特征来训练新的模型，依据模型得到的分类器的精度来评估模型，然后从中选出分类精度最优的模型，将其对应的新特征加入所选择的特征集合中。前向选择避免了组合优化的维数灾难问题，且能够有效地去除一些无关特征和冗余特征。

具体算法如下：

Step1将数据集X分为训练集Xt和验证集XV，分别依据式（7）计算训练集的各个类中心pck=

Step2依据式（2）或式（5）计算训练集Xt中每个样本点与各个类中心pck之间的相似性向量（8）。

Step3依据式（11）计算ai，i=1，2，…，m。

Step4依据式（18）计算特征权重wi，i=1，2，…，m。

Step5对t=l，2，…，m

（1）令表示第t次已选出的特征集合，表示剩余的特征集合。对，其中m表示征的个数。

（a）将中的特征权重全部赋值为零。

（b）用验证集Xv中的数据检验分类器的精度：

（i）令n1=0，依据式（9）计算验证集Xv中的每个样本与各个类中心之间的整体相似性如果与其相似性最大的那个类中心恰是该样本的类标号，则：n1=n1+1。

（ii）记验证集xv中样本个数为Ⅳ。，计算分类器的准确率。

（iii）令，更新。

（2）若，结束。4数值实验

为了验证本文方法的有效性，将其应用于三组数据集。然后分别应用文[15]中的方法interSym和本文方法FSmSiD（分别基于Hausdorff距离和欧氏距离）处理这三组数据，以分类器的精度作为方法有效性的评价标准。其中，第一个数据集为人工生成，包含2000个样本点，采用的验证方法为10折交叉验证，第二个数据集和第三个数据集为真实数据集，它们来源于http：//lhedjazi.jimdo.com/usef-ullinks，因样本个数较少，故采用留一法交叉验证。

第一个数据集具体模拟生成方法如下：

（1）生成区间中点的随机点数据集

首先生成4组数据，每组500个样本，每个样本4个特征（x，y，z，v），每一个点作为所要生成的区间样本集的一个区间中心。z为随机生成的[-2，2]上服从均匀分布的无关特征。x，y，v服从正态分布，具体生成规则如下：

其中μ为期望，σ为标准差。

数据集中的每一个样本有四个变量（z，y，z，v确定。每个点的类别标号由该点在x，y，的坐标符号所决定。具体如下：

第一类：x0，y>0；第二类：z>0，y

每个样本的区间中心点的特征x，y决定了该样本的类别，特征z为无关特征，特征v为生成的与类别标号具有一定相关性的特征。

地理数据的基本特征篇2

（1.河北工程技术高等专科学校，河北沧州061001；

2.沧州医学高等专科学校，河北沧州061001）

［摘要］本文运用特征价格模型，以沧州市二手房为研究对象，调查收集沧州市主城区二手房交易数据，运用spss19.0软件对调查数据进行分析，得出影响二手房价格的特征变量数据，构建沧州市二手房价格估价模型。

［

关键词］特征价格；二手房；价格；评估

［Doi］10.13939/j.cnki.zgsc.2015.35.170

1问题提出

目前，国内在二手房地产评估中，广泛使用成本法、收益法、市场法三种传统方法；这几种方法存在着主观随意性、无法反映市场实际情况、资本化率不容易确定等问题。故将特征价格模型引入到房地产估价中，并从住宅类房地产特征价格的角度出发，分析影响住宅类房地产价格的各种影响因素，构建出基于特征价格模型的沧州市二手房价格估价模型，对其特征价格进行分析。

2特征价格模型及应用

hedonic是因为商品价格取决于商品属性的系数值以及属性带给消费者的愉悦和满足感，其实质是从产品的异质性出发，把产品价格分解为特征价格，并通过市场交易数据估计出产品特征的隐含价格。住宅特征价格模型主要研究的是住宅属性的隐含价格。住宅特征价格是指在竞争性市场的均衡条件下，住宅购买者所支付的价格购买住宅各种属性特征所带来的满意程度。

2.1基本模型

价格p与商品特征之间的关系表达为：

线性函数中自变量和因变量均以线性形式进入模型，回归系数对应着特征的隐含价格。

2.3数据来源

本文主要是以沧州市主城区二手房为研究对象，沧州市主城区分为运河区和新华区，根据沧州市主城区交通道路，划分为14个均质区域，选取280个二手房价格数据。同一均质区域内的价格相对在同一水平上。本文样本数据主要是沧州房地产交易中心、沧房经纪、搜狐沧州房产等信息网，结合小区实地调查获取。

2.4特征变量的选取及量化

本文在住宅区位、结构、邻里三大特征的基础上，主要选取的特征因素有繁华程度、交通情况、基础配套设施、生活服务设施、教育配套设施、物业管理、房龄、楼层、景观、建筑结构、朝向、室内装修12个因素（见下表）。

2.5二手房特征变量回归分析

本文将样本数据输入特征价格模型，利用SpSS19.0软件对样本数据进行计算，进行多元回归，可得到模型参数。选取最小二乘法作为进行模型估计的方法。

通过SpSS19.0软件计算，得出线性模型相关系数R=0.945，拟合优度R2=0893，这就说明了模型具有较强能力。线性模型的方差分析的显著性检验值Sig=0.000，其小于0.01，说明了该回归方程是具有高度显著的，F=34.634，表明了多个自变量与因变量（评估价格）之间存在线性关系。

模型D-w=1.703，其值小于2，根据序列相关检验的原则，可以得知模型的残差不存在序列相关。

2.6模型结果

通用以上分析，得出沧州市二手房价格估价模型如下：

式中：X1——繁华程度；X2——交通情况；X3——基础配套设施；X4——生活服务设施；X5——教育配套设施；X6——物业管理；X7——房龄；X8——楼层；X9——景观；X10——建筑结构；X11——朝向；X12——室内装修。

从上面估价模型得出：

繁华程度、房龄、楼层、装修程度与二手房的评估价格呈负相关。随着房龄的不断增加，表明了住宅类房地产所剩余的价值是在不断地减少，所以评估价格降低；繁华程度的增加使居民生活更便利，但环境变得嘈杂，噪声、汽车尾气等污染，反而使得生活质量降低，引起评估价格的降低；多层二手房楼层越高其价格越低；装修程度受到个人喜好程度制约，对于二手房来说，即使是豪华装修，但与购房者的兴趣爱好不符，从而增加了装修拆除重新装修的成本，无形中增加了其后期成本，使得交易价格降低。

交通情况、基础配套设施、生活服务设施、教育配套设施、物业管理、景观、建筑结构、朝向等特征变量与二手房的评估价格呈正相关。这些因素与日常生活息息相关，人们在购买二手房时均会着重考虑这些因素，模型中的系数水平比较符合实际的情况。

3结论

本文运用特征价格模型来定量分析城市房产价格，通过特征价格的视角，理解房价之间的差异和共性，建立沧州市区二手房的特征价格模型。由于使用价格数据比较真实可靠，特征价格分析评估的结果更接近实际应用效果，对于二手房价格评估有一定的借鉴意义。

参考文献:

［1］施建刚，白庆华，戴金波.三种房地产估价方法相互关系的研究析［J］.中国房地产，2000（10）.

［2］温海珍，贾生华.基于特征价格的房地产评估新方法析［J］.外国经济与管理，2004（6）.

地理数据的基本特征篇3

使用者请注明文章内容出处

（eivillage已经收录本文）

李龙梅

张暴暴

冯辛安

刘晓冰

(大连理工大学CimS中心大连116024)

摘要：CaD/Cam是CimS的核心，基于特征的产品建模是实现CaD/Cam集成的关键，本文通过分析典型CimS中工程设计分系统功能模型，给出CimS环境下CaD/Cam产品特征模型。

关键词：特征

产品信息模型CaD/Cam

中图号：tp39

CimS集成产品模型与CaD/Cam基于特征的产品模型

计算机集成制造系统CimS作为新一代工厂自动化模式之一覆盖了产品的整个生命周期。机械产品的生命周期包括从产品的市场需求分析、立项论证、生产决策、产品设计、工艺设计、加工制造、装配、测试到销售和售后服务的全过程。CimS集成产品模型是产品生命周期中全部数据的集合，它是整个CimS研究和处理的对象，所有类型的产品信息都集中储存在这个集成的产品信息模型中，信息的表达已将产品生命周期中的不同阶段都考虑进去，是整个企业在生产周期的任何阶段能共享的信息模型，它能在整体上和局部级上支持各种应用活动，使得面向制造、面向装配、面向质量等成为可能。集成产品模型是以用户需求、市场分析为出发点，以产品设计制造模型（CaD/Cam的模型）为基础，在产品整个生命周期内不断扩充、不断更新版本的动态模型。它应能克服以往仅从某一特定阶段的数据需求和数据处理的特点来建立数据模型，改善对产品产品生命周期中所有数据需求的全局分析的不足，而使得在产品生命周期中各阶段实现信息交换与共享。

工程设计分系统CaD/Cam是CimS的核心。CaD/Cam就是按照产品设计-制造的实际进程，在计算机里实现应用程序所需要的信息处理和交换，形成连续的、协调的和科学的系统。实现CaD/Cam一体化的关键在于信息的集成。基于特征的产品模型，是实现CaD/Cam有效集成最佳方法，是CimS集成产品模型的一个子集，是集成产品模型的基础模型，也是CaD/Cam系统中数据共享的核心。

传统的基于实体造型的CaD系统仅仅是几何形状的描述，缺乏对产品零件信息的完整描述，与制造所需信息彼此是分离的，从而导致CaD/Cam系统集成的困难。将特征概念引入CaD/Cam，出现了产品特征模型。基于特征的建模是CaD建模的一个新的里程碑，它是CaD/Cam技术的发展和应用到达一定水平，要求进一步提高生产组织的集成化及自动化程度的历史进程中逐步发展起来的。基于特征的建模着眼于更好地表达产品的完整技术和管理信息，为建立产品集成信息模型服务，它使产品设计在更高层次上进行，设计人员的操作对象不再是原始的线条和体素，而是产品的功能要素，直接体现了设计意图，使建立的产品模型容易为非设计人员理解并便于组织生产，设计图样更容易修改，有助于加强产品设计、分析、工艺准备、加工检验各部门之间的联系，更好地将产品设计意图贯彻到下游环节，并及时得到意见反馈。因此特征建模是解决产品模型建立的可靠途径，于是出现了许多关于特征建模的研究。

对特征技术的研究工作，主要可以概括为七个方面：特征的定义与分类、特征识别、特征建模、特征表达、特征检验、特征映射和特征数据库。特征的定义和分类的研究是特征技术研究的基础，但到目前为止，对特征定义和分类的研究还没有形成一个统一的标准，这是因为特征的定义和分类受到特征研究应用背景的制约。CaD/Cam的特征建模究竟应当包含哪些特征，各说不一。作者认为，作为CimS的核心－－CaD/Cam系统的开发应用，完全可以按照CimS信息集成的概念进行，由于CaD/Cam最终要集成到CimS中，基于特征产品模型最终要为CimS中所有子系统共享，所以在研究特征造型时不仅需要考虑CaD/Cam本身的信息需求，而且需考虑其在CimS中的地位、作用及其与CimS中其它分系统之关系。本文就是通过研究典型CimS中工程设计分系统功能模型各二级子系统的信息需求、本分系统与其它分系统信息联系，得出基于特征的建模应包含的特征定义与分类。

2.CimS中工程设计分系统的功能模型

一般可以将CimS分为四个功能分系统和两个支撑分系统。四个功能分系统分别是工程设计分系统、管理信息分系统、制造自动化分系统和计算机质量保证分系统。两个支撑分系统分别是数据库和网络支撑分系统。

图(1)所示为典型的工程设计分系统的功能模型图。工程设计分系统由产品数据管理（pDm）、产品设计、工艺设计和制造准备四个二级子系统组成。从这个图中我们可以清楚地看出系统内部数据信息的需求和流动。首先通过pDm将产品开发计划、生产经营计划管理等信息传到产品设计模块，将产品设计模块输出产品的技术报价、Bom表、图纸、技术文档等信息所形成的产品设计模型返回到pDm；工艺设计分系统从pDm中获取有关信息，完成工艺设计并将设计结果，如：工艺规程、专用工装图等技术文档返回pDm；制造准备模块从pDm中获得信息，编制数控加工、夹具需求计划等制造数据信息和各类技术文档返回pDm。产品设计、工艺设计和制造准备之间的信息通过pDm传送，改善数据的统一性和安全性。最后形成的基于特征的产品模型就存在于pDm中了。

工程设计分系统的输入信息是市场信息和管理信息分系统传递的生产管理信息，输出o1将又成为质量保证分系统、制造自动化分系统、管理信息分系统的输入。在CimS环境下，工程设计分系统应与生产管理、质量管理、制造自动化集成起来，因此特征建模时，应考虑这些分系统的信息需求。例如，质量保证分系统的功能是规划和执行企业的质量保证活动，它需要工程设计分系统提供有关产品几何数据、零件、原材料的基本数据、图纸、零件明细、产品结构、标准规范、加工、装配与检测规程和程序等，并从质量保证角度向CaD模块提出产品质量方面的要求和修改设计的意见，提出有关质量方面的要求和达到质量要求建议采取的措施，通过生产控制和维修实现质量控制。由于安排生产作业计划、物料需求计划、能力平衡计划、合同管理、仓库管理等需在管理信息分系统中完成，所以管理信息分系统与工程设计分系统之信息交换包括：供应商、用户基本数据，用户订单和车间下达任务的有关数据、图纸、零件明细、产品结构有关工具、消耗品数据、工艺规程等。

3.特征的定义与分类3.1特征的定义

在一个产品整个生命周期中产生的信息很多，其中包括：设计信息、制造信息、管理信息、质量信息、使用和维护信息等。这些信息又被CimS中其它系统以不同的方式使用。产品设计初始特征模型是由设计人员建立的，然而在产品整个生命周期内，这个特征模型的不断完善需要设计师、工艺师、质量检测人员等的共同协作。

本文对特征的定义是在CimS环境下，特征是产品生命周期内信息完整描述的载体，特征是一种信息表示方法，包括几何信息和非几何信息。

尽管特征的定义由于应用的不同而有差异，但特征的性质和作用是基本一致的。首先特征是低层的几何元素与零部件间联系的桥梁，特征将构成特征的几何元素有机地结合起来，形成能够表达特定功能或含义的形状结构，以体现面向应用的形状信息；此外，特征的组成元素可以作为尺寸公差、表面粗糙度等加工信息的相关载体，使得工艺信息能完整地借助特征而得到表达。基于特征的产品模型不仅能支持各种应用所需的产品定义信息，而且能提供符合人们思维的高层次工程描述术语，并反映设计和制造意图，从而克服现行CaD/Cam系统中产品信息定义不完备性和低层数据抽象性的不足。为CaD/Cam信息的真正集成、及其向CimS的集成提供保障。

特征除了具有一定的几何信息以外，还包括在设计、工艺规划和制造过程中需要技术、功能等信息，即特征给各种数据赋予了一定的语义。特征建模所需处理的数据纷繁复杂，系统中的数据类型繁多，数据之间的关系也十分复杂，既包括反映产品形状几何拓朴信息的几何模型，又有反映设计结构功能的设计模型，还需处理具有加工特点和装配特性的制造模型，既要存储静态的产品标准、规范等信息，又要涉及动态产品设计、制造过程信息。

3.2特征的分类

在对CimS工程设计分系统各子系统信息交换分析的基础上，从特征建模的角度出发可以将零件特征分以下6类:

1)形状特征：零件上有一定拓扑关系的一组几何元素所构成的一个特定形状。它具有特定的功能及其特定的加工方法集。形状特征可以分为主形状特征和辅形状特征。其中主形状特征用于构造零件的主体形状(如圆柱体、圆锥体等)，辅形状特征用于对主特征的局部修饰(如倒角、键槽、退刀槽、中心孔等)。辅形状特征附加于主特征之上，或附加于另一辅特征之上，根据辅特征的特点还可以将之进一步划分为简单辅特征、组合辅特征和复制辅特征。简单辅特征是指如倒角、退刀槽等单一特征；组合辅特征是由一些简单辅特征组合而成的特征如阶梯孔等；复制辅特征是同一辅特征按一定规律在空间不同位置上复制而成的特征，如周向均布孔、矩阵列孔等。也可以按获得形状的加工方法不同将形状特征分类。

2)精度特征：用于表达零件各要素尺寸公差、形状公差、位置公差和表面粗糙度等精度要求信息。需特别指出的是，一般形位公差除公差项目名、公差值、基准外，还应包含公差检测原则(如包容原则、最大实体原则等)。精度特征是形成零件质量指标的主要依据。

3)管理特征：用于描述零件的管理信息，如标题栏中的设计者、批量、一台份的件数、零件与其它产品的借用与通用关系、日期、编码以及生产管理中mRp－ii所需信息，和设计过程管理，包括版本管理，使用者权限设定与管理，审定等，并为pDm提供所需的信息。

4)技术特征：用于描述零件的性能、功能等相关信息。说明外观要求、搬运要求等图纸上无法在图上标注的要求，零件运行过程中工况条件（常规、极限），载荷与约束条件，为Cae提供模拟信息，为性能实验，分析计算、优化，有限元前处理提供条件。

5)材料特征：用于描述零件材料的类型、理化指标及热处理等特殊要求、表面处理的信息集合。

6)装配特征：用于表达零件在装配过程中所需用的信息，如与其它零件之配合、配作等关系，装配尺寸链信息、父项子项的信息。为装配工艺提供必要的信息。如组成产品的零部件之间在装配中的关系可分为：

层次关系：机械产品是由具有层次关系的零部件组成的系统

装配关系：包括描述实体模型几何元素之间直接的相互关系的几何关系，比如平面贴合、点面接触相切；描述零部件之间高于几何测层次的机械关系，如螺纹联接、键联接等；描述零部件之间运动关系（相对运动或传递运动），如相对转动，齿轮传动等。

参数约束关系：设计中的参数分为两大类，一类是从上一层传递下来的参数，本层设计部门必须满足，而且无权直接修改，称之为继承参数，一类是设计中产生的新参数，它们有的是从继承参数中导出的，有的是根据当前设计需要制定的统称为生成参数。当继承参数改变时，相关的生成参数要随之调整。

以上特征中，形状特征和精度特征是与零件建模直接相关的特征，而其余特征是Capp系统选择毛坯、下料、制定工艺的依据，是质量保证系统制定质量检测规划的依据。特征之间的关系有反映主形状特征之间的空间相互位置关系的邻接关系；辅助特征从属于一个主特征或另一个辅特征时构成的附属关系；描述特征类之间关联属性而相互引用的引用关系；不同层次特征之间的继承关系等。

以上特征是根据产品的对象定义的，支持产品生命周期多个阶段的通用特征，不同阶段之间的信息传递主要是通过基本特征这个信息载体，又可以称为基本特征。基本特征对不同应用领域具有不同视口、不同投影与继承，是特征模型支持下游操作和模型本身不断完善的途径。各个分系统结合各自不同信息，就形成了各自的应用特征，如工艺特征、制造特征、检测特征。所以应用特征，是面向具体应用领域或具体应用系统的专用特征，它满足具体系统的操作要求，同时它的信息是可以从基本特征中导出的。

图1工程设计自动化分系统功能模型图

Feature-BasedproductmodelinCimS

LiLongmei，ZhangBaobao，FengXinan，LiuXiaobing

(CimSCentreofDalianUniversityoftechnology，Dalian，p.R.China，116024)

aBStRaCt:CaD/CamisacoreelementinCimS，andhencethefeature-basedproductmodelingisthekeytoCaD/Camintegration.inthispaper，atypicalfunctionalmodelofautomaticengineeringdesignsystemofCimSisanalyzed，andthedefinitionandclassificationoffeaturesinCimS-orientedandfeature-basedproductmodelingarediscussed.

Keywords:Feature，productinformationmodel，CaD/Cam

参考文献

[1]冯辛安主编，CaD/Cam技术概论，北京：机械工业出版社.1995.

[2]贺建平、丁秋林、孙正兴，基于特征的产品信息建模技术研究，计算机辅助设计与制造，96(3).

[3]肖田元，CimS与先进制造技术，工程设计CaD及自动化，96(4).

[4]唐荣锡、张关康、关红明，结合国情研究特征造型技术，计算机辅助设计与图形学学报，92(4).

地理数据的基本特征篇4

关键词：大数据；中文标记；图像视频；综合检索

中图分类号：tp311.文献标识码：a文章编号：2095-1302（2013）11-0061-03

0引言

随着传统数据中心向多媒体数据中心的发展，数据中心服务模式已经发生了翻天覆地的变化。大数据时代的核心特性有两个要点：一是一切都被记录，二是一切都被数字化。随着大数据时代的来临，它带来两个重大变化：一是数据量爆炸性增长，据统计，最近两年来国内各类机房产生的数据量大于2010年以前人类文明所产生的数据量的总和；二是数据来源极其丰富，特别是诸如图像、视频等非结构化数据所占比例逐年增长。从存储方面看，传统数据中心存储内容包括资源信息、业务信息、统计信息、指挥信息等，主要以结构化的数据表的形式存在，现在数据中心存储文本、数字、图像、视频、声音等多种数据形式。这些变化对数据中心检索技术要求越来越高，主要体现在：一是检索载体多样化。现代数据中心需要综合利用磁盘、磁带等综合性数据库。二是检索手段综合化。检索目标由单一的文本检索向文本、图片、视频、声音、地理信息多种目标发展。三是检索时机全域化。新数据文件增加不应中断向用户的服务，保障24h全天候检索的可用性。因此，为了更好地利用海量图像、视频等非结构化数据，提高图像视频数据的检索效率，同时提高图像视频数据的可用性，有必要对图像视频检索方法进行深入研究。

1图像视频检索在大数据时代的意义

多媒体信息包括文本、图像、音频、视频等信息。使用关键词检索，只能查询到媒体文件对应的文件名等特征，而无法对媒体文件内容进行查询，所以对于多媒体信息的查询应该不同于简单的文本信息的查询。随着越来越多的视频多媒体形成了海量文档，急需研究新一代的信息检索技术。

现代数据中心的发展具体来说，涉及数字化技术、超大规模数据库技术、网络技术、多媒体信息处理技术、信息压缩与传送技术、分布式处理技术、安全保密技术、可靠性技术、数据仓库与联机分析处理技术、信息抽取技术、数据挖掘技术、基于内容的检索技术、自然语言理解技术等。在众多技术门类中，对视频图像的检索显得尤为重要。本文主要研究基于内容匹配的数据中心图片视频资源的综合信息检索技术，为铁路、水路、公路、航空、交通保障等领域的数据中心建设以及综合性基础性中心多媒体检索技术的发展提供理论参考。

2国内外的研究现状及动态

国外基于关键镜头关键帧的视频检索技术已经发展了很多年，随着视频数据急剧增加，图像视频检索已经成为一个新的研究热点。从第一届DiaL’04（thefirstinternationalworkshoponDocumentimageanalysisforLibraries）开始，图像视频检索就一直被当做专题来研究，近年来，数字图像视频检索受到了极大的关注，DiaL、iCDaR等每次研讨会议均对其进行专题讨论。但是，由于国外图片视频中标记大多采用英文形式，而我国数据中心中图片视频标记是中文的，中英文在笔画排列、字词句构成、组织方式等方面差异太大，他们的视觉特征明显不同，现有的很多方法无法直接被我们直接采用。为了研究我国海量中文图像数据的管理、检索、利用，因此必须研究具有我国自主知识产权的基于中文标记的数字中心图像视频资源综合检索方法。

2.1基于oCR的文档图像检索

在海量的视频图像数据中，其中一部分可进行正确的oCR识别，进行上下文标记，完全可用传统信息检索技术检索。对于各语系而言，其检索技术是相通的，只是oCR技术不同而已，但受到oCR技术的限制和视频图像本身质量的影响。在许多情况下，oCR识别结果并不尽人意，识别正确率对检索结果影响很大。目前，主要有两种容忍oCR识别错误的方法：一是对查询词进行扩充，估算oCR转换错误，并对oCR误差词进行检索；二是采用单词距离匹配的策略，主要是通过在矢量空间中进行词与词的匹配，计算出查询词与oCR识别目标的距离来排序。采取这两种检索误差容忍技术后，检索正确率明显提高，但统计显示，当oCR识别正确率低于75%时，视频图像检索质量将很难达到用户满意。

2.2基于图像特征的图像视频检索

视频资料中，大量的关键帧、镜头是不能进行oCR识别的，主要有以下几个方面原因：其一是技术限制。由于oCR技术本身的局限，对于非规则字体、复杂背景、图像质量差、字符严重形变/扭曲、字符分割不完整等情况，oCR无能为力。即使能部分识别正确，但需要大量的人工校正，效率很低。其二是功能限制。对于签字或者印章等需要用于确定性的具有法律效力的文件，不适合采用oCR进行识别。例如，史料文献、名人手迹、重要的人工标记与墨迹、书法书画等也只能以文档图像的格式呈现。

基于图像特征的检索技术已经被越来越多的专家学者所研究。基于图像特征的检索过程与CBiR（ContentBasedimageRetrieval）过程相似，但技术迥异。CBiR常用的颜纹理等基本特征不再有效，必须根据文档图像本身特点，抽取相应图像视频特征及规律进行检索，目前研究主要集中于基于内容相似性和基于关键词检索。基于文档凸显内容相似性的建设主要是抽取基于文档全局特征与基于帧图像的局部特征来进行。全局特征主要有字符纹理统计、直方图统计、字符投影分布、字符行统计等，而局部特征主要是字符图像块的区域宽度、位置与面积等。还可将帧页面分为多层网格，抽取每个网格特征，进行基于网格的相似性比较。为了克服网络尺寸最优选择的一些问题，Cesarini、mairinai等利用基于mXY树进行检索，在图像区域分割时建立mXY，综合全局特征与mXY树结构特征形成特征矢量进行相似性比较。

2.3基于标记的图像视频检索

在基于空域语义上下文的概念标注优化中，Jiang等人基于概念之间的相关性学习得到一个语义图模型，在对某个镜头进行标注时，首先得到各个概念对于这个镜头的预测结果，然后利用这个图模型对预测结果进行平滑优化，并且在这个过程中考虑数据跨域的问题，即训练语义图模型的数据和对之进行优化的数据来自于不同的域，取得了较好的结果。Smith等人提出了一种DiscriminativemodelFusion（DmF）方法，该方法将不同概念检测子对镜头的输出概率形成一个向量，然后以这个向量为镜头特征进训练，并预测概念标注结果。Jiang等人对这个方法进行了修改，加入了用户提供的标注信息。这些方法的问题在于，它们受限于语义词典的大小，只在词典中的概念数目较少的时候证明比较有效。

3基于中文标记的数据中心视频图像资源综合检索方法

3.1主要技术原理

在大数据时代，针对数据中心中文视频图像的特征，本文研究提出一种基于中文标记的数据中心视频图像资源综合检索方法，主要技术原理框图如图1所示。

图1基于图像视频检索的数据中心存储体系结构和服务架构

3.2主要方法

好的存储结构是检索的前提和关键，也是检索的方法之一。本文所采用的检索方法采用一种复杂应用环境下数据中心体系结构和服务架构。

首先，采用特征描述的视频图像检索方式。特征提取是图像处理中的一个初级运算，也就是说它是对一个图像进行的第一个运算处理。它检查每个像素来确定该像素是否代表一个特征。假如它是一个更大的算法的一部分，那么这个算法一般只检查图像的特征区域。作为特征提取的一个前提运算，输入图像一般通过高斯模糊核在尺度空间中被平滑。此后通过局部导数运算来计算图像的一个或多个特征。有时，假如特征提取需要许多的计算时间，而可以使用的时间有限制，一个高层次算法可以用来控制特征提取阶层，这样仅图像的部分被用来寻找特征。由于许多计算机图像算法使用特征提取作为其初级计算步骤，因此有大量特征提取算法被发展，其提取的特征各种各样，它们的计算复杂性和可重复性也非常不同。

其次，数据中心图像视频文档特征提取和索引建模技术是高效检索的关键。如前所述，视频内容本身包含丰富的视觉上下文信息，这些上下文信息是自然存在的，而不是相互独立的，一般可分为两类，即空域视觉上下文信息和时域视觉上下文信息。空域视觉上下文是指视觉帧内部的视觉信息之间存在的相关性。本项目针对空域视觉上下文信息和时域视觉上下文信息进行建模，为图像视频的快速检索提供基础。

4基于中文标记的图像视频综合检索特点

基于中文标记的图像视频综合检索方法主要有以下特点。

首先是提出了特征描述方法。对于一个给定的视频镜头，在三维网格上进行采样，对于采样得到的点进行聚类，形成视觉词典，把每个采样点映射到特征空间离它最近的那个视觉词。这样，一个视频镜头就可以看作是一个由视觉词组成的立方体结构。然后，根据视觉词在立方体结构中的相对位置，把它们看做一个视觉词的序列，并用一个扩展的马尔科夫链对之进行建模。这样，视觉词在时空域中的关系可以用该模型中的状态转移矩阵进行描述，并和原始的Bag-of-words特征结合，作为视频内容的特征描述，可以有效提高其区分不同内容视频的能力。我们把该特征应用到两个不同的问题中，即视频概念标注和动作识别。

其次，提出一种两阶段的视频概念标注优化方法。思路大致如下：一方面，分别利用星型结构和链式结构的ConditionalRandomFiled（CRF，条件随机场）对视频中的空域语义上下文和时域语义上下文进行建模，并借用其训练预测方法完成优化过程。和现有方法相比，本文方法能够更为准确地对概念之间的相互关系进行描述。利用训练集中人工标注的语义信息，体现人类对于视频内容和语义概念的理解，该方法能够有效提高概念标注的结果。由于训练数据的局限性和问题本身的复杂性，基于语义上下文的优化方法不可能完美地对概念之间的关系进行建模，因此，本项目提出一种基于半监督学习的调整方法，作为基于语义上下文优化方法的有效补充：认为得分较高的镜头被进行了正确的标注，通过在视频镜头之间建立图结构，利用视觉上的相似性，采用半监督学习的方法用概念标注中置信度较高的优化结果对其余结果进行调整，能够进一步提高视频概念标注的准确率。

最后，提出一种基于颜色聚类和多帧融合的视频文字识别方法。主要思路大致如下：首先，在视频文字检测中，统一考虑了文字区域图像的两个明显特征——一致颜色和密集边缘，采用近邻传播聚类算法，基于图像中边缘颜色的复杂程度，自适应地把彩色边缘分解到多个边缘子图中，使得在各个子图中检测文字区域更加准确。其次，在视频文字增强中，根据文字笔画强度图，过滤掉模糊文字区域，并综合平均融合和最小值融合，对在不同视频帧中检测到的，包含相同内容的文字区域图像进行融合，能够得到背景更为简单，笔画更为清晰的文字区域图像。再次，在视频文字提取中，一方面，通过自适应地选取具有较高文字对比度的颜色分量进行二值化，能够得到比现有的方法更好的二值化结果；另一方面，基于图像中文字与背景的颜色差异，利用颜色聚类进行噪声去除，能够更为有效地提高文字识别率。实验证明本文提出的基于中文标记的图像视频检索方法能够较好地完成视频图像检索。

5结语

大数据时代数据中心检索载体多样化、检索手段综合化、检索时机全域化，各类数据中心不仅存储容量急剧增加，而且视频、图像等多媒体数据比重逐年增加，因此提高检索效率，增加数据的可用性成为多媒体数据中心的重要任务。多媒体数据检索方式多样，检索原理复杂，目前还处于起步阶段，伴随我国经济社会的快速发展，大数据时代即将来临，各行各业数据的不断融合，图像视频检索必将大显身手。

参考文献

[1]BeRGaC，BeRGtL，maLiKJ.Shapematchingandobjectrecognitionusinglowdistortioncorrespondences[C]//proceedingsof2005ieeeComputerSocietyConferenceonComputerVisionandpatternRecognition.[S.l.]：ieee.2005，1：26-33.

[2]GRaUmanK，DaRReLLt.pyramidmatchkernels：discriminativeclassificationwithsetsofimagefeatures[C]//proceedingsof2005tenthieeeinternationalConferenceonComputerVision.Beijing，China：ieee，2005，2：1458-1465.

[3]waLLRaVenC，CapUtoB，GRaFa.Recognitionwithlocalfeatures：thekernelrecipe[C]//proceedingsof2003ninthieeeinternationalConferenceonComputerVision.nice，France：ieee，2003，1：156-264.

地理数据的基本特征篇5

关键词：模糊C均值；特征片段；系统开发

中图分类号：tp311文献标识码：a文章编号：1009-3044（2014）22-5220-03

1概述

自从1953年watson和Crick提出Dna双螺旋结构模型以来，探索Dna一级结构的工作就广泛开展。根据模糊C均值算法可以较准确的对Dna序列的集合进行分类。

模糊C均值聚类算法分类Dna指的是根据模糊聚类的方法，利用特征矩阵的数值，将数个Dna序列分为两类，系统可以显示出分类后的Dna序列所对应的序列号，以及聚类后的分布图像。

本系统主要研究了Dna链碱基序列分析、多个Dna链特征矩阵提取、模糊C均值聚类算法分类Dna等三大部分。

2运行软件和运行环境

2.1运行软件

本系统使用matlab7.0或以上版本作为运行库，它所具有的非常低的硬件要求和多平台支持，确保Dna序列分析系统系统各预定功能的实现。

2.2运行环境

在pii400/64m以上的各种pC机上运行，可运行于windows98，windows2000，windowsXp，windows7等操作系统，能打印a3纸张和a4纸张的打印机。

3系统分析设计

3.1功能需求分析

根据Dna序列分析的具体情况，软件需具备以下四大功能：

1）Dna链碱基序列分析

Dna链碱基序列分析指的是对于给定的某个Dna链，对某个功能片段出现的特征做简单的分析。首先测量出Dna序列的总长度和功能序列的长度，然后利用一维数组确定功能片段在Dna序列中的位置特征，系统可以提供出现的次数以及每一个功能序列出现时前后的碱基，并利用图像更加直观的表达。

2）多个Dna链特征矩阵提取

多个Dna链特征矩阵提取指的是对于给出的数个Dna链，找到序列之间的特征，统计出每个序列的（a，t，C，G）碱基密度，得到一个特征矩阵，为模糊聚类分析方法提供数据来源。

3）模糊C均值聚类算法

本系统应用数学分析软件matLaB的字符串处理功能，容易地达到功能片段分析的目的，同时通过分析Dna序列链之间的关联程度，构造出特征矩阵，根据模糊C均值算法较准确的对Dna序列的集合进行了分类，主要研究了Dna链碱基序列分析、多个Dna链特征矩阵提取、模糊C均值聚类算法分类Dna等三大部分。

系统同时也提供了图像属性分析功能，图像表示是应用在Dna序列分析方面的强有力的可视化工具，它能够揭示蕴藏在Dna序列中的结构和功能的生物信息。本系统提供有Dna链碱基序列位置分布图像分析和Dna序列组模糊聚类图像分析两大部分，快捷有效地提取出需要的数据结果。

3.2作业流程分析

现有的作业流程从导入数据到打印结果共有5个步骤，基本上每一步都要手动干预，最终将数据保存到移动设备中。

3.3系统框架结构设计

本系统提供良好的用户界面，实现简洁的操作流程，快捷有效地为生物基因工作者提供基因数据筛选的便利，改善和提高工作效率。系统结构如图1所示：

系统界面采用传统的菜单栏方式，从界面选项菜单可以看出主要有四大部分，“新建”、“打开”、“打印”、“帮助”，可以帮助用户快速打开新建页面、保存、打印以及查看有关软件资料等功能。界面正中间采用单调简约的黑白背景设置，直观大方，给用户良好的使用视觉环境。

4关键技术的实现

4.1聚类分析

模糊C均值聚类算法分类Dna指的是根据模糊聚类的方法，利用特征矩阵的数值，将数个Dna序列分为两类，系统可以显示出分类后的Dna序列所对应的序列号，以及聚类后的分布图像。下面是Dna聚类分析的核心代码：

4.2图像显示

本系统利用matlab软件很好地实现了数据筛选结果可观化，利用不同类型的图像表示结果的不同变化特点。

5系统设计的主要创新点

5.1海量数据操控

数据对比是相对于图表而言。在图表中，有时不能突出显示系统菜单选项的数据栏是主要针对数据进行的操作，添加数据指的是对于源数据的导入一般是直接导入，不需要手动输入的。所以如果遇到有遗漏某个数据的时候，可以进行直接添加，再次运行筛选。数据分析主要是给出筛选结果的理由，就是根据什么来筛选代表Dna，这个时候就需要把筛选过程中主要的数值根据显示出来，比如说分类结果，所以这个功能可以帮助用户找到他想要看到的聚类之后的Dna。

6结束语

针对基因数据庞大，处理繁琐，筛选过程复杂等特点，系统应用模糊C均值聚类思想，利用简单直观的界面，帮助用户实现海量基因数据筛选的操作。利用matlab软件特有的图像编辑功能，将筛选的数据属性形象直观地表达出来。经过多次尝试，系统处理基因数据方便快捷，结果直观可靠，达到了预期的效果，今后将根据用户的反馈继续完善。

参考文献：

[1]孙吉贵，刘杰，赵连宇.聚类算法研究[J].软件学报，2008，19（1）：48-61.

[2]刘靖明，韩丽川，侯立文.一种新的聚类算法――粒子群聚类算法[J].计算机工程与应用，2005（20）.

[3]朱颢东，李红婵.基于互信息和粗糙集理论的特征选择[J].计算机工程，2011（15）.

地理数据的基本特征篇6

【关键词】非物质文化遗产传承数字化技术图像数据库

引言

蓝印花布已于2006年5月经国务院批准列入第一批部级非物质文化遗产名录。本文通过研究探讨了基于内容的图像数据库技术以及相关数字化技术在非物质文化遗产保护与传承中的开发与运用，在利用基于内容的图像数据库技术在传统非物质文化遗产保护方式方面实现突破，更加有效地提高了非物质文化遗产的展示效果及保真效果，并为安全和长久地保护与传承该非物质文化遗产迈出探索的一步。

一、应用背景

非物质文化遗产具有地域性强，受众群体小，传播范围小、受众面窄等特点，且多以传统传播方式为主，多数是望“数字化”兴叹！[1]例如，南通蓝印花布的主要传承人吴元新教授通过多年的努力，整理收藏明清以来的上万件实物及图片资料以及纹样纸版，并以此出版了《中国蓝印花布纹样大全》。但是数量巨大的蓝印花布的图案纹样，纹样繁复，内容丰富，利用文本很难准确描述其内容；同时，蓝印花布分布广泛，很多纹样经过长时间保存后破损严重，传统的保护方式给蓝印花布的收集、整理以及传承造成极大地损失。如何通过数字化技术手段对非物质文化遗产进行真实、系统和全面的整理、收集、记录及处理非物质文化遗产的信息，并利用先进的模式识别、数据库等技术为其建立图像数据库，即是本文所阐述的主要内容。

众所周知，随着计算技术的发展以及计算机硬件性能的提高，模式识别、人工智能、数据挖掘以及图像处理等研究领域的发展也取得了长足的进步，促使利用计算机数据库管理系统管理图像变得十分必要。然而，目前图像数据库的开发与建设方面存在以下不足：1、针对图像数据的描述不能方便的随意扩展，使其不能满足基于图像数据的科学研究对图像数据描述特征属性多样性的需求；2、影像图像数据的存储以及编号不能反映图像数据之间的关联性，比如不同时间点或者不同图像采集模式所得到的图像数据之间的关系，不能很好的得到体现；3、图像数据在服务器上的上传和下载过程都在服务器端完成，这种设计增加了服务器端的负担，影响了针对数据仓库的上传、检索和下载速度。

通过对大量蓝印花布图案纹样的分析、研究，针对其特点以及南通蓝印花布纹样图像数据库设计需求，提出利用数据库等先进管理理念及信息化、数字化等技术手段对非物质文化遗产----“蓝印花布”开发，实现一种新的基于内容的、可扩展、高效存储、可检索的、以颜色信息为主形状信息为辅的蓝印花布图案纹样综合检索数据库系统，从而实现对蓝印花布纹样的保护与传承。该系统不但可以真实地再现蓝印花布的制作及其工艺流程；而且还可以利用数字化后的蓝印花布纹样进行虚拟重组、修改，实现大众的个性化需求，并通过现代计算机网络技术以及先进的信息处理技术让蓝印花布及其所携带的文化信息在世界各地流传，被越来越多的人所接受和喜爱。

二、南通蓝印花布纹样的数字化

2.1数字化技术

数字化技术是一种信息处理技术，即将许多复杂多变的信息转变为可以度量的数字、数据，再以这些数字、数据建立起适当的数字化模型，把它们转变为一系列可以进入计算机的二进制代码的技术。数字化技术是计算机技术、多媒体技术、智能技术和信息传播技术的基础。[2]

2.1.1南通蓝印花布纹样的数字化采集

本文以南通蓝印花布的纹样为研究对象，利用数码相机采集其数字化图像，采集后的效果完全能满足实验要求。

2.1.2南通蓝印花布纹样的数字化预处理

蓝印花布只有蓝白两色，因此，针对南通蓝印花布纹样这个显著特点，对其数字化图像进行相应的预处理，例如灰度化处理，就是采用加权值法与最大值法结合的特点，并经大量试验后确定采用如下公式进行灰度化处理：

鉴于不同蓝印花布藏品其成色、磨损及其它原因，在对其颜色进行数字化时，确定蓝印花布纹样数字化颜色标准为：蓝色RGB值{29，33，70}、白色RGB值{251，255，255}。

2.1.3南通蓝印花布数字化纹样的提取

图像分割是提取南通蓝印花布数字化纹样的基础。国内外广泛使用的图像分割方法主要有阈值分割、基于变形模型分割、基于区域生长分割、聚类法分割等等。[1]不同图像对象，其图像分割的分类依据也不同，与之对应的分割算法也完全不同。针对蓝印花布具有明显蓝色颜色优势的特点，通过大量实验，并综合比较上述几个分割算法后，确定了通过加权值将基于阈值的分割算法及基于边缘检测的分割算法相结合来分割蓝印花布纹样的最终解决方案。其效果如图1所示：

三、基于内容的南通蓝印花布纹样数据库的开发与实现

基于内容的数据库不仅能对数据库内容提供增、删、改、查等功能，而且还能实现数据库内容整理、整合等操作。而南通蓝印花布纹样不但内容复杂多样，而且数量众多。因此，如何高效地利用图像数据库对这些海量纹样进行整理、收集，是本文重点阐述的内容。而如何实现南通蓝印花布纹样的识别，则是实现基于内容的南通蓝印花布纹样图像数据库的关键。通过分析，确定颜色特征和形状特征能有效区分南通蓝印花布纹样，高效提取这两种特征对于实现基于内容的蓝印花布纹样图像数据库至关重要。

本文在JaVaee框架上，利用opencv机器视觉库与mySql数据库相结合，开发、实现基于内容的南通蓝印花布纹样图像数据库。

3.1JaVaee框架下openCV环境的搭建

实现基于内容的蓝印花布纹样图像检索系统，将JaVaee框架结构与openCV结合，不仅能对数据库的图像数据进行管理，而且还满足处理数据库中的图像信息的要求。另外，JaVaee的mVC也为用户提供良好的用户界面。

3.2蓝印花布纹样的特征提取

图像特征的提取与表达是CBiR技术的基础和核心技术。最客观的图像信息模型主要是以图像低级特征为主，如颜色、形状、纹理与空间关系等。基于内容的图像视觉信息主要有图像信息的低级特征以及图像内容的语义描述两部分。[3]本文主要以颜色特征的提取与匹配为研究对象开展研究。图像特征的提取是基于内容图像检索的基础，如何构建反映适当图像内容的特征是进行图像检索的关键技术之一。[4]其中颜色特征因为和图像中所包含的物体或场景十分相关，对图像本身的大小、方向的不敏感且具有较强的鲁棒性等特征在图像检索中应用成为最为广泛的图像特征之一。[5]大量实验表明，南通蓝印花布图像纹样的数字化研究中采用HSV颜色空间非均匀量化后提取直方图，不但具有效率上的明显优势，还可以明显降低噪声对颜色的影响。[6]

3.3图像数据库的检索

基于内容的图像检索CBiR是一种利用近似匹配技术实现利用图像可视特征对图像进行检索的技术，其包括计算机视觉、图像处理、图像理解、人工智能、数据库等多领域的技术成果。[3]其最主要特点是直接以媒体内容为检索信息线索，通过计算机的计算实现对图像内容的分析、特征提取以及索引，并采取某种相似性度量方法对图像库中的图像进行匹配获得查询结果。通过该技术可以有效避免人工描述的主观性，并且大题减少人力物力。[7]图像特征的有效提取以及高效匹配是CBiR的的实现主要关键技术点。[7]

利用openCV机器视觉库的相关技术，对蓝印花布纹样的数字化图像在四种不同的相似距离下计算出相似度距离并进行比对、分析，研究后确定采用correlation相似距离作为南通蓝印花布颜色直方图相似度计算的标准来实现南通蓝印花布纹样图像特征的有效匹配。[8]

3.4基于内容的南通蓝印花布纹样图像检索系统结构图

基于内容的南通蓝印花布纹样图像检索系统是利用openCV机器视觉库及相关技术，对蓝印花布纹样的数字化图像在四种不同的相似距离下计算出相似度距离并进行比对、分析，研究后确定采用correlation相似距离作为南通蓝印花布颜色直方图相似度计算的标准来实现南通蓝印花布纹样图像特征的有效匹配。该检索系统架构图如图2所示。系统运行实际效果图如图3所示。

3.5基于内容的南通蓝印花布纹样图像数据库系统架构图

南通蓝印花布纹样不但复杂多样，而且数量众多。有效地对这些海量纹样进行鉴别、整理、管理，是项目重点要解决的问题。基于内容的数据库不仅能对数据库内容提供增、删、改、查等功能，而且还能实现数据库内容整理、整合等操作。因此，基于内容的数据库系统是解决该问题的有效方法。通过分析，利用专利《南通蓝印花布识别方法》，并在JaVaee框架上，通过opencv机器视觉库与mySql数据库相结合，开发、实现基于内容的南通蓝印花布纹样图像数据库。该数据库系统架构图如图4所示：

3.6基于内容的南通蓝印花布纹样图像数据库的实现

搭建好JaVaee环境后，将opencv的java库导入其中，实现JaVaee与openCv的结合，并在系统中完成基于内容的南通蓝印花布纹样图像数据库的开发与实现，其效果图如图5所示：

四、结论

在JaVaee的编程环境下，利用机器视觉库openCV及mysql数据库对南通蓝印花布纹样分别进行图像的预处理、分割、相似度计算等一系列实验，并最终确定采用一系列实验结果，成功地开发实现了一种新的基于内容的、可扩展、高效存储、检索的，以颜色信息为主以形状信息为辅的蓝印花布图案纹样综合检索系统及数据库存储系统，实现了从数字化角度对蓝印花布纹样进行保护与传承。

参考文献

[1]王耀希：《民族文化遗产数字化》，北京：人民出版社，2009年版，第9页

[2]http：///gd/gd_rwhn/gd_gdxc/201508/t20150820_2127996.shtml

[3]李明俐.基于颜色与形状特征的图像检索技术研究及系统的设计与实现[D].西北大学.2010：8-32.

[4]袁杰.基于内容的综合多特征图像检索方法研究[D].杭州：浙江师范大学：2009：17-33.

[5]翟剑锋.基于多特征的图像检索系统的设计与实现[D].北京：北京邮电大学：2010：7-11.

[6]于翔.沈美颜色相似度在南通蓝印花布图像检索中的应用研究[J]青海大学学报（自然科学版型）：2014.848-52

[7]YooH.w.，JangD.S.，JuangS.H.，etal.VisualinformationretrievalSystemviacontent-basedapproach[J].patternRecognition，2002，35：749-769

地理数据的基本特征篇7

[关键词]基于内容的音频检索　音频特征提取　音频分类　音频检索

引言

随着多媒体和internet的广泛应用和深入普及，多媒体数据的数量正在呈指数增长，音频数据作为多媒体数据的重要组成部分，其信息量也在迅速膨胀，如何快速、准确的检索到所需要的信息已经成为现代信息检索领域的一个重点。基于文本检索的常规信息检索技术已经无法满足大量音频数据的检索需要，基于内容的音频信息检索技术应运而生。

基于内容的音频信息检索突破了传统的基于文本表达的局限，直接对音频进行分析，从中抽取内容特征，然后利用这些内容特征建立索引并进行检索，避免了用字符标识音频信息的转化过程。他涉及音频数字信号处理、语音识别、信息检索、数据库系统、模式识别、人工智能、数据挖掘等许多相关技术，在internet音乐检索、数字音乐图书馆、点歌系统等领域中具有重要的应用。

1　基于内容的音频检索的概念

基于内容的音频检索，指通过音频特征分析，对不同音频数据赋以不同语义，使具有相同语义的音频在听觉上保持相似。该技术在许多领域都有极大应用价值。

基于内容的音频检索主要有两个方面的含义：一是检索音频内容本身，如通过“哼”某音乐的曲调查找音乐；二是检索与音频内容相关的信息，如通过语音查找说话人等。

基于内容的音频索引和检索通常采用下面的步骤：

(1)将音频数据分类，通常可分为语音、音乐和噪声等类型。

(2)不同类型的音频数据可以以不同的方式进行处理和索引。如，对语音可运用语音识别技术且可基于识别过的词汇对其进行索引。

(3)查询音频片段要同样地进行分类、处理和索引。

(4)根据查询索引和数据中音频索引之间的相似性，对音频片段进行检索。

2　基于内容的音频检索系统基本结构

基于内容的音频数据库检索系统是一种重要的和关键的多媒体信息处理技术。一般可把基于内容的音频数据库检索系统看作是介于信息用户和数据库之间的一种信息服务系统。在音频检索中，需要经过特征提取、音频分割、音频识别分类和索引检索这几个关键步骤[目：

特征提取指的是寻找原始音频信号表达形式，提取能代表原始信号的数据。要提取特征和属性，通常要对数据库中的多媒体数据项进行预处理。因为在检索过程中，其实是对这些特征和属性而不是对信息项本省进行搜索和比较，所以特征提取的质量决定着检索结果。

基于内容的音频检索，一般分为音频特征提取、音频识别分类、检索三个过程。在提取音频特征之前，一般还需要对音频数据进行预处理，预处理主要包括预加重和加窗，加窗使音频数据形成音频帧。特征提取音频的物理、听觉或语义特征，其中基本要素的特征提取是以音频帧为单位或者以若干帧组成的音频片段为单位来进行。音频识别分类是对音频进行归类划分，分类本身可以是一种检索方式，也可以作为检索的一个辅助手段，归类越精确，一般来说检索就越准确。检索的过程是一个匹配的过程，根据音频特征间的相似度给出检索结果。检索系统一般分为两部分：一部分是数据库的生成，即音频数据及其特征录入到数据库；一部分是数据库查询，即用户通过输入音频或输入特征字符串在数据库中查找所需要的音频。系统基本构成如图2.2所示。

3　基于内容的音频检索系统特点

基于内容的音频检索技术突破了基于关键词匹配的传统索引技术的限制，它根据音频本身所固有的特征而不是人工标注的外部属性或者关键词对音频进行检索。它的核心思想是通过一定的计算处理，分析音频的结构和语义，建立它们的结构化的组织和索引，使得“无序”的音频变的“有序”，从而有利于用户的检索和浏览。

基于内容的音频检索技术的主要特点有：

(1)从媒体内容中提取信息线索。基于内容的检索突破了传统的基于表达式检索的局限，利用音频内容特征建立索引进行检索。

(2)基于内容的音频检索，犹豫内容表达的不精确，必然是一种近似的检索。结果中往往出现误检和遗漏。

(3)数据库的快速检索。在实际的多媒体数据库中，不仅数据量巨大，而且种类和数量繁多，要求基于内容的检索技术实现对多媒体信息的快速检索。

(4)作为一种多媒体技术，具有很强的交互性(用户可以参与检索过程)。

4　基于内容的音频检索系统关键技术

4.1　音频特征提取

音频特征提取是整个基于内容的音频检索技术的核心技术。音频内容描述是在音频内容获取的基础之上进行的，同时是进一步进行音频特征相似度匹配的必要前提。特征提取是指寻找原始音频信号表达形式，提取能代表原始信号的数据。要抽取特征和属性，通常要对数据库中的多媒体数据项进行预处理。在检索过程，需要对这些特征和属性进行不断的搜索和比较。

4.1.1　音频时域特征的提取

可提取的音频时域特征有平均能量、过零率和静音比等。

平均能量说明了音频信号的强度，可用于静音检测，对于一个音频例子，如这个音频例子中的某一短时帧的平均能量低于一个事先设定的阈值，则可判定该短时帧为静音。

过零率指每秒内信号值通过零值的次数，一定程度上说，它说明了平均信号频率。一般语音信号由单词构成，单词又由元音和辅音交替的音节组成，辅音信号的过零率低，而元音信号的过零率高。语音信号开始和结束都大量集中了辅音信号，所以其开始和结束部分的过零率总会有显著升高，利用过零率可判断语音是否开始和结束。另外，大多数音乐信号集中在低频部分，其过零率不表现出突然升高或降落的起伏特性，所以有时也可用过零率来区分语音和音乐两种不同音频信号。

静音比表示静音的声音片段的比例。

4.1.2　音频频域特征的提取

傅里叶变换可分解出音频信号的频率成分，可提取的音频频域特征有带宽、频谱中心、谐音、音调等。

(1)带宽说明了声音的频率范围，音乐通常比语音信号具有更高的带宽；

(2)频谱中心也称亮度，是一个声音频谱能量分布的中心点。语音与音乐相比，频谱中心较低；

(3)频率为最低频率的倍数的频谱成分称为谐音。在有谐音的声音中，频谱成分大部分是最低频率的整数倍数，音乐通常比其他声音具有更多的谐音；

(4)音调是听觉分辨声音高低的特性，完全由频率决定，可通过频谱估计。

只有阶段性的声音，如那些由音乐设备和语音产生的声音，才会产生一种音调的感觉。可根据音调的级别对声音排序。音调是一个主观特征。

4.2　音频分类与归纳

分类(classification)用于预测音频对象的所属类别。而聚类(clustering)是一个将数据集划分为若干组或类的过程，通常可以定义为音频的归类问题.分类用于判别用户提交的示例音频

或音频文本属于哪个类别，也可用于将一段新的音频归入已有的分类中(音频识别)。

根据音频的特征值可将音频分类。常见的分类方法是：首先计算输入音频片段的频谱中心，如果其频谱中心值比预先设定的阈值高，则认为它是音乐：否则它是语音，但由于有的音乐也具有低的频谱中心值，因此它也可能是音乐。其次，计算静音比，如果它的静音比低，则认为它是音乐：否则，认为它是语音或独奏音乐。最后计算平均过零率ZCR，如果它有着非常高的ZCR可变性，则它是语音，否则它是独奏音乐。

在这种分类方法中，特征判定的顺序是非常重要的，通常由计算的复杂性和特征的差别决定。一般首先判定差别性大、复杂性低的特征，这样可减少一个特殊音频片段将要经历的步骤数，同时也可降低所需的整个计算量。

将音频分类为语音和音乐后，就可以使用不同的技术对它们进行单独处理。

4.3　音频检索

4.3.1　语音识别和检索

语音索引和检索的基本方法是运用语音识别技术把语音信号转化为文本，然后应用iR技术进行索引和检索。除实际的发声词汇(spokenwords)外，包含在语音中的其他信息，如发音者的身份和情绪等，都有助语音索引和检索。

语音检索是采用语音识别、语音处理技术完成音频信息检索。主要包括大词汇语音识别技术检索：子词单元检索：关键词识别检索：对说话人的辨认进行分割检索。

(1)大词汇语音识别技术检索

这种方法是利用自动语音识别(aSR)技术把语音转换为文本，从而可以采用文本检索方法进行检索。

(2)字词单元检索

当语音识别系统处理各方面无限制主题的大范围语音资料时，识别性能会变差，尤其当一些专业词汇不在系统词库中时。一种变通的方法是利用子词索引单元，当执行查询时，用户的查询首先被分解为子词单元，然后将这些单元的特征与库中储备好的特征进行匹配。

(3)关键词识别检索

在无约束的语音中自动检测词或短语通常称为关键词的发现。利用该技术，识别或标记出长段录音或音轨中反映用户感兴趣的事件，这些标记就可以用于检索。如通过捕捉体育比赛解说词中“进球”的词语可以标记进球的内容。

(4)对说话人的辨认进行分割

这种技术是简单地辨别出说话人话音的差别，而不是识别出说的是什么，它在合适的环境中可以做到非常准确。利用这种技术，可以根据说话人的变化分割录音，并建立录音索引。如用这种技术检测视频或多媒体资源的声音轨迹中的说话人的变化，建立索引和确定某种类型的结构。

4.3.2音乐索引和检索

音乐的类型有两种：结构化的(或综合的)音乐和基于样本的音乐。一般说来，音乐索引和检索的有效技术的研发仍处于初期阶段。

(1)结构化音乐的索引和检索

结构化音乐和声音效果是由一系列指令或算法来表示的。最常见的结构化音乐是miDi，它把音乐表示成大量的音符和控制指令。由于结构化音频的简明结构和音符描述的原因，没有必要从音频信号中抽取特征，因此结构化音频更便于检索。

对于结构化音乐和声音效果，由于两个音符序列之间的相似性定义的困难性，基于相似性的检索很复杂。目前一种可行的方法是基于音符序列的音调变化来检索音乐。其基本思想是：查询声音和数据库声音文件中的每个音符(第一个音符除外)都被转换成相对前一个音符的音调变化。音调变化有三种状态：该音符比前一音符高(U)、该音符比前一音符低(D)和该音符与前一音符相同或相似(S)。按这种规则，任意一段旋律可转化为一个包含字母U、D、s的符号序列，检索任务也就变成了一个字符串匹配过程。该方法是针对基于样本的声音检索提出的，也同样适用于结构化声音检索，根据音符音阶可较容易地获得音调变化。

(2)基于样本的音乐的索引和检索

对于基于样本的音乐的索引和检索有两种通用的方法：一是基于抽取的声音特征集合，二是基于音乐音符的音调。

基于特征集的音乐检索；在这种音乐检索方法中，对每种声音(包括查询)抽取听觉特征集，将其表示成一个矢量。通过计算查询音乐和每个存储音乐片段相应的特征矢量之间的近似度来计算它们的相似性。该方法可应用于一般的声音中，包括音乐、语音和声音效果。muscleFishLLC完成的一项研究工作就是使用该方法的一个较好的实例。在这项研究中，共使用了5个音频特征：强度、音调、亮度、带宽和谐音。这些特征随着时间的变化而变化，因此可对每个帧进行计算，然后用统计学中的均值、方差和自动相关3个参数来表示每个特征。查询矢量和每个存储的音乐片段的特征矢量之间的欧几里德距离或manhattan距离可用作它们之间的距离。

基于音调的音乐检索；该方法与基于音调的结构化音乐检索相似。二者之间的主要区别在于基于音调的音乐检索必须抽取或估计每个音符的音调。将一段旋律转化为一系列相对音调转移序列的过程称为称为音调跟踪。音调跟踪是自动化音乐转录的简化形式，它把音乐声音转化成符号表示。该方法的基本思想为：由于音乐的每个音符都是由它的音调表示的，因此一个音乐片段或部分可表示成一个序列或音调串。检索是以查询音乐和每个存储音乐片段相应的音调串之间的相似性为基础，音调跟踪和串相似测量是检索过程的关键。

5　展望

基于内容的音乐检索主要是基于音频特征矢量匹配和近似音调匹配。计算机对信息的表达归根结底是一种状态表达，要将听觉感知的信息借助计算机进行存储与检索，这当中进行的转换难以避免实际信息的失真。对于音频检索来说，由于感官上与表达上的不一致性大大增加了检索的处理难度。因此，基于内容的音频检索只能是一种相似性检索，而无法实现传统的精确匹配检索。虽然研究人员已在基于内容的音乐检索技术方面做了大量的研究，但是为了满足大容量数据库和www检索的要求还有许多工作要做。

www上基于内容的音频检索问题，需要研究快速的大规模音频库的浏览、检索和提交：长音频的浏览，即结构化表示音频流，并设计出新形式的内容浏览界面：长音频的检索，研究通用的基于片段级的内容检索，在时间轨迹上匹配一组特征，这需要研究模糊的匹配方法：继续研究有效的听觉解析特征，以支持通用和专用的音频检索问题：用户的音频查询接口和检索引擎：音频索引问题，以满足大容量数据库和网络检索的要求。

6　结语

基于内容的音频检索是一个新兴的研究领域，在国内外仍处于研究、探索阶段.当今时代，随着现代信息技术的发展，多媒体信息可以说是无处不在，但是由于多媒体类型丰富，数据量大等特点，使得如何能高速的检索就显得尤其重要.在本论文中介绍了基于内容得音频检索系统的一般结构及相关技术。

基于内容的音频检索是一个涵盖十分广泛的研究领域，与信号处理、人感知心理研究和模式识别等学科紧密相联。为使计算机能像人那样对音频语义实现自动理解，并根据语义高级内容进行音频检索，我们面临的挑战还很多。

参考文献：

[1]尚永强，张琳海，许大伟，等.基于内容的音频检索算法[J]河南科技学院学报，2009，37(3)：69-72

[2]张燕，唐震民，李燕萍，等.基于内容的音频检索综述lJl.金陵科技学院学报，2007，23(2)：25-29

[3]孙国成.基于内容的音频检索研究：[硕士学位论文].华中科技大学：华中科技大学图书馆，2008

[4]朱爱红，李连.基于内容的音频检索关键技术研究[J]现代计算机，2003,13(12)：39：40

[5]刑伟利.基于内容的音频检索技术研究与实现『硕士学位论文]西北工业大学：西北工业大学图书馆，2004.

地理数据的基本特征篇8

关键词：生物识别技术；步态特征；目标轮廓；预处理；周期特性

中图分类号：tp18文献标识码：a文章编号：1009-3044（2016）33-0171-03

1引言

人员身份识别是安全排查的重要方面，传统的身份识别手段包括身份证、社保卡、电子密码等。这些方法存在易窃取、易伪造、易破解等问题，而生物识别技术有效避免了此类问题的出现。

步态特征识别是生物识别领域比较新的研究内容，其所具有的非接触性、远距离识别、隐蔽性、不需要特别高的分辨率、不易被模仿等特点，使其在智能识别方面具有很大的发展前景和应用潜力[1]。步态识别技术是一种基于行为特征的识别手段，在智能视频监控的大环境下，利用步态识别对监控范围内的人员进行跟踪和分析排查可疑人员，对发现重点人员、提高预警时间以及及时防范起到重要作用。研究步态识别技术对于提高智能监控水平、维护社会和谐稳定具有重要而深远的意义。

在步态行为分析中步态特征是实验分析的主要内容。针对步态特征，目前研究者提出了很多方法。文献[2]提出针对SarKar等[3]基于基线算法的步态周期检测的改进算法，通过对图像帧中运动目标的摆动距离的计算，根据摆动距离的周期性估算步态周期值。Yan-qiuLiu[4]等提出步态能量图结合步态周期的融合算法，利用傅里叶变换后的低频成分作为特征进行识别。本文提出步态周期检测的改进方法，使计算量更小且减少摆臂的干扰。

2步态行为分析

步态行为分析是对步态数据库中的运动目标进行图像处理，获得运动物体的静态和动态信息，并对运动物体进行区分和识别，主要流程如图1所示。其中，预处理主要是获取背景图像。运动目标检测主要是提取运动目标和形态学处理。

2.1图像预处理

通过预处理提取运动图像中背景图像。由于背景构成相对复杂，以及阴影、光照变化等影响，使得运动目标分割比较困难[5]。目前常用的是光流法和高斯法。每一种算法都有其特定的适用场景，根据客观条件的不同选择相应的算法来提取背景。由于数据库所使用的是固定镜头下拍摄的视频图像，背景、光线、距离等因素基本没有变化，所以本文采用背景减除法进行目标检测。

采用背景减除法，首先是建立背景模型。模型算法的效果直接影响背景提取的质量。原理是将一段特定视频中所有图像帧的像素平均值作为背景。平均值的计算以及更新规则都相对简单，因此该方法的实时性较好。由于光照变化会对图像亮度即像素灰度值产生较大影响，因此该方法对环境光照变化的适应性较差。平均背景模型的具体实现步骤如下。

2.2运动目标检测

运动目标检测是指从获取的视频图像中提取运动的目标，获得清晰的运动目标轮廓[6]。运动目标包含静态特征和动态特征，静态特征有人体高度和宽度、面积等，动态特征有关节角度、肢体摆幅、运动速度等，这些都可以表征运动目标特性。同时背景图像也分为固定场景和运动场景两种，由于场景是否静止，使得目标检测算法的选择不同。

运动目标检测是步态行为分析的基础内容，运动目标提取直接影响到到特征提取和分析。运动目标检测包括运动目标提取和形态学处理等操作。

首先，提取运动目标，对获取的背景图像和前景通过背景减除的方法进行处理，同时设置阈值理论值。调整阈值的大小，得到理想的二值D像。如图3所示。

2.3特征提取

在医学上步态周期的定义是：运动过程中，从一侧足迈步开始到同一侧足再次着地结束。也就是迈出左（右）脚最大距离到下次左脚最大距离时所需要的时间为一个步态周期。完整周期内，一侧下肢经历了两个阶段；即地面支撑阶段（站立期）和摆动期。站立期约占整个步态周期的60%，在这个过程中足跟完成着地到脚趾离地整个动作。摆动期为脚趾离地后到足跟再次着地的过程，约占整个步态周期的40%。一侧腿在摆动期的同时另一侧腿处在站立期。

2.3.1质心点定位

通过预处理操作获得运动目标轮廓，并提取运动目标质心。

3仿真实验与分析

步态行为分析以matLaB软件进行实验分析，步态图像库采用CaSia数据库a中数据。CaSia数据库a中有20个样本，分三个角度，每个角度4个步态序列，共240个序列。目前实验只用到其中零度的80个序列。

按照以下步骤提取步态周期：

（a）读取数据库a中的样本序列。

（b）对图像进行质心提取操作，如图5所示。

（c）计算图像序列摆动距离变化趋势，如图6所示。

从表1中可以看出样本之间周期差值最小为0.07帧，且周期帧数在18～28之间。通过分析数据，发现zl周期帧数明显偏小。通过zl序列发现，提取到的运动目标轮廓有较大残缺，对运动目标质心获取和周期特性的获得产生较大误差影响，如图8。

当前实验数据是从80个图像序列中获得的，分析存在误差的主要原因有以下三种。第一，由于采用CaSia数据库a中数据作为基础，实验样本较少，造成误差较大。第二，由于图形处理过程中存在噪声干扰，使特征提取效果达不到理论值；第三，由于序列中存在异常轮廓导致数据变化发生突变，如图9所示。

4结论

本文通过获取图像帧中运动目标的摆动距离，利用摆动距离和步态周期的相关性得到周期特征。通过对实验数据分析，在图像处理的过程中存在无法消除的噪声，抑制噪声的同时产生新的噪声干扰；由于序列基数比较少造成运动周期值精度不够。在未来的研究中可以进一步补充样本数量，改进算法降低噪声干扰，以提高周期值的准确度。

参考文献：

[1]衣美佳.步态识别关键技术研究[D].南京邮电大学，2015.

[2]马勤勇.基于步态的身份识别研究[D].浙江大学，2008.

[3]S.Sarkar，p.J.phillips，Z.Liu，et.al.thehumaniDgaitchallengeproblem：datasets，performance，andanalysis.ieeetransactionsonpatternanalysisandmachineintelligence，2005，27（2）：162-177.

[4]Yan-qiuLiu，Xuwang.Humangaitrecognitionformultipleviews.procediaengineering15（2011）1832-1836

[5]韦素媛.实用步态数据库的建立和步态特征提取与表征方法[D].西安电子科技大学，2013.

地理数据的基本特征篇9

摘要:为解决电子系统健康状态监测数据的冗余性和高维性问题，提出了一种将样本优化和特征优化相结合的监测数据优化算法。首先，采用特征空间样本选择算法对监测数据进行样本优化，找出最具代表性的样本；然后，采用核主成分分析—分布估计算法（KpCaeDa）对样本优化后的监测数据进行特征优化，在保证特征信息充足的情况下，保留更多的识别信息；最后，以某滤波电路为例进行了验证，仿真结果表明，该算法同KpCa等优化算法相比，在训练时间和识别率上能达到更好的平衡。

关键词:电子系统；监测数据优化；特征空间样本选择；核主成分分析；分布估计算法

中图分类号:tp18;tp216文献标志码:a

引言在我军装备跨越式发展过程中，电子系统在武器装备中的比重越来越大，在战争中的作用也越来越突出，一旦其健康状态发生退化，将会直接影响部队战斗力的发挥。因此，监测电子系统的健康状态对部队装备维护具有重要意义［1］。但是，在对电子系统健康状态进行监测时，通常需要采集大量数据，这些数据大多具有冗余性和高维性的特点，将其直接送入监测模型中会极大降低监测效率，并导致不准确的状态评估结果。因此需对监测数据进行优化，这是监测评估电子系统健康状态的第一步。文献［2］提出的主成分分析（principalComponentanalysis,pCa）算法是一种常用的将多个互相关变量转化为少量不相关变量的数据优化方法，该算法理论完善，计算方便，具有最优的线性重构误差，但是，该方法对主成分个数的确定没有明确的准则，而且不能用于处理非线性数据，因此限制了其应用范围；之后有学者对此方法进行了改进，提出了基于核空间的核主成分分析（KernelprincipalComponentanalysis，KpCa）算法［3-4］，通过引入核函数，在特征空间内对数据进行pCa处理，对非线性数据具有较好的处理能力，但是，该算法的性能依赖于核的选择，并且核矩阵的大小是数据中样本数的平方，若样本数量很大时，核矩阵的计算量较大。另外，无论是pCa算法还是KpCa算法，在优化数据过程中均将全部数据视为一个整体，寻求散度最大的方向，然而在很多情况下，散度最大方向与识别最有利的方向并不一致［5］，这大大限制了其在数据优化中的应用。本文针对这两种算法的缺陷，提出了将样本优化和特征优化相结合的监测数据优化算法：首先，采用特征空间样本选择算法对样本进行优化，这不仅可以有效地消除相似样本，提高监测模型的泛化能力，还可以降低KpCa中核矩阵运算的计算复杂度［6］；然后，对优化后的样本集进行KpCa分析，并采用分布估计算法（estimationofDistributionalgorithm,eDa）对主成分特征信息进行选择，在保证状态特征信息充足的前分区图片图1监测数据优化策略提下，保留更多的识别信息，实现监测数据的特征优化。基于特征空间样本选择和KpCaeDa算法的监测数据优化过程如图1所示。1基于特征空间样本选择的样本优化算法针对监测模型大多在特征空间进行模式识别而以往样本选择在原始空间进行的矛盾，提出了基于核方法的特征空间样本选择技术，即利用核技巧将样本选择方法拓展到特征空间，在特征空间中选择最具代表性的样本来表征整个样本集，提高监测效率。基于特征空间样本选择的样本优化算法如下：

地理数据的基本特征篇10

关键词：三维运动特征；可视化校对；系统设计；姿态修正；细节感知

中图分类号：tn911?34；tp391文献标识码：a文章编号：1004?373X（2016）22?0001?05

extractionalgorithm，a3Dmotioncharacteristicsvisualizationproofreadingsystembasedonmultipletransmissionunitintervalarraydistributionwasdesigned.thesystemoveralldesignandarchitecturemodelareanalyzed.thefunctionalparameterstodesignthesystemaregiven.thedesignofmodulesinhardwarepartofvisualizationsystemtoproofread3Dmotionfeaturesisconducted，includingpowersupplycircuitmodule，3Dfeaturedataloadcircuitmodule，resetcircuitmodule，aDdigital?to?analogueconversioncircuitmoduleandinterfacecircuitmodule.programloadof3Dfeatureextractionalgorithmwasperformed.thesoftwaresystembasedonVisualDSp++4.5wasdevelopedtorealizethesystemoptimizationdesign.thesimulationexperimentresultsshowthatthesystemcaneffectivelyrealizethevisualizationproofreadingof3Dmotionfeatures，andhashighcaptureandextractionaccuracyfordetailfeaturesofmovingimage.

Keywords：3Dmotionfeature；visualizationproofreading；systemdesign；attitudecorrection；detailperception

0引言

随着计算机数字图像处理技术的发展，以三维可视化图像处理为基础进行运动目标图像的分析，实现对运动姿态的细节捕捉和姿态分析的能力。通过对运动三维图像的优化识别和可视化校正技术的研究，提高对运动目标对象的跟踪和计算机视觉识别的水平，在多媒体视觉下，采用图像特征采集方法，结合运动三维数据库和专家识别系统，能实现对被采集运动目标图像的细节动作特征分析，从而实现对运动三维目标图像的检验分析和指导。通过运动三维特征的可视化校对系统的设计，把图像处理算法加载到图像处理系统中，实现对图像的三维校正和细节捕捉感知，研究运动三维特征的可视化校对系统，在图像识别、动作特征分析以及身份的认证系统设计和视觉分析等领域都具有重要的应用意义，相关的系统设计方法研究得到了人们的极大关注[1?2]。

1系统总体设计描述与功能器件选择

1.1运动三维特征可视化校对系统的逻辑设计

为了实现对运动三维特征的可视化校对，在前期的三维特征提取算法设计的基础上，进行运动三维特征可视化校对系统的优化设计。系统开发分为硬件设计和软件设计两大部分。本系统所设计运动三维特征可视化校对系统与一般的信号处理系统不同之处在于它采用DSp进行运动三维特征数据的采样，通过动态控制增益进行三维数据的采集，时钟频率为33mHz或66mHz。在三维特征提取中，采用设备暂时接管基阵的阵列信号，进行运动三维特征的扩展总线并行收发，通过收发转换和功率放大器以及进行地址奇偶校验。根据系统的功能和技术要求，进行运动三维特征可视化校对系统方案设计以及硬件设计[1，3?4]，系统组成框图如图1所示。

运动三维特征可视化校对系统的设计思想是采用pCi总线操作对运动三维特征信息进行数据收发设备的从属访问，系统设计的主要元件包括如下几个方面：

运动三维特征的计算元件（Ce）：代表运动三维特征数据网格的计算资源。

运动三维特征的存储元件（Se）：通过局部总线向Hpe1562e8GB发送数据存储请求任务，实现对运动三维特征数据资源的综合调度。

Ram缓冲区（RB）：捕获32位地址/数据总线中的运动三维特征的可视化校对任务，根据用局部总线传输数据到Hpe1562e，给每个任务分配适当的副本。

副本管理器（Rm）：以采集数据到Hpe1562D/e数据硬盘，在每个站点控制副本管理的传输，实现运动三维特征的可视化信息的差分输入和直流耦合。

根据上述系统总体设计思想，采用pCi9054的LoCaL总线设计方法，进行数据特征采集，用8个32位maibox寄存器寄存运动三维特征的像素值信息，对运动图像进行特征提取，当初始化时，运动场景图像的亮点特征采样的时钟频率可达到50mHz，系统自动将行为特征线性频率尺度提取值通过串行e2pRom进行配置校验，在C模式下，选择motorola公司高性能mpC850/86作为三维特征的可视化校验视觉分析系统，运动图像三维特征的可视化校验视觉分析过程可以用如图2所示的时序图描述，在pCiinitiator操作过程中，采用可编程逻辑芯片进行图像信息特征的谱分析，以此为基础实现系统的优化设计。

1.2系统的设计指标和器件选择分析

根据上述总体设计思想和系统设计的总体架构进行系统优化设计。本文设计的运动图像三维特征的可视化校验系统的参数指标描述如下：

运动图像的Harris角点检测的频率大于200Hz，寄存器基器件采用ieee?488协议进行图像信息通信，e2pRom的配置采用VXi总线器件，采样频率不低于21mHz，双路16位电流输出，VXi消息基器件具有电磁兼容性，通道输入范围为-12～20dB，运动三维特征可视化校对的模拟滤波器Hpe1433a使用新型可编程高通滤波器。根据上述设计指标，进行系统的功能描述和器件分析，运动三维特征可视化校对系统采用32位数据总线计算机模块进行图像特征采样和角点像素值分析。D/a芯片选用的是aDi的aDSp?BF537。运动三维特征可视化校对系统具有高分辨率特性，可以精确控制高压，产生电磁辐射，外部晶体采用功耗280w的有源晶振aD554进行图像降噪滤波，运动三维特征可视化校对的晶振电路如图3所示。

运动三维特征可视化校对的晶振电路经24倍频后抑制低频干扰，在晶振的输出端放置一个[0.1μF]的电容，耦合到芯片底下，实现对三维特征的时钟波形提取。综合以上要求，运动三维特征可视化校对系统的器件选择了aDi公司的高速a/D芯片aD9225作为核心控制处理器，进行系统的硬件电路设计。

2系统的硬件电路模块设计与软件设计实现

在上述进行了运动三维特征可视化校对系统的总体设计和设计指标分析以及功能模块构建的基础上，进行系统的硬件模块设计，系统的硬件模块主要有电源电路模块、三维特征数据加载电路模块、复位电路模块、a/D数模转换电路模块以及接口电路模块等，具体的设计过程描述如下：

2.1.1电源电路

运动三维特征可视化校对系统的电源电路的D/a芯片选用的是aDi的串行D/a转换器aD5545，电源电路的内部时钟振荡器为aDSp?BF537，它是双路16位内核频率最高为126mHz的D/a转换器，建立时间为2[μs]，运动三维特征可视化校对系统电源电路选用频率为[25mHz]、电压为3.0V的电源层要隔离开采样时钟，通过an收发器相连，实现系统的交流供电，电源电路模块设计如图4所示。

由图4可知，运动三维特征可视化校对系统的电源电路采用独立的看门狗输出，可视化校对系统的电源电路采用分立元件构成，其中低电池检测或者其他电源的检测为微分电路。当电源VCC上电时，DSp在1.6s内随着电容C两端电压的增大而产生突变，所以oUt在上电时需要通过整流滤波振荡器进行线性调制，通过线性调频滤波进行振荡采样的复位，当复位有效，持续一段时间后，DSp采样BmoDe2?0管脚，oUt变高，复位撤除，地址0x20000000执行DSp的工作。

2.1.2三维特征数据加载电路模块

数据加载电路又叫程序加载电路，通过引导Rom进行程序加载，aDSp?BF537程序加载方式较多，本文对运动三维特征可视化校对系统设计过程中，对运动图像的三维特征数据程序加载模式分析如表1所示。

综上所述，得到本文设计的运动图像的三维特征的数据加载电路设计如图5所示。

采用表1所述的各个加载方式，结合本文设计的运动三维特征的可视化校对程序加载电路，进行运动三维特征的可视化校对。

2.1.3复位电路模块

运动三维特征可视化校对系统的复位电路是执行系统的帧同步信号、运放aD8674输出的复位功能，运动三维特征可视化校对系统的复位电路采用Can8674为主控芯片，芯片采用的是4通道高性能运放数据交换，复位电路的带宽为10mHz，使用aDUm1201进行3线制接口供电，aD8674产生输出范围为0～5V，看门狗复位电路的输入端从外部16位存储器读取运动图像的像素角点检测特征值，从地址0x20000000执行0x00字节的时钟同步程序，e2pRom的输出口S0和输入口接一个上拉电阻，由此实现对三维可视化校对系统的自动复位，复位电路设计如图6所示。

2.1.4a/D转换电路模块

运动三维特征可视化校对系统的a/D转换电路是实现对输入数据的数模转换，提供给计算机和DSp芯片可识别的原始运动三维特征数据。本文设计的运动三维特征可视化校对系统的a/D电路的分辨率为12位，最大采样频率为25kHz，采用aD公司的高性能aD芯片aD9225进行设计，采样时钟由CLKBUF给出，aDG3301在输出端口的绝对电压满足：

a/D电路的设计需要减弱电源毛刺对模拟电路产生的干扰影响，实现单通道双向电平转换，根据上述设计思路，得到a/D电路的设计结果如图7所示。

2.1.5接口电路模块

系统的接口电路是实现数据的输入输出以及人机通信等功能，接口电路是系统设计不可少的重要模块，本文设计的接口电路采用并联瞬态二极管tVS设计，接口芯片为82C250，CanH和CanL与地并联进行控制信号的输入输出，得到接口电路设计结果如图8所示。

在上述运动三维特征可视化校对系统模块化设计的基础上，进行系统的硬件集成设计，得到集成电路设计结果如图9所示。

2.2系统的软件设计与程序实现

在上述进行了运动三维特征可视化校对系统的硬件电路设计的基础上，进行系统的软件开发设计，并结合前期的图像处理算法，进行程序开发，实现系统的完整设计。本系统的软件开发建立在VisualDSp++4.5软件开发平台基础上，VisualDSp++通过图形窗口建立运动三维特征的可视化编辑和校对窗口，通过指令流水查看器进行程序加载和数据分析，实现三维运动特征的可视化校对，在VisualDSp++的Simulator和emulator中进行软件开发，通过emulator，在windows窗口下优化anSiC编译，程序开始后首先进行初始化，判断双缓冲区的a/D采样，执行同步串口0初始化，采用SpoRt0_tCLKDiV寄存器产生帧同步片选信号，配置poRt_mUX寄存器进行可视化校对的程序特征输出，配置Can_mBim1进入Can收发模式，采用ppi默认的Dma通道实现系统的人机通信和ppi数据读取，根据上述设计思想，采用多个传输单元间隔阵列分配校对，得到软件开发的流程如图10所示。

根据上述软件开发流程设计，进行运动三维特征可视化校对系统的软件开发和系统设计，最后进行程序加载，通过系统调试进行性能验证。

3程序加载和系统调试实验

为了测试本文设计的运动三维特征可视化校对系统的性能，进行系统仿真实验，开发应用程序之前，定义系统文件，进行三维图像处理算法的程序加载，程序加载过程代码如下：

S根据上述程序加载结果，确定运动三维特征可视化校对系统的变量和数组，软件调试采用tektronixtX3trueRmSmultimeter，运动三维特征可视化校对系统的输出显示通过agilent混合示波器实现，得到系统对原始的三维图像的采集输出结果如图11所示，采用本文方法进行三维特征的可视化校对，得到校对输出结果如图12所示。

从图12可见，采用本文设计的系统能有效实现对运动三维特征的可视化校对，对运动图像的细节特征捕捉和提取精度较高，性能较好，展示了较好的应用性能。

4结语

通过运动三维特征的可视化校对系统的设计，把图像处理算法加载到图像处理系统中，实现对图像的三维校正和细节捕捉感知，在图像识别、体育运动训练指导、体动作特征分析等方面具有重要意义。本文提出一种基于多个传输单元间隔阵列分配校对的运动三维特征的可视化校对系统的设计方法，首先进行了系统总体设计描述和系统的架构分析，给出系统设计的功能指标，对运动三维特征的可视化校对系统的硬件部分进行分块化设计，对三维特征提取算法进行程序加载，基于VisualDSp++4.5进行软件系统开发，进行系统仿真实验。研究结果表明，采用该系统进行运动三维特征的可视化校对，具有较好的运动特征提取和细节分析能力与较好的图像处理性能。

参考文献

[1]李计添，何永强，陈财森，等.一种基于灰度投影算法的车载电子稳像方法[J].红外技术，2010，32（6）：328?332.

[2]姜浩，冯敏，肖桐，等.基于线状特征增强的tm遥感影像细小河流提取方法[J].测绘学报，2014，43（7）：705?710.

[3]朱娟娟，郭宝龙.一种运动载体摄像的自适应稳像系统[J].光电子・激光，2007，18（1）：108?112.

[4]马忠丽，李慧凤，文杰，等.高速水面艇视觉系统电子稳像算法[J].计算机应用研究，2014，31（2）：633?636.

[5]paLomaReSi，maRtineZL，HeRReRaF.aconsensusmodeltodetectandmanagenon?cooperativebehaviorsinlargescalegroupdecisionmaking[J].ieeetransactionsonfuzzysystem，2014，22（3）：516?530.

[6]ZHanGH，wanGZ，LiUDa.Comprehensivereviewofstabilityanalysisofcontinuous?timerecurrentneuralnetworks[J].ieeetransactionsonneuralnetworksandlearningsystems，2014，25（7）：1229?1262.

[7]盂勃，韩广良.基于改进的尺度不变特征变换特征点匹配的电子稳像算法[J].计算机应用，2012，32（10）：2817?2820.

地理数据的基本特征十篇

地理数据的基本特征篇1

地理数据的基本特征篇2

地理数据的基本特征篇3

地理数据的基本特征篇4

地理数据的基本特征篇5

地理数据的基本特征篇6

地理数据的基本特征篇7

地理数据的基本特征篇8

地理数据的基本特征篇9

地理数据的基本特征篇10

相关作文

小学作文

初中作文

高中作文

作文体裁