首页范文大全数学建模大数据处理方法十篇数学建模大数据处理方法十篇

数学建模大数据处理方法十篇

发布时间:2024-04-26 02:41:35

数学建模大数据处理方法篇1

关键词:元算法;数学模型库;扩展元算法;专题数据处理

中图分类号:tp311文献标识码:a文章编号:1009-3044(2015)31-0041-02

专题数据处理模型库是指通过各类数学模型,充分挖掘其空间分布规律、关联规律、分类规律等内容,从而获取专题数据处理所需的信息,为空间分析和制图提供重要支持。专题数据处理数学模型库广泛应用在非空间特性数据分析、挖掘空间数据、专题地图制图等多个领域。目前,多数制图系统和GiS系统中,数据处理主要借助函数、插件等固定形式完成算法,哪怕建立的模型库管理系统中已存在的模型,例如:针对环境、农业、交通等建立模型库,已有的模型库重用性、扩展性效果不佳,应用至其他领域必须实施较大改动,需要重新编制算法模型或相对应的管理系统。现阶段,GiS和专题制图技术的不断发展,模型库设计方法无法满足数学模型共享性、重用性的要求,也无法实现用户对动态生成数据模型和智能化管理方面的要求。分析上述问题,根据已有的数学模型库系统展开研究,提出基于元算法数学模型库系统,在系统中增设扩展元算法模型库,介绍可视化生成数学模型库,将设计的数学库模型系统挂连至外界GiS框架内方便进行专题作图,获得良好的应用效果。

1简述元算法相关概念及特征

元算法是指从数学模型中抽象而来最具体的算法单元体,其可以标识算法模型的一般特征,通过聚合建立的数学模型具有共享性、重用性的特点。同时,具体使用过程中,必须综合考虑各领域数学模型的特殊性,必须建立针对具体领域所使用的元算法模型。元算法主要特征如下:1)元算法应概括所有专题数据处理算法的特征,换句话来说,任何一个算法均由多个元算法组成,上述元算法过于细化。2)创建的元算法专题数据处理模型采用程序的表示方法,这要求每个算法必须来自客观实际,确保能够被程序应用,并非空穴来风设计。3)专题数据处理模型可在通常情况下,元算法作为算法中的最小单元,不可再分,单元算法也不能过于具体化,太具体会加大重复工作量。建立的数据库系统在确保概况性的基础上,保证元算法具有不可分性。

2设计在元算法基础上的数学模型库

模型库系统平台主要功能是管理或维护模型资源,具有模型分析、模拟功能。基于元算法设计数学模型库系统,该系统的特点主要表现在底层模型库组织方式和表达方式上。由于元算法模型具有普遍性、概况性的特点,采用元算法模型粒度控制尺度设置数学模型库,实现对数学模型资源的管理和维护,为各个领域的专家、用户提供管理控制工具。这种设计形式与已有的模型库系统比较具有以下优点:1)具有简捷性的特点:本系统与原有模型库系统本质的区别在于,该系统是从最基本的模型表示方法入手,把GiS中的算法分解成具有普遍意义的元算法段元。合理控制模型六度确保用户能够自由构建所需的算法模型,在一定程度提升算法模型设计的弹性。2)通用性和合理性的特点:本系统针对GiS中反复出现的数据处理算法,把算法管理逐渐从GiS中进行分离,完成数据处理与数据可视化分离的操作,借助模型库系统便于处理数据。

3建立元算法专题数据处理数学模型库

1)元算法模型主要分类

为便于管理,不得将元算法当做一类进行处理,专题数据处理中把元算法细化为基本元算法子集和扩展元算法子集。专题数据处理模型库系统中,为便于管理,根据元算法模型的参与运算目数划分,主要包括单目和双目元算法模型。参与运算的预案算法有的是单目的,例如:正弦、绝对值等;有的是双目运算,例如:加法、指数运算等等,具体情况如图1。

图1数学模型库“基本元算法”子集内容

2)扩展元算法子集内容

扩展元算法是指由基本元算法组合而成的形式,在实际使用中常见的特殊元算法。对专题数据进行处理过程中,所用的扩展元算法主要来源于以下方面:①包括矩阵、方程等这类相对复杂的运算法,这种复杂的算法主要由基本元算法组合而成,建立数学模型系统也比较复杂,例如:矩阵乘法运算等。②在模型库中重复出现的特殊算法,这些算法在专题数据处理中频繁出现,例如:数据数字特征算法,为防止重复繁琐的算法,必须将这类特殊算法进行提取当做扩展元算法处理,内容如图2。

图2扩展元算法子集主要内容

3)专题数据处理数学模型库内部组织

专题数据处理模型库系统采用向对象法描述模型库的组织体系结构,实现合理管理模型库内部各种算法的目的。以UmL部分算法为例进行设计,如图3。

图3元算法数据模型库组织结构图

图3中mathmodel设置一个公共结构,上述算法模型以直接或间接实现该公共接口,确保每种算法模型采用恰当的变量对象参与运算中。中间第一层接口依据模型变量角度进行划分,依据每个算法参与变量的角度选定相应的实现接口,该接口实现处理输出结果的功能。最下层表示单目元算法和双目元算法,每种算法依据运算目数选定继承基类。每一个算法类实现并继承设定的基类和接口,完成所继承接口与基类的各种算法,设计变量数值和类型后参与运算中。上述设计不单保障算法模型每个变量数值,也确保其实施统一的文件格式输出,达到各算法模型之间相互连通的目的。

4)基于元算法数学模型生成

数学模型可视化生成借助多个元算法模型进行组合或嵌套,是指在原有的模型库系统正确引导下下,挑选创建数学模型库系统所需的元算法部件,无需再次实施编程即可创建所需的数学模型库。

基于元算法主要采用两种方式设计数学模型库,一种在元算法模型基础上创造新的数学模型库,如:计算一条直线上两点之间的距离,数学表示公式为:[y=x1-x2],该公式所用的数学模型有:减法元算法([(x1-x2)])和绝对值元算法([x1-x2]),采用上述两组元算法模型组建所需的数学模型。另一种方法是借助原有的数学模型和元算法建立新的模型。如:专题数据处理过程中常用的界限等差分级模型,[ai=L+iH-Lm],该数学公式中的[ai]表示第i个分级的界限值,m代表该式子的分级数,采用H、L分别表示最大值和最小值,间隔递增模型([ai=L+iH-Lm+i(i-2)2D]),其中D表示公差值,通过分析可知,前面的数学公式是后者一部分,建立后面公式的数学模型时,可将前者的模型当做子模型直接参与建立数学模型库中。例如:在建立等比分级数学模型([ai=L(HL)Vm])和间隔等比数学模型([ai=L+1-qi1-qm(H-L),q表示公比值])过程中,其可视化生成步骤如下:

首先,创建模型所需的变量因素,设定其所需的参数。其次,依据系统中通用的元算法模型创建有关的子数学模型,主要由单目、双两类数学模型组成,上述数学公式的L、H均为单目模型,其余因子为双目数学模型。最后,把建立的新模型导入专题数据处理模型,根据数学模型生成步骤,创建专题数据处理数学模型库系统。

4结束语

总之,根据元算法数据模型库设计思路,深入研究专题数据处理常用的数学模型库,设置相对应的扩展元算法模型,建立在元算法基础上的专题数据处理数学模型库。这种数学模型库系统具有较好的共享性、可重用性,能有效提升数学模型库开发效率和利用率,值得在各个领域推广使用。

参考文献:

[1]叶文婷.数学算法对计算机编程的优化[J].通讯世界,2015,15(9):234-235.

[2]李国庆.基于Gep函数发现的决策模型研究[J].许昌学院学报,2014,33(5):53-56.

[3]聂良涛,易思蓉,李阳,等.数字化工务工程基元模型库建模方法研究[J].铁道建筑,2014,9(2):90-94.

[4]徐涛,黄子辉.基于数字水印技术的三维网格模型库版权保护系统[J].惠州学院学报,2012,32(6):59-62.

[5]李欣凯.基于分布参数微元算法的35kV线路舞动数学模型的应用[J].煤矿机电,2014(4):46-48,52.

[6]邱爱兵,史军杰,冯肖亮,等.基于模型库的船舰组合导航信息融合算法[J].中国航海,2013,36(3):5-9.

数学建模大数据处理方法篇2

关键词:激光点云数据三维建模模型重建

中图分类号:p228文献标识码:a文章编号:1672-3791(2015)04(b)-0049-02

传统的三维建模是基于图片信息的场景建模和表现,这种技术存在着缺少真实感,三维几何信息不准确以及处理速度缓慢的缺点。因此,近年来基于激光扫描技术的三维建模技术成为了研究热点。激光扫描仪能够直接获取景物的深度信息,方便快捷。此外,利用激光扫描技术进行三维重建能够有效恢复出具有准确几何信息和照片真实感的三维模型。

整个点云数据建模过程包括数据预处理和模型重建。数据预处理为模型重建提供可靠精确的点云数据,降低模型重建的复杂度,提高模型重构的精确度和速度。数据预处理阶段涉及的内容有点云数据的滤波、点云数据的平滑、点云数据的缩减、点云数据的分割、点云数据的分类、不同站点扫描数据的配准及融合等;模型重建阶段涉及的内容有三维模型的重建、模型重建后的平滑、残缺数据的处理和模型简化等。实际应用中,应根据三维激光扫描数据的特点及建模需求,选用相应的数据处理策略和方法。

1数据预处理

针对车载激光点云数据的特性,将数据预处理方法分为两类,半自动的数据预处理方法和全自动的数据预处理方法。

1.1半自动数据预处理方法

半自动的方法主要是利用现有的各种类型的点云数据处理软件,如三维激光扫描仪配带的相应点云数据处理软件或逆向工程领域比较著名的商业点云处理软件,一般都具有点云数据编辑、拼接与合并、数据点三维空间量测、点云数据可视化、空间数据三维建模、纹理分析处理和数据转换等功能,但它们往往具有通用的处理功能,对于特定的数据处理效果有一定的不足之处,在功能和性能上也或多或少存在一定缺陷,且一般比较昂贵。

1.2全自动数据预处理方法

全自动的数据预处理方法主要是通过一定的算法来实现点云数据预处理,包括点云数据滤波,点云数据分类等。

数据滤波的目的是为了去除测量噪声。实际测量过程中存在各种因素的影响,观测数据往往不是理想的结果。为了得到合理正确的目标物体形体信息,需要对观测数据进行滤波,剔除掉含有粗差的相关观测数据和无效形体数据,从而得到目标物体形体信息的最佳估值。

由于激光扫描仪对空间信息采集的盲目性,使得激光点云数据在三维空间的分布形态呈现随机离散性,在这些离散点中,有些位于真实地形表面,有些位于人工建筑物(房屋、塔、输电线等)或自然植被(树、灌木、草等)上。如果直接利用这些点进行建模,处理的难度非常大。因此,要在激光点云数据中提取目标对象的三维信息进而构建其三维模型,就需要对去噪滤波后的数据点进行分类,将其划分成具有单一几何特征的拓扑结构区域。

1.3数据预处理结果

按照以上算法流程编写matLaB程序,实现地面点与非地面点的分离,用本算法进行滤波时要注意滤波参数的设置,通常要根据不同地表形态来选取适当的参数。应用本算法对铁路两旁的数据进行了滤波处理,前后对比效果如图1、2所示,从中可以看出该算法能很好的实现地面点与非地面点的分离,但是该算法需要输入很多滤波参数,如地形坡度,窗口大小等,这些直接影响着滤波的效果,因此要实现很好的滤波需要根据实际地形情况反复试验几个滤波参数。

2模型重建

点云数据经过滤波分类处理之后,就可以针对分出来的不同类别采用不同的建模方法了,这里滤波分类主要分为地面点和非地面点,所以,模型重建也通过这两类来分析。

2.1地面点建模

与通常的栅格影像数据不同,激光点云数据是离散分布的不规则点数据。因此,要用模型的形式表示地形表面分布,就需要进行网格化处理,即将离散的点连续化。我们采用三角网的方式对数据进行组织,地形表面由连接数据点的三角形构成,通过进行插值实现对地形表面的逼近和近似,这是对地形表面的一种精确表达。在本文的试验研究中,采用tinmodel5提供的构网模块实现了将分类后的离散的地面点构建为不规则三角网(tin),如图3所示。

2.2非地面点建模

非地面点比较复杂,包括建筑物、植被、道路两旁设施等。随着autoCaD、maya、逆向工程等三维建模软件的出现,可以通过人机交互的手段来辅助三维建模,如图4所示为利用逆向工程软件imagewave对城市道路两旁的建筑物点云数据进行建模效果图,图5展示了利用软件对模型进行纹理映射与可视化。但这些方法费时费力,而且对使用者的技巧要求很高,对于结构复杂、不规则的场景建模更是无能为力。

显然纯粹地利用三维建模软件实现激光点云非地面点数据的模型重建,并非一个好的办法,研究怎样从这些离散的三维点云中快速准确地构建出真实的模型显得尤为重要,逆向工程中用激光扫描某个特定物体获得的数据直接重构物体,但此方法在车载激光扫描测量中不可行,因为是它是自动目标采集,扫描无特定目的,不能控制扫描哪些物体。所以激光扫描的数据量非常大,如果直接进行三维重构的话消耗太大,必须先对距离图像进行处理,提取出特征点、特征线和特征面再继续建模。由于到目前为止,还没有距离图像分割和特征提取的成熟、可行方法,使得当前的激光扫描系统都采用与CCD或类似图像采集设备集成,其中距离图像以用于构建高精度的Dem为主,图像分割和特征提取则采用CCD影像数据解决。这种联合作业方式使得系统运行成本高、控制比较复杂、数据存储量大、多源数据处理与融合复杂。目前对距离图像的数据处理方法集中在构建DSm/Dem上,或者附加CCD影像进行融合,对直接从距离图像中进行目标分类和特征提取的研究比较缺乏。鉴于此本文通过阅读文献,针对车载激光点云数据总结了以下的建模方法和步骤。

(1)对非地面点进一步分类。

通过车载扫描系统获得的点云数据中非地面点存在很多杂点,受车体行驶周围影响很大,如要对道路两旁建筑物建模,则建筑物点云受路两旁的树木,广告牌、线杆以及周围车辆等影响很大。这样直接用这些点云数据进行建筑物建模,效果会很差,所以有必要对非地面点进一步分类,可分为建筑物,线杆以及其它地物点(如植被、路灯、公交站牌、广告牌等)等。其中建筑物是非地面点中最重要的部分,也是通常最关心的地物。

(2)通过点云数据对建筑物进行特征提取。

利用前面提出的数据分类方法,考虑建筑物自身的几何特征,设计了一个简单的建筑物特征提取方法:首先,从分类后的激光扫描数据中提取出建筑物数据;然后,从建筑物数据中提取出每个格网单元中Z值最大和Z值最小的数据点,这些点就是建筑物的特征点;后续处理中,可以从这些特征点中探测线特征或者用线段拟合这些特征点得到建筑物的特征线,也可以导入专业建模软件直接参与三维建模。

(3)线杆提取。

线杆提取基于以下的假设:①杆是独立的直线;②杆近乎垂直;③杆有最小高度;④杆应在建筑物或墙面的前面。当然以上假设也限制了一些杆的提取,比如杆正好在建筑物或墙面附近,这样干扰点比较多,本算法暂不考虑这些。设置一个距离门限值来识别独立的直线,线的独立性通过计算线间的垂直中心距离来得到;设置一个倾斜角门限值来识别直线在倾斜角范围内是否垂直;有时,杆的底部被植物或小的物体掩藏起来,此时只能得到杆的上部。因此设置另一个门限值来检查杆的底部的位置;当杆目标很小时,激光数据也可能不包含反射自杆的点,这些小物体的获取依赖于车速。车速决定激光数据的沿轨迹分辨率,当车速过快时极少杆被扫描到,所以有些时候还要人工对比一下图像数据再做决定。

(4)其他地物提取。

其他地物如树,对其进行特征提取和重构由于树形状的极度不规则性,数据处理非常复杂,且在城市环境中知道树的具体形状特征意义也不大,一般情况下只要知道树的位置和高度既可。

3结语

该文结合某三维建模案例,探讨了基于激光点云数据的数据预处理方法和模型重建方法,论文探讨了半自动数据预处理方法和全自动数据预处理方法,给出了全自动数据预处理的算法流程,在模型重建中,论文探讨了地面点重建和非地面点重建。该方法能够很好的为快速三维建模进行服务,尤其是比较关注街道两侧信息的三维获取,这将大大减少人工三维数据获取及其建模的工作量,将有很好的应用前景。

参考文献

[1]石波,卢秀山,王冬,等.基于多传感器融合的车载三维测量系统时空配准[J].传感器与微系统,2007,26(9),14-16.

数学建模大数据处理方法篇3

关键词:aCmC;多维数据挖掘;应用

中图分类号:tp311.13

层次分析方法是对某些复杂的决策问题的各种影响因素以及其中的内在关系进行深入分析,选用较少的定量信息让决策的思维过程变成数学化,进一步为无结构特征、多准则的高难度决策问题提供简单有效的决策方法。而数据挖掘即数据库中的知识发现,从繁杂的数据中选取含有潜在信息量的过程。而aCmC是把层次分析方法和多维数据挖掘方法相结合的方法,它能够提供一个可扩张、插拨、相互支持操作。重构的多维数据挖掘体系。下面本文就多重数据挖掘层次分析方法进行研究分析,以期让数据挖掘过程更加清晰可见,选取的模块更加准确。

1aCmC和多维数据挖掘的基本认识

1.1数据挖掘技术简要分析

随着数据库与人工智能技术的发展,数据挖掘技术应运而生,这是一个从数据集中识别有效、新颖,具有潜在利用价值到可理解模式的高级处理环节。一般包括数据清理、数据集成以及数据变换、数据挖掘、知识表示等,其中数据挖掘是中心。数据挖掘的目的主要用于指定数据挖掘任务中要查找的相关模式,通常把数据挖掘任务分成描述与预测两种。其中描述性数据挖掘的任务主要是刻画数据库内数据的一般特征;预测性数据挖掘任务是参照现阶段的数据进一步推理,然后进行预测分析。数据挖掘系统模型如下图1所示。

图1数据挖掘系统模型

1.2层次分析法构建挖掘模型策略

在知识数据库的复杂数据环境中,层次分析法构建挖掘模型不仅仅能从训练数据库中获得大量的信息数据,还可以用“modelRefresh”以及“modelevaluation”对模型进行评估打分,然后选出正确的模型执行。运用层次分析结构把这些模型逐层筛选出来,进一步为整个数据挖掘大模型绘制整体结构。

2aCmC结构及应用流程

在一个完整体系的aCmC结构中,主要包括知识数据库、数据挖掘处理模式以及处理方法、数据模型学习、评估等。aCmC能够从多个角度、层次对数据挖掘进行整体改造,它能够提供一个相对完整的体系结构与一个很好的框架支持不同模式中数据挖掘模型化的方法,在这个结构体系中包括成功模型组件、并行挖掘模式以及同一个模式下的挖掘方法、评估挖掘方法模型,进一步定义出模型流的方向。aCmC能够从战略高度、多个层面的技术水平、不同抽象层面支持挖掘组件的结合,再重新设计数据挖掘的全部过程,然后提供一个科学合理的挖掘模型结构。

在aCmC流程的开始阶段,为了进一步提高模型的准确性,不一样的挖掘模型方法能和知识数据库通过交互方式让模型进行自我学习,然后,每一个模型能够和“analyticalBase”通过交互凡是对模型进行打分评估[7]。当评估工作完成后,会立刻进入挖掘模式层面,对每个挖掘模型方法进行详细分析比较,再进行分类、聚类、回归处理,按照从优到劣的顺序排列,最后用表格形式展现出来。在aCmC的最顶层是良好的挖掘模型,然后是最佳挖掘模型,最后排列结果由执行引擎处理,把这些优秀的挖掘模型进一步挖掘预测。其中在不同条件下,挖掘模型评估结果的优劣性有很大差异,虽然有一定的差异,但是在模式分支允许的情况下可以进行插播。这样可以提高工作成效、保证准确性。

3aCmC在多维数据挖掘中的应用

在aCmC中主要包括三个重要概念:模型学习、模型评估以及模型学习和评估之间的影响关系,这三个概念是对模型进化学习的完整诠释。其中模型学习环节出现在m-Kpi层面,主要采用新数据更新原有模型,然后建立一个崭新的模型。新旧模型之间主要的不同在于新模型主要来源于新的数据,且算法的类型、模型范式都是相同的。模型评估环节出现在m-Kpi、m-CSF这两种不同层面,把样品数据输入以后,利用模型能够评估打分,当出现预测的结果后,可以用实际结果评估模型,然后赋予一定权值,在每个m-Kpi取得一定的权值以后,能够用权值筛选模型方法。

其次,模型学习与评估二者之间的关系,利用不同的m-Kpi刷新模型,然后产生和新模型对应的新数据,再使用“analyticsData”对每一个模型依照不一样的需求数据评估,当输进不同的需求数据以后,就能够出现不一样的线性结构图形。经过综合分析不一样Kpi的影响,每个m-CSF就能够产生相对应的影响波动图形。在aCmC中存在着众多的关键因素,其中主要包括“分类-CSF、回归-CSF以及聚类-CSF等”。其中分类是aCmC结构中一个非常重要的关键因素,进行分类的主要目的是学会分类函数或者分类模型,这种模型可以把数据库中的数据系列项反射到规定的类别中,通过分类体悟表述关键性数据类别的模型,然后预测以后的数据趋势。在分类-CSF中包括很多种算法,每一个数据样本采用n维特征向量描述属性数值。

最后,假定一定不明确的数据样本X,分配给各个类别,就会产生p,再依据贝叶斯定理,p(X)相对于全部类别属于常数,在最大化以后检验概率p能够转化成最大化的概率。此时若训练数据集中含有很多属性与元组,计算所得的p(X)数值可能会非常大,故一般情况下,需要先假设各个属性的取值是相互独立的,然后就可以从训练数据中求出来。按照这种方法,对一个未知类别的样本X,必须先计算出X所属类别概率,然后选取概率最大的类别当作类别。

4结语

总之,为了把多维、多层次复杂数据流的数据挖掘处理流程进行优化处理,在层次分析方法和数据挖掘理论的基础上,提出了层次分析法构建挖掘模型的理念。设计出了以层次分析法构建挖掘模型为基础的结构,提供一个用来支持各种各样挖掘组件的集成平台,为整个数据挖掘流程提供了一个可控策略,以从多个方面、多个层次对整个挖掘框架与不同模块之间的结合方法进行改进。其中CSF与Kpi是一整个数据挖掘结构的重要环节,挖掘模型的评估是整个数据挖掘的引擎,直接影响到最终的决策。但是,来源于信息环境的反馈对aCmC而言非常重要,在这方面仍需要深入研究,实现aCmC和实际复杂数据环境的合理衔接,进一步提升aCmC策略的实用性。

参考文献:

[1]高武奇,康凤举,钟联炯.数据挖掘的流程改进和模型应用[J].微电子学与计算机,2011,9(07):885-886.

[2]毛伊敏,杨路明,陈志刚.基于数据流挖掘技术的入侵检测模型与算法[J].中南大学学报(自然科学版),2011,4(09):389-391.

[3]张蕴,李伟华.aCmC策略在多维数据挖掘处理过程中的应用[J].西北工业大学学报,2011,6(03):358-359.

数学建模大数据处理方法篇4

【关键词】大地测量;数据处理;分析研究

1大地测量数据处理的重要性

大地测量工作中存在很多不稳定性因素,包括观测阶段、观测环境、设计方案、坐标系统等内容,因此极易出现误差。科学有效的数据处理能够充分发挥随机模型与函数模型的潜在职能,迅速提升数据处理工作的可靠性及准确性。

2随机模型和函数模型概述

2.1随机模型

以往观测对象类型、内容都较为单一相似,后来之间出现不同的类型,且使用不同精度进行观测,因此经典措施逐渐演变为协方差与方差分量估计形式,包涵Helmert法、minQUe法、极大似然估计法、BiQUe法等,同时还组建了广义方差模型,增加协方差与方差分量估计形式的普遍性。方差分量估计形式能够对大地测量物力观测比重、几何观测调整等方面产生协助作用,另外在实践应用里这种形式满足重力场恢复、精密定轨、融合导航、卡尔曼滤波等潜在需求,此外在处理大量GpS网数据的采用方差分量估计措施,可以较好对各GpS子网随机模型进行及时协调。

2.2函数模型

最小二乘平差在大地测量工程中应用的频率较高,在没有较多不等式限制要求时,可以不考虑人工变量,单纯依靠整标集法来获得线性互补方案。若只存在一种线性互补方案时,得出答案可以立即停止计算,但不等式限制要求多时会增加整标集法的计算量,因此需要将人工变量纳入考虑范围。一般来说,应该针对检验假设统计量与平差公式施行有效变换即可达到模型转换要求,在现实观测基础上转换混合模型,使之符合实际需求。补偿机制误差中解稳定性与完整性之间经常存在矛盾,也就是说系统之间的相关性、参数过度化可能会对主参数精度产生影响。大地测量数据处理过程中使用的大部分误差模型都属于非线性范围,比如探讨其非线性程度时存在较多指标,pe与in则是应用效果较好的两种。在非线性模型参数估计研究方面,有最速下降法、高斯-牛顿法和阻尼最小二乘法等。在非线性模型参数估计的直接解法方面,如基于控制网优化设计的非线性方程组解法,还有基于相关观测抗差估计的非线性方程的多目标优化算法等等。

3大地测量参数估计基础理论与实际处理措施

1794年由Gauss创造的最小二乘法自问世以来就被广泛使用在大地测量数据处理工作中,尤其在Gauss-markov定理完成组建后,大地测量数据处理领域获得了更为迅速的发展。数据处理基于非随机参数估计理论,在实践经验与研究的充分结合下,基础理论与实际处理措施逐渐涉及到最小二乘配置、随机参数Bayes估计、滤波等内容。在最初处理过程中,注重满秩最小二乘平差、适定问题、平差原则、静态数据等方面,后来慢慢转变为非满秩最小二乘平差、不适定问题、抗差估计、自适应估计、动态数据等。这些变化提升了数据处理措施的灵活性,使参数估计基础理论更为严密,具备可靠精度。

近几年时间以来我国研究领域指出在对抗差估计理论基础上可以优先采用学生化残差统计量进行大地测量数据处理,在实际使用时这种方式能够构造理想的等价权函数,另外也将误差水平临界值纳入考虑范围,在控制观察误差前提下,同步施行实际多余观测数及图形强度,整体抗差性明显优于固定临界值。将抗差估计和正态分布统计量进行对比可知,大地测量工程在抗差估计协助下能够顺利开展应变模型特殊位移工作,成功进行了影响均匀应变的特殊位移参数的识别,成功讨论了大地基准的抗差转换,计算了地心运动,完成了海平面模型的参数估计的研究,完成了卫星激光测距的系统误差的抗差估计的研究。

大地测量自适应滤波问题在近段时间受到广泛重视,其核心是组建自适应因子并对动力学模型误差进行判断。我国学者在研究基础上组建4种动力学模型误差,即状态不符值统计量、预测残差统计量、基于模型预测速度与计算速度不符值统计量以及基于动力学模型预测信息与观测信息的方差分量比统计量[5]。同时组建了4种自适应因子:即两段函数模型、指数函数模型、三段函数模型、选权函数模型。自适应抗差滤波已成功用于大地网重复观测的数据处理和卫星轨道测定等方面。另外,非线性模型参数估计的直接解法别越来越多的应用,不仅不需迭代,而且可以同时考虑二次、三次项的影响,参数估值精度比传统的线性近似时参数估值的精度要高。

4结束语

总而言之,伴随着我国经济水平的迅速提升,大地测量数据处理技术将会受到更多领域广泛的重视,其基础理论、模型及方法的研究深度会呈现理想趋势,另外在实际工程操作中积累的经验也会促进该领域走上可持续发展道路。到目前为止,我国在大地测量数据处理方面已经取得了令人满意的研究成果,为实践工程测量获得理想精度奠定了坚实基础,相信在未来一段时间内会迈上一个新的阶梯。

参考文献:

[1]裴晓娟.对大地测量数据处理的几点认识[J].科技创新导报,2011(11).

[2]高立成.动态大地测量数据处理若干问题的研究[J].科技风,2009.

[3]杨元喜,曾安敏.大地测量数据融合模式及其分析[J].武汉大学学报(信息科学版),2008(08).

[4]吴凤娟,吕志平,赵冬青.大地测量数据模式的动态建立[J].海洋测绘,2006(04).

[5]姚笛.论大地测量数据模式的动态建立[J].科技资讯,2009(08).

数学建模大数据处理方法篇5

【关键词】数据挖掘用电计费系统异常系统设计

电力故障诊断是电力科研领域的一个重要课题。目前,相关研究人员除了在电力系统自身理论体系中寻找故障诊断的方法之外,也在积极向其它学科寻找方法,计算机科学正是其努力的一个重要方向。将数据挖掘技术应用于电力故障诊断成为近年来理论界的一个热点。

1系统总体设计

用电计费系统故障分析及预警系统体系结构如图1。该系统是用电计费系统的子系统,需要与用户、用电计费系统(母系统)交互。整个系统分为4部分:

(1)建模系统部分。

(2)实时系统部分。

(3)知识数据库部分。

(4)模型数据库部分。

2建模系统模块设计与实现

2.1数据预处理子模块

该模块完成的主要功能是将数值型数据离散化,以满足一些并不支持数值型数据的建模算法。该模块的另外一个功能是将数据划分为建模用数据和测试模型用数据。一般将2/3的数据用于建模,1/3的数据用于对模型测试。划分方式可以采用随机抽取、按时段划分等。

2.2数据建模子模块

该模块导入数据预处理子模块划分出的2/3建模数据,应用数据挖掘分类与预测算法建模。应用策略模式,将各种分类算法封装成统一接口的J2ee组件,采用JSp页面中的控件得到用户对算法的调用请求,并由Servlet解析请求并启动相应的算法组件进行建模操作。

2.3模型测试子模块

该模块与数据建模子模块相互对应,直接在1/3建模数据上对后者得到的模型测试评估,将评估结果提供给用户,并得到用户反馈。如果用户反馈表明模型达到要求,将存储模型于模型数据库。

3实时系统模块设计与实现

实时系统模块体系结构如图3所示。

3.1数据预处理子模块

由于实时系统模块的功能之一是找到异常数据,那么预处理不需要对一些数据缺失的情况作出处理。在这里,该模块的主要功能是从用电计费系统(母系统)的实时数据流中筛选关注的数据维度。

3.2异常数据检测子模块

该模块的功能是从经过预处理的实时数据流中筛选出异常数据。由于电量数据的海量性和时段性,所以需要一个数据缓冲区,采用滑动窗口来实现。对于基于距离的异常数据检测算法,另外需要维护一个距离矩阵,存储距离值以便重复利用。另外,异常数据检测有多种算法,应用策略模式,将各种算法封装成统一接口的J2ee组件,采用JSp页面中的控件得到用户对算法的调用请求,并由Servlet解析请求并启动相应的算法组件。

3.3异常数据分析子模块

该模块加载模型数据库中的模型作为分析逻辑,对异常数据进行分析,输出分析结果,即可能的故障类型。加载模型主要是人工编程的方式,将模型转化为代码。有些模型在使用前需要对数据进行预处理,譬如决策树模型需要将数值型的数据离散化,这部分功能在组件内部实现。

4知识数据库和模型数据库设计与实现

用电计费系统故障分析及预警系统需要维护2个专用数据库:知识数据库和模型数据库。

4.1知识数据库

该数据库的功能是存储用户提供的现有经验,并与建模系统部分交互,帮助其完成建模。为了便于经验表达并降低数据库设计的复杂性,采用直接存储经验描述文本的形式,在训练建模的过程中手动引入经验。

4.2模型数据库

分类模型具有多样性,可以包括决策树、神经网络、贝叶斯网络、iF-tHen规则等。数据库也组织为多个表,与数据建模子模块中的各种分类算法一一对应。以决策树为例论述数据库如何设计。存储决策树需要2类表:字典表和树表。字典表用于存储分裂属性、类型、离散化等说明。树表用于存储决策树,采用“孩子-兄弟”组织形式,即每个节点数据条目除了应该包含自身信息外,还应该包含:第一、第一个孩子节点标识;第二、下一个兄弟节点标识;第三、该节点与其父节点间的边信息。

参考文献

[1]魏瑶,朱伟义,龚桃荣,郑浩.基于数据挖掘技术的用电异常分析系统设计[J].电力信息与通信技术,2014(05).

[2]路广,张伯明,孙宏斌.数据仓库与数据挖掘技术在电力系统中的应用[J].电网技术,2001(08).

作者简介

洪智勇(1984-),男,福建省泉州市人。工学学士学位。现为泉州供电公司工程师。研究方向为用电营销技术。

数学建模大数据处理方法篇6

关键词:灰色理论;沉降预测;matLaB;数据分析

1引言

在各种工程建设中,利用已有的沉降观测资料准确地预测后期沉降有着重要意义。本文主要介绍了灰色预测的基本原理以及结合matLaB语言建立预测模型。matLaB语言代码短小,在矩阵运算方面具有其他程序设计语言难以比拟的优越性,特别适合处理各类测绘方面的数据问题。最后用武汉市轨道交通一号线工程的八期沉降观测数据对建立的预测模型进行检验,说明对于一般的建筑物沉降,灰色预测是一种非常有效的方法。

2数据处理

2.1灰色系统简介

灰色系统理论有一整套处理数据的方法,其中主要分支有:灰关联度分析、灰色预测,灰色聚类等,对于沉降分析来说灰色预测是最值得研究的。

灰色预测是指采用灰色模型对系统行为特征值的发展变化进行的预测;对行为特征值中的异常值发生的时刻进行估计;对在特定时区发生的事件作未来时间分布的计算;对杂乱波形的未来态势所做的整体研究等。

累加生成是灰色系统理论中重要地数据处理方法,通过累加生成后,任意的非负数列、摆动数列都可转化为非减地递增数列,从而削弱原是数据地随机性,突出其趋势性,进而探求数据地内在规律,在变形数据分析处理工作中,采用1-aGo建立(1,1)模型。

灰色系统预测的基本思路是:把随时间变化的一随机数据列,通过适当的方式累加,使之变成一非负递增的数据列,用适当的曲线逼近,以此曲线作为预测模型,对系统进行预测。

沉降观测是周期性的,各期观测的时间间隔往往不等。因此,我们在建立模型时应该选择非等间隔(1,1)模型进行建模。

一、定义1:令为序列

=(),

有=≠const(k=2,,3,4…,n)

则称

(1)为非等间隔序列,为间隔

(2)为的aGo序列

=(,,…,),

(3)为的mean序列

=(,,…,),

=(0.5+0.5)

定义2:令为非等间隔序列

=aGo

=mean(),

=(),

=(),

=(),

=0.5+0.5

(1)称为非等间隔灰导数

=-=

=-

(2)称为非等间隔白化背影值

(3)称下述模型

,或

为非等间隔(1,1)定义型,记为(1,1,)

2.2非等间隔(1,1)建模步骤

(1)生成aGo序列

=aGo,

=(,,…,),

(2)mean

=mean(),

=(),

(3)间隙变换

=,

,

=(),

=max,

(k=2,3,…n),

(4)求解二级参数包

(5)求解二级参数包

(6)生成非等间隔(1,1)模型

2.3程序设计

本文用matLaB语言来建立预测模型,matLaB是mathworks公司的产品,也称为矩阵实验室(matrixlaboratory),是计算数学专家倡导并开发的,其主要功能是矩阵数值运算。与其他程序设计语言相比,它功能强大,可扩展性强,不同领域的专家都能以其为基础,开发相应的应用工具箱,形成开放式的利用体系。由于matLaB比较适合处理矩阵,其基本元素是无须定义矩阵的维数,进行数值计算的基本单位是复数数组(或称阵列),这使得matLaB高度“向量化”。它不需定义数组的维数,并具有矩阵生成函数以及对特殊矩阵处理的库函数。使之在诸如GpS信号处理、建模、系统识别、控制、优化等测绘数据的处理过程中,显得简洁、高效、方便。

matLaB作为一个科学计算平台,提供了500多个数学和工程函数。为数据分析处理和可视化以及程序开发提供了最核心的数值处理和高级图形工具代码。matLaB属于解释性语言,软件自身可以处理海量数据。应用meX技术还可以进一步提高程序运行效率,比如在大地测量的平差计算中,组成的误差方程式系数矩阵及法方程系数矩阵的阶数比较高,可采用如VC等其他程序设计语言编写代码,然后采用meX技术,编译成matLaB能够直接调用的动态连接库(DLL)文件,供程序调用。从而达到提高程序运行效率的目的。

matLaB在大规模数据处理特别是矩阵运算方面具有其他程序设计语言难以比拟的优越性。程序设计方法易于掌握,代码短小。

程序的实现过程如下:

首先就是定义变量a和t,

a=,t=[,,…,],

变量a是一个矩阵,它由沉降监测的变形量组成。变量t是由相邻两次观测时间间隔组成的向量。

clear

loada

formatshort

[n,m]=size(a);

%以下是实现aGo序列

s=zeros(n,m);

fori=1:n

forj=1:m

ifj==1

s(i,j)=a(i,j);

else

s(i,j)=s(i,j-1)+a(i,j);

end

end

end

%以上是实现aGo序列

%以下是实现mean序列

fori=1:n

forj=1:(m-1)

z(i,j)=0.5*s(i,j+1)+0.5*s(i,j);

end

end

%以下是间隙变换

loadt

k=length(t);

tmax=max(t);

dt=t/tmax;

%以下求二级参数包

fori=1:n

c(i)=sum(z(i,:));%参数C

end

s2=a(:,(2:m));

fori=1:n

d(i)=sum(s2(i,:)./dt);%参数D

end

s3=z.*s2;

fori=1:n

e(i)=sum(s3(i,:)./dt);%参数e

end

s4=z.^2;

fori=1:n

f(i)=sum(s4(1,:));%参数F

end

%以下求一级参数包

fori=1:n

aa(i)=(c(i)*d(i)-(m-1)*e(i))/((m-1)*f(i)-c(i)*c(i));

bb(i)=(d(i)*f(i)-c(i)*e(i))/((m-1)*f(i)-c(i)*c(i));

end

%以下是建立非等间隔Gm(1,1)模型

yucezhi=a;

fori=1:n

forj=2:m

yucezhi(i,j)=(bb(i)-aa(i)*s(i,j-1))/(1/dt(j-1)+0.5*aa(i));

end

end

%以下是进行残差检验

cancha=a-yucezhi;

%以下是预测模型

tt=input('请输入预测时间与最后观测值的时间差(单位:天):');

fori=1:n

ta=s(i,m);

tyucezhi(i)=(bb(i)-aa(i)*ta)/(1/(tt/tmax)+0.5*aa(i));

fprintf('第%d个点的预测沉降值为:%8.5f(mm)\n',i,tyucezhi(i));

end

end

2.4工程实例

本文以武汉市轨道交通一号线工程的八期沉降观测数据对建立的预测模型进行检验。

沉降监测的沉降量数据如下:

表-1

残差的最小值是:0.0264(mm)

残差的最大值是:2.2770(mm)

表2是与后8期沉降观测数据相对应的点位的预测沉降值,表3是实测的沉降观测数据与预测值的差值,即残差值。

根据表-3的残差数据以及残差的最小值和最大值我们可以知道,绝大多数点位的预测误差都小于±1.5mm,最小值可以达到0.0264mm。因此,灰色预测的精度是相当高的。

灰色系统理论研究的是贫信息建模,它提供了少数据情况下解决系统问题的新途径。灰色预测在某些方面有其它预测方法所没有的特点,但这不是说灰色预测方法就是最好的方法。任何方法都有其适应性和局限性,灰色预测也不例外。对于有突变的点位,灰色预测也是无能为力的。因此,如何改进或改造灰色预测模型将成为灰色预测模型的重点和难点。

参考文献:

[1]刘大杰,陶本藻,实用测量数据处理方法,测绘出版社.2000.

[2]黄声享,尹晖,蒋征,变形监测数据处理,武汉大学出版社,2003.

[3]王鸿龙,沉降观测数据的处理与统计分析探讨,西北水电,1996.第三期.

[4]邓聚龙,灰理论基础,华中科技大学出版社,2002.

[5]张铮,杨文平,石博强,李海鹏,matLaB程序设计与实例应用,中国铁道出版社,2003.

数学建模大数据处理方法篇7

决策支持系统是一种新的管理系统,其建立的目的在于为企业或领导提供决策。决策支持系统的建立需要具备较高的信息技术条件,因为它是计算机技术、人工智能技术与管理决策技术相结合的一种决策技术,要想建立科学完善的决策系统需要以计算机为基础,融合信息学、信息经济学、管理科学等学科,通过这些知识的综合应用目的在于支持半结构化决策问题的决策工作。决策者利用决策支持系统和个人的知识经验能提高决策能力与水平,使决策具有快速和准确的适应市场环境的变化。

二、市场营销管理决策支持系统建立的必要性

市场营销管理决策支持系统是当今每个企业都应该努力构建的,因为企业决策面临严峻的挑战、企业决策层快速决策的需求、企业决策层需要快速处理各时期数据信息的要求,促使企业建立市场营销管理决策支持系统。

1.企业决策面临严峻的挑战。

随着世界市场经济一体化的发展,企业面临的竞争不仅来自本地区还有来自本国和全世界的竞争,竞争的激烈程度与日俱增。企业领导必需敏捷的作出适应市场和自身企业现状的决策,决策越正确,要求决策者考虑的因素越多越全面,这些都为企业决策面临严峻的挑战。因此建立决策速度更快、决策成功率更高的市场营销管理决策支持系统是必要的。

2.企业决策层快速决策的需求。

在社会信息化环境下的企业竞争,对决策提出新的要求,由于信息的海量和复杂性,利用传统的信息收集整理并用于市场营销决策已经远不能满足企业的决策需要,企业决策层的管理者迫切需要一种计算机化的决策支持系统。计算机化的决策系统能提高海量信息的收集、分析、处理能力,是人工信息处理能力无法比拟的。

3.企业决策层需要处理各时期的数据信息的需要。

任何一个行业和企业在经过了数年的发展之后,都会积累大量的历史数据,这些数据蕴含着重要有价值的信息,要想随时获取这些信息要对这些信息进行分析处理。因此企业决策者面对海量的信息,如何对这些繁纷复杂的数据信息进行快速的查询、分析从而提炼出有价值的分析结果,使他们认识到必需借助高科技才能完成这一工作。市场营销的决策支持系统能轻松应对海量数据的强大处理能力是企业决策者所青睐的。

三、市场营销决策支持系统模型

本文根据市场常用的mDSS系统,分析mDSS系统结构中数据库、模型库、知识库的具体实现及管理。

1.数据库。

mDSS中的数据对决策起着重要作用,搜集的数据用于构建面向模型,根据面向模型的生成与决策需要设计数据库。利用mDSS为企业高层决策者提供参考依据,所以获得的数据信息应该全面,除了搜集来自企业内部的各种信息数据如产品价格、仓储、财务等信息,还要输入来自企业的外部相关的数据如市场供应量、市场的平均价格、竞争对手的数据信息等。由于数据的数量过于庞大,在建库的过程中采取了集成数据库即总数据库的方案,然后再利用数据库提取技术进行提取。根据外界市场环境的瞬息万变,建立数据库的类型可以建成动态数据库把市场价格和市场环境的波动纳入进来,把自身企业的职工人数、职工工资、原料成本等纳入动态数据库。通过对动态数据库和静态数据库的分别利用,能提高数据库的利用效率与效能,很好地适应外部环境的变化。

2.模型库。

根据营销工作决策类型,我们基本上将模型分为预测类、投入产出类等模型,在这些模型中,企业应选择适当的模型为决策提供依据。由于市场营销策略的可变性和成本的相对不变性,企业在使用模型时,要结合定型模型和定量模型的综合应用才能有利于科学决策的形成。任何模型的运行都涉及到数据的输入、输出,因此要做到模型管理与数据管理的有机结合。当从数据库中输入需要的数据和参数后,得到相应的运行结果,可以把运行结果输入数据库作为一种数据参考。由于市场环境和企业的变化造成数据发生变化时,会对模型产生一定的变化。假如数据发生大幅度的量变而导致模型发生质变后,模型也应做到适当的修改。3.方法库。为了使系统结构更加清晰,将方法从模型库中分离出来,单独组织成一个方法库并配以相应的方法库管理系统,共同构成另外一个组成部分--方法库系统。方法库系统主要是一个软件系统,它综合了数据库和程序库。它为求解模型提供算法,是模型应用的后援系统。方法指基本算法,例如,数学方法、数理统计方法、经济数学方法等。引入方法库的优点提供各种通用计算、分析、加工处理的能力;提高模型的运行效率;实现软件资源共享。既考虑应用程序员用户,又考虑了非程序员用户的需要,增加了命令语言接口。

四、市场营销决策支持系统的实现

数学建模大数据处理方法篇8

   从数据库中发现知识的过程。包括存储和处理数据,选择处理大量数据集的算法、解释结果、使结果可视化。整个过程中支持人机交互的模式。数据挖掘从许多交叉学科中得到发展,并有很好的前景。这些学科包括数据库技术、机器学习、人工智能、模式识别、统计学、模糊推理、专家系统、数据可视化、空间数据分析和高性能计算等。数据挖掘综合以上领域的理论、算法和方法,已成功应用在超市、金融、银行、生产企业和电信,并有很好的表现。

   二、数据挖掘的过程

   挖掘数据过程可以分为3个步骤:数据预处理、模式发现、模式分析。

   (1)数据预处理。实际系统中的数据一般都具有不完全性、冗余性和模糊性。因此,数据挖掘一般不对原始数据进行挖掘,要通过预处理提供准确、简洁的数据。预处理主要完成以下工作:包括合并数据,将多个文件或多个数据库中的数据进行合并处理;选择数据,提取出适合分析的数据集合;数据清洗、过滤,剔除一些无关记录,将文件、图形、图像及多媒体等文件转换成可便于数据挖掘的格式等。

   (2)模式发现。模式发现阶段就是利用挖掘算法挖掘出有效的、新颖的、潜在的、有用的以及最终可以理解的信息和知识。可用于web的挖掘技术有路径选择、关联分析、分类规则、聚类分析、序列分析、依赖性建模等等。

   (3)模式分析。模式分析是从模式发现阶段获得的模式、规则中过滤掉不感兴趣的规则和模式。通过技术手段,对得到的模式进行数据分析,得出有意义的结论。常用的技术手段有:关联规则、分类、聚类、序列模式等。

   三、数据挖掘在电力系统负荷预测中的应用

   电力负荷预测是能量管理系统及配电管理系统的重要组成部分,是电力系统规划和运行调度的依据,也是电力市场化商业运营所必需的基本内容。负荷预测工作的关键在于收集大量的历史数据,建立科学有效的预测模型,采用有效的算法,以历史数据为基础,进行大量试验性研究,总结经验,不断修正模型和算法,以真正反映负荷变化规律。其过程为:

   (1)调查和选择历史负荷数据资料

   多方面调查收集资料,包括电力企业内部资料和外部资料,从众多的资料中挑选出有用的一小部分,即把资料浓缩到最小量。挑选资料时的标准要直接、可靠并且是最新的资料。如果资料的收集和选择得不好,会直接影响负荷预测的质量。通过建立计算机数据管理系统,利用计算机软件系统来自动管理数据。

   (2)负载数据预处理

   经过初步整理,还用于数据分析的预处理,平滑异常值的历史数据和缺失数据的异常数据主要是水平的,垂直的方法附录。正在分析数据之前和之后的两个时间的负载数据作为基准,来设置要处理的数据时,要处理的数据的范围中最大的变化的数据的处理的水平超过该范围时,它被认为是坏的数据,使用平均法平滑变化;垂直负载数据预处理中的数据处理的考虑其24小时的小循环,即,相同的时间的日期不同的负载应具有相似的,同时负载值应保持在一定范围内,校正外的范围内的数据进行处理,在最近几天的坏数据,力矩载荷的意思。

   (3)历史资料的整理

   一般来说,由于预测的质量不会超过所用资料的质量,所以要对所收集的与负荷有关的统计资料进行审核和必要的加工整理,来保证资料的质量,从而为保证预测质量打下基础,即要注意资料的完整无缺,数字准确无误,反映的都是正常状态下的水平,资料中没有异常的“分离项”,还要注意资料的补缺,并对不可靠的资料加以核实调整。通过建立数据完整性、一致性约束模型,来建立海量数据集为后面的数据挖掘做好充分的准备。

   (4)建立负荷预测模型

   负荷预测模型是统计资料轨迹的概括,预测模型是多种多样的,因此,对于具体资料要选择恰当的预测模型,这是负荷预测过程中至关重要的一步。当由于模型选择不当而造成预测误差过大时,就需要改换模型,必要时,还可同时采用几种数学模型进行运算,以便对比、选择。

   (5)选择算法

   选择聚类法又称聚类分析法,它是对一组负荷影响因素数据进行聚类的方法,聚类后的数据即构成了一组分类。聚类的标准是以数据的表象(即数据属性值)为依据的,聚类的工具是将一组数据按表象而将相近的归并成类,最终形成若干个类,在类内数据具有表象的相似性,而类间的数据具有表象的相异性。聚类的算法也有很多,有遗传算法,划分法,层次法,基于密度方法,基于网格方法等。四、CURe算法在负荷预测中的应用CURe算法是一种分层聚类算

   法。典型的数据点来表示一个具有固定数目的聚类。的CURe算法需要作为参数输入的群集数?。由于CURe聚类的代表点的某些有代表性的,可以发现具有任何尺寸和形状的聚类。同时,在一个集群代表点的选择方式的中心“缩水”排除“噪音”。

   历史上第一个数据库负荷预测,数据提取样品。的数据样本聚类,可以分为两种方法:一个是所有样本数据进行聚类,这个方法会使主内存容量是远远不够的,系统无法扫描一次完成。我们使用所有的样本数据被分成多个区域,每个区域的数据进行聚类,使每个分区可以品尝到所有的数据加载到主内存。然后,针对每个分区,使用分层算法的聚类。

   电力系统的应用SCaDa系统中的数据测量、记录、转换、传输、收集数据,并可能导致故障和负载数据丢失或异常。异常数据的生成是随机的,因此,在数据库中的不确定性的分布,不同类型的异常数据出现单独或在一个特定的时刻,或交叉混合发生在同一天连续,或在相同的连续天期的横分布,以及许多其他场合。异常数据的处理的关键影响的预测结果的准确性。使用两种不同的技术,以删除异常。第一种技术是要删除的集群增长缓慢。当簇的数量低于某一阈值,将只包含一个或两个集群成员的删除,第二种方法是在集群的最后阶段,非常小的集群中删除。

   最后对样本中的全部数据进行聚类,为了保证可以在内存中处理,输入只包括各个分区独自聚类时发现的簇的代表性点。使用c个点代表每个簇,对磁盘上的整个数据库进行聚类。数据库中的数据项被分配到与最近的代表性点表示的簇中。代表性点的集合必须足够小以适应主存的大小。

数学建模大数据处理方法篇9

关键词:计算机科学;数学思维;应用

现代计算机是伴随着数学问题的求解而产生的,随着自然科学的发展,很多理论方面的研究都需要大量的数学计算,由于人力计算逐渐无法完全完成科学研究中数学问题的计算,计算机的想法逐渐进入人们视野。它可以说是在数学理论的基础之上建立和发展起来的。考察计算机发展的历史,不难看到,数学思想在其中发挥了非常重要的作用。通过对计算机中的数学思想的讨论和研究,可以更好地理解计算机学科现实意义。从某种意义上说,数学为计算机科学提供了思维的工具。其实,早期对计算机的认识就是脱胎于数学而产生的。最早的计算机的创造者就是以图灵为首的一批数学家完成的。而随着计算机的飞速发展,数学思想始终在其中占据着重要的位置,反过来,计算机科技的进步也同样影响着现代数学的进步。时至今日,计算机技术的发展已经给整个世界带来革命性的变化,因此学习了解数学思想在计算机中的应用,可以更好的促进我们对于计算机的认识,也能够更方便我们掌握计算机科学,进而利用其更好的解决实际问题。

一、离散的数学与计算机原理

在计算机系统中,最为人所知的最基本设定就是,以二进制的方式来表示数据,所有的信息数据都要被转化成0和1的组合。这最初是由于电子器件在功能上的局限性所决定的,数字式的电子计算机本质的特点是用电信号来表示信息,用电平输出的高低和脉冲的有无来表达是与否的关系。因此只有采用了二进制,才能够准确的表示信息,所以说从其诞生之日起,计算机就和以微积分为代表的连续性数学划清了界限。因此更准确的说,离散数学是计算机科学的基石。另一方面,构成了计算机系统的硬件和软件同样属于一个离散的结构,其在逻辑功能上来讲是等效的。计算机科学与技术中应用的基本结构大多是离散型的,因此计算机就其本质上应当被称为离散的机器。离散数学可以说是现代数学的一个十分重要的分支,同时是计算机科学和相关技术的理论基础,所以又被人们戏称为称为计算机数学[1]。一般的,广义离散数学的概念包含了图论、数论、集合论、信息论、数理逻辑、关系理论、代数结构、组合数学等等概念,现代又加上了算法设计、组合分析、计算模型等应用方向,总的来说,离散数学是一门综合学科,而其应用则遍及现代科学与技术的诸多领域。

二、关系理论与计算机数据存贮

大数据的概念是现在十分热门的一项新兴技术概念,而大数据的建立基础就是随着日益发展的计算机数据的存储与管理技术。其实从最初的计算机对文件的管理系统到数据库系统的产生,是一次数据管理技术的飞跃。通过数据库的建立,系统可以实现数据的结构化、共享、可控冗余等功能。目前,大部分的数据库都是采用的关系数据库的组织存贮形式。现在,一个系统之中会产生成千上万项的数据元素,这就需要我们找到一种最优的方式来管理和存储这诸多数据。这往往就涉及到了数据库的设计问题,现代数据处理的基础理论就是数学中的关系理论。现在常用的有实体联系法和关系规范化方法。其中实体联系法是通过实体联系模型去描述现实中的数据,建立起简单图形(eR图),在此基础之上进而转换成和具体数据库管理相对应的数据模型。另一方面,关系规范化方法则应用于关系模型的设计和数据库结构的设计之中。通过关系规范法解决关系模型中存在的插入和删除异常、修改复、数据冗余等诸多问题。

三、数学模型的作用及在计算机中的应用

数学模型即,通过建立起一定的符号系统,将对事物系统特征和数量关系的描述通过数学形式表达出来。现当代科学发展的一大趋势就是科学的逐步数学化。均将现象的阐述与问题的解决转化成数学模型的建立。随着计算机的普及和相关产业的飞速发展,各种软件应用已经深入到社会、生活的各个方面。通过计算机软件来处理的问题已不再局限于数学的计算方面,而是面对了更多的非数值计算的实际问题的解决。而通过软件编程去实现实际问题的解决时,就必须首先将这个问题数学化,即建立起一个合适的数学模型。我们通过数学学习中所常常讨论的数值问题的数学模型,就是数学方程。但是非数值计算中的数学模型的建立,则需要用到表、树和图等一系列的数据配合数学方程式的使用建立起一种完善的结构与描述,进而才能够就应用计算机来求解。因此,可以说计算机应用的前提是数学模型的建立。

四、人工智能与模糊数学

随着现代电子计算机技术的发展,如何模拟人脑进行计算以便更好的处理生物、航天系统或者各种其他的复杂社会系统,已经成为计算机发展的一个重要方向。人工智能的概念应运而生,人工智能是一门极富挑战性的科学,而以二进制理论为逻辑基础的现代计算机在理论上是无法完全地模拟人脑思维活动的。这无疑是人工智能的发展是一个重大障碍。因为在日常的生活中,人们会经常遇到许多数量界限并不分明的事物,需要通过使用一些模糊的形容词句来描述。而这些概念是无法用简单地用是与非或精确的数字来表示的。在这一类问题上,人与计算机相比,人脑具备处理模糊信息的能力,可以判断和处理模糊现象。美国的控制论专家L.a.扎德(L.a.Za-deh)在论文《模糊集合》中提出将现代经典的集合论扩展成为模糊集合论,并以此为基础将一对元素间的模糊关系表示为乘积空间中的模糊子集。这一突破性的数学理论成功把自然语言算法化,并实现程序编写的可操作性。使计算机开始具有模仿人的思维方式的方法,进而去解决更加复杂的问题,同时也为现代人工智能的产生与发展奠定了良好的基础。伴随着信息时代的到来,计算机科学的如火如荼,人工智能技术的方兴未艾,使得工业革命时代以来以微积分为基础的连续数学的主导地位已经发生了显著的变化,离散数学正逐步成为科学领域新突破的土壤,其重要性逐渐被人们认识。也有越来越多的人把更多的精力投入到这一领域的研究中。

参考文献:

[1]傅彦,顾小丰,王庆先等.离散数学及其应用[m].北京:高等教育出版社,2007。

数学建模大数据处理方法篇10

【关键词】绘图数据处理

中图分类号:C37文献标识码:a文章编号:

快速绘图与建模是近年来计算机技术研究的重点内容之一。目前绘图和建模基本采用参数化技术、变量化技术和面向对象技术。普通用户短时间内难以掌握上述方法。本文笔者根据自己多年的工作经验,探讨了绘图与数据处理。

一、数据处理

autoCaD是绘图软件,excel是办公软件,两者的数据格式并不相同,直接利用excel文档中的测量数据实现快速绘图首先要做的工作是数据处理,即如何把文档中的测量数据转换成autoCaD绘图的矢量数据。本文利用excel的数据处理能力把excel中得测绘数据转换成矢量数据并按一定的方式保存在excel中,以便于autoCaD直接读取这些数据进行绘图。

1、数据解析

测绘数据在文档采用图表方式描述,数据表中数据元素关系属于树型集合结构,即表中的数据元素是“属于同一个集合”(这些数据属于同一建筑)。从结构上看,该结构的数据元素之间存在着一对多的关系,其中的根节点表示建筑物的边长,子节点表示室(户)的边长,叶子节点表示房间的边长。这种存储结构可以方便的将数据按建筑的几何特性进行有效组织,并将其转换为能够方便的进行编辑和移动的节点的形式;而且这种树状结构非常适合系统进行各种遍历操作。由于文档中的测量数据在格式、组织等方面与CaD完全不同,因此要实现快速绘图必须把文档中的数据格式转换成CaD的格式,进而驱动CaD自动绘图。数据格式的转换正是数据解析所要做的工作。数据解析首先对读入内存的文件进行遍历,读取所需要的数据元素,将其转换成树形层次结构,其中树的根节点表示整个建筑物的尺寸信息,第二层表示房间之间的分界线,叶子节点表示各房间的墙线信息;然后把根节点和子节点的数据值赋给对应的数组,每一个数组表示对应节点的坐标。解析就是把每一节点值转换成CaD中对应点的坐标格式。

2、excel概述

microsoftexcel是美国微软公司开发的windows环境下的电子表格系统,它是目前应用最为广泛的办公室表格处理软件之一。excel软件的强大的数据处理功能和操作的简易性逐渐走入了一个新的境界,整个系统的智能化程度也不断提高。excel具有强有力的数据库管理功能、丰富的宏命令和函数、强有力的决策支持工具,它具有以下主要特点:分析能力、操作简便、图表能力、数据库管理能力五、宏语言功能、样式功能、对象连接和嵌入功能。

3、数据格式转换

数据格式转换的任务是把excel中的测量数据转换成矢量数据并按一定顺序保存在excel中。其工作工作机理:数据格式转换实质是把excel工作簿(workbooks)中工作表(worksheet))中数据,按预设的转换公式转换成矢量数据再保存到另一张工作表(worksheet2)中。

二、基于文档快速绘图

(一)快速绘制二维平面图

1、图形的分解

建筑物图形的分解是按照文档中的数据关系和拓扑关系来进行。测量数据在文档中采用图表方式描述,数据表中数据关系属于树型集合结构,即表中的数据是“属于同一个集合”(这些数据属于同一建筑)。从结构上看,该结构的数据元素之间存在着一对多的关系,即多个数据对应一个建筑结构。根节点表示建筑物的边长,子节点表示室的边长,叶子节点表示房间的边长。

2、定义基本图元对象

根据图形的分解结果,把基本图形定义为图元对象并设置参数控制其的大小和形状,用转换后的矢量数据对参数赋值。图元参数表示基本图形的端点坐标。这种绘图方法即能绘制形状不同的图形(克服了参数化绘图只能绘制形状相同的图形),又避免控制参数的人工输入,把人机交互式输入参数改为程序自动读取数据。

利用VB中对象定义语句创建轮廓线图元对象,把轮廓线图元定义为acadLwpolyline的对象,设置一组参数变量作为参数,参数值用来表示建筑物轮廓的各点坐标,用Linewithds和Linecolor等变量用来定义线宽线型颜色等。

3、绘制基本图形

绘制轮廓线:把轮廓线图元对象定义完成后,即可对参数赋值。数据处理中转换的矢量数据保存在excel中,打开excel读出单元格中的矢量数据对图元参数赋值,再用绘图语句调用图元对象参数进行绘图。

4、基本图形的组合

整个建筑的轮廓线、室线、房间线绘制完成后,不同墙线相交时可能会有多余的交叉,此时需要把这些多余的墙线删除。根据数据处理中的拓扑关系判断哪些线段是多余线段。如当分户线与房间线相交时,房间以外的线段即为多余线段。选择多余的墙线,再调用修剪命令(trim)删去多余的墙线;或者定义一个集合把所有多余墙线放入其中,再把该集合置空。即可得到建筑平面图。

5、绘图示例

下面是某办公楼的快速绘图过程。

调用绘图模块,选择绘制轮廓线,系统从文档中读取测量数据,并进行数据矢童化,对轮廓线数据结构中的参数赋值,驱动CaD绘制办公楼的外部轮廓线。再分别选择绘制分户线、绘制房间线,完成办公楼的分户线、房间线的绘制,最后用修剪语句((trim)删除草图中的多余线段,即可得到办公楼的平面图。绘图过程如图.

绘图过程示例

(二)快速绘制三维线框图

建筑物一般由大量基本构件组成,如房屋中的房顶、墙体,凉亭的柱等,这些基本构件可视为可再分的结构。建筑实体中绝大部分构件的几何形态都是标准的,其建模方法有规则可循,可以通过少量的特征参数来表达。改变特征参数的值可以控制构件的大小和形状。本文通过特征参数对构件对象建模,构件模型通过布尔运算组成建筑模型。这种建模方法的优点一方面是降低建模难度。传统建模方法是对整个建筑建模,本文是对构件建模。对构件建模比对整个建筑建模简单得多,对构件建模更易于实现。另一方面利用计算机自动建模技术提高建模速度。在传统建模中数据的输入和建模过程都靠人工完成,这是造成传统建模速度较慢的主要原因。快速建模把数据输入和建模过程全部交给计算机完成,因而大大提高建模速度。

结束语

以上就是笔者在工作中的一些工作体会,当然还有待继续研究完善,比如:进一步完善绘图和建模方法,归纳齐全规则对象和不规则对象结构特点;进一步完善系统功能,使之不仅能够绘图、建模,还能对建立的对象进行材料、载荷等性能进行分析研究等。

【参考文献】

[1]唐泽圣,周嘉玉,李新友,计算机图形学基础[m].清华大学出版社,1995:78-100