首页范文大全数学建模和统计建模的区别十篇数学建模和统计建模的区别十篇

数学建模和统计建模的区别十篇

发布时间:2024-04-26 02:47:29

数学建模和统计建模的区别篇1

【关键词】天翼;web;oLap;系统分析设计;维度

“天翼”是中国电信为满足广大客户的融合信息服务需求而推出的移动业务品牌。电信运营商在多年的经营活动中不断积累了大量的数据,这些海量数据在原有的系统中是无法提炼和升华为有用的信息提供给业务分析人员与管理决策者的,因此在数据管理方面存在着很大的问题。整合数据、分析数据进而转化为行业决策所需的信息,成为一个普遍关注的热点课题。而oLap技术的应用可以帮助运营商分析客户消费行为,识别客户特征,辅助运营商进行有效的市场营销和客户服务。为企业搭建起一个当前和今后发展的综合软件应用平台,优化工作流程,提高企业整体工作效率,及时掌握影响企业运作的关键指标与决策依据,突发事件和重大事件,以及关系紧密的行业、专业、市场信息,做到“信息掌握及时,管理高效顺畅”。

一、“天翼”系统分析

1.“天翼”系统需求分析

目前,电信“天翼”业务品牌决策者主要关注以下几方面的问题:客户分析、业务分析、收益分析、营销分析、服务质量分析和综合决策分析等,例如,“天翼”电信的用户量,目前使用状况,“天翼”套餐设置是否合理、需要在哪些方面改进等等。

2.“天翼”系统oLap分析

在事实和维度的分析过程中,通过对“天翼”业务的熟悉,并按照用户的需求和关注点得到如下维度:

通用维:时间维、区域维。

业务维:业务种类、拨打方式、通达方式、流向、速率。

客户维:入网时间、客户状态、城乡属性、服务等级、行业属性、计费类别接入方式、终端类型等。

其它维度值:时间、区域、客户、产品,停机标志,消费参数等。

时间维度中包含星期、日、月、季度、年等级别,下面以时间维度为例说明上述各种维度意义:

日:通过同比、环比了解最新发展趋势,便于管理层针对业务发展态势做出快速响应,可加强分析的实时性和精确度;

月:提供了日数据无法涵盖的多项收入费用,作为领导决策的重要支撑依据,应确保数据的准确性和全面性;

周期:可以区分工作日和非工作日的业务差异,从而使分析更具针对性。

用户在上钻、下钻过程中可能钻取的路径不同,若在时间维度上钻取,既可以按照年月日来钻取,也可以按照年季度月星期来钻取。

分析角度:占比、同比、环比、趋势、样本分析、拉动收入增长率。

二、“天翼”系统设计

电信“天翼”分析系统是由数据仓库、oLap服务器、前端工具等组成其系统的体系结构。

“天翼”业务的套餐种类较多,因此,要形成完整的“天翼”数据仓库,必须从各个子系统中抽取数据来进行维度建模,系统采用powerDesigner建立逻辑模型及概念模型。

建立数据模型的过程可以分为四个阶段:需求分析阶段、概念模型设计阶段、逻辑模型设计阶段和物理模型设计阶段。每个阶段完成后,都要进行阶段性的评审,每个阶段的输出都是下一个阶段的输入。企业级数据模型中的逻辑模型设计的输出,可以做为实施具体项目的项目级数据模型设计的指导和约束,但并不直接做为项目级的数据模型,项目级数据模型需要以企业数据模型为基础,应当考虑项目的具体情况,继续细化并开展物理模型的设计,最终形成项目的实际数据结构。整个数据模型的设计过程是一个从整体到局部、从高层次模型设计到细节设计的一个逐步细化的过程。

逻辑模型仍然是技术中的模型,是从解决问题的角度对数据的结构化描述,是用于指导系统建设的数据模型设计。“天翼”逻辑模型是在概念模型设计的基础上,加入设计实现的因素,对模型元素进行细化和扩充的。要形成理想结构的详细的数据模型,应逐步应用规范化策略对数据规范化,消除数据冗余。但逻辑模型并不是系统的数据结构,系统建设时,仍然需要在逻辑模型的指导下作进一步的物理模型的设计,并最终形成系统的数据结构。

按照对“天翼”的事实、维度的分析,使用powerDesigner进行系统的逻辑模型设计。在逻辑模型的设计过程中,依据系统的需要和用户的要求,选择适当的事实表粒度和维度。粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别,因此,粒度问题是设计数据仓库的一个最重要方面。细化程度越低,粒度级别就越大;反之,细化程度越高,粒度级别就越小。当详细的数据被更新时,基本上总是把它存放在最低粒度级上。在数据仓库环境中粒度之所以是设计的主要问题,是因为它对于存放在数据仓库中的数据量的大小,以及数据仓库所能回答的查询类型都会产生巨大的影响。在数据仓库中的数据量大小与查询的详细程度之间要做出权衡,就需要灵活的选择数据仓库的粒度。

综上所述,用户关注的维度有区域维度、时间维度、业务维度以及客户维度等。所以,在维度选择上,包括有区域维、时间维、业务维和客户维。

在区域维上,最低粒度是区域,级别依次维为区域地区,这些级别之间是有父子关系的;

在时间维上,最低粒度是月,级别依次维为月年,同样,也都存在父子关系。

每个级别上有多个属性,如在“年”级别上,有“日iD”、“月iD”、“年iD”、“上年iD”及“年描述”等,其中“月iD”在年表中是外键,在月表中主键,以便将来的查询连接,而“上年iD”是便于后期查询上年信息时所设计,如“天翼”用户对环比、同比等信息较为关注。因此,这样的设计对后期查询非常方便。

为了提高oLap的查询效率,在逻辑模型的设计中建立一个月汇总表,以后的分析工作全部基于这张汇总表。这样,对于一些粒度较粗的查询,可以直接在汇总表上查询。对于一些使用较频繁的核心事实表,在设计中通过建立索引等技术可以提高响应速度,极大的提高查询效率。在选择事实表时,应该剔除掉一些衍生用户关注的指标,然后将剩下的原子度量进行合理组织、设计,从形成事实表。

建立逻辑模型、物理模型的过程就是软件系统实现从抽象到具体,不断细化完善的分析,设计和开发的过程。

本文在对电信“天翼”业务及套餐进行研究分析的基础上,给出了oLap系统的事实表和维度表,并对该系统进行了系统的分析,划分其功能模块,建立系统的体系结构,并设计出该系统的数据仓库,最终形成了该系统的逻辑模型和物理模型,为系统的设计和实现打下了坚实的基础。

参考文献

[1]王赛.基于J2ee架构技术的oLap系统的设计与应用[D].北京邮电大学,2006:15-34.

数学建模和统计建模的区别篇2

关键词:中低密度人群估算头部特征

中图分类号:tp302.1文献标识码:a文章编号:1007-9416(2013)05-0142-01

1引言

很多人对人群估算方法做了相应的研究,由于监控角度和研究目的不同,出现了很多复杂的方法。本文在此探讨一种在固定场景中低密度人群快速估算法。

2建立背景图像模型

在监控镜头角度固定的情况下,所对应监控场景也应是固定的。如果监控区域中没有运动目标出现,其视频序列可以被认为是静止的。为了有效检测运动目标,就必须建立一个有效的背景图像模型。在视频监控模式下,一般固定不动或变化差异小的场景为背景图像,行人等运动目标是主要检测对象。摄像头将背景图像和运动目标生成融合的图像文件或者视频文件。因此,我们需要建立相应模型提取出背景图像。

视频监控通过获取运动目标进行人的数目估算。背景图像一般不会随着运动目标一起运动,为了获取准确的人数目标,必须对背景图像进行有效处理。自适应背景建模算法可以有效地计算色度差,解决运动物体的阴影消除问题(韩鸿哲等,2003);三维模型检测阴影法取得了较好的阴影检测效果,但其计算复杂、易受光照等外在因素影响,仅适合在一些特定监控场合;Cucchiara等提出检测阴影的经验公式;Salvador等[1]在RGB空间内定义特征不变量来判断阴影区域;Leone等则通过Gabor变换提取纹理特征来检测阴影;Chien等提出采取梯度滤波器去除图像中的阴影。

上述研究起到了消除背景色的作用,但让运动目标受到相应影响,失去了关键的色度信息[2]。本文研究方案是通过一定的算法将背景图像和前景画面分离,应用广义高斯等算法对背景图像进行降噪处理,突出图像中的运动目标轮廓形态,区分背景图像与运动目标,应用于快速估算人数,流程如图1。

3建立几何画面模型

摄像头监控视角主要包括水平、垂直和斜视角。水平和垂直视角适合些特定监控场景,实际应用中多以斜视角为主。斜视角存在很多优点,如观察视线和角度好、可视信息量大以及监控画面开阔。斜视角也存在一些不可避免的缺点,最重要的是几何变形大。因此,我们有必要对监控场景进行相应的几何纠正。一种基于区域划分的人群估计法在能发现异常情况为安全预警提供帮助,它适合于低密度人群统计(张燕,2011)。Damian研究了将场景的网络化特征提取法,对几何变形进行了相应的矫正,对于低密度的人群估计准确率较高。上述关于图像的几何纠正研究有良好的参考价值,对于鱼眼类宽场景摄像头摄取画面的纠正方法那就应该另当别论了。

结合上述观点,我们需要对监控场景建立简易模型。在模型中,考虑监控角度等因素将任意画面分为远、中、近三个视线场层次,同时按照一定的比例进行网格划分。如图2,在模型中,区域1和区域3中的网格区域面积与头像大小是成等比。

4建立头部特征模型

国内外对人数统计的研究包括纹理模型、行人边缘信息等思路。纹理建模法适合大型场合高密度人数统计,行人边缘信息统计法适用小范围区域的低密度人数统计。有人研究利用hough变换对人头检测实现计数是一个很好的思路,它选择分割获取候选头部区域后将其作为目标区域,借助候选头部区域的视差提取深度与透视特征,去除虚假头部区域以获取最终的头部检测结果(于海滨等,2009)。上述研究思路是在垂直视角下完成的,适用范围小,如图3,在实际中很难推广应用,存在监控视角小和人群密度统计不够等缺点,当背景与前景灰度相近时,提取出的前景边缘薄弱,采用Hough变换很难检测到头部位置。本文着力于探讨中低密度人群统计方法,因此需要对上述思路进行改进。

对头部检测是人数识别的关键,目的是搜索人体头部位置。头部检测方法主要分肤色特征法和轮廓特征法。我们建立的头部特征模型其实是对轮廓特征法做了进一步改进,将头部的特征按照正面、背面、侧面、斜面、长发、短发和光头等识别特征建立在模型数据库中。系统进行人数统计的时候自动与模型数据库的特征信息比对识别。斜视角的监控摄像头会产生近大远小的视频图像,因此在识别目标时需要采用小波变换方法以自动识别目标[3]。在处理过程中,采用数学形态法对人体头部轮廓的边缘进行变换处理以达到能正常识别的目的。

5结语

根据头部特征进行人群估算是具有研究潜力的新思路,具体建立特征模型库的方案本文不做论述。

参考文献

[1]Salvadore,Cavallaroa,ebrahimit.Castshadowsegmentationusinginvariantcolorfeatures[J].ComputerVisionandimageUnderstanding,2004,95(2):238-259.

数学建模和统计建模的区别篇3

关键词:GiS(GeographicinformationSystem);福建省;烤烟;产量;估测模型;空间分区

中图分类号:S572文献标识码:a文章编号:0439-8114(2016)10-2514-07

Doi:10.14088/ki.issn0439-8114.2016.10.017

abstract:Basedontheflue-curedtobaccooutputanditsrelevantinfluencefactorsdataofrepresentativesamplesinthetobaccoarea,thisstudywasconductedtorevealspatialvariationofflue-curedtobaccooutputofdifferentflue-curedtobaccovarietiesinFujiantobaccoproductionareas.Basedontheidealestimationmodelofflue-curedtobaccoyieldfortobaccoK326,cloudandmist85and87,andtheaidofGiStheyieldandspatialdistributionofdifferentlue-curedtobaccovariatieswereestimated.theresultsshowedthattheestimationaccuracyoftheartificialneuralnetworktowardstobaccoK326,cloudandmist85and87were99.48%and99.51%,respectively.Sotheneuralnetworkmodelwasthebestmodeltoestimatetheflue-curedtobaccoproductioninFujianprovince.thehighyieldregionsoftobaccoK326,Yunyan87(85)wereconcentratedinpucheng,Jianyang,Jianou,withtheareaof96695.67hm2and208683.58hm2,respectively;themediumyieldregionsoftobaccoK326,Yunyan87(85)weremainlydistributedinYongding,ninghuaandShanghang,withtheareaof121879.70hm2and91803.92hm2,respectively;thelowyieldregionsoftobaccoK326,Yunyan87(85)were296096.70hm2and214184.60hm2,respectively.theresearchdemonstratesthatplantingmistseriesinFujiantobacco-growingareascanleadtohigheryields.

Keywords:GeographicinformationSystem;Fujianprovince;flue-curedtobacco;output;estimatingmodel;spatialdivision

福建是中国烟草发源地之一,由于福建省烟区位于亚热带季风气候区,气候温和,日照充足,降水丰沛,为烤烟生长提供较理想的立地条件,从而成为中国优质烤烟主产区和重要烟草生产基地。福建省烟区主要位于南平、三明和龙岩三市,合计烤烟种植面积占全省烤烟种植总面积的95%以上,2013烤烟产量达16.14万t,主要种植品种为K326、云烟87(85)[1]。烟叶的产量和品质直接关系到烤烟种植业的经济效益,故烤烟产量和品质的提升一直是人们关注的热点,但国内外至今有关烤烟产量的研究主要集中于烤烟产量的影响因素及改良技术措施等方面。如Farrokh等[2]研究指出氮肥与钾肥施用量对烟叶产量以及质量影响最大;Huo等[3]利用15n标记示踪技术寻找提高烤烟产量和品质的最佳水-氮耦合比率;tariq等[4]通过田间试验研究了不同施肥方法与烟草养分吸收的相关性及其对烤烟品质和产量的影响;尹鹏达等[5]借助偏最小二乘回归施肥模型研究表明,氮磷钾肥与烤烟产量及烟叶化学成分均有显著的回归关系;上官力等[6]研究了同一海拔高度种植不同海拔高度选育的烟草种子对烤烟产量和品质的影响;李淑娥等[7]采用SpSS统计软件分别建立趋势产量和气候产量回归模型,最终建立白河烟区产量回归模型。可见,国内外至今针对烤烟产量估测模型的研究报道较少,在筛选建立区域烤烟产量最佳估测模型的基础上,借助GiS与产量最佳估测模型集成技术实现区域烤烟品种产量的空间估测与分区则更少见研究报道。为此,本研究利用福建烟区不同烤烟品种代表性调查样点烤烟产量及其相关影响因素资料数据,在筛选建立烤烟产量最佳估测模型的基础上,借助GiS与烤烟产量最佳估测模型集成技术,利用福建烟区烤烟产量影响因子空间属性数据库,开展福建烟区烤烟产量估测及分区研究,为实现福建烟区烤烟产量的动态监控,保障烟草优质、高产、高效生产提供科学依据。

1方法步骤

1.1资料收集

根据研究需要,收集以下数据:①1∶250000福建烟区烤烟品种用地适宜性评价数据库,包括评价因子和烤烟用地适宜性的空间属性数据库,由土壤生态系统健康与调控福建省高校重点实验室提供;②福建烟区399个代表性调查样点地理信息坐标、烤烟品种产量(近3年均值)及相关土壤属性调查分析数据。其中K326样点数为186个,云烟85样点数36个,云烟87样点数为177个,由福建省烟草总公司烟草农业科学研究所提供。

1.2烤烟产量影响因子及其属性数据集建立

烟草是一种对生态条件十分敏感的作物,不同生态因子对烟草生长发育特性、烟叶产量高低、品质好坏等影响差异明显[8]。地形因子与土壤中的水分及物质运移有着紧密的联系[9],从而会影响土壤中养分的分布,同时地形因子通过制约水热条件再分布而对区域小气候产生显著影响。充足的光照、适宜的气温是形成优质烟叶的必要条件[10],烤烟大田生育期日照时数要求达500~700h,最佳温度为20~28℃,日照百分率为40%以上,≥20℃成熟期日均温的持续日数不少于50d,水分是烟草重要的生态因子和组成成分,烤烟生育期月均降水量要求在100~200mm之间[11]。良好的土壤条件是烤烟优质高产的重要基础,烤烟为喜钾忌氯作物,对土壤酸碱度较为敏感,适宜pH5.5~6.5,肥力中等,有机质含量适中,质地为轻黏壤土、中壤和沙壤土最能生产出优质的烤烟[12]。综上所述,选取土壤因素(有机质、黏粒、碱解氮、速效磷、水溶性氯、交换性镁、pH和速效钾)、立地环境因素(坡度、坡向、耕层厚度、地下水位)、气候因素(无霜期、日均温≥20℃的持续日数、日照时数和日均温≥10℃活动积温)共16个因子作为福建烟区烤烟产量估测的主要影响因子。

代表性样点的土壤因子数据为福建烟区399个调查样点的实测值,立地环境条件和气候因子数据借助aRC/GiS软件,通过399个调查样点的地理信息坐标,从福建烟区烤烟用地适宜性评价因子数据库中提取。由于云烟85和云烟87是同源品种,其生产和效益相近,且因云烟85的实际调查样点数偏少,故将两者合并进行产量建模、预测和分区。将获取的数据分别建立福建省烟区烤烟K326、云烟87(85)产量估测模型筛选的样点数据集,其中K326样点数据集为186个,云烟87(85)样点数据集为213个。将样点数据集分为估测模型建模样本(占70%)和精度验证样本(占30%)两部分,所有样本数均符合统计学的大样本原则。

1.3烤烟品种产量估测模型的建立

1.3.1神经网络模型的建立Bp人工神经网络模型是一种模拟大脑-思维-计算之间关系的人工智能系统,是目前应用最广,被广泛接受的神经网络学习算法,能够自动以任意精度逼近任意复杂的非线性映射[13]。根据神经网络模型的网络参数确定原则,借助DpS统计软件分别对K326共130个、云烟87(85)共149个的产量进行拟合。通过Bp算法误差反向传播法,信号从多个输入层节点导入,中间是一层与多层隐层节点,非线性耦合传递到输出层,逐步调整网络参数,最终得到一个误差平方和最佳的原则修正网络结构[14-16]。

具体参数设置如下:网络输入层神经元节点数即系统的自变量个数,设定为16;输出层神经元节点即系统目标个数设定为1;中间层激发函数Sigmoid为0.9,允许误差为0.0001,最大迭代次数为1000,数据进行标准化变换;K326产量模型的最小训练速率确定为0.8,激发函数确定为0.6,第1隐含层节点数选取14;云烟87(85)产量模型的最小训练速率确定为0.9,激发函数确定为0.6,第1隐含层节点数选取16。

1.3.2逐步回归模型的建立逐步回归分析方法是一种逐步筛选出显著影响因子的算法,其每一步筛选都要通过F值检验作为自变量对因变量作用的显著程度判断标准,从大到小地依次逐个引入回归方程,当F值的显著水平p≤0.05时,显著性检验为显著,否则将其剔除掉[17],这一过程持续到没有变量可以剔除为止。借助DpS统计软件的逐步回归分析方法,分别对130个K326样点、149个云烟87(85)样点的产量建立以下逐步回归模型。

Yk=67.941+2.641X1+0.251X2+0.471X3-0.029X4+0.027X6-0.265X7+0.082X8-0.065X10-0.173X11+0.1372X12-0.009X14

模型的决定系数R2=0.635,显著性水平p=0.046,n=128,表明模型中的自变量与K326的单位面积产量呈显著相关。

Y87(85)=148.797-3.896X1-0.218X2+0.153X3+0.047X4-0.010X5+0.013X6-0.128X7+0.010X8-1.741X9-0.179X10+0.077X11+0.050X12+0.690X13-0.016X14+0.045X15+0.091X16

模型的决定系数R2=0.744,显著性水平p=0.015,n=147,表明模型中的自变量与云烟87(85)的单位面积产量呈显著相关。

式中,Yk和Y87(85)分别为K326和云烟87(85)的单位面积产量;X1为pH,X2为黏粒,X3为有机质,X4为碱解氮,X5为速效磷,X6为速效钾,X7为交换性镁,X8为水溶性氯,X9为耕层厚度,X10为地下水位,X11为无霜期,X12为日照时数,X13为≥20℃日数,X14为≥10℃活动积温,X15为坡度,X16为坡向(下同)。

1.4最佳模型筛选与检验

将56个K326和64个云烟87(85)烤烟品种验证样本的立地、土壤和气候因子数据分别代入上述建立的各烤烟产量估测模型,计算获得K326、云烟87(85)验证样本烤烟产量的模型估测值,采用模型估测产量与实际调查产量的线性回归相关性检验、配对样本t检验和均方根误差检验(RmSe)综合判断确定烟区烤烟产量估测的最佳模型。

1.5烤烟产量空间推算与分区

为实现不同品种烤烟产量空间推算与分区,利用烤烟产量最佳估测模型和主要影响因子空间数据库,借助aRC/GiS软件,分别估测福建烟区K326、云烟87(85)的产量并建立相应烤烟品种产量空间数据图层,利用福建烟区烤烟生态适宜用地图层分别模拟K326、云烟87(85)的烤烟产量空间数据图层,建立福建烟区烤烟适种区K326、云烟87(85)产量空间数据库,借助动态聚类分析模型[18],开展福建省烤烟适种区K326、云烟87(85)产量分区,分区标准见表1。

2结果与分析

2.1烤烟产量最佳估测模型的确定

由表2和表3可见,采用人工神经网络模型估测的K326与云烟87(85)产量均值分别为(1866.36±10.70)和(2130.42±10.23)kg/hm2,与实际调查产量均值间的绝对差值分别为0.52%和0.50%;而采用逐步回归模型的估测产量均值分别为(1929.88±47.05)kg/hm2和(2166.06±35.38)kg/hm2,与实际调查产量均值间的绝对差值分别为2.87%和2.13%;t检验结果显示,采用人工神经网络模型估测的K326和云烟87(85)产量与实际调查产量的t值(分别为0.91和1.03)均小于逐步回归模型(分别为1.14和1.30),2种模型的烤烟品种估测与实际产量间的t值均小于t0.05(t0.05=2.05,n=55;t0.05=2.00,n=63),表明2种模型估测的烤烟品种产量和实际产量均无显著差异,但均以人工神经网络模型估测的产量与实际调查产量差异较小。烤烟品种的模型估测产量与实际调查产量相关分析结果(图1和图2)表明,采用人工神经网络模型估测的K326和云烟87(85)产量与实际调查产量的相关系数(均为0.95)均显著高于逐步回归模型(分别为0.39和0.48),表明采用人工神经网络模型估测的K326和云烟87(85)产量与实际调查产量的相关性更为密切。由表4可以看出,采用人工神经网络模型估测的K326和云烟87(85)实际调查与估测产量的RmSe值(分别为79.40和81.88)均明显低于逐步回归模型(分别为353.05和284.59),同时人工神经网络模型对K326和云烟87(85)产量的模拟精度(分别为99.48%和99.51%)均高于逐步回归模型(分别为97.21%和97.87%),表明人工神经网络模型的烤烟品种估测产量与实际调查产量误差较小。因此,人工神经网络模型对K326与云烟87(85)产量的估测精度较高,可作为福建烟区烤烟产量估测的最佳模型。

2.2烤烟产量空间分区分析

从利用aRC/GiS与人工神经网络模型集成技术估测的福建烟区不同烤烟品种产量可见(表5),福建省烟区烤烟K326和云烟87(85)产量空间差异较为明显,K326产量为2624.10~1305.00kg/hm2,变异系数为14.16%,产量均值为1752.90kg/hm2;云烟87(85)产量为2803.95~1395.00kg/hm2,变异系数为16.34%,产量均值为1959.60kg/hm2。

由福建烟区烤烟品种产量分区结果(图3)可知,福建省烟区K326品种高产量区面积达96695.67hm2,占福建省烟区生态适宜用地总面积的18.79%,集中分布于浦城、建阳、长汀和建瓯等县(市);云烟87(85)高产量区面积为208683.58hm2,占福建省烟区生态适宜用地总面积的40.55%,主要分布于浦城、建阳、上杭、建瓯和宁化等县(市、区)。这些产量比较高的烟区一般分布于海拔低于400m的地区、平均坡度为3.08°、平均日照时数725.46h和≥10℃活动积温3326℃的地区,这为烤烟生长发育提供了优越的气候条件;从土壤类型来看,高产区的主要土壤类型为灰泥田和灰泥沙田等,质地多为壤土,耕层厚度均值达22.37cm,土壤有机质30.14g/kg、碱解氮163.59mg/kg、速效钾76.40mg/kg,速效钾含量比全省烟区适宜种植烤烟耕地土壤的均值高6.63mg/kg,交换性镁含量适中,为烤烟生长发育提供了较理想的养分条件。

福建省烟区K326品种中产量区面积达121879.70hm2,占全省烤烟适宜用地总面积的23.68%,主要分布于浦城、武夷山、长汀、连城、上杭、武平、永定、宁化和永安县(市);云烟87(85)中产量区面积达91803.92hm2,占福建省烤烟适宜用地总面积的17.84%,主要分布于建瓯、建阳、长汀、上杭、新罗、永定、宁化和尤溪县(市、区)。这些耕地多分布于低丘缓坡,海拔也相对较低,气候条件与高产量区相似,但土壤耕层厚度和速效钾含量均值仅分别为全省烟区适宜烤烟种植的耕地土壤相应属性均值的96.51%和92.34%,而土壤水溶性氯含量均值则比全省烟区适宜烤烟种植耕地土壤的相应均值高2.17mg/kg,土壤类型多为肥力相对较差的黄泥沙田等,因此,上述区域耕地土壤的耕层厚度、速效钾和水溶性氯含量等属性不利于烟叶产量的提高。

福建省烟区K326品种低产区面积为296096.70hm2,占全省烤烟生态适宜用地总面积的57.53%,集中分布于建瓯、建阳、邵武、顺昌、武夷山、武平和新罗等县(市、区);云烟87(85)低产区耕地面积为214184.60hm2,占全省烤烟生态适宜用地总面积的41.61%,主要分布于建瓯、邵武、武夷山、长汀、连城、武平和宁化等县(市)。这些区域大多分布于海拔较高的山地丘陵坡地区,交通不便,田间管理困难,大部分地处阴坡,日照时数的不足也制约了烤烟的光合作用,≥10℃活动积温比福建省烟区均值低210.68℃,耕层厚度均值仅为13.24cm,土壤有机质含量23.12g/kg、碱解氮含量150.05mg/kg和速效钾含量60.01mg/kg,水溶性氯含量均值比福建省烟区适宜烤烟种植耕地土壤相应均值高3.11mg/kg,热量、光照和土壤条件均不利于烤烟的生长发育。

3小结与讨论

不同数学模型估测精度比较表明,人工神经网络模型可作为福建烟区烤烟产量估测的最佳模型,利用该模型将福建烟区主栽品种K326和云烟87(85)的产量划分为高产、中产和低产量区。云烟87(85)高产量区面积占福建省烟区评价区域总面积的40.55%,明显高于K326高产量区面积(仅占全省烟区评价区域总面积的18.79%),表明福建烟区种植云烟系列烤烟品种可获得更高的产量。

烤烟产量的影响因素十分复杂,不同品种及研究区域影响烤烟产量的因素各异,且不同数学模型适用的条件也不同,故在实际应用中应根据研究区域和烤烟品种差异,科学选择烤烟产量的最佳估测模型。此外,烤烟生长发育过程是生态因素和社会因素共同作用的结果,且作物生长过程也是一个随时间变化的动态过程,本研究只是从生态条件对烤烟产量的影响角度入手,尚未考虑区域生态条件的动态变化以及社会经济因素(如人为灌溉、施肥及病虫害防治等)对烤烟产量的影响。因此,在今后的研究中应综合运用数学模型、生物学、经济学和3S技术,通过多模型综合运用的方法提高模型的预测精度,以便更好地为区域烤烟种植业的高效和持续发展提供技术支撑。

参考文献:

[1]福建省统计局.福建经济与社会统计年鉴(农村篇)[m].福州:福建人民出版社,2004.137-138.

[2]FaRRoKHaR,aZiZoVi,FaRRoKHa.effectofnitrogenandpotassiumfertilizeronyield,qualityandsomequantitativeparametersofflue-curedtobaccocv.K326[J].africanJournalofagriculturalResearch,2012,7(17):2601-2680.

[3]HoUmm,SHao,XH,LiYY.effectsofwaterandn-15-labelledfertilizercouplingonthegrowth,nuptake,qualityandyield,offlue-curedtobaccos:atwo-yearlysimeterexperiment[J].ResearchonCrops,2013,14(03):950-959.

[4]taRiQm,aKBaRa,LataF-UL-HaQ,etparingapplicationmethodsforboronfertilizerontheyieldandqualityoftobacco(nicotianatabacumL.)[J].CommunicationinSoilScienceandplantanalysis,2010,41(13):1525-1537.

[5]尹鹏达,赵丽娜,朱文旭,等.基于偏最小二乘回归的填充型烤烟优化施肥研究[J].中国烟草科学,2011,32(4):61-65.

[6]上官力,彭家宇,任晓红,等.不同海拔选育的烟草种子对烤烟产质量的影响[J].湖北农业科学,2013,52(21):5214-5216.

[7]李淑娥,王智慧,刘开平,等.白河烟区烤烟产量多元线性回归模型年景预测[J].作物研究,2012,26(7):84-86.

[8]飞.主要生态因素和烘烤对烤烟致香物质含量的影响[D].长沙:湖南农业大学,2009.

[9]秦松,樊燕,刘洪斌,等.地形因子与土壤养分空间分布的相关性研究[J].水土保持研究,2008,15(1):46-49.

[10]周宏.不同光强光质对烤烟生长发育和烟碱合成代谢的影响[D].南京:南京农业大学,2013.

[11]蓟红霞.土壤条件对烤烟生长养分累积和品质的影响[D].北京:中国农业科学院,2006.

[12]邢世和,张黎明,周碧清.福建农用地利用区划[m].福州:中国农业科学技术出版社,2012.54.

[13]张淑娟,何勇,方慧.人工神经网络在作物产量与土壤空间分布信息关系分析中的应用[J].系统工程理论与实践,2003,12(12):121-127.

[14]王淑红.基于神经网络的选矿厂数学模型及应用研究[D].昆明:昆明理工大学,2002.

[15]牛之贤,李武鹏,张文杰.基于aiGa-Bp神经网络的粮食产量预测研究[J].计算机工程与应用,2012,48(2):235-237.

[16]唐启义.DpS数据处理系统[m].北京:科学出版社,2013.466.

数学建模和统计建模的区别篇4

关键词:游客行为;景区;仿真建模;主体

收稿日期:2012-12-10;修订日期:2013-04-27

基金项目:国家自然科学基金项目“基于agent的景区游客游憩行为仿真建模研究”(41101111);北京市教育委员会科技计划项目“基于agent的景区游客游憩行为仿真建模研究”(SQKm201211417007)

作者简介:黎巎(1975-),女,博士,北京联合大学旅游学院副教授,主要研究方向为游憩行为仿真、信息技术的旅游应用。随着我国旅游业的发展,景区作为游客的核心吸引物正遭遇日益增长的客流压力。根据各大景区的统计数据,近年来景区(特别是风景名胜区)的游客数量持续增长,个别景区在“十一”黄金周及“五一”等小长假甚至出现游客数量井喷的情况。景区如何在大客流量下保障游客游憩质量、安全以及自然文化环境,是景区可持续发展必须要解决的关键问题。采用计算机仿真方法,从景区游客个体微观行为及其形成的群体行为影响入手探索游客与景区环境之间的相互作用与影响、研究景区道路设置、设施配置、疏散措施等问题,对景区客流管理具有方法指导意义与实际应用价值。景区游客行为仿真模型最早出现在20世纪70年代,早期为基于大型机的郊野使用仿真模型wUSm(wildnessUseSimulationmodel)(Shechter,1975;Smith,Krutilla,1974);90年代出现了基于仿真平台extend的仿真系统(Lawson,manning,2003;Lawson,etal.,2003)以及基于agent技术的RBSim(multiagentRecreationBehaviorSimulatorSystem)系统(Gimblett,etal.,2001;itami,etal.,2003)。由于基于agent的计算机仿真技术能够对游憩行为与环境的相互影响与作用建模,并适应游憩系统的灵活变化,是目前景区游憩行为计算机仿真系统研究较多采用的方法,也是适应我国景区游憩行为计算机仿真系统建模的重要方法之一(黎巎,杜栓柱,2011)。近些年国外基于agent的景区游客计算机仿真系统不断出现,如maSooR(multiagentSimulationofoutdoorRecreation)(Jochem,etal.,2006;Grobben,2004)、iRaS(intelligentRecreationalagentSimulator)(Loiterton,Bishop,2008)、Kvintus(Skovpetersen,2008)等。这些系统通过对游客在景区内的行为仿真,为景区的游客管理、游憩质量管理、景区承载力以及规划等问题提供有效支持并在实际中得到了应用。在我国,基于agent的景区游客游憩行为仿真相关研究尚处于起步阶段(邱荣旭,等,2009;张仁军,2006)。而由于国外景区及其游客游憩行为与我国存在较大不同,如游客密度、行为偏好等,已有相关模型无法直接应用于我国景区的游客管理实践。本文针对我国景区目前亟须解决的游客容量问题,采用基于agent的仿真建模技术并结合地理信息系统,基于RepastSimphony(简称RepastS)和arcGiS元模型提出了一种景区游客游憩行为仿真模型,选取颐和园景区内客流压力较大的长廊游览区对模型进行校核与验证。该模型及其运行环境将为景区的游客管理、规划设计提供理论方法与工具支持。1元模型Repast是美国芝加哥大学(ChicagoCollege)和阿尔贡国家实验室(argonnenationalLaboratory)开发的基于agent的仿真平台,目前由非营利组织RoaD(RepastorganizationforarchitectureandDevelopment)维护,是一个开源免费仿真平台。RepastSimphony(本文简称RepastS)是Repast目前最新的版本,定义了基于agent的仿真模型元模型架构,包含元模型要素、要素操作、互操作以及语义扩展等。建模者需基于RepastS元模型的语法与语义,通过计算机编程构建目标模型,从而运行模型,进行仿真实验。本研究采用RepastS2.0。arcGiS则提供仿真建模与地理空间相关时所需的地理数据模型,为仿真模型提供地理环境要素。本研究采用arcGiS9.3。tourismScience旅游科学

数学建模和统计建模的区别篇5

关键词:城市生态系统;数据仓库;评估指标;星形模型;体系结构

中图分类号:tp3l1.52文献标识码:a

estimatemodleofUrbanecosystemBasedonDatamining

XUGangqiang1,HUFuxiang2

(1.HunanVocationalCollegeofengineering,Changsha410151,China;

2.CentralSouthUniversityofForestryandtechnology,Changsha410004,China)

abstract:thispaperdesignedaevaluationsystemforurbanecologicalsystem,builtanetworkofindicatorsdatacollectionsystem,useofdatawarehouseanddataminingtechnology。thendesignedthedatawarehousearchitecture,includingdatadimensiontableandfacttable.onthisbasis,bulttheStarmodelofdatawarehouseandbuilttheevaluationplatform.insimulatedapplication,itachivedsatisfactoryresults.

Keywords:urbanecosystem;datawarehouse;estimateindex;starmodel;systemstructure

1引言

城市生态系统(Urbanecosystem)是以人为中心的一种特殊人工生态系统,是由城市自然、经济和社会等子系统构成的有机复合体,与普通自然生态系统不同的是,城市生态系统是以人为中心,人为改变其结构、物质循环和能量转化方式、长期受人类活动影响的陆生生态系统[1]。对城市生态系统进行科学评估,得到各个指标的当前值,与标准或者参考目标值相比,找出存在的差距,分析其原因,并确定将来的建设方向,制定有效的策略,是建立生态城市的必须途径[2]。城市可持续发展的目标呈现多元化,既有人口、经济、环境目标,又有增长、结构优化目标,还有公平、效率目标。因此,评价指标体系也具有指标多、层次复杂、关联性大、数据动态化的特点,目前大多采用生态学及城市地理学方法[2]、专家咨询法[3]、市场价值法[4],原始数据和统计数据一般通过数据库分散保存,数据保存及评估方法分别进行,集成性差。而如果通过建立数据仓库将数据保存与评估算法融合在一起,不仅可以高效准确地得到评估结论,还可以利用数据挖掘技术科学预测将来的趋势,为决策服务。

2需求分析

评估城市生态系统的目的是科学评价城市生态现状,预测将来发展趋势,为城市建设提供决策数据[1],所需要的数据非常广泛,包括人口、工农业生产、环保、交通、园林绿化,医药卫生、国土、文化教育、保险救助等,涉及到城市生存发展的方方面面,单项信息来源于各个主管局,其汇兑数据主要由统计、环保和绿化管理等部门提供。实际情况是各行业采用的是不同的管理系统,运行于不同的平台,且具有不同的数据结构,要把这些分散的数据库生成汇兑的综合分析报表,需要较长的周期,随着时间的增长,长期累积形成的历史数据和分析统计信息呈现多样化,保存与管理难度加大,处理复杂。数据的集中处理不仅能带来业务处理效率的提高,更有利于各个指标的监控,从中挖掘出决策数据,这正是数据仓库的优势,无疑是解决城市生态系统评估问题的理想方案。

数据仓库(Datawarehouse)是一个面向主题的(Subjectoriented)、集成的(integrate)、相对稳定的(non-Volatile)、反映历史变化(timeVariant)的数据集合[6],主要用于支持管理决策。数据仓库面向分析型数据处理,它不同于企业现有的操作型数据库;同时,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。数据仓库主要应用于决策支持系统[7],其主要目的是“提取”信息并加以扩展,用来进行处理基于数据仓库的决策支持系统(DSS)的应用。基于数据仓库的决策支持系统(DSS)由三个部分组成:数据仓库技术(Dw,Datawarehousing),联机分析处理技术(oLap,on―Lineanalyticalprocessing),数据挖掘技术(Dm,Datamining)。

3评估指标的确定

城市生态系统的评估,涉及到城市的结构、功能和协调性,包括人口结构、收入结构、健康状况、产业结构等多方面的因素,虽然专家学者在城市生态系统的评价领域作了大量的研究,取得不少阶段性成果,但到目前为止,还没有形成一个标准化的国家标准评估指标体系[8],通常是根据国家政策文本参考国外优秀城市并集合每个地区的实际情况确定合适的指标体系。表1是目前国内较为流行的一种评价指标体系[1,3,4],在业界通用。

构建数据仓库时,需要按照上表指标体系建立对应的数据库表及数据集市,并以月、季、年度分别存贮原始数据和汇兑数据。

4数据仓库系统体系结构设计

基于数据仓库的城市生态系统评估系统的总体目标是:充分利用现代信息技术整合城市生态系统数据资源,在统一的web服务架构平台上,以数据仓库和网络为依托,搭载社会、经济、资源、环境、生态和人口等信息,借助数据仓库强大的数据整合分析能力,建立一个智能化、跨平台的评估及决策支持系统,为政府部门在社会发展和建设中重大问题的决策提供科学依据,辅助政府工作,提高管理和决策水平,促进社会可持续发展。

4.1功能结构设计

为了满足管理部门对系统的应用需求,整个系统从功能角度可以设计为四个层次:数据获取、数据管理、分析处理和信息服务,其功能结构如图1所示。

数据获取层用于从源数据库中收集各类原始数据,经清洗后添加到数据仓库,利用数据抽取算法生成事务库,更新和提供给数据仓库。数据管理层建立以评估指标体系为主题的多维数据模型,设置刷新机制,在保护原有数据的基础上,及时刷新数据仓库以反映数据库的最新信息,并将数据转存处理。分析处理层进行单指标和多维指标分析,运用数据挖掘算法提取分析和决策数据,得到趋势数据,产生各指标体系的发展现状。信息服务层为各类服务者提供所需数据,确定生态指标阈值,建立预警机制,根据统计和预测数据为决策者提供全方面的信息服务,并给出生态改进建议。4.2应用系统网络结构设计

城市生态系统的评估系统的网络建设与原有系统并不需要冲突,它们可以共存于一个网络环境中,连接各数据源的是系统数据通信干线,核心是环保部门的管理网络和灾难备份中心。各指标源相应部门的内部网络通过路由器实现与环保局及其它部门相连。环保部门控制中心同时架设远程拨号备份服务器,系统出现故障时,自动启动拨号备份程序,以避免信息的丢失,系统网络结构如图2所示。

本系统利用tCp/ip协议,在原有网络的基础上通过internet和DDn或aDSL等广域网技术将各指标对应部门的网络互联起来,从而实现数据的共享和集中处理。

5城市生态系统数据仓库的构建

常用的数据仓库模型有星形模型,雪花模型,事实星座模型三种[10]。星形模式更能提高查询性能,降低维表复杂度,以数据仓库用户最为关心的事实为中心,将数据仓库连接组合为一个整体。由于每个维度表都利用关键字,通过事实表的外键约束于事实表的某一行,因此查询工作可以从分析维度表中的数据开始,借助维度关键字,方便地链接到星形模型中心的事实表,保证了检索效率,为最终用户提供快捷的查询、报表、分析等服务[11],适合于被本系统采用。雪花模式的维度表基于范式理论,部分数据组织通常采用第三范式的规范结构,部分数据组织采用星形模式的事实表和维表结构,在一定程度上减少了存储空间,规范化的结构更容易更新和维护,但用户理解困难,浏览内容不方便,额外的连接将使查询性能下降,在数据仓库中,查询性能相对oLtp系统来说更加被重视,而雪花模式会降低数据仓库系统的性能,因此不适合于本系统采用。事实星座模型通过多个事实表共享某一个或多个维表的方式实现,但设计工作量大,管理复杂,在数据仓库系统中往往不会采用这种模式。

5.1维度表设计

时间维:评价城市生态系统状况的周期通常包括有月度、季度、年度三种,指标数据的收集一般是以月为单位,每季度进行累计,每年度统计分析,得到年度之间生态环境的变化情况,从而为将来的投资方向、整治领域提供依据。

评价指标维:城市生态系统的评价体系包括结构、功能、协调三个一级指标,每个一级指标由3到5个二级指标构成,每个二级指标又包含若干三级指标,获得指标数据时以每个二级指标为一个基本表,按三级指标分别收集相应数据,作为表的列字段。

地区维:反映指标体系的地区信息,地区是具有父子层次架构的维度模型,指标体系的地区维度一般表现系统所应用区域的树型结构。一个城市往往由几个城区、郊区、郊县等构成,其生态状况不一定相同,应分别通过观察站或主管部门统计产生。

所属类别维:确定指标所属的类别,可以设定为共享维度,即指定其底层指标类别数据表,城市生态系统评价系统中,一级评价指标即确定了各个二级指标的类别,二级指标向上汇兑得到在生态结构、城市功能和协调发展的总体水平,这就是类别维表。

5.2数据模型设计

考虑到城市生态系统评估体系涉及到的各指标来源于不同部门,不少已经建立了管理信息系统,且大多采用关系数据库,而星形结构数据模型的设计比较简单,是基于关系型数据库的面向oLap的一种多维数据模型的数据组织形式,本系统采用星形模型,它由事实表和多个维度表组成,通过使用一个包括主题的事实表和多个包含事实的非正规化描述的维度表来执行指标体系查询,由于数据仓库在存储事实数据表时会自动计算指标数据的聚合值,因此可获得比一般SQL语句分组查询更高的查询性能,星形模型的中心是指标数据,对应实用指标事实数据表,四周是访问的角度,对应维度表,每一个维度表通过一个关键字直接与事实表关联,事实表中每条记录都包含指向各个维度表的外键和实用指标度量值,如图3所示。

图3事实表与维表之间的星形结构数据模型

事实表和维表通过主外键建立关联,通过对任意指标的切片分析可以得到单项的基本状况,按照指标的类别分类汇兑,可以得到本类别生态状况的整体水平和等级。

6结束语

基于数据仓库技术的城市生态系统评价体系借助先进的数据仓库技术,为政府进行城市生态状况和城市环境质量评价决策提供了必要的辅助支持,在历史数据保存的时限、采集数据的周期、评估速度和准确性、预测数据的科学性等方面均得到了大幅度提高。本系统是以评估指标数据仓库的建立和评价方法的设计为核心,在考虑充分评价决策的理念、分析策略和趋势预测等问题方面,尚需进一步研究,有待进一步探讨。

参考文献

[1]宋永昌,由文辉.城市生态学[m].上海:华东师范大学出版社.2003:235-250.

[2]徐晓霞,张吉献.洛阳市城市生态系统评价[J].安阳师范学院学报,2006,4:99-102.

[3]盛学良,王华.生态城市建设的基本思路及其指标体系的评价标准[J].环境导报,2001,1:5-8.

[4]陈静文.面向生态城市建设的城市生态系统评价―以上海市为例[D].上海:同济大学.2007:38-45.

[5]邓建高,潘江波.基于数据仓库的证券交易决策支持系统设计与开发[J].计算机工程与设计.2008,2:753-754

[6]林宇.数据仓库原理与实践[m].北京:人民邮电出版社.2003.

[7]刘黎志,陈传波.基于指标体系的决策支持模型研究[J].武汉工程大学学报.2008,1:91-93.

数学建模和统计建模的区别篇6

【关键词】terraexplorerapiSketchUp数字校园三维模型二次开发Com组件

近些年来,我国的地理信息系统产业得到了前所未有的跨越式发展,其中三维地理信息系统已经成为地理信息系统的比较重要的发展领域之一,伴随着三维可视化技术的发展和完善,三维地理信息系统在城市规划、交通、环保、能源、地质勘探、房地产等领域的应用优势越来越明显,需求也日益增大[1]。作为地理信息技术与虚拟现实技术的综合应用,三维数字校园的建立是一个新的发展趋势,国内许多高校也已经建成或在建三维数字校园系统。

Skyline系列软件是美国Skyline公司开发的的一套三维空间信息软件系统,这套软件可以利用遥感影像、航测数据、数字高程模型和其它的二三维信息源以及地理信息系统数据集,进行创建浏览交互式完全真实的地表三维环境模型。Skyline软件体系主要包括三大应用模块,它们分别是terraexplorer、terraBuilder和terraGate,而Skyline本身也带有十分强大的基于Com组件的二次开发terraexplorerapi接口[2]。

本文以云南师范大学呈贡校区为研究对象,利用三维建模软件SketchUp软件和Skyline的二次开发terraexplorerapi接口组件,在校园规划设计图和高分辨率遥感影像的基础上来实现三维数字校园系统。

1研究区简介

云南师范大学位于云南省昆明市,是一所历史悠久、传统优良的省属重点师范大学,其前身是诞生于1938年的国立西南联合大学师范学院。学校占地面积3330亩,其中呈贡校区占地3000亩,位于昆明市呈贡区大学城片区,整个校区呈矩形分布,分为东西两区,建筑布局比较规范,且风格统一。各种简洁明快、线条流畅的现代化校舍掩映在校园里的大片绿化带中,具有浓郁的文化和艺术氛围。

2三维数字校园系统组成与总体设计

云南师范大学呈贡校区三维数字校园三维数字校园系统总体设计如图1所示。

2.1数据获取

首先收集云南师范大学呈贡校区的规划平面图,一般收集到的规划图应该为autoCaD格式,若不是CaD格式,则jpg图片也可。其次从Googleearth上下载学校校区范围的遥感影像,分辨率越高越好,便于识别出地物的类型。最后收集学校里各种基础设施,例如教学楼、公寓楼、餐厅、礼堂、体育场馆等等的基本资料,通过制成表格等类型将每种设施的面积、功能、方位等等属性记录下来。

2.2数据融合

在制作模型以前,需要首先利用terraBuilder把校园遥感影像和Dem数据进行融合,生成一个三维地形数据集文件,即mpt文件,如图2。

2.3三维建模

三维建模是数字校园中的主要内容,也是一项基础工程。本文使用SketchUp三维建模软件进行建筑物建模工作,SketchUp建立的模型较为精细,且操作简便容易上手,适合大多数非专业建模人员使用。

首先,将校园规划图导入SketchUp软件中。使用画图工具根据导入的规划图中建筑物的轮廓追踪点击底图的范围来生成一个平面,然后使用推/拉工具单击绘制好的平面并向上移动到需要的位置后释放鼠标,在屏幕右下角的数值输入框中输入当前建筑物的高度,确认后就能得到一个建筑物的外观雏形[3]。按照这样的方法可以快速的将大部分轮廓比较规则的建筑物的模型快速建立起来,且省时省力。建筑物的模型建立完成后,接下来的工作就是制作建筑物的表面纹理,SketchUp软件本身自带一些纹理图案,可以直接使用。将一些比较次要的建筑物直接贴上纹理,另外一些比较主要的建筑物则需要通过数码相机获取外观图片,用photoshop软件对照片进行处理,确保每个纹理图案都完整而且没有变形[4]。接下来要将纹理贴图文件进行命名,便于使用。在SketchUp软件中要按照每一个建筑物的类型,来对其进行纹理贴图,同时保证贴图的质量,避免出现重叠,倾斜等问题。

2.4模型导出及添加属性

在校园建筑物三维模型制作完毕后,就需要将每一个建筑物的模型通过格式转换导入Skylineterraexplorerpro当中,将其放置于mpt三维地形数据文件上。在添加模型的过程中,要按照建筑物模型种类的不同,分别对其赋予属性,校园的属性信息一般包括建筑物的名称编号和学院名称及其用途,生活区公寓楼的名称编号,公寓类型(男生公寓、女生公寓、混合公寓、教师公寓等),餐厅、图书馆、体育场馆、校医院等的名称。文字属性可以直接使用属性表来实现,如过需要添加图片、音频、视频等多媒体属性,则需要建立对象属性数据库,在这里使用SQLServer数据库来对各种属性信息进行管理,并使用脚本语言来访问数据。

2.5数据集成

通过以上的工作,建立三维地形数据,建立建筑物三维模型以及将模型导入terraexplorerpro并赋予属性要素,已经基本完成三维校园内容的建立,下面的步骤是要将这些数据进行集成。在三维地形文件的基础上定制信息窗,是所有的要素信息以信息树的方式呈现,通过信息窗可以快速浏览三维校园中的各种要素。添加一个能够在三维显示的同时联动显示当前视野的二维导航地图,事先需要经过与三维地形图进行配准,以便辅助校园场景浏览。terraexplorerpro的工程文件称为飞行文件,即fly文件,文件中包含了整个工程的内容,包括三维模型,地形数据以及属性数据。

3三维数字校园系统的开发

3.1系统设计

云南师范大学三维数字校园系统客户端基于微软VisualStudio2010平台进行搭建,开发语言为C#,Skyline本身提供了各种功能丰富且完备的api接口,系统开发要依照软件工程的基本原理,通过二次开发的Com组件来实现各种功能。

三维数字校园系统首先需要对系统界面、功能模块进行设计。系统界面的设计应该简洁明快,不要繁琐,要使用户很轻松的找到各种功能。系统主界面主要由菜单栏、工具栏、信息树窗体、导航窗体以及三维显示窗体组成。

在二次开发中,经常使用到的Skylineapi接口如下表1所示:

以上表格中的接口包含了Skylineapi所提供的大部分主要功能,这些功能不仅可以实现软件的基本操作,还可以跟其他接口结合来开发新的功能模块[5]。

3.2主要功能模块

模块设计要按照功能需求来设计不同的模块,通常情况下,三维数字校园包括以下功能[6]:

(1)基本功能:这个模块主要包括该系统的最基础的功能,包括场景缩放、移动、飞行漫游等等。(2)三维查询:通过点击三维窗口中的对象,弹出该对象的具体信息,包括属性信息和多媒体信息;从信息树中选择某一对象的名称,三维窗口自动定位到该对象,并显示出相关信息。(3)空间分析:三维空间分析模块主要有通视分析、空间测量、面积测量、地形剖面分析、坡度分析、最短路径分析等。(4)屏幕快照及输出:用户在浏览到感兴趣的区域时可以使用快照功能截取整个屏幕内容或者通过选取部分区域来输出为图片文件或者打印。(5)图形创建:可在三维窗口中建立各种二维或者三维图形,校园管理者可以使用这个模块来为校园规划、建筑设计、道路设计提供依据。(6)突发事件模拟:该模块可以对校园各种突发事件进行模拟演练并生成应急预案,提高学校对突发事件的预防及应急处置能力。

3.3功能实现

通过在VisualStudio2010中调用Skylineapi接口,添加te3DwindowClass,teinformationwindowClass和tenavigationmapClass三个控件到窗体中来创建用户界面,通过api接口的入口点SGworld对象来访问Skyline中的其他接口。在代码编辑窗口进行程序代码设计,并且重复进行系统内部调试,以便及时发现问题及时修改。系统建立完成后,要对各项功能模块进行测试,确保总体设计目标的完成,保证系统稳定运行以满足实际需要,图3为三维数字校园系统界面。

4结论

三维数字校园的建立可以大大提高校园的现代化水平,为学校管理人员提供更为高效便捷的决策支持,同时三维数字校园系统还可以对外宣传校园的良好风貌,使用户足不出户就可以饱览整个校园的景色,也搭起了一个了解校园的平台。

在未来,三维地理信息系统的应用将会越来越广泛,如何将三维校园可视化的理论和技术与二维、三维地理信息系统技术有机结合起来,创造一个真正具有沉浸、交互、构想特征的虚拟环境,以方便人们的管理、决策、规划和建设需要将具有十分重要的实际应用价值,同时对地理信息技术和虚拟现实技术在城市建设中的应用也具有十分重要的科学研究价值[7]。

参考文献:

[1]李佼,吴健平,胡英杰.基于terraexplorerpro的三维城市浏览系统开发[J].计算机发展与技术,2009;19(6):240—242.

[2]邓洁,夏春林,王润芳.基于Skylineterrasuite的城市三维景观的建立[J].遥感技术与应用,2008;23(5):529—532.

[3]唐海玥,白峻宇,李海英.建筑草图大师SketchUp7效果图设计流程详解[m].北京:清华大学出版社,2011:59—60.

[4]林卉,赵长胜,孙建文.数字校园3维建模与仿真的实现与设计[J].测绘通报,2004;(9):43—46.

[5]常德海.基于Skyline的虚拟校园建设理论与方法研究[D].开封:河南大学硕士学位论文,2009:59—61.

数学建模和统计建模的区别篇7

关键词:Gm(1,1)预测模型;长株潭城镇化;精度检验

中图分类号:F291.1文献标志码:a文章编号:1673-291X(2016)31-0049-03

一个地区的城镇化水平往往代表着当地的经济发展程度,代表着现代文明发展的总体趋势,是社会现代化的重要标志。从本质上说,城镇化是社会生产力变革所引起的人类生产、生活方式和居住方式转变的过程,是传统的乡村社会向现代社会演变的自然历史过程,其基本特征是随着规模经济和分工水平的演进,一定区域的农村人口不断转化为非农人口并不断地向城市集中的过程。而且,长株潭地区是中国中部地区城镇化水平比较有代表性的区域,2013年的城镇化水平在全国处于中上层次,在中部六省中总体水平发展较快,研究及测度其相应的城镇化发展水平,将有助于为区域城镇化水平的提高与质量的提升提供科学依据,对于湖南乃至中部地区城镇化相对滞后的省区具有重要的示范意义。

一、灰色Gm(1,1)模型的基本思想及模型建立

(一)数据的来源及处理

由于各学者对城镇化的研究方式不一,对于城镇化这一计算方法没有特别统一的方法。在很多文献里,很多学者以非农人口比重或城镇人口占总人口的比重作为衡量地区城镇化发展的标准,并常用定性估计及类比的方法对数据进行处理。学者结合研究地区的实际情况,依据不同的方法计算城镇化水平,如人口比重法,城镇化和工业化关系法,比例换算法,综合指标法以及多元计量模型法等。本文选取城镇驻地人口(建成区)占总人口的比重作为测度长株潭地区城镇化水平的一种方案,且用于计算城镇化水平的指标数据均来源于中国知网及湖南统计年鉴(见下页表),在此城镇化水平的计算公式为:

其中,UL为城镇化水平;C为城镇非农业人口占市域非农业总人口的比重;K为城镇驻地人口中自理口粮人口和农业人口比重;Y为非农业人口比重。

(二)Gm(1,1)模型的基本思想及模型建立

1.Gm(1,1)模型的基本思想。在灰色Gm(1,1)模型中,“G”表示灰色,“m”表示模型,括号里的前一个“1”表示一阶方程,后一个“1”表示一个变量,故Gm(1,1)是一个一阶一变量的微分方程模型,且主要通过鉴别系统因素之间发展趋势的相异程度,建立相应的微分方程模型,来预测数据的未来发展趋势。

2.Gm(1,1)模型的建立。设时间序列x(0)有n个观察值,,X(0)={X(0)(1),X(0)(2),…,X(0)(n)},通过累加生成新序列X(1)={X(1)(1),X(1)(2),…,X(1)(n)},则Gm(1,1)模型相应的微分方程为:

根据以上步骤,计算得出:a=-0.0590,μ=0.2713,从而预测模型及折线图(见下图):

X(1)(k+1)=4.8644e0.059k-4.5977

二、灰色Gm(1,1)模型的精度z验

灰色Gm(1,1)模型有三种方式精度检验的方法,分别是残差检验、关联度检验、后验差检验。为保证建模的质量与系统分析的正确结果,选取Gm(1,1)精度检验中的残差检验作为本文的精度检验。在相关的文献中,诸多学者对精度检验这一问题进行了深度的探讨,普遍认为残差检验是合适的检验方法。下面运用残差检验对已经建立的预测模型进行检验:

步骤一,计算由预测模型得到的还原值,其中预测值为:

(1)=(0.26760.5634…3.6774)

由于灰色预测的数据是通过生成数据的Gm(1,1)模型所得到的预测值的逆处理结果,所以将数据还原处理,则预测的还原数据为:

(0)=(0.26760.2958…0.4742)

步骤二,将长株潭地区原始数据进行一次累加,已知原始数据为:

X(0)=(0.26760.2917…0.4658)

那么同理可得累加后的原始数据为:

X(1)=(0.26760.5593…3.6779)

步骤三,计算残差。已知相对误差是按精度需求主观设定的,通常认为相对误差不超过0.1,令绝对误差和相对误差分别为q(k)和e(k),则残差检验如下所示:

q(k)=(0,0.0041,0.0025,0.0027,0.0025,0.0064,0.0151,

0.0096,0.0031,0.0084)

e(k)=(0,0.0139,0.0081,0.008,0.0073,0.0174,0.0367,

0.0222,0.0069,0.0181)

由于maxe(k)=0.0367,未超过0.1,故认为模型的精度较高,建立的预测模型可用于长株潭地区未来年份城镇化水平的预测,具有一定的可行度。

三、基于灰色Gm(1,1)模型的城镇化水平预测分析

Gm(1,1)模型是一种预测精度较高的预测模型,在没有大的市场波动及政策变化前提下,该预测值是可信的。本文通过介绍并建立灰色Gm(1,1)模型,将长株潭地区城镇化水平的指标数据代入,再对模型的精度进行检验,得到可信的预测结果。通过上述预测模型可知,未来五年长株潭地区城镇化发展水平预测数据(见下表)。

下表说明,2014―2018年城镇化水平有较大的提升,所得的数据呈单调递增的趋势。依照目前的发展状况,可知2014―2018年城镇化水平有较大的提升,预计2018年长株潭地区的就地城镇化综合水平将达到63.71%,与实际递增的趋势相符,有望进入高速发展阶段。

四、小结

灰色Gm(1,1)模型是灰色系统理论的重要部分,可对近期、短期、中长期的数据进行预测,其所需时间序列数据偏少、计算量小、预测精度较高、定量分析和定性分析的结果一致等优点,成为许多学者乐于选择的预测模型。通过介绍灰色Gm(1,1)模型,建立长株潭地区城镇化水平预测模型,并对模型的精度进行检验,得到预测结果。

参考文献:

[1]余宇新.中国城镇化发展研究综述[J].世界经济探索,2015,(2):13-18.

[2]方亮.中国城镇化概念与水平测度研究综述[J].北华大学学报:社会科学版,2013,(6):46-50.

[3]陈美英,杨金光.基于灰色Gm(1.1)模型的预测研究――邯郸市城镇化水平预测[J].数学的实践与认识,2009,(8):35-43.

[4]郝淑双,赵朴.基于灰色Gm(1,1)模型的河南省城镇化水平预测[J].河南科学,2014,(8):1629-1632.

[5]KevinHonglinZhang,ShunfengSongRural-urbanmigrationandurbanizationinChina:evidencefromtimeandcross-section

analysesChinaeconomicReview,2003,(14):386-400.

[6]ShenJianfa,wongKuanyiu,FengZhiqing.Dual-trackUrbanizationinatransitionaleconomy:theCaseofpearlRiverDeltainSouth

数学建模和统计建模的区别篇8

关键词:区域创新能力;聚类分析;主成分分析;面板数据;层级划分

基金项目:国家社会科学基金项目(11BtJ001);国家自然科学基金青年项目(710201139);全国统计科学研究计划重大项目(2012LD001)。

作者简介:王德青(1983-),男,山东青岛人,博士,主要从事统计理论与方法,数据挖掘研究;朱建平(1962-),男,河南浚县人,教授,博士生导师,主要从事数理统计与数据挖掘研究。

中图分类号:F061.5;C81文献标识码:a文章编号:1006-1096(2014)01-0008-06收稿日期:2013-01-15

一、问题的提出

随着世界经济全球化的不断发展和科技进步的日新月异,区域创新能力已成为区域综合竞争力的主要标志和提升地区经济国际竞争力的必然途径。与发达国家创新协调发展的格局相比,我国的创新能力存在悬殊的不平衡区域化特征。技术创新是政府、企业、科研机构等多主体参与、多要素互动的复杂系统工程。作为国家创新系统的子系统之一,区域创新的运行状态和对经济的驱动机制直接影响到国家创新总系统的质量和效率。有鉴于此,如何审视区域之间技术创新能力的不平衡发展状态?如何深层次剖析导致创新差异的原因?如何制定针对性的创新激励政策以缩小区域之间创新的巨大差异?这些问题的回答,对于促进区域之间、国家创新子系统之间的协调发展具有重要的理论价值和现实意义。

针对区域创新能力的评价与分析,国内外学者和机构做了诸多有益的探讨。Freeman(1987)、梁小珍等(2011)理论层面构建了创新的评价指标体系,并采用熵权法、灰色关联度法、主成分分析法对比分析了区域经济发展与自主创新能力之间的协同机制;柳卸林等(2002)、周立等(2006)基于《中国区域创新能力报告》的数据,集成因子分析与聚类分析定量评估了31个省级区域的创新能力地区差异;魏守华等(2010)、王锐淇等(2012)沿袭我国按东中西三大地带的划分习惯,基于省级面板数据实证检验了创新能力地区差异扩大化的影响因素。综观近年来关于区域创新能力的研究成果,存在一些明显的共有缺陷,主要表现在:(1)宏观理论层面的研究结论难以满足地区差异化的要求;(2)现有方法论框架下的创新能力层级划分研究,直接套用现成模型进行静态排序和定性评价则缺乏系统的动态作用机制研究,对创新能力区域性差异形成原因挖掘的不够;(3)不加验证地沿袭东中西三大地带的划分习惯,忽略了创新过程的相对特殊性和空间依赖性,依此制定的政策建议缺乏针对性。

为了对中国的创新能力科学划分以深层次挖掘区域之间创新能力的有机联系,本文在综合剖析现有层级划分方法优点与不足的基础上,融合多种经典统计分类模型的优点,提出创新能力静态层级划分的加权主成分聚类模型,拓展用于创新能力动态层级划分的面板聚类模型,并从理论上论证上述两模型的合理性和有效性。最后,应用拓展的聚类模型对中国省际创新能力进行静态与动态层级划分,对比分类结果的差异,依据实证结论给出提升区域创新能力的初步政策建议。

二、模型拓展与研究框架

创新水平的科学划分是挖掘创新能力区域差异的关键环节,也是制定针对性创新战略的先决条件。现有的东中西部划分,一是缺乏科学的定量分析基础,二是存在同类地区内部创新能力差异较大的问题。如果就每个省(区)市分别进行研究,结果只能反映单个省(区)市的个例特征,难以从总体上把握区域之间创新发展的不平衡分布状态,同时也忽略了相关省(区)市之间创新能力的有机联系。尽管也有一些关于我国创新能力定量层级划分的研究成果,但多是对现成统计分类模型的直接应用,或是机械地集成不同种统计分类方法,其合理性和有效性缺乏理论论证。因此,本文首先在梳理现有层级划分方法优点与不足的基础上进行模型拓展。

(一)加权主成分聚类模型

其中:q为距离参数,要求dij(q)满足正定性、对称性和三角不等式(张尧庭等,2006)。样本之间的亲疏关系不仅取决于聚类统计量中指标之间的远近程度,还依赖于指标间重要性的内在差异。不难发现,(1)式定义的相似性统计量要求指标之间相互独立,并且指标的重要程度相同。然而,系统层次结构的指标体系中各指标重要性相差悬殊,指标之间也不可避免地重叠信息。如果忽略上述两个问题直接聚类,(1)式定义的距离将同类指标重复计算,过于放大共线性指标的作用而淹没独立性指标的贡献。为了避免上述问题,通常是定性分析指标之间的关系,力图在指标筛选过程中达到增加指标独立性的目的,同时通过专家打分赋予不同指标相应的权重以体现指标重要性的差异。显然,定性地筛选指标和主观赋权需要对数据的实际意义有深入的了解,并且要求分析者具有相关的领域知识,这在实际应用中难以保证。由于主成分分析能在基本不损失原始指标信息的基础上,提取出彼此信息不重叠的主成分,因此可以先对原始指标体系进行主成分分析,然后将主成分代替原始指标进行聚类(柳卸林等,2002;周立等,2006)。需要注意的是,主成分聚类克服了传统聚类分析不能处理指标高度共线性的缺点,但是当各主成分的方差贡献率相差悬殊时,忽略不同主成分重要程度(方差贡献率)的差异,则必然会影响主成分聚类分析的准确性(王德青等,2012)。

指标之间的高度共线性和重要性的客观差异是限制经典聚类模型广泛应用的两个方面,对经典聚类模型的改进必须综合考虑以上两个缺点。本文定义加权主成分距离为聚类统计量对主成分聚类分析聚类模型进一步拓展。

(二)面板数据动态聚类模型

面板数据兼具空间和时间两个维度,横截面上是由若干个体在某一时刻的静态截面数据,纵剖面上是多个指标时间序列的动态数据。传统的聚类分析多是基于固定时期的截面数据,不能满足面板数据时序动态分类问题的需要。针对如何对面板数据进行聚类分析,国内外学者做了诸多探索(朱建平等,2013)。综合来看,现有面板数据聚类分析文献多是直接从面板数据指标值出发,探讨优化的聚类算法(Bonzoetal,2002),或是在相似性的测度中未考察面板数据的动态数字特征(郑兵云,2008;肖泽磊等,2009),或是只能处理单指标面板数据的聚类问题(朱建平等,2007),或是相似性的定义存在主观随意性(李因果等,2010),实际上并未达到面板数据有效聚类的目的。

(三)研究框架

目前尚未建立统一的区域创新分析框架,理论基础和研究视角的不同对创新指标体系构建和创新水平层级划分具有重要的参考价值,在不产生实质性影响的前提下,本文以中国科技发展战略研究小组公布的《中国区域创新能力报告》(下文称《报告》)为理论研究和实证分析的基础。该《报告》将创新界定为将知识转化为新产品、新工艺和新服务的过程,在参考美国《创新指标》、瑞士《国际竞争力报告》以及世界经济论坛《全球竞争力报告》基础上,从知识创造、知识获取、企业创新、创新环境和创新绩效5个方面表征地区的整体创新能力。

需要说明的是,不同于《报告》中专家打分人为设定权重的主观评价和定性分类方法,本文仅以《报告》的创新综合数据为研究支撑平台,应用加权主成分聚类模型对区域创新能力进行静态层级划分,应用拓展的面板聚类模型对区域创新能力进行动态层级划分。选择上述层级划分模型主要基于以下考虑:(1)衡量区域创新能力的指标共100余项,指标之间重要性相差悬殊且不可避免地重叠信息,经典聚类模型处理上述分类问题失效;(2)创新是动态的发展过程,面板聚类模型综合考虑数据截面的静态特征和时序的动态特征,层级划分更全面细致。最后,对分类结果的显著性进行统计检验,对比分析不同地区创新发展模式的差异,并依据实证结论为进一步提升区域能力提供针对性的政策建议。

三、实证结果与分析

(一)数据来源及预处理

本文采用的数据为31个省(区)市2002年~2011年的相关数据,原始数据来自相关年份的《中国统计年鉴》、《中国科技统计年鉴》和地方统计年鉴,部分数据由国家科技部政策法规司和研究中心政策部的官方资料换算求得。由于上述指标数据均已统计在2002年~2011年的《中国区域创新能力报告》中,本文直接调用上述原始数据。依据表1中数据资料主成分分析的适用性检验结果可知,10年截面数据的Kmo值均大于0.7,Bartlett球形检验统计量对应的p值均小于0.05,说明创新指标体系之间存有高度的信息重叠,满足主成分因子分析的前提条件。表2报告了主成分分析及距离权重的计算结果,由表2可知,各截面数据的前两个主成分累计方差贡献均超过85%,已能够代表原始数据的核心信息,故为简化数据结构,下文提取前两个主成分因子展开计算与分析。依据表3的方差分析值及公式(7),计算“绝对量”距离和“增长速度”距离的权重分别为0.553和0.447,以式(2)、式(7)为相似性测度便可有效地对创新能力进行静态与动态层级划分。

(二)层级划分结果的对比分析

理论上和实践中的最佳聚类数目没有明确定论(张尧庭等,2006;李因果等,2010),借鉴《报告》和现有研究文献(周立等,2006;毕亮亮等,2008)将31个省(区)市的创新能力划分为5类的思路,本文选取q=2的欧氏距离为相似性测度,采用离差平方和法(ward)将静态截面和动态面板的31个省(区)市统一聚为5类,结果如表4所示。

由于没有预先定义的类别标准来表明数据集中哪种期望关系是有效的,聚类模型的分类质量必须要经过定量分析的统计检验。显然,如果模型分类效果显著,则同一类内样本之间的指标离差较小,而类与类之间样本的指标离差较大。考虑到面板数据受截面和时序两个维度因素的影响,其聚类结果的稳定性波动更大,本文以面板数据的聚类结果为方差分析基准,以10年的各项指标均值为分析对象,结果如表5所示。

表5的结果显示,在0.01的显著性水平下,5类省(区)市之间创新指标的差异显著,说明本文拓展的面板聚类模型切实有效,依此所做的结论建议更客观可信。对比表4中静态与动态的层级划分结果可以发现,除了江苏、广东和北京的类属结果始终保持一致外,其他省(区)市的所属类别10年中相差较大。出现上述情况的原因在于:江苏、广东和北京三省市不仅初始的创新水平领先于其他省(区)市,而且后期的科技创新投入也远远高于其他省(区)市(中国科技发展研究战略小组,2002年~2011)。初始的“绝对量”领先和后期“相对量”投入的优势使得上述三省市的创新水平始终遥遥领先,与其他省(区)市创新水平的类别界限明显。反观其他28个省(区)市的初始创新水平和后期的创新投入并无明显的规律,表现在静态截面聚类结果的类别差距大,所属类别稳定性差。综合考虑静态截面和动态面板的聚类结果可以发现,我国的区域创新能力大致呈现长江三角洲、珠江三角洲和京津地区极化竞争的格局,表明创新能力与经济发展存在显著的正向反馈机制。

表4区域创新能力静态与动态层级划分结果

四、结论与建议

本文的研究结果验证了我国省域创新能力的不平衡性。尽管集群创新的区域多元化竞争格局已基本形成,但创新能力东强西弱的阶梯分布格局仍存在。由此得到的政策建议为:进一步增强我国整体的创新能力,必须分集团而不是整齐划一的制定和实施创新政策。一方面,采取适宜措施强化创新能力较强的领先型区域,把提高原始性创新能力和培育战略性新兴产业作为创新建设的重点,鼓励市场化的高新技术企业参与全球的创新竞争;另一方面适度加大创新能力相对较弱地区的科技教育投资,有效整合内外科技资源,加强技术创新的外溢扩散效应,构建功能定位明确、优势互补的集成创新体系。需要强调的是,由于第一主成分的方差贡献最大,体现了创新能力水平的主要方面,在条件受限的情况下,落后区域应该集中精力优先发展第一主成分的影响因素方面,从而带动其它方面的发展,这也是抓住了工作的重心。

参考文献:

毕亮亮,施祖麟.2008.长三角城市科技创新能力评价及“区域科技创新圈”的构建[J].经济地理(6):946-951.

李因果,何晓群.2010,面板数据聚类方法及应用[J].统计研究(9):73一78.

梁小珍.2011.基于城市金融竞争力评价的我国多层次金融中心体系[J].系统工程理论与实践(10):1847-1857.

柳卸林,胡志坚.2002.中国区域创新能力的分布与成因[J].科学学研究(5):550-556.

王德青,朱建平,谢邦昌.2012.主成分聚类分析有效性的思考[J].统计研究(11):84-87

王锐淇.2012.我国区域技术创新能力空间相关性及扩散效应实证分析――基于1997-2008空间面板数据[J].系统工程理论实践(11):2419-2432.

魏守华,吴贵生,吕新雷.2010.区域创新能力的影响因素[J].中国软科学(9):76-85.

肖泽磊,李帮义,刘思峰.2009.基于多维面板数据的聚类方法探析及实证研究[J].数理统计与管理(5):831-838.

杨屹,薛惠娟.2010.产业技术自主创新能力的区域差异性研究[J].中国工业经济(11):68-76.

张尧庭,方开泰.2006.多元统计分析引论[m].北京:科学出版社.

郑兵云.2008,多指标面板数据的聚类分析及其应用[J].数理统计与管理(3):265-270.

周立,吴玉明.2006.中国区域创新能力:因素分析与聚类研究-兼论区域创新能力综合评价的因素分析替代方法[J].中国软科学(8):96-103.

朱建平,陈民恳.2007,面板数据的聚类分析及其应用[J].统计研究(4):11-14.

朱建平,王德青,方匡南.2013.中国区域创新能力静态分析――基于自适应赋权主成分聚类模型[J].数理统计与管理(5):761-768.

BonZoD.C,HeRmoSiLLaa.Y.2002.Clusteringpaneldataviaperturbedadaptivesimulatedannealingandgeneticalgorithms[J].advancesinComplexSystems5(4):339-360.

数学建模和统计建模的区别篇9

关键词:生态平衡土地规划系统动力学Logistic模型

基于生态系统认识将区域土地分为其它生物和人类用地两个子系统,建立了这两类用地相互依存的关系的Logistic回归模型,由模型的稳定性,着重讨论了参数变化对生态平衡的影响,给出了平衡条件下各参数的关系式,确定了参数取值范围,为人类合理用地提供了依据。

一、人类用地变化的数学模型

假定贵州省黔东南州生态试验区的人类用地的格局最终都将发展成为一种与其确定的经济结构驱动的模式相适应的状态,这样的用地变化过程可用一个动力学函数来描述。选择任一子系统用地为考察对象,以L1表示之,下标i为子系统用地标号。Xi表示子系统用地的变化量(1∈k,i∈k)。将函数L1(X1,......Xk)展开为泰勒级数并略去二次以上项,则有

这里变量L1i和Xi都代表用地i的变化量,但前者表示用地i对土地1变化的贡献,即由类型i转变为类型1的数量,而后者则是一个独立的变量。dXi则可以理解为总变化量dLi中的第i部分。同时我们注意到每一种类型的变化不仅使该子系统的用地转化,还将影响其它子系统用地产生变化。

为了进一步解释土地变化与驱动力之间的关系,我们可以得重要的公式

其中m是时间段序列号。(3)式表明在时间段(m+1)开始时用地l的总增量L1m+1等于在时间段时种土地在种驱动力的作用下产生的变化量的总和。模型普适性较强,可用于描述一个局部的人类用地变化过程或若干各具经济特征的局部过程组成的区域。

二、人类用地系统SD模型

人类用地系统是实现区域土地合理利用、人类可持续发展的系统。人类用地系统通过合理利用率影响人口、经济子系统。同时,也受到经济子系统和人口子系统的影响。

(一)人口子系统

人口增减过程直接参与到土地利用变化过程中。考虑到人口数量由于资源有限的关系都限制了上限,且存在初期增速快,后期趋缓的特征。人口子系统中的速率变量符合Logistic增长律的数学方程表达式:■,ri表示出生或死亡率,i代表第i个子系统,i=1,2;Xk=Xj+(Yjk-Zjk)×Dt,Xk表示当前时刻的人口数量,Xj表示J时刻即Dt前的人口数量;Yjk表示JK时段内出生人口,Zjk表示JK时段内死亡人口,Dt表示时间间隔,人口子系统主要方程:

方程中,L、R分别为水平方程与速率方程;Dt表示时间间隔;QYZRK.K为当前时刻的人口数量,QYZRK.J为J时刻即Dt前的人口数量,nCSRK.JK为JK时段内出生人口数量,nSwRK.JK为JK时段内死亡人口数量。

(二)经济子系统

经济子系统是动力系统、核心系统,它通过各产业之和的区域总GDp建立土地产业链网,实现物质闭路循环。为简化系统模型的关系,经济子系统仅考虑了三个子系统第一、二、三产业的GDp,利用区域总GDp起成为连接和影响区域总人口和土地利用的重要控制因子。同上经济子系统中的速率变量符合Logistic增长律的数学方程表达式:XJ=X1j+X2j+X3j,XJ为区域总GDp,X1j为区域第一产业GDp,X2j为区域第二产业GDp,X3j为区域第三产业GDp;■,rj为增长率,j代表第j个子系统,j=1,2,3。经济子系统主要方程:

方程中L、R分别为水平方程与速率方程;QYZGDp为区域总GDp,YCGDpZL为区域第一产业增量,eCGDpZL为区域第二产业增量,SCGDpZ为区域第三产业增量,nyc、nec和nsc分别为区域第一、二和三产业GDp能达到的最大量。

(三)人口、经济及区域人类用地系统

系统因果关系分析只是描述反馈机构的基本方面,不能区别不同性质的变量,借助流图和SD方程,来定量地描述反馈系统。通过具体分析贵州省黔东南州生态试验区区域人类用地系统的主要因果反馈关系以及各子系统变量间的联系,形成区域SD模型流图1。

在建立模型的方程以及确立主要参数的过程中,利用了该区域的历史数据,搜集了2005年至2009年的有关统计资料,在分析系统结构和各子系统变量的有机联系后,建立了该区域的SD方程。人口、经济、土地系统中的速率变量仍然符合Logistic增长律的数学方程表达式■,rk表示第k个子系统的增长率,k代表第k个子系统,k=1,2,…,9。人类用地系统主要方程:

(四)SD模型检验

采用SD模型历史检验方法即利用历史数据与模型仿真结果数据的相对误差来检验模型的有效性,视其偏差程度大小,来验证所建立模型是否有效。选取2002年—2009年共8年得数据进行检验,从历史检验结果来看,该区域土地利用实际结果与模型模拟结果偏差均较小,相对误差介于-5%—5%之间,模拟数据与历史数据能够较好的拟合,认为模型的有效性达到实际系统所能接受的程度,模型功能对真实系统具有一定代表性,可以进行实际仿真操作。

三、用地模型仿真结果及分析

人类用地系统的各子系统用地需求在现行的增长速度下,以2005年为运行初始年来对所作的模型进行预测,以后备用地为政策调控变量,减少率为政策调控参数,对人类用地系统情况进行模拟运行,得到了2005—2024年的该区域人口、经济、后备用地和人类用地系统的各子系统的仿真模拟结果表1。

仿真结果表明:人类用地系统各子系统用地需求在现行的增长速度下随着时间的增加而增加,服从Logistic增长律,开始增加的速度较快,慢慢趋于平缓。在人类用地的其它子系统如农用地、建设用地等服从Logistic增长律。还表明,人类用地总量与生物用地总量的比例和各参数值,在计算的时间段内,都满足生态平衡条件。

本文对人类各子系统如何规划用地建立了SD模型,对模型的参数估计、敏感性因素、未来区域土地利用演化的趋势进行了分析和模拟。系统动态仿真结果表明,各子系统用地需求受人口和经济的影响,注意调整各参数值,人类和其它生物用地可以满足生态平衡条件,从而保证可持续发展。调整各参数值,实质上就是科学地制定政策,发挥政府的调控作用,合理控制区域人口和经济增长,控制各子系统用地变化率。

参考文献:

①周玉刚,臧淑英.系统动力学模型在土地资源研究中的应用——以大庆市地区为例[J].国土与自然资源研究,2008(2):35-36

②赵蕾.系统动力学在规划环境影响评价中的应用研究[D].西安:西安科技大学,2009(5):27

数学建模和统计建模的区别篇10

关键词:预测;聚类分析;灰色理论

1.引言

商品房价格问题一直是政府重点调控的对象,武汉市近几年出台了一系列政策调控商品房价格。对商品房价格的科学合理的预测显得尤为重要,国内有较多学者对此做出了丰富的研究,相关文献中关于房价预测的方法大体分为两类,一类为定性预测方法,如判断预测法、评估法等;另一类是定量预测方法,如时间序列分析法、回归分析法、状态转移法、资产定价法、经济计量模型分析法等,代表性文献见[1]-[7]。

上述文献分析,主要采用计量分析或者回归分析等方法,但是这些方法大多在运用中都受到一些条件的限制,如样本大且成典型分布等。而我国自1998年房改后房地产市场才慢慢得到发展,其数据只有不到20年,而本文所选的灰色预测方法的研究对象恰好是小样本、贫乏信息的不确定性系统,对于样本量和有无规律的要求较少。

综上考虑,本文试图基于聚类分析,灰色预测等方法对武汉市各分区分类及商品房价格预测。

2.预测模型的预备处理

2.1数据的获取

本文获取的数据来源于武汉市房地产市场信息网[8],数据涵盖武汉市各分区从2008第一季度年到2013年第一季度商品房价格。

2.2聚类分析模型的建立与求解

2.2.1聚类分析模型的建立

以xij表示分区i在第j时间点的商品住宅价格,则可以得到一个价格矩阵:

由于武汉市不同分区发展水平不同,各个分区的商品住宅价格水平不具有可比性,需要对其作相应的处理。本文首先基于各分区商品住宅价格的变化率对武汉市不同分区进行聚类。首先确定变化率

2.2.2聚类分析模型的求解

通过分析各分区商品住宅价格变化率的大小和变化趋势,可以进行相应的聚类分析。先对商品住宅价格变化率进行标准化预处理再进行聚类分析。

通过Jmp软件进行聚类分析得到以下结果:

聚类树图如下:

可以看出,第一类和第二类主要为武汉主城区(汉口,武昌,汉阳)等经济较为发达的城区,而第三类为青山,东西湖等远城区,而第四类为黄陂,江夏等近郊城区,第五类为汉南,新洲等距离中心城区较远的郊区。

3.房价预测模型及求解

通过武汉市商品住宅价格的历史数据,我们发现武汉地区房地产价格指数的统计特性会影响到季节性及政策性评价模型的精确度,因此要对原始数据进行变换。对未来房价采用灰色系统模型进行预测,房价的样本取值范围为2008年第一季度到2013年第一季度的季度数据。通过灰色预测方法,得到后2013年后3个季度房价最终的预测数据。

3.1Gm(1,1)预测模型

3.1.1.模型的建立

灰色系统预测的基本思想是将离散的、随机的原始数据列累加处理,使得累加后的累加生成数列呈显出指数增长规律性的数据,从而对这些规律性较强的数列建模,并做预测,再将计算值进行累减还原为预测值。

Gm(1,1)预测模型建模过程:

对采集到的商品房价格的历史数据数列,进行一次累加得到,其中

因累加序列呈指数增长,故其满足灰微分方程:,其中为待识别参数,运用最小二乘法的原理可以计算确定灰微分方程的参数列

通过最小二乘法和矩阵的相关知识可以得到参数列的计算公式为其中:

确定出未知参数列就可以得到灰微分方程的解,及时间响应函数:

(4)

由时间响应函数做预测,再对其进行累减得到原始数据系列的模拟系列值,即:

(5)

3.1.2.模型的求解

利用matlab软件编程求解得到如下预测结果

4.模型的检验

4.1后验差检验:

灰色预测模型的后验差定义如下:

(6)

其中S1,S2分别为残差序列的均方差和原序列的均方差,

通过matLaB计算得到判别结果如下:

由上表可知,灰色预测的模型对青山区房价的预测勉强合格,对其他分区特别是汉阳区的房价预测是比较科学合理的,且预测结果较为理想,可以看出本文对武汉市商品住宅价格的季度均价的预测具有较强的适用性。

参考文献

[1]梁云芳,高铁梅.我国商品住宅销售价格波动成因的实证分析[J].管理世界,2006(8):76-82.

[2]李锐,师应来.武汉地区房地产价格的季节性变动[J].统计与决策,2006,24:038.

[3]程松林,何穗,杨选.武汉市商品房均价的预测[J].统计与决策,2008,2:84-86.

[4]曹振良.如何分析判断当前商品房价格形势[J].中国房地产,2004(6):17-18.

[5]陈森君.中国商品房价格的影响因素分析及价格预测[D].华中科技大学,2008.

[6]宋成舜,黄莉敏,周惠萍.基于Gm(1.1)模型的西宁市商品房价格预测研究[J].价值工程,2011,05:126-127.