首页范文统计学决策规则十篇统计学决策规则十篇

统计学决策规则十篇

发布时间:2024-04-29 14:42:53

统计学决策规则篇1

关键词:粗糙集;时间序列;静态表;粒度决策演化模型;最小二乘法

中图分类号:tp18

利用粗糙集理论[1]对形成的静态决策表信息系统[2,3]进行属性约简和规则提取是一个有效处理数据的方法。文献[4]虽然在决策信息表中考虑到了时态属性,但仍然落脚在静态表上,没有研究决策信息表的演化性;在时态数据方面,文献[5-8]在时间序列数据挖掘和预测相关领域进行了研究。针对具有时间序列特征的决策表信息系统,引入多重时间粒度[9],并对其性质和发展趋势进行研究,建立了粒度决策演化模型。有关文献研究了移动平均和回归分析算法,但移动平均的数据拟合度不太好,回归分析的计算比较复杂。因此本文在粒度决策演化模型的基础上,结合最小二乘法[10]设计了模型的预测方法,相对于回归分析[11],该算法降低了复杂度,提高了数据的拟合度。

1相关理论

本部分主要是粒度决策演化模型的定义和性质,具体的定义和性质参考文献[12,13]。

定义1:在时间点Xi、Xi+1下,设决策信息系统SXi=(U,CXi∪DXi),SXi+1=(U,CXi+1∪DXi+1),SXi的值域分别为VcXi和VdXi;SXi+1值域分别为VcXi+1和VdXi+1,其中c∈CXi+1,d∈DXi+1,若满足:

(1)CXi+1=CXi;

(2)DXi+1=DXi;

(3)VcXi+1=VcXi;

(4)VdXi+1=VdXi;

则称决策信息系统SXi到决策信息系统SXi+1的变化为同源演化;否则称为多源演化。

定义2:设决策信息系统S在时间序列上相邻的两个粒度区间为gi和gi+1,由gi和gi+1得到具有相同决策属性值的决策规则分别记为Decision_lgi和Decision_lgi+1,gi+1相对于gi的属性继承度ina(gi+1|gi)(简称属性继承度)记为:

(1)

其中,Decision_lgic⌒Decision_lgi+1c表示Decision_lgi+1和Decision_lgi中具有相同条件属性c的个数,Decision_lgi表示Decision_lgi的所有条件属性的个数。

定义3:设决策信息系统S在时间序列上相邻的两个粒度区间为gi和gi+1,由gi和gi+1得到具有相同决策属性值的决策规则分别记为Decision_lgi和Decision_lgi+1,gi+1相对于gi的属性值继承度inaV(gi+1|gi)(简称属性值继承度)记为:

(2)

其中,Decision_lgi+1cv⌒Decision_lgicv表示Decision_lgi+1和Decision_lgi中具有相同条件属性并且属性值相同的条件属性cv的个数。

定义4:设由粒度gi推出的决策规则Decision_l中存在条件属性c,c相对于决策规则Decision_l的支持度Sup_D(c|Decision_l)(简称属性支持度)记为:

(3)

其中,Decision_lc表示条件属性c在所有决策属性值为Decision_l的决策规则中出现的次数,Decision_l表示所有决策规则的总数。

定义5:设由粒度gi推出的决策规则Decision_l中存在条件属性c,属性值为cv,则条件属性c的属性值cv相对于决策规则Decision_l的支持度Sup_DV(cv|Decision_l)(简称属性值支持度)记为:

(4)

其中,Decision_lcv表示条件属性c所对应的属性值cv在所有决策属性值为Decision_l的决策规则中出现的次数。

定义6:对决策规则所有的Decision_l的支持度Sup_D(c|Decision_l)=1的条件属性组成的集合称为决策规则Decision_l的属性支持核,记为coreS(Decision_l)。

定义7:对决策规则所有的Decision_l的属性值支持度Sup_DV(cv|Decision_l)=1的条件属性值组成的集合称为决策规则Decision_l的属性值支持核,记为coreSV(Decision_l)。

性质1:决策规则Decision_l的属性支持核在时间点Xi和Xi+1分别为coreSXi(Decision_l)和coreSXi+1(Decision_l),则有coreSXi(Decision_l)coreSXi+1(Decision_l)。

性质2:决策规则Decision_l的属性值支持核在时间点Xi和Xi+1分别为coreSVXi(Decision_l)和coreSVXi+1(Decision_l),则有coreSVXi(Decision_l)coreSVXi+1(Decision_l)。

性质3:在时间点Xi下,c1,c2coreSXi(Decision_l),cv1,cv2coreSVXi(Decision_l),若有Sup_DXi(c2|Decision_l)Sup_DXi(c1|Decision_l),Sup_DV(cv2|Decision_l)Sup_DVXi(cv1|Decision_l),则prio(c2)prio(c1),prio(cv2)prio(cv1),其中prio(c)表示属性c的优先级。

2基于最小二乘法的决策演化模型方法

2.1基于决策演化模型的最小二乘法

定义8:设在总体数据中,影响粒度决策演化模型的预测值y变化的因素完全可以由自变量x以线性形式解释,即粒度决策演化模型可以表示成y随x线性变化的关系,n对观测值(xi,yi)之间的关系符合yi=β0+β1xi+εi(i=1,2…n),这里xi表示粒gi和粒gi+1之间进行比较,且xi=i,yi表示对应的预测值。xi,yi是一个随机变量,它的随机性是由εi造成的,当x取xi时,相应的yi来自于一个概率分布,它的均值:

e(yi)=e(β0+β1xi+εi)=β0+β1xi(5)

即e(yi|xi)由于无法对全部数据进行研究,只能通过一次抽样来估计β0和β1,记β0、β1的估计值为=b0,=b1,假定通过某一方法找到了b0,b1,则有线性估计方程:

=b0+b1xi(i=1,2…n)(6)

与实际观测值yi的偏差记为ei,即ei=(yi-),要达到好的预测效果应使残差的平方和最小。即∑ei2=∑(yi-)2=∑(yi-b0-b1xi)2min,分别求关于b0,b1的偏导数,并令之为零,解出b0,b1,这就是基于最小二乘法的粒度决策演化模型预测方法。其求解的公式如下:

,(7)

,(8)

,(9)

,(10)

测定系数[14]是指可解释的变异占总变异的百分比,用R2表示,有[10]

(11)

从测定系数的定义看,R2性质如下:

(1)0≤R≤1。

(2)当R=1时,SSe=SSt,原数据的总变异完全可以由拟合值的变异来解释,并且残差为零(SSe=0),即拟合数据与原数据完全吻合。

(3)当R=0时,回归方程完全不能解释原数据的总变异,y的变异完全由与无关的因素引起,SSe=SSt。从相关度来看,拟合变量与原变量y的相关度越大,拟合直线的优良度就越高。

2.2基于最小二乘法的决策演化模型预测方法

结合粒度决策演化模型和最小二乘法,本文提出了最小二乘法预测方法(LSmpre),用以预测下一个粒度相应的决策规则和粒度属性值。具体步骤如下:

输入:决策信息表S=(U,C∪D)。

输出:下一粒度相应决策规则和预测值。

步骤1:使用传统静态表的规则对每个子粒gi进行提取得到相应的决策规则。

步骤2:整理决策规则,把具有相同决策属性值的决策规则归纳在一起构成新的决策树。

步骤3:设置初始计数器:i=1。

步骤4:处理第i个决策下的所有决策规则,计算每个属性的属性继承度和属性值继承度。

步骤5:根据求得的两两相邻粒度决策中条件元素形成新的数列,xi表示粒gi和粒gi+1之间进行比较,且xi=i,yi表示对应的属性继承度。

步骤6:应用公式(6)求条件属性在下一个时间粒的ina(gi+1|gi)。

步骤7:依据求得的两两相邻粒度决策中条件元素形成新的数列,xi表示同上,yi表示对应的属性值继承度。

步骤8:应用公式(6)求条件属性值,计算下一个时间粒的inaV(gi+1|gi)。

步骤9:ifi

步骤10:依据计算的不同决策属性值下各个条件属性的ina,inaV及Sup_D,Sup_DV,计算得到下一个粒度时间的ina和inaV,预测下一个时间粒可能出现的决策。

步骤11:输出这些决策和预测值,并根据预测值和测量值绘出效果对比图。

分析知算法的时间复杂度为o(n)。

3实例研究

文献[9]和[11]分别利用移动平均和回归分析对数据进行预测,但复杂度和数据拟合度不太好。因此本文在粒度决策演化模型的基础上提出了最小二乘法,并用实例来验证其效果。

设决策信息系统S=(U,C∪D),条件属性C={m,n,x,y,z},决策属性D={?},每个属性的值域为{0,1,2}。运行LSmpre步骤1将决策信息系统S=(U,C∪D)进行粒度划分得到U={g1,g2,g3,g4,g5,g6,g7,g8,g9,g10,g11},运行LSmpre步骤2对每个子粒度gi进行处理,得到粒度相应的决策规则,如表1。

表1时间序列下各粒度的决策规则

粒度决策规则粒度决策规则粒度决策规则

g1mon1x1y2f0

m2n0x2y2f1

n2x1y2z0f2g2n1x1y2f0

m1n0x2y2z0f1

m2n2y2z2f2g3m0x1y2z2f0

m2n0x2f1

m2x1y2f2

g4m0x1y2f0

m2x2y2z1f1

m2x1y2z2f2g5n1x1y2z0f0

n0x2y2z2f1

m1n2x2y1f2m0n1x1y2z2f0

n1x2y2z1f1

m1n2x2y1f2

g6

g7m0n1x1y1z0f0

x2y2f1

m2n2y1f2g8m0n1x1y2z2f0

n0y2z1f1

m2n2y2z2f2g9m0n1x1y1f0

n0x2y2z2f1

m1y2z1f2

g10x1y1f0

n0x2z2f1

m2y2z2f2g11m0n1x1y2f0

n1x2z2f1

m1n2z2f2

运行LSmpre步骤3,将表1中具有相同决策属性值的决策规则归纳到一起得到表2。

表2经过整理的粒度决策表

决策f0f1f2

决策规则mon1x1y2f0

n1x1y2f0

m0x1y2z2f0

m0x1y2f0

n1x1y2z0f0

m0n1x1y2z2f0

m0n1x1y1z0f0

m0n1x1y2z2f0

m0n1x1y1f0

x1y1f0

m0n1x1y2f0m2n0x2y2f1

m1n0x2y2z0f1

m2n0x2f1

m2x2y2z1f1

n0x2y2z2f1

n1x2y2z1f1

x2y2f1

n0y2z1f1

n0x2y2z2f1

n0x2z2f1

n1x2z2f1n2x1y2z0f2

m2n2y2z2f2

m2x1y2f2

m2x1y2z2f2

m1n2x2y1f2

m1n2x2y1f2

m2n2y1f2

m2n2y2z2f2

m1y2z1f2

m2y2z2f2

m1n2z2f2

由实例知LSmpre步骤4外层循环为for(i=1;i≤n;i++)(n=4)。当n=1时表示对决策f0进行处理。

运行LSmpre步骤5,在决策f0下属性继承度分别为:ina(g2|g1)=3/4,ina(g3|g2)=2/3,ina(g4|g3)=3/4,ina(g5|g4)=2/3;属性值继承度分别为:inaV(g2|g1)=3/4,inaV(g3|g2)=2/3,inaV(g4|g3)=3/4,inaV(g5|g4)=2/3。

当i=3时,运行LSmpre步骤6得新生数列1={(x1=1,y1=3/4),(x2=2,y2=2/3)}。运行LSmpre步骤7,得:b1=-1/12,b0=20/24,,e3=1/12,R2=1。

当i=4时,运行LSmpre步骤6得新生数列1={(x1=1,y1=3/4),(x2=2,y2=2/3),(x3=3,y3=3/4)}。

由新生数列1的数据,运行LSmpre步骤7和步骤8,得:

b1=0,b0=13/18,,e4=1/18,R2=0.9。

同理可得,=0.67,e5=0;=0.65,e6=0.05;=0.60,e7=0;=0.59,e8=0.01;=0.56,e9=0.04;运行LSmpre步骤9,并绘出表3和数据拟合效果图1:

表3真实值与预测值的对比图

i实际值预测值

10.75

20.67

30.750.58

40.670.72

50.670.67

60.600.65

70.600.60

80.600.59

90.500.56

图1数据的拟合效果

根据效果图的趋势可以说明此方法适合于本模型数据的预测,回到LSmpre步骤10执行下一次循环。

由于i

4结束语

从实例研究可知,最小二乘法适合于粒度决策演化模型的预测,相对于移动平均和回归分析,该算法更好地贴近原始数据,计算复杂度较低,是一种比较好的预测方法,因此下一步对于在实际生活中的应用将是研究的重点。

参考文献:

[1]张文修,吴伟志,梁吉业.粗糙集理论与方法[m].北京:科学出版社,2006:1-25.

[2]黄海,王国胤,吴渝.一种不完备信息系统的直接约简方法[J].小型微型计算机系统,2005(10):1761-1769.

[3]徐凤生,李海军.不相容决策表的求核方法[J].计算机工程与科学,2007(29):84-85.

[4]马志锋,邢汉承,郑晓妹.一种基于Rough集的时间序列数据挖掘策略[J].系统理论工程与实践,2001(12):22-29.

[5]孟志青.时态数据采掘中的时态型与时间粒度研究[J].湘潭学报(自然科学版),2000(22):1-4.

[6]BerberidisC,walidaG,atallahm.multipleandpartialperiodicityminingintimeseriesdatabases[C]//the15theuropeanConferenceonartificialintelligence.Lyon,France:ioSpress,2002:370-374.

[7]国宏伟,刘燕驰.多变量时间序列的模糊决策树挖掘[J].计算机应用研究,2009(26):54-55.

[8]胡玉文,徐久成.时间序列下决策表信息系统的最终形态研究[J].河南师范大学学报(自然科学版),2010(38):49-52.

[9]胡玉文,徐久成.多粒度时间序列下粒度决策的演化模型研究[J].计算机工程与应用,2011(20):117-120.

[10]王惠文.偏最小二乘回归方法及其应用[m].北京:国防工业出版社,1999:14-32.

[11]胡玉文,徐久成,张倩倩.决策表信息系统演化模型的回归分析预测算法[J].煤炭技术,2010(09):152-153.

[12]胡玉文,徐久成,李双群.粒度决策演化模型的博弈选择研究[J].计算机工程与应用,2012(48):51-54.

[13]胡玉文,徐久成,孙林.粒度决策演化模型的决策稳定性研究[J].计算机科学.2012(39):233-236.

[14]郝鹏飞.我国台风灾害损失分类与估计[D].哈尔滨工业大学,2008(10):43-45.

统计学决策规则篇2

一、会计准则的目标取决于财务会计的目标

在会计准则领域中,目标可以视为超过或等同于假设水准的一组设想。因此,分析会计准则的目标,不能不首先弄明白会计的目标。因为会计准则的目标应是为规范和实现财务会计目标而设立。财务会计作为对外报告会计,主要是通过财务会计确认和计量的最终成果――财务报告向外部会计信息使用者提供决策有用的财务信息。因而,财务报告的目标定位十分重要,它决定着财务报告为谁服务、保护谁的经济利益等关键问题,决定着财务报告所要提供的会计信息的质量要求,是财务会计系统的核心与灵魂。然而,财务会计目标作为人们对会计信息系统所期望实现的功能,是随着社会经济环境的变化而不断发展变化的,其实现程度也是受到客观环境的制约的。财务会计作为人类创立的管理社会经济活动的信息管理系统,到底要为谁提供财务会计信息?财务报告要提供哪些财务会计信息?财务报告如何提供这些信息?各国在制定会计准则时必须首先明确这些问题。对此,中外会计学者进行了多年的探索和研究。而且,由于财务会计目标既是进行财务会计活动的前提条件,又是评价财务会计活动成败优劣的基本标准,因此,从上世纪70年代起,财务会计目标就成为各国会计理论界研究的热点和难点。但就目前而言,财务会计目标的问题,在会计理论界并没有形成一个权威的、可为学术界普遍认同的观点。国际会计准则理事会强调会计目标应该主要关注财务报告的一般目的,应该主要为产权投资者、贷款人、其他债权或资本提供人服务。提供的信息包括:有利于产权资本提供者自己制定决策,以及关于会计主体的经济资源、资源的要求权和改变资源或资源要求权事件的影响。对产权资本提供者制定决策需要的信息,也同样有助于其他信息使用者。

纵观会计理论界对财务会计目标的研究,归纳起来主要有两大流派,即受托责任观和决策有用观。在受托责任观下,财务会计目标一般重点要求财务会计为会计信息使用者提供会计主体在经营管理过程履行受托责任的信息;而在决策有用观的情况下,财务会计目标除了要求财务会计为会计信息使用者提供会计主体在经营管理过程履行受托责任的信息以外,还要求财务会计信息系统提供一系列与会计信息使用者进行决策有关的信息。会计准则是规范财务会计信息的法律规范,其目标应是为实现上述财务会计的目标保驾护航。财务会计的目标决定了会计准则应对企业会计信息的生成和披露进行统一规范,使企业提供出来的信息相关而可靠。一方面,财务报告所提供的信息应当如实反映企业拥有或者控制的经济资源及其各项经营活动,从而有助于现在的或者潜在的投资者正确、合理地评价企业的资产质量、偿债能力、盈利能力和营运效率等,从而为投资决策服务;同时,政府有关部门、社会公众等,也需要相关财务会计信息来监督企业社会责任的履行情况。因此,企业对外报告哪些会计信息、如何对外提供会计信息就需要由会计准则来统一规范;另一方面,企业投资者和债权人等需要及时地了解企业管理层经营资产的情况,以便于评价企业管理层的责任情况和业绩情况,并决定是否需要调整投资或者信贷政策,是否需要更换管理层等。而这些情况也只能通过企业财务会计报告所提供的会计信息来进行衡量,这就要求企业财务报告也应当如实反映企业管理层受托责任的履行情况,因此,也需要由会计准则来统一规范。

二、会计准则目标的规范经济学分析

会计准则的目标应是基于信息不对称的现实情况下,通过统一规范企业财务会计行为,促使企业提供和披露与以投资者为代表的信息使用者决策相关的、真实反映企业财务状况和经营成果及其受托责任履行情况的会计信息,以维护市场秩序,增进社会效益。从规范经济学的角度来看,我国会计信息政府规制即政府制定会计准则的终极目标可以从效率、公平和稳定这三个方面来分析。

首先,关于效率目标。所谓效率,可以说就是指稀缺资源的有效配置。在我国“效率优先,兼顾公平”的社会主义市场经济体系的理念之下,会计准则的重要目标之一应该是效率。不同的会计政府规制政策将诱导出不同的经济行为,生成不同的会计信息,从而影响到市场上各行为主体对稀缺资源的选择。在经济学中,一般把帕累托原则作为经济效率的标准,而且曾经认为市场机制是实现帕累托最优的最佳途径。事实证明,市场不是万能的,其固有缺陷可能会使资源配置失效,因此,需要对其进行规范和管制。一方面,众所周知,会计信息的外部性与公共物品性,使得会计信息提供者与信息使用者存在信息不对称,极易产生“道德风险”和“逆向选择”,因此有必要对会计信息的提供进行干预,而这种干预主要以会计准则的形式表现出来,具体体现在会计准则的内容之中。这里构建的逻辑关系是:会计信息的政府规制(即制定和监督会计准则的执行)会计信息生成与披露会计信息使用者的决策行为资源的有效配置。另一方面,会计准则的效率目标还从社会交易费用的节约体现出来。正是由于有了统一的会计信息生成与披露的规范和管制,信息使用者对企业公布的会计信息才会有更加合理的预期,避免不确定性带来的巨大波动,从而节约信息获取成本和信息使用的交易费用。

其次,关于公平目标。前已述及,会计准则有经济后果性,会计信息的规制政策必然会造成社会资源与财富的重新分配。以社会公平为另一重要目标的会计规制政策应当考虑到会计信息规制所产生的社会后果,尽量兼顾各方的经济利益,从而使会计准则的经济后果公平合理。但公平的标准是什么?确切地讲,社会公平有两层含义:一是指市场运行机制的公平,对会计信息市场来讲,主要是针对信息不对称和消除内幕消息问题而言,给投资者一个公平、公正的竞争环境。二是指社会后果的公平,主要是指社会资源以及财务成果分配的公平。会计信息的经济后果表现在投资者依据会计信息的传递功能而制定相应的风险投资决策,这些决策不仅影响到资源的配置效果,而且也会影响到社会财富在社会集团间的分配。也就是说,一个规制政策有可能会使社会资源向某一个行业或部门倾斜,也有可能使社会某一集团受到制约而受损。作为会计信息的规制主体,在制定会计信息规制政策时,当面临权衡运行机制的公平与后果的公平时,更应该注重维护市场竞争的公平,而不只是一味地强调后果的公平,竞争的公平是一种“事前机会公平”,人人都有机会在市场机制下通过公平竞争来配置资源和分配财富;而后果公平则意味着结果平等,有可能造成低效率,它应该是国家在进行社会财富的二次分配时关注的重点。

最后,关于稳定目标。会计主要是应一定时期的经济需要而发展的,并与经济发展密切相关。一般地说,文明水平越高,会计方法就越精湛。随着社会对会计信息需求的增强,会计信息促进或妨碍经济和社会稳定与否的能力也就越强。所以,政府规制的目标要求规制下的会计信息有助于社会经济的稳定、协调与可持续发展。世界历史已经证明,会计信息披露能否做到可靠、准确、全面和及时,直接关系到资本市场的统一、高效、公开和稳定。因此,实现政府会计信息管制的稳定目标,首先要求会计信息生成与披露方法的统一和相对稳定。会计准则的统一和相对稳定性是会计准则质量的重要体现,如果会计准则规范的稳定性不强,频繁变更,必将使企业和投资者都无所适从,最终失去其权威性。其次,实现政府会计信息规制的稳定目标,还体现在会计准则要求企业充分披露相关会计信息及其他信息。充分披露是指一切可能影响报告使用者决策的重要信息,均应当在财务报告中做出全面而又使人理解的陈述。通过会计信息的充分披露,广大利益关系人能够平等地获取必要的信息,从而减少信息不对称,维护市场的良好秩序,促进社会经济的健康稳定发展。

会计信息政府规制的这三个目标均源于会计信息的提供,其关系表现为:政府规范和管制会计信息的生成和提供,高质量的会计信息会左右和影响信息使用者的决策行为,从而促进资源的优化配置,实现效率目标、同时协调各方经济利益达到公平目标,最终实现社会经济稳定而可持续的发展,即实现稳定目标。

统计学决策规则篇3

[关键词]数据挖掘;图书馆;图书管理;决策

doi:10.3969/j.issn.1673-0194.2012.09.070

[中图分类号]G251;tp391[文献标识码]a[文章编号]1673-0194(2012)09-0113-02

数据挖掘已经成为非常活跃的研究领域,它被广泛应用于制造业、零售业、供应链分析和电子商务等领域。在当今的图书管理系统中,每天都产生大量的统计数据和表单,这些数据背后往往隐含着诸如读者兴趣、借阅习惯及学科关联等重要信息,如何有效利用这些有价值的信息正是图书管理中亟待研究解决的重要课题,而数据挖掘技术为这类问题的解决提供了新的途径。

1数据挖掘概念

数据挖掘是近年来随着数据库技术和人工智能技术的发展而出现的一种全新的信息技术,它是从大量的、不完全的、随机的实际应用数据中提取隐含在其中的但不为人们所知、且又有潜在价值的信息和知识,如趋势、特征以及相关的过程等。随着图书馆自动化程度的不断提高,自动化管理系统已经在图书馆日常工作中占有了非常重要的地位,它每天产生的流通日志数据、数字图书馆各种资源的访问记录以及图书馆网站的web日志等,都为数据挖掘工作提供了原始数据。要让这些数据发挥更大的作用,必须对它们进行深层次挖掘分析,以便为图书馆工作提供技术支持和决策管理支持。

数据挖掘也称知识发现,它通过对查询内容进行模式的总结和内在规律的搜索,帮助决策者分析历史数据及当前数据,进而发现隐藏的关系和模式,从而为决策行为提供有利的支持。数据挖掘有许多种方法,其中最常用方法的是关联分析、决策树和聚类分析等。

2基于数据挖掘的图书管理决策

2.1基于关联规则挖掘的图书流通决策

2.1.1关联规则概述

在数据挖掘技术中,关联规则由agrawal等人在1993年首先提出,是数据挖掘领域一个重要的研究内容,它是通过发现描述数据库中数据项之间潜在的关联,找出大量数据之间未知的依赖关系。

关联规则的产生源于交易事务的信息利用,规则给出的信息是以“if-then”的形式出现,其采用如X?圯Y的蕴涵式,其中X?奂i,Y?奂i,并且X∩Y=?准,i称为项集(事务集),可以理解为数据记录中所有字段取值构成的最大合集。关联规则一般用支持度Support和可信度Confidence两个参数描述其属性。其中,支持度是包含项集X和Y的事务数与所有事务数之比,记为Support(X?圯Y),它描述了X和Y这两个项集在所有事务中同时出现的概率;可信度是包含项集X和Y的事务数与包含X的事务数之比,记为Confidence(X?圯Y),它描述了在出现项集X的事务集中,项集Y也同时出现的概率。在关联规则的研究中,最著名的算法有apriori算法、Fp-growth算法和DwaR算法等。

2.1.2流通决策过程

图书馆自动化管理系统每天都会产生大量的流通数据,这些数据不仅包含读者当前的借还记录、账单记录,还包括曾经发生过的借还操作,它们以日志的方式写入系统文件中,如果用关联分析的方法对日志数据进行挖掘,我们会发现其中的某些规律。例如:特征a:借阅《管理学》;特征B:借阅《计算机网络》;特征C:借阅《信息管理与信息系统》。布尔型关联规则为a,BC。它的含义是:借阅《管理学》和《计算机网络》两本书的人也会借阅《信息管理与信息系统》。如果通过计算得出支持度为0.4,可信度为0.6,则表示在所有读者中,有40%的人同时借阅了这3本书,在借阅《管理学》和《计算机网络》的读者中,有60%的人也借阅了《信息管理与信息系统》。

通过这样的关联分析,可以发现读者借阅行为中的规律。也就是说,从图书管理决策的角度来看,应加强相关图书的科学排架和合理摆放,将这几类书放置在离入口较近的书架上,这样可以帮助读者提高借阅效率,同时也可减轻工作人员的劳动量,以及由于减少图书的搬运活动而减少对图书的损坏。

2.2基于决策树的图书采编决策

2.2.1决策树概念

决策树是分类的一种方法,其目标是从数据集中提取出能够描述数据类基本特征的模型,并利用这些模型把数据集中的每个对象都归入到其中某个已知的数据类中。它以决策树或一组分类规则展现,在最终生成的分类模型中,每条分类规则都应该覆盖一定量的数据,而被同一条分类规则覆盖的数据应该具有比较高的相似性。

决策树是这样的一棵树,它的每个非叶节点均表示考察数据项目的测试或决策。根据测试结果,选择某个分枝,为了分类一个特定数据项目,从根节点开始,一直向下判定,直到达到一个终端节点(叶子节点)为止。这样,一个决策就形成了。

2.2.2采编决策过程

假定系统书目数据的属性字段中有索书号、建立日期,借出总数(即从建立之日起共被借过几次)3个属性,通过这3个属性,在借阅次数已知情况下,那么就可以设计一种决策树分类方法,如图1所示。

图1中的决策树用关联规则表示更容易理解:n类图书,2003年入藏借出总数是2410次;…;H类图书,2009年入藏借出总数是2600次。

决策树方法伸缩性好,分类速度快,能够转换成容易理解的分类规则。在本例中,可以很快地将书目数据按设定条件分类,分析出文献的利用率,及时补充短缺的文献,剔除过时的文献,为图书馆的采购决策提供支持。同时,利用决策树通过对历年借阅数据进行相关分析,相应增幅较大的图书种类在上架时可根据预测趋势预留架位;对借阅频率较大且连续续借的书目,应以量化方式反馈给采编部门以加大采编力度。

3结语

数据挖掘在数据组织与分析和知识发现以及信息深层次挖掘等方面体现出整体优势。随着图书馆自动化程度的不断提高,自动化管理系统每天都要产生大量的统计数据,如何从这些数据中挖掘出有用的图书管理信息已成为一个亟待研究解决的重要课题。为此,本文详细分析了决策树和关联规则的数据挖掘方法对图书流通和图书采编工作的决策支持作用,以期用于指导图书馆的各项工作,使图书馆的馆藏资源得以进一步优化和利用,使管理水平和服务质量得到进一步提高。

主要参考文献

[1]王新筠.数据挖掘技术在图书馆自动化管理系统中的应用[J].科技情报开发与经济,2007(26).

统计学决策规则篇4

科技统计研究的对象是科学技术活动的总体的数量特征和数量关系,其主要任务是通过对科技活动的有关数据的收集、处理、分析,反映科技活动的规模、结构和布局的总体数量特征和关系,从而为评价和制定科技政策和发展规划提供依据。

一、建立区域科技统计指标体系的必要性

我国是一个幅员辽阔的国家,由于不同地区所蕴藏的自然资源不同,自然和气候条件不同,人口的素质和密集程度不同,当地政府科技发展战略和国家对各地区的科技政策不同,以及在历史的发展中经过开发利用和知识,技术,设施的积累,各地区的总体科技实力也不同,所以要进行区域科技的研究是很有必要的。如何充分发挥各区域的潜力缩小各区域的差距,是与我国经济密切相关的。在另一方面,我们又要支持和保护一些脱颖而出的区域。在世界经济全球化的背景下,区域经济受到经济学家的关注。由于区域间的要素条件,气候条件,经济特点,政府决策和历史基础的不同。区域间形成了高度不均衡的发展态势,具有核心竞争力的区域就有特别的优势,吸引资本,技术和劳动力的不断流人。一国的竞争力往往取决于国家是否拥有竞争力的区域。而在知识经济时代,科技则是决定竞争力的关键因素。区域科技能力是区域经济增长和竞争的决定性因素,其强弱是一个衡量区域科技实力和技术创新能力的重要尺度。客观、科学地评价区域科技能力,以便在制定区域科技发展规划中,采取合理的科技创新战略,保持和提高区域竞争优势,获取最佳的经济效益和社会效益提供科学的参考依据。最大限度提高区域综合实力和社会现代化的发展步伐。这就需要完善区域的科技政策。围绕各区域科技政策体系的完善,必须从科学角度认识科学技术的活动规律,认识技术创新体系发生、发展的过程及机理,全面剖析科技系统与社会、经济系统的相互关系,同时需要我们加强和提高区域科技统计的水平。所以,有必要建立区域科技统计指标体系。

二、建立区域科技统计指标的原则

为了全面、客观地反映区域科学技术活动的规模、布局、结构及其成果的推广应用和影响的实际水平,设置区域科技统计体系应遵循以下几条基本原则:科学性原则;系统性原则;

规范性原则;可行性原则;准确性原则;可比性原则。

三、区域科技统计的主要内容

区域科技统计是按照现行行政区划,对该行政区域范围内的各类单位,不论其行政隶属关系、所有制性质、经营方式,均由该行政区域政府科技统计机构依法行使统计职能。

根据科技统计的要求,结合各区域具体情况,应建立和完善反映区域经济发展规模和水平、质量和效益的区域科技统计指标体系;建立和完善反映改革进程和成效的区域科技统计指标体系;建立和完善反映产业经济发展规模和进展情况的区域科技统计指标体系,建立和完善反映区域经济社会发展和科技发展的综合科技评价指标体系,最终建成一个全面、系统、科学、灵活,反映区域科学技术活动的规模、布局、结构及其成果的推广应用和影响的定量测定体系,符合区域经济、社会发展和科技发展要求的科技统计指标体系。

统计学决策规则篇5

一、审计决策支持系统(aDSS)

(一)审计决策支持系统的特征aDSS是支持审计人员进行非程序性决策的一种信息系统,具有如下三个特征:一是以处理非程序性决策为主;二是对审计人员的支持而不是代替;三是系统本身要求具有灵活性,采用联机对话方式,以便利用审计人员的经验和系统提供可供分析的信息来解决问题。

(二)审计决策支持系统的构建aDSS的构建可按照《国家经济信息系统设计应用标准化规范》中的“三库一体化理论”,即由数据库、模型库和方法库组成,它们彼此独立,用户系统通过三库控制系统与“三库”发生联系。数据库子系统是存储、管理、提供与维护用于审计决策支持的审计数据的aDSS基本部件,是支撑模型库子系统及方法库子系统的基础。数据库子系统由数据库、数据析取模块、数据字典、数据库管理系统及数据查询模块等部件组成。aDSS用户是依靠模型库中的审计模型进行决策,因此aDSS是由“模型驱动的”。aDSS设立模型库子系统是为了在不同的条件下,通过模型来实现对问题的动态描述,以便探索或选择令人满意的解答。模型库是aDSS中最复杂和最难实现的部分,通常可直接用于制定审计决策的模型是对应用结构性比较好的问题,其处理算法有明确规定,表现在模型上,其参数值是已知的。对于非结构化的决策问题,有些参数值并不知道,需要适用数理统计等方法估计这些参数值。由于不确定性的影响,参数值估计的非真实性,以及变量之间的制约关系,用这些模型计算得出的输出一般智能辅助决策或对决策的制定提出建议。模型库管理系统的主要功能是模型的利用和维护,模型的利用包括决策问题的定义和概念模型化,从模型库中选择恰当的模型或单元模型构造具体问题的决策支持模型,以及运行模型;模型的维护包括模型的联结、修改和增删等。模型库子系统是在与aDSS其他部件交互过程中发挥作用的,与数据库子系统的交互可获得各种模型所需的数据,实现模型输入、输出和中间结果存取自动化;与方法库子系统的交互可实行目标搜索、灵敏度分析和仿真运行自动化等。更主要的交互则是在人机对话子系统之间,模型的使用和维护实质上是审计人员通过人机对话子系统予以控制与操作。方法库子系统是存储、管理、调用及维护aDSS各部件要用到的通用算法、标准函数等方法的部件,方法库中的方法一般用程序方式存储。它通过对描述外部接口的程序向aDSS提供合适的环境,是计算过程实行交互式的数据存取,从数据库选择数据,从方法库中选择算法,然后将数据和算法结合起来进行计算,并以清晰地呈现方式输出结果,供决策者使用。

(三)审计决策支持系统的思路aDSS解决问题是沿着“审计人员根据当前环境提出问题审计专家与审计人员交互理解问题审计专家抽象出数学模型友据数学模型编制或调用求解软件软件运行求解问题”这一思路进行的。在该思路中,问题的求解是由“模型驱动”的,问题求解模型是随着问题环境的变化而变化,并且由于变化而重新构造模型时都离不开审计专家的辅助,这就使原本是审计人员在决策支持系统辅助下求解变成了在审计专家辅助下求解的问题,用户在求解问题的多数环节尚仍然离不开审计专家。aDSS应用中出现这种问题,其主要原因是系统的智能性不足,不能根据问题的变化作出适应性的自主调整。

二、审计专家系统(aeS)

(一)审计专家系统的功能aDSS借助计算机强大的运算能力与审计人员(专家)灵活的分析和判断能力交互写作,为解决审计中的半结构化与非结构化的决策问题提供了有力的支持。但由于aDSS中计算机一方的重点还在于模型的定量计算,人机对话方式与大多数不熟悉计算机的使用者仍存在一定的距离,限制了aDSS的应用效果。作为人工智能的一个分支,专家系统在二十世纪80年代初开始进入审计人员的视野,aeS是建立在管理信息系统和计算机人工智能技术基础上的一种计算机辅助审计软件系统。与普通计算机辅助审计技术不同的是,它利用人工智能的原理,借助计算机模拟人类的思维过程,对管理信息系统的数据进行计算、分析及推理,并作出相应的判断,提出审计建议及线索,以供审计人员进行进一步的重点审计,最终得出审计结论。aeS能够借助计算机强大的数据分析和处理能力,帮助审计在最短的时间里,做广泛详细地计算与核查,而且在面临多个结论时,能够通过排序来寻找最佳方案,减少审计人员在做出结论时出现的失误或不一致的可能性,因而可以有效地提高审计效率,降低审计风险,进而保证审计质量。

(二)审计专家系统的工作过程aeS的工作过程可分为三个阶段:初始化阶段、实质性测试阶段和完善工作底稿阶段。每一个阶段,系统会自动地根据审计人员事先所选择的要求和系统数据库中所存储的相关审计知识,分成若干个推理判断的步骤,对被审计单位的会计资料及其他相关资料进行审查,并会自动地查找出所存在地各类错误、舞弊、异常数据和变动及其他不利于企业经营的情况,再以列表或审计意见初稿的形式向审计人员列示。在每一个阶段,审计人员都可以通过系统的人机对话界面对审查情况进行监控。作为一种模拟审计专家水平来解决问题的aeS,必须具备组件包括:知识获取组件,它负责将审计专家经验(规则)处理,并存储在知识库中,以备推理机调用;知识表达组件,它运用各种表达法,解决内码转换问题,使信息在系统内部各部件之间得以沟通;知识库,它存储的是那些既不能用数据表示,也不能用模型方法描述的审计专家知识与经验,同时也包括一些特定问题领域的专家知识;知识库管理子系统,由一系列知识库的操作命令程序组成。是知识库操作与其他部件进行联系的桥梁;推理机是专家系统的主要部件之一,主要功能是查询和分析,它由一组具有推理策略的程序组成的,根据系统知识库的数据和程序,推断出问题的可能解;解释环节,将推理机得出的结果经过解释输出,在系统的人机交互界面上,寻求审计决策人员的确认和进一步分析。aeS中,知

识库和推理机是核心。建立知识库的关键是如何表示知识,也就是审计经验的形式化表示,推理机用于确定不精确推理的方法。一方面,由于审计对象的复杂,在+行业适用的审计经验在其他行业不一定适用,因而通常只能建立在一定范围内或行业内使用的专家系统。另一方面,对于会计的核算,大部分单位和部门是基本相同的,针对会计核算软件(特别是有标准数据接口的)电子数据的审计专家经验,特别是对于标准审计的专家经验有一定的通用性,因此,可以设计开发一个基于会计核算标准数据的aeS,在一定程度上实现审计的自动化和智能化。aeS的弱点在于审计知识获取和转化困难,因为其需要人工地将各种审计专家知识从人类专家的头脑中或其他知识源处转换到知识库中,费时且低效;对于动态和复杂的系统,由于其推理规则是固定的,难于适应变化的情况,aeS还不能从过去处理过的审计案例中继续地学习,这使得知识获取变得困难。

三、智能审计决策支持系统(iaDSS)

统计学决策规则篇6

关键词:粗糙集;航空客流量;连续值离散化;属性

为了识别航空客流量与其决定因素之间的关系并对前者进行预测,目前最常见的方法是建立经济计量模型。这些传统模型建立在各种统计假设的基础上,因此当变量之间相互依存、变量的概率分布未知时,那么这些模型就无法得出比较准确的结果。为此本文试图探讨一种基于粗糙集理论的航空客流量预测模型。作为计算智能方法之一的粗糙集理论(Roughsetstheo-ry,简称RS)是波兰数学家Zdzislawpawlak于1982年首次提出的。粗集理论诞生的30多年来,已成功地在许多领域中得到应用,然而在航空运输领域中还没有见到关于粗集理论的应用文献。因此,本文在这方面作一个尝试,并通过实例阐明粗集理论在航空客流量方面的应用是适合的。

1.基于粗糙集理论的方法

粗糙集理论中的知识表达方式一般采用信息表或称为信息系统的形式,信息系统可用四元有序组K=(U,a,V,ρ),在该式中,U是一个非空有限的对象集合,U={X}1,X2⋯Xn称为论域;a是一个非空有限的属性集合,a={a}1,a2⋯an;V=∪a∈aVa是属性a所构成的值域集合,Va是属性a的值域;U中任一元素取属性a在V中有唯一确定值。ρ:U×aV被称为信息函数,ρ:aV,x∈U,反映了对象x在K中的完全信息,其中ρ(a)=ρ(x,a)。如果a=C∪D且C∩D=ф则信息系统又可称为决策表,其中C为条件属性集,D为决策属性集,常记为(U,C∪D,V,ρ)。在决策表中,不同的条件属性具有不同的重要程度,一些属性提供了丰富的信息,对产生决策起到至关重要的作用,而其他一些属性却似乎是可有可无的。因此,在保证决策表具有正确分类能力的同时,对条件属性进行简约,去掉不必要的属性。为了度量属性集合的不确定程度,引入精度和覆盖度两个概念,且定义为:dR(X)i=card()-aprXi/card()---aprXi(1)dR(F)=∑card()-aprXi∑card()---aprXi(2)d'R(X)i=card()---aprXi/card(U)i(3)d'R(F)=∑card()---aprXi/card(U)(4)式(1)和(2)分别为属性集合Xi的分类精度和覆盖度,式(3)和(4)分别为所有属性集合的总分类精度和总分类覆盖度。

2.粗糙集在区域航空客流量中的应用

2.1航空客流量影响因素分析。分析我国航空运输业特点,并结合相关已有的研究,本文采用六个影响因素来预测各地区航空客流量:人均GDp、人口、第一产业就业人员的比重、城市人口、国际旅游人数、与航空枢纽的距离等。这六个因素就是六个条件属性,而决策属性就是各地区的航空客流量,研究对象则是我国大陆的31个省、直辖市、自治区。每个对象由一个多值属性(即条件属性和决策属性)的集合来描述,从而形成一个二维表格,即决策表,表格的“行”与对象相对应,表格的“列”对应于对象的属性,表中为具体的属性值。条件属性中的“人均GDp”“人口数”和“第一产业人员比重”均为传统需求模型中所常用的经济变量。“城市人口数”的选取主要是考虑城市规模对航空客流量的影响。“国际旅游人数”的选取主要是考虑该属性能间接反映某地区旅游资源的多少,它能解释对于当地经济并不发达的地区(如云南)却有较多的航空客流量。关于“与航空枢纽的距离”这个属性,从我国航空运输格局来看,北京、上海和广州是三大航空枢纽,因此这三个地区的该属性值为“0”;天津离北京很近,而北京又处于河北的中心,所以天津和河北的该属性值均为“1”,表示“特近”的含义;另外,由于江苏的常州、无锡、苏州、昆山等经济重心紧靠着上海,所以其“与航空枢纽的距离”属性为“2”,表示“近”的含义;其余地区类推,数字越大的地区表示该地区与航空枢纽的距离越远。在决策时,把决策属性“地区航空客流量”分成若干等级,运用粗糙集理论得出每个“地区航空客流量”等级所对应的生成规则。2.2数据离散化。在应用粗糙集理论对实际数据进行分析和获取知识时,一般要求由实际数据构成的决策表中各个属性值必须用离散值表达。如果某些条件属性或决策属性的值域为连续的,则在处理前必须经过离散化。所以对于下表1中的连续型数据需再进一步离散化成分类数据值以适用于粗糙集的方法。对粗糙集连续属性离散化的方法一般是采用其他领域已有的离散化方法,本文采用熵方法对连续型数据进行离散化。设p⊆a,U/p={C}1,C2,⋯Ct,则U中对象x属于等价类Ci的概率为pi=||Ci/||U,i=1,2,…,t,于是定义p对U的划分得到的熵为:2.3决策规则。本文使用2012年至2015年四年共124个对象(共868个观测值),使用其中60%的对象作为训练规则用,去发现决策规则,其余的40%的对象(即50个)作为预测用,以验证规则的有效性。在使用粗糙集方法后得出了表2中的航空客流量决策规则的主要部分。第一条规则的含义是:如果某地区人均GDp小于7198元且人口数小于2642万人且第一产业就业人员比重大于等于50.5%且国际旅游人数小于44.5万人,那么该地区航空客流量就小于200万人次,其余的规则含义类推。该规则把航空客流量影响因素的定性和定量两方面很好结合在一起,另外,同样的航空客流量可以由多条规则产生,这符合实际情况。从规则中各属性出现的频次可得出各属性的重要程度,从多到少依次是“第一产业就业人员比重”“人均GDp”“人口数”“国际旅游人数”和“与航空枢纽的距离”,而“200万人口以上城市数”被约简,从未出现过。运用上述公式,对用于测试的50个地区进行拟合,得出表3中的预测结果。在被测试地区总数中,等级4的上近似集合中地区实际个数是12个,被正确预测的为10个,预测精度为83%;等级3的上近似集合中地区实际个数是19个,被正确预测的为17个,预测精度为90%;等级2的上近似集合中地区实际个数是10个,被正确预测的为8个,预测精度为80%;等级1的上近似集合中地区实际个数是8个,被正确预测的为8个,预测精度为100%;全部等级的总体精度为88%。另外,等级3中有一个地区的覆盖度为95%,从而使总体覆盖度为98%,因此粗糙集理论应用在航空客流量预测中是可行的。

本文论述应用粗糙集理论及其模型对我我国区域航空客流量进行预测,得出了一些预测规则,其预测精度较高。与许多传统模型需要建立各种统计假设基础不同,该方法仅需对属性值进行分类。区别于复杂的数学公式,该方法的分析的结果以规则形式进行描述,直观并容易理解。此外粗糙集能够使用定性数据,无须转换成数值,因此可以有效地防止信息失真。当然,针对不同时间段的航空客流量数据进行动态规则的形成是有待进一步解决的问题。

参考文献:

[1]张文修,吴伟志,梁吉业等.粗糙集理论与方法[m].北京:科学出版社,2001.

[2]张永莉,张晓全.我国城市间航空客运量影响因素的实证分析[J].经济地理,2007,4:20-24.

[3]中国民用航空局发展计划司.从统计看民航[m].北京:中国民航出版社,2012-2015.

统计学决策规则篇7

关键字:数据挖掘方法

中图分类号:C37文献标识码:a

数据挖掘,也可以称为数据库中的知识发现(KnowledgeDiscoverDatabase,KDD),就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程[16]。实际上这是一个模式提取的过程,主要基于人工智能、机器学习、统计学等技术,高度自动化的分析企业原有的数据,做出归纳行的推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业的决策者调整市场策略,减少风险,做出正确的决策。

1数据挖掘的分类

数据挖掘就是发现隐藏在数据中的模式。它所发现的模式按功能模型一般可分为两大类:描述型(descriptive)的模式和预测型(predictive)模式[21]。描述型的模式是对当前数据中存在的事实做规范的描述,它所揭示的是当前数据的一般特性;预测型模型则是以时间为关键参数,对于时间序列型数据,根据其历史和当前的值去预测其未来的值。根据模式的特征,预测和描述可以通过下面的任务来完成。

图1数据挖掘模型

1)关联规则(associationRules)

关联模式是数据项之间存在的关联规则,是在同一事件中出现不同项之间的相关性,例如客户在一次购买活动中所购买的不同商品之间的关联性。在数据挖掘领域,对于关联模式的研究开展得比较深入,人们提出了多种关联规则挖掘算法,如apriori,DHp,partition,Sampling,Fp-Growth等算法。这些算法能够发现数据库中形如“80%的客户在一次购买活动中购买X商品的同时也购买Y商品”之类的知识。

2)分类分析(Classification)

分类就是构造一个分类模型,把具有某些特征的数据项映射到某个给定的类别上。这个过程分为两步:模型的创建和模型的使用。模型的创建是指通过对训练数据集的学习建立分类模型;模型使用是指使用分类模型对测试数据和新的数据进行分类。其中的训练数据集是带有类标号的,也就是在分类之前,要划分的类别是已经确定的,通常分类模型是以分类规则、决策树或数学表达式的形式给出的。

分类模式往往表现为一棵树,从树根开始搜索,沿着数据满足的分支走。走到树叶时就能确定类别。已有许多数据分类方法,如决策树方法、统计方法及粗糙集方法等。metha,agrawal,Rissanen等人开始研究面向数据库的分类方法。J.Han等人在他们开发的知识发现系统DBminer中采用了基于概括的决策树方法,该方法集成了面向属性的归纳和决策归纳技术。

3)聚类分析(Clustering)

聚类就是根据数据的属性对一系列未分类数据进行类别划分,把一组个体按照相似性分成若干个类或簇,即“物以类聚”。其目的是使类间的数据差别尽能大,类内的数据差别尽可能小,即“最小化类间的相似性,最大化类内的相似性”原则。与分类模式不同的是聚类中要划分的类别是未知的,它是不依赖于预先定义的类和带类标号的训练数据集的非监督学习(unsupervisedlearning),无需背景知识,其中类的数量由系统按照某种性能指标自动确定。聚类分析的方法有很多,其中包括系统聚类法、分解法、加入法、动态聚类法、模糊聚类法、运筹方法等。采用不同的聚类方法,对于相同的记录集合可能有不同划分结果。

4)回归分析(Regression)

回归模式的函数定义与分类模式相似,主要差别在于分类模式采用离散预测值(例如类标号),而回归模式则采用连续的预测值。它通过具有己知值的变量来预测其他变量的值。在最简单的情况下,回归采用的是类似于线性回归的标准统计技术。但在大多数现实世界中的问题是不能用简单的线性回归所能预测的。如商品的销售量、股票价格、产品合格率等,很难找到简单有效的方法来预测,因为要完全地描述这些事件的变化需要上百个变量,而且这些变量本身往往都是非线性的。为此学术界提出了很多试图解决这个问题方法,如逻辑回归、决策树和神经网络等。

5)序列模式分析(Sequential)

序列模式分析和关联规则分析相似,它是描述基于时间或其他序列的经常发生的规律或趋势,并对其进行建模。它能发现数据库中形如“在某一段时间内,75%的顾客购买商品a,接着购买商品B,然后又购买商品C,即序列a-B-C出现的频度较高”之类的知识。序列模式将关联模式和时间序列模式结合起来,重点考虑数据之间在时间维上的关联性。在进行序列模式挖掘时主要有以下几个问题值得注意:首先是序列的持续时间,也就是某个时间序列的有效时间或者是用户选择的一个时间段:其次是时间折叠窗口,即在某一段时间内发生的事件可以被看作是同时发生的;最后是所发现的模式时间间隔。

6)偏差分析(Deviation)

偏差分析是指对差异或极端特例的描述,如聚类划分外的偏离值。在大多数据挖掘方法中都是将这些偏差信息作为噪声而丢掉,然而在一些实际应用中,这种罕见的数据可能比正常的数据更有价值。比如网络的入侵检测和信用卡的欺诈检测等。我们可在通过这些异常数据的偏差来分析其中的原因,以便对其采用相应的措施。

2数据挖掘的主要方法

数据挖掘是一门新兴的研究领域,其技术基础是人工智能(artificialintelligence)。它借鉴了信息论、数理逻辑、进化计算、神经计算和统计学等理论和算法[22]。在此介绍几种主流的方法。

1)遗传算法

遗传算法是一种基于生物进化过程的组合优化方法,它是生物学和计算机相结合的产物,由美国密西根大学的D.JHolland教授和他的同事们在1975年首次提出的。根据适者生存的原则模拟自然界的生命进化机制,形成当前群体适合的规则组成新群体,以及这些规则的后代。

基于这些思想,根据遗传算法的最适合模型,并进一步对数据模型进行优化。

由于遗传算法是一种弱算法,具有高效性和灵活性的特点,在数据挖掘中也用于评估其他算法的适应度。

遗传算法擅长于数据聚类,通过事件的类比和空间上的类比,可以把大量繁杂的信息数据进行系统化、条理化,从而找出数据之间的内在关系,得出有用的概念和模式。再建立数据模式时,将遗传算法与神经网络相结合,可以更好地提高模型的适应性。因此遗传算法广泛应用于自动控制、机器学习、模式识别和组合优化等领域。

2)神经网络

神经网络(neuralnetwork)是由多个神经元按照某种方式相互连接形成,靠网络状态对外部输入信息的动态响应来处理信息,网络的信息分布式存储于连接权系数中,使网络具有很强的容错性和鲁棒性。神经网络的核心是结构和算法,例如Hopfield网就是以结构见长,而Bp(backpropagation)网是以算法见长。

神经网络和基于符号的传统技术相比,具有直观性、并行性和抗噪声性。目前,已出现了许多网络模型和学习算法,主要用于分类、优化、模式识别、预测和控制等领域。在数据挖掘领域,主要采用前向神经网络提取分类规则。

在数据挖掘领域,将神经网络用于数据挖掘,重点要解决好以下两个问题:一是降低训练时间,二是挖掘结果的可理解性

3)统计分析方法

统计分析方法是利用统计学、概率论的原理对数据库中的各属性进行统计分析,从而找出其中的关系和规律。统计分析方法是最基本的数据挖掘方法之一。常用的统计分析方法有

判别分析法:建立一个或多个判别函数,并确定一个判别标准,然后对未知属性的对象根据观测值将其划分归为已知类别中的一类。

因子分析法:用较少的综合变量来表达多个观察变量。根据相关性大小把变量分组,使得各组内的变量之间相关性较高,不同组变量的相关性较低。

相关分析和回归分析法:相关分析是用相关关系来度量变量间的相关程度。回归分析是用数学方程来表示变量间的数量关系,方法有线性回归和非线性回归。

偏最小二乘回归法:是一种新型的多元统计数据分析方法,它主要研究的是多因变量(结果)对多自变量(原因)的回归建模,特别当各变量内部高度线性相关时,用偏最小二乘回归法更有效。另外,偏最小二乘回归较好地解决了样本个数少于变量个数等问题。

在数据挖掘中,统计分析方法适用于分类挖掘和聚类挖掘。

4)粗集方法

粗集(roughset)理论的特点是不需要预先给定某些特征或属性的数量描述,而是直接从给定问题出发,通过不可分辨关系和不可分辨类确定问题的近似域,从而找出该问题中的内在规律。粗集理论同模糊集、神经网络、证据理论等其它理论均成为不确定性计算的一个重要分支。

粗集理论是由波兰华沙理工大学的Z.pawlak教授于1982年提出的一种研究不完整、不确定知识和数据的表达、学习及归纳的理论方法。粗集理论采用了上近似集合、下近似集合和边界来定义粗糙集。

粗糙集合理论可以用于分类,发现不准确数据或噪声数据内在的联系。找出可以描述给定数据集中所有概念的属性子集是个难题。在给定的现实世界数据中,往往有些类不能被可用的属性区分,则可以用粗糙集合来近似地定义这些类。根据目前己有的给定问题的知识,将问题的论域进行划分,然后对划分后的每一个组成部分确定其对某一概念的支持度,即肯定支持此概念或不支持此概念和模糊概念。上述情况分别用3个近似集合来表示。即将知识定义为对事物的分类能力。这种能力分别由上近似集、下近似集、等价关系等概念来体现。

5)决策树方法

决策树((decisiontree)是一个类似于流程图的树型结构,其中树的每一个内部节点代表对一个属性的测试,其分支代表测试的每一个结果:树的每一个叶子节点代表一个类别。决策树通过一系列的规则对数据进行分类。目前许多基于规则进行归纳的商用数据挖掘系统都是采用决策树方法。

决策树分类方法的优点:

1、决策树方法结构简单,便于人们理解;

2、决策树模型效率高,对训练及数据量大的情况较为合适;

3、决策树方法具有较高的分类精确度;

4、决策树可以清晰的显示哪些字段比较重要。

建立一棵决策树可能只要对数据库进行几遍扫描之后就能完成,这也意味着需要计算的资源较少,而且可以很容易的处理包含很多预测变量的情况,因此决策树模型可以建立的很快,并适用于大量的数据处理。常用的算法有CHaiD,CaRt,Quest、C5.0和iD3算法。

建立决策树的过程,即树的生长过程是不断地把数据进行切分的过程,每次切分对应一个问题,也对应一个节点。对每个切分都要求分成的组之间的差异最大。各种决策树算法之间的k要区别就是对这个“差异”衡量方式的区别。

对决策树的批评常见的是,认为其在为一个节点选择怎样进行分割时使用的“贪心”算法。此种算法在决定当前分割时根本不考虑此次选择会对将来的分割产生什么样的影响。换句话说,所有的分割都是顺序完成的,一个节点完成分割之后不可能以后还有机会回头考虑此次分割的合理性,每次分割都是依赖于它前面的分割方法,只要第一次分割有一点点不同,那么由此得到的整个决策树就会完全不同。

除上述方法外,还有把数据与结果转化表达成可视化形式的可视化技术、模型方法和归纳学习等方法。

参考文献

统计学决策规则篇8

关键词:科研成果管理;决策支持;数据仓库;联机分析处理;数据挖掘

中图分类号:tn911?34;tm417文献标识码:a文章编号:1004?373X(2016)07?0120?04

abstract:thetraditionalscientificresearchachievementmanagementusesthedatabasetostoretheresultdata.themultipledatatypesofthescientificresearchachievementandunifiedstoragewaybecometheobstacletoobtainthevalidresultdataindecision?makinganalysis,simultaneouslythetraditionalscientificresearchachievementsystemcanonlyextracttheresultinformation.inviewoftheaboveproblems,thescientificresearchachievementmanagementanddecisionsupportsystembasedondatawarehouseisproposed,inwhichthedatawarehouse,on?lineanalysisprocessing(oLap)andassociationruleminingalgorithmareintegrated.thesystemsupportsthatthemanagementpersonnelcandiscoverthepotentialachievement,evaluatethescientificresearchprojects,andreasonablyallocatethehumanresources.theassociationrulesofthedatawereminedincollegepaperdatabase.itisfoundthatpaperquantityandtimedimensionhavesomerelationship,whichconformswiththepracticaltrainingsituation.theeffectivenessofusingaprioriinthissystemwasverified.

Keywords:scientificresearchachievementmanagement;decisionsupport;datawarehouse;oLap;datamining

0引言

传统的科研项目管理过程费时费力,且浪费了大量的人力资源。科研过程中产生的有价值的信息,也被这样死板的管理方法给淹没了,人们不能也不愿意从纸质的资料文献中去发现价值。科研管理方式效率低会严重影响到科研项目开发的进度。随着科学技术的快速发展,科研单位虽然对传统方法进行了改进,开始建立管理系统,但是还远远不能满足要求[1]。

近年来,国内研究机构也开始重视科研项目管理方面的研究,目的多是为了提高项目管理的水平,对优秀的科研成果进行公示,共同分享研究信息[2]。科研成果管理决策支持系统的目的是为了解决传统科研管理系统对成果资源的浪费情况,加强对科研成果信息中潜在知识的利用,提高科研项目管理中对成果管理的有效性,利用数据挖掘充分发挥成果数据的潜力,为管理层提供决策支持依据[3]。

1SRam?DSS的需求分析

1.1功能需求

科研成果管理决策支持系统主要面向科研项目的成果进行管理,这些成果包括学术论文、著作、期刊、专利等。数据仓库的应用可以对成果数据采取智能的分析,将成果数据进行归类和按照成果数据的分析要求进行整理,从中发现成果与项目、人员之间的联系和潜在的规律,帮助决策者调整科研定位,做出科学的决策。

基本管理功能要求用户可以利用本系统完成对成果的基本管理,包括成果提交、审核、审批等流程的规范管理,还有对保密项目成果的加密处理,不仅要系统能够保存使用过程中存入的成果,还可以导入外部数据库的成果数据,为数据挖掘功能提供数据基础,对数据的集成程度要求很高,因此需要利用数据仓库存放成果数据[4]。

1.2用户需求

系统的主要角色包括科研员,科研管理员,决策员,数据管理员,系统管理员。

2总体设计

2.1科研成果数据仓库的设计

对于科研成果数据仓库从概念模型、逻辑模型、物理模型三方面进行建模。需要根据不同的主题把数据仓库中的数据划分好具体的维度[5]。以成果主题为例,成果数据包括成果名称,成果类型,成果来源,成果性质,成果作者,成果审核结果,所属项目,成果完成时间,成果数量等,以此作为分析的依据。因为数据仓库是多维的,oLap要在多维数据集之上才能进行,成果数据要满足分析的要求可以根据维层次继续划分,成果类型包括论文,专利,专著,软件成果等;成果性质包括科技,医药,航天等[6]。

(1)逻辑模型

系统主要用户利用成果信息进行分析,以此来评估科研项目,并为决策者提供决策支持。分析成果事实表中的数据信息有用户维、成果维、时间维。在oLap分析时可以按照不同的层次进行分析,如图2所示。

(2)物理模型

在设计数据仓库的物理模型时,定义成果数据的数据标准是需要注意的重点,目的是使成果数据在数据仓库中都有一个统一的格式,定义表示成果的相关属性来描述成果逻辑关系,得到对成果数据仓库的特征进行完整描述。系统采用SQLServer2008建立数据库[7]。利用analysisServices获得后台数据库里面的信息,这样建立的数据仓库可以满足需求。

2.2SRam?DSS功能的设计

为实现科研成果管理科学,全方位管理,设计成果管理,决策支持,用户管理,系统管理四个模块的内容,并且用户在登陆系统之前要进行身份验证。

(1)成果管理模块

成果管理主要包括成果查询,添加成果,申报成果,成果审核,成果加密以及成果导出等功能,系统采用分组加密方式进行加密。

(2)决策支持模块

数据仓库是决策支持功能的数据基础,有了数据就需要更多的操作来完成决策支持。对于系统中不同的数据来源,包括外部导入数据利用etL过程,实现规范化。然后将符合标准的数据装入数据仓库中。然后针对用户的要求进行联机分析处理和关联规则挖掘。

(3)用户管理模块

用户在web地址栏输入URL进入登录,用户名文本框内输入用户姓名,在密码框内输入密码。系统认证平台会判断用户身份,若是新用户要完成注册才能登陆,注册时要填写用户真实的信息,才能获得登陆权利,若用户输入的用户信息正确,登录成功。用户可以在用户管理中进行创建,添加到用户数据表中,也能获得系统的使用权限[8]。

(4)系统管理模块

系统管理模块主要是针对系统的权限分配,系统维护以及一些常用工具的设计。不同的用户进行的操作不同,能够看到的信息不同,就要求系统控制权限,建立权限分配制度,有利于对用户权限进行合理的分配也保证了系统的安全运行。系统维护是管理系统中必不可少的关键功能,包括对系统用户数据,成果信息数据等的备份工作,实现数据库的安全管理,管理相应功能结构规范性,为系统的更新与升级提供支持。

3系统实现

3.1基于数据仓库的oLap模型

联机分析处理技术能够高效的分析数据,发现事物发展规律,捕获异常和细节。oLap支持数据分析,而数据仓库里的数据是经过etL处理后集成到一起,保证了分析在一个快速的时间内给予响应。所以本阶段就是基于数据仓库建立oLap模型,从而得到更为可靠的数据立方体,既降低了刷新代价又提高了响应速度。

oLap包括了维和度量,在前面建立数据仓库时已经完成。利用SQLServer中的analysisServices项目模板建立多维数据集,定义数据源以及建立事实表与维表之间的关系。

oLap模型对数据仓库中的数据利用mDX进行多维查找,可以有效分析多维数据集。mDX是oLap的查询语句,语法与结构化查询语言SQL很类似。在成果管理系统中,通过mDX语言把科研员和决策者需要的成果数据查询出来,展现在前台界面里。

利用oLap模型进行分析,决策者可以依据分析要求,选择更多角度去分析数据,能得到的分析也更多,如下:

(1)由科研成果的类型分布来看整体项目的侧重重点,以及在成果突出领域的发展机会和潜力;

(2)由科研成果参与者和第一申请单位作者与项目之间的关系,可以看到参与者职称水平,技术支持水平对成果完成数量与质量的关系,并不是参与者越多的成果越完善,可以以此作为合理分配人才资源参与项目开发的依据,也可以以此评估参与人员的水平,作为考核参考;

(3)以科研成果在一定时间内的增长,作为项目进度和发展的一个参考标准。也可以看到成果的趋势和项目完成单位的能力和业务的提升;

(4)可以利用数据库,对以往成果信息进行分析,由于在传统的数据库中不具备oLap的功能。

3.2基于数据仓库的关联规则挖掘

基于数据仓库的关联规则挖掘,apriori算法的核心是提高关联规则产生的效率。利用apriori算法对科研成果数据进行分析的时候要明确成果的特征,根据成果特征描述来看,适合利用apriori算法进行关联规则的挖掘。科研成果数据的特征如下:成果数据是按照项目进程时间节点进行录入的,存储在成果库中;成果评估方式不统一,对成果的评估应采取统一的标准;科研成果的数据存储在数据库中,每一个成果都对应一条记录,每一个记录的属性都一样。

以本校论文库的数据为实验数据,在论文管理系统中可导出相关tXt文档数据,利用系统成果导入功能,添加到系统中,对数据进行统一的处理。选取2012―2015年间,数学、物理、计算机、兵器学科的论文成果数据。论文所属学科层次划分到一级子学科,时间层次按照年学年,继续划分下去。

(1)数据预处理

数据经过清洗,转换,去掉无效的数据,采用统一的数据编码规则,用离散字母代替时间层次,同时将学科按照统一的编码规则,重新编码。进一步按照论文数量划分等级,五份为一级,等级越高代表论文数量越多。

(2)算法实现

设置最小支持度min_sup=4,支持度=40%,置信度=80%,通过apriori算法计算出的关联规则信任度见表2。

(3)结果分析

采用的实验数据来自于论文数据库,由于学校毕业论文按照培养计划有周期性,学术性硕士的培养周期为2.5学年,所以硕士毕业多集中于第一学年3月份左右,工程硕士的培养周期为第二学年9月份,所以对数据的分析结果多集中于上半年。

规则1表示,在2012年第一学年在5篇以内且2013年第一学年毕业论文在5篇以内的学科专业,则在2013年第二学年在5篇左右的支持度为40%,信任度为80%。

规则2表示,在2013年第一学年在5篇以内且2013年第二学年毕业论文在5篇以内的学科专业,则在2012年第一学年在5篇左右的支持度为40%,信任度为80%。

规则3表示,在2012年第一学年在5篇以内且2013年第一学年毕业论文在5篇以内的学科专业,则在2014年第二学年在5篇左右的支持度为40%,信任度为80%。

3.3关联规则说明

由于系统中的测试数据多来自网络和本校的数据库,对关联规则的挖掘也许存在偏差,但是整体提供的关联规则数据信息还是符合实际的。简要介绍以下几点:

(1)选取成果完成人的职称级别和所提交的成果类型与数量作为关联规则挖掘的维度,发现成果完成人职称较低的数量较多,存在关联规则;

(2)选取固定时间内论文数量和专利数量进行关联规则挖掘,发现时间维度与论文数量多,关联较高;

(3)对不同高校的成果数量进行关联分析,985与211高校的科研论文,期刊发表数量多具有关联规则。

4界面展示

用户登陆界面:输入正确的用户名和密码登陆系统,用户可以选择“记住我”,在下次进入系统时可以免登陆,若是新用户第一次登陆系统,需要注册,完成注册后即获得登陆权限。

登陆后看到的首页,左侧导航栏显示了主要的功能,成果展示系统中的成果数量以及系统中的成果列表。

5结论

本文在调研了解科研成果管理的决策分析需求的基础上,认真研究了数据仓库的有关技术知识,联机分析处理技术的应用以及数据挖掘关联规则算法的原理。提出了基于数据仓库的科研成果管理决策支持系统。

开发系统应用的主要技术包括oLap和apriori算法,将oLap和apriori算法结合运用于实际的系统开发中,关联规则计算在oLap物化了的多维数据集基础上进行,减少了重新计算的时间,使决策分析更加智能化,使数据挖掘的步骤更具目标化,全面提升辅助决策在科研成果管理中的实用价值。

参考文献

[1]贺建英.大数据下mongoDB数据库档案文档存储去重研究[J].现代电子技术,2015,38(16):51?55.

[2]SUnHongmei,JiaRuisheng.Researchontheanalysisanddesignofgeneraltestdatabasemanagementsystem[J].procediaengineering,2012,29:489?493.

[3]eSLamipooRR,SepeHRiaRa.FirmrelocationasapotentialsolutionforenvironmentimprovementusingaSwot?aHphybridmethod[J].processsafetyandenvironmentalprotection,2014,92(3):269?276.

[4]KLaUSSR,neUBaUeRJ,GoetZ?neUnHoeFFeRF.HydrationkineticsofCa2andCa?investigationsperformedonasyntheticcalciumaluminatecement[J].Cementandconcreteresearch,2013,43(1):62?69.

[5]penGGY.marketingdecisionanddecisionsupportsystemdesignbasedonweb[J].advancedmaterialsresearch,2013,850:1048?1051.

[6]赵维宁.运用数据仓库技术构建电信企业经营分析系统[J].中文信息,2014(8):22?26.

统计学决策规则篇9

1计算机在信息管理中的应用

在工程项目的实施过程中,不管对建设单位、项目管理方、监理方还是承包商而言,要进行投资、进度、质量控制,及合同、资源、施工现场等管理,涉及的信息量非常大。计算机具有存储量大的特点,可集中存储与工程项目有关的各种信息;计算机运算速度快、计算精度高,能及时、准确地加工处理项目所需的各种数据,形成文字、图形等各种信息。计算机的上述功能,可辅助管理者在工程项目管理中,及时发现问题,检查项目的实施情况,以便作出进一步调整或规划的决策。目前,项目管理软件发展到现在已相当成熟,功能也非常全面,具备了项目管理中可能用到的各个方面,正朝着集成化的方向发展。在作项目管理时,可必先应用网络计划技术的原理将项目分解为一系列有先后逻辑关系的工作,并将各种资源及成本与之相连。现代的项目管理软件还有许多数据分析和显示的功能,可以作各种“what---i(f如果…~,那么……)”分析,即分析各种可能条件下,工程项目可能出现的情况,并打印出用户自定的各种精美图表报告,项目管理软件还可以和其他专业或通用软件,如文字和图形处理软件、电子表格软件、数据库软件等接口直接交换数据,还可建立各种软件之间数据的动态连接,即一个软件中的数据发生变化时,与之相连软件中的有关数据也会自动发生变化。在计算机网络上,这种数据交换及连接更方便。从计算机在建设工程项目管理中应用的发展情况来看,已经经历了单项应用、综合应用和系统应用几个阶段,软件从单一的功能发展到集成化功能。我国许多企业在工程管理中,尤其是在信息管理方面不同程度地运用计算机进行项目管理,但运用的范围和程度很不平衡,一些单位还停留在文字处理、表格编制及一般的数据处理和计算阶段,如公文、信件、表格的打印,月、季工程结算报表等,这是计算机应用的初级阶段。计算机应用的高级方式是借助专门的软件,完成大量信息的录入、存储、加工、检索、传递等工作,实现信息的快速、全面、准确、系统的管理,实现计算机联网,这在数据共享、集中处理与传递等方面更可发挥计算机的强大功能。

2工程项目管理信息系统

2.1信息管理系统的作用。①为各层次、各部门的项目管理人员提供收集、传递、处理、存储和开发各类数据、信息服务。②为高层次的项目管理人员提供决策所需的信息、手段、模型和决策支持。③为中层的项目管理人员提供必要的办公自动化手段。④为项目计划编制人员提供人、财、物、设备等诸要素的综合性数据。2.2建立项目管理信息系统的内部前提。满足项目管理的需要,建立科学的信息系统,其前提条件之一是建立起科学、合理的项目管理组织,建立科学的管理制度,这是根本前提之一,具体地讲它有如下含义:①项目管理的组织内部职能分工明确化,岗位责任明确化,从组织上保证信息传送流畅。②日常业务标准化,把管理中重复出现的业务,按照部门功能的客观要求和管理人员的长期经验,规定成标准的工作程序和工作方法,用制度把它们固窟下来,成为行动的准则。③设计一套完整、统一的报表格式,避免各部门自行其是所造成的报表泛滥。④历史数据应尽量完整,并进行整理编码。

3决策支持系统

3.1决策问题的分类。决策支持系统解决的问题分为非结构化决策问题、半结构化决策问题和结构化决策问题。①非结构化决策。非结构化的决策问题,主要是指决策过程复杂,制定决策方案前难以准确识别决策过程的各个方面,以及决策过程中前后各阶段交叉、反复、循环的问题。对非结构化的问题,一般没有确定的决策规则,也没有决策模型可依,主要依靠决策者的经验。②结构化决策。是有确定的决策规则和可供选择的模型,是一种确定型的决策,决策方案都是巳知的,决策者借助计算机仅是提高了工作效率,决策时可以依靠决策树及决策表加以解决,这类问题的决策比较容易实现。③半结构化决策。半结构化决策,是介于结构化及非结构化之间的决策。这类问题可以加以分析,但不确切,决策规则有但不完整,决策后果可以估计但不肯定,决策者本人对目标尚不明确,也无定量标准,所需信息也不完全、不确切,对事物的客观规律认识不足,因而无法准确描述问题。

3.2决策支持系统的功能。①识别问题。判断问题的合法性、发现问题及问题的含义。②建立模型。建立描述问题的模型,通过模型库找到相关的标准模型或使用者在该问题基础上输入的新建模型。③分析处理。按数据库提供的数据或信息,按模型库提供的模型及知识库提供的处理这些问题的相关知识及处理方法分析处理。④模拟及择优。通过过程模拟找到决策的预期结果及多方案中的优化方案。⑤人机对话。提供人与计算机之间的交互,回答决策支持系统要求输入的补充信息及决策者主观要求,同时也输出决策者需要的决策方案及查询要求,以便作最终决策时的参考。⑥按决策者最终决策执行结果修改、补充模型库及知识库。

统计学决策规则篇10

【关键词】人工智能财务决策应用

一、财务和人工智能技术应用概述

1987年美国执业会计师协会(aicpa)发表了一份管理指导特别报告“人工智能和专家系统简介”,将人工智能引入到会计和财务管理领域。自此,西方财务和会计界对人工智能技术和专家系统在会计、审计和财务分析与管理等方面进行了广泛探索,开发出了许多实用的专家系统来解决复杂的财务分析和会计决策问题。人工智能技术通过模拟人类专家求解复杂问题的方法,建立相应计算机辅助系统,使财务和经营决策智能化,从而使得现代会计系统在实现信息化和网络化后,向智能化迈进。财务和会计专家系统分成以下四类:

1.财务分析专家系统。成功的财务分析可以确定某个公司的经营状况,如投资或信用评估风险等级。由于会计和财务业务职能的复杂性,有些财务分析专家系统同时跨越多个问题域。例如,根据专家系统的输入和相应的输出建议,解决分类问题的财务分析,专家系统同时可能又属于诊断或纠错问题。

2.合成专家系统。具体包括:(1)在相对较小搜索空间的约束条件下,配置目标集,如管理商业贷款组合计划的maeble专家系统;(2)在相对较大搜索空间的约束条件下,设计目标集,如个人理财设计planman专家系统;(3)设计采取行动的规划专家系统,如审计规划expertest系统等。

3.组合专家系统。这类专家系统主要是解决复杂问题的组合分析,如:控制风险估计系统,诈骗检测系统,风险估计系统apx。

4.财会知识传授和职业教育专家系统。如国际上一些大会计公司内部使用的培训专家系统,和辅助会计专业大学生实践的专家系统。实践证明,这些系统可以让没有专业经验的人员有效获得解决某些具体问题的相关知识。

二、财务和会计专家系统基本结构

财务和会计专家系统是一种工作在专家水平上的计算机系统,应用专家的专门知识和推理能力,解决通常情况下难于处理的问题。需要人类领域专家宝贵的经验、智慧与思维方法以及相应的计算机技术的发展。到目前为止,在财务和会计领域,应用最广、最成熟的是基于规则的产生式系统。财务会计专家系统中的解释模块主要是用于推理过程的解释,回答相关财务结论是如何得到的。系统的透明性就是由解释模块来实现,而这种透明性是专家系统所必需的。有了透明的解释功能,由结论可以反过来追踪推理机调用了哪些规则,在分析推理过程中获得了哪些财务数据和特征信息。财务和会计领域的许多问题非常适合利用专家系统来求解,如审计、税务、管理会计和职业教育等。财务分析师、审计专家和金融专家在会计实务中获得许多珍贵的知识和经验,这些知识和经验有的是无法在文献中获得。如果把这些知识通过一定的方式累积、保存在专家系统的知识库中,其在职业教育和帮助非资深财务工作者解决问题的能力方面所产生的作用和意义是不言而喻的。

三、智能财务和会计系统建模步骤

在利用专家系统来描述和解决一个财务和会计问题时,其建模过程有6个步骤。下面以租赁业务为例,介绍其建模过程:(1)列出所有可能的选项。如承租人有两个租赁选择:经营性租赁和资本性租赁。(2)确定相应的规则。区别经营租赁和资本租赁的四条基本规则是:第一,所有权转移;第二,存在采购契约选项;第三,使用大于75%的资产经济寿命;第四,租赁费用的现值超过90%的资本市场公允价值。(3)确定规则应用的程序(推理机)。如租赁业务中,在租赁结束期末,将所有权转让给出租人的是资本性租赁,不管出租人在租赁期内是否使用完75%的资产使用寿命。这样第一条规则应该是判断租赁期内所有权是否转让。(4)每条规则的所有术语必须明晰定义。如租赁期不仅包括租赁初期,还包括其他各自租赁期间,在租赁期间,假设租赁延长是合理的、肯定的。(5)在一个规则应用前,首先按事实匹配,选择何种测试。如要知道租赁期间,必须知道租赁是否有何契约更新选项;计算最小租赁费用的现值时,必须知道是否确保残值,而且承租人是否了解出租人采用的贴现率。(6)用何种计算法,确定一个规则启用,例如,在应用第四个规则时必须计算现值。

四、智能财务和会计系统存在的问题和发展趋势

在开发面向财务管理和会计领域的专家系统时,最主要的问题是没有相应的专家和知识工程师以及规则的提取,在人工智能领域,这个问题称为知识获取。影响专家系统知识库质量的五个主要决定因素是:领域专家;知识工程师;知识表征方法;知识的提取;问题域。由于专家系统在判断问题时,表现出知识的不完备性、知识获取的“瓶颈”以及较差学习能力、推理能力的“脆弱性”等问题。为了克服财务管理和会计专家系统存在的问题和提高系统的智能化程度,随着专家系统研究工作的进一步深入,一方面,人们研究如何通过合理使用专家系统技术本身改善其性能。另一方面,由于专家系统中的知识类型不断增加,单一的知识类型和问题求解方法给专家系统的应用带来很大的局限性,远远不能满足复杂问题的求解要求。为使系统更加有效地工作,同时采用多个问题求解器处理一个复杂问题成为必要。

参考文献:

[1]陈文伟.智能决策技术[m].北京:电子工业出版社,1998.

[2]陈佳.信息系统开发方法教程[m].北京:清华大学出版社,1998.

[3]joycebischoff.数据仓库技术[m].北京:电子工业出版社,1998.34-38.

[4]高洪深.决策支持系统(dss)——理论、方法、案例[m].北京:清华大学出版社,1996.