大数据时代含义十篇

发布时间:2024-04-26 02:07:18

大数据时代含义篇1

[关键词]点击流数据仓库etL多维分析

1引言

随着互联网的飞速发展,采用网站的形式进行宣传和交流的企业越来越普遍,网站每天都产生大量的数据,访客点击网站产生这些数据被称作点击流数据。其中包含很多对企业非常有用的信息,例如,访客的来源、访客的行为、访客的兴趣等。对这些数据进行有效的分析,不但能够对网站的建设起到指导作用,增强网站的粘着度,而且也能够反映出企业各方面的状况。

随着数据库技术的应用和发展,人们尝试对数据库中的数据进行再加工,形成一个综合的面向分析的环境,以更好地支撑决策分析。在此过程的发展和完善中形成了支持决策的、特殊的数据存储,即数据仓库。数据仓库概念首次出现是由被称为“数据仓库之父”的w.H.inmon提出的,即数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用以支持经营管理中的决策制定过程[1]。

为点击流分析而建立起的数据仓库称为点击流数据仓库。点击流分析技术的初衷是通过对客户点击行为的分析,抽取出对企业非常有用的信息,如访客的来源、行为、兴趣等,然后对这些数据进行有效的分析,为网站企业提供服务,改善客户关系,提高网站企业服务质量。

本文采用“平和网”新闻媒体网站的日志记录数据,基于SQLServer2008构建点击流数据仓库,并进行多维数据分析,目的在于对新闻媒体网站的建设起到一定的辅助作用。

2点击流数据仓库的需要分析

网站每天产生大量的数据,对于一个门户网站,其日浏览量甚至可能达到上亿次,其中伴随着海量的点击流和大量的浏览信息,这些数据中包含了很多有价值的信息。用户与web进行会话时留下来的行为记录,经过分析后可获取信息之间的关联度,从而指导网络的布局和内容,得出潜在的有价值的信息。

点击流数据仓库的数据源更丰富,它除了包含传统数据仓库的数据源外,还包含网站的日志文件;它包含的一些新的维,如页面(page)、会话(Session)、参考(Referrer)是传统数据仓库所不具有的[2]。

“没有点击流数据仓库,就像乘坐的飞机没有窗户或驾驶舱内没有仪器工具一样,你会毫无方向地乱飞,最终是会坠机的”[2]。

对点击流数据仓库中的数据的有效分析,可以得出:访客来自哪些区域,停留多长时间;哪些页面是访客不感兴趣的,哪些形式的网页更加吸引访客;访客使用什么类型浏览器或操作系统等等。

综上所述,建立一个结构合理的点击流数据仓库是很有实际意义的。

3点击流数据仓库的多维建模

3.1确立数据分析主题

数据仓库是面向主题的,首先要确定数据分析或前端展现的主题。不同的主题来源于数据仓库中的不同子集,称之为数据集市。数据集市体现了数据仓库某一方面的信息,数据仓库由多个数据集市构成。

根据既定的数据仓库建设目标和网站管理者、网站商务运营者对网站运行的了解需求,本文以“平和网”新闻媒体网站的“网站信息分析”为主题,内容包括:网站总页面流量,访问最集中时段,访问量最高月份,访问量最少的页面,页面平均驻留时间等。

3.2确定度量值

通过SQLServer2008来构建数据仓库时,度量值是数值型的,度量值是所分析的多维数据集的中心值,基于不同的度量值可以进行复杂关键性能指标等的设计和计算。例如,当度量值组中包括时间维度并且时间维度的默认粒度为每天,则度量值组中该维度的默认粒度也为每天。

3.3确定维度和数据粒度

维度是指oLap中分析的不同角度。用户可能需要针对不同目的来定义不同粒度或专一性的事实数据表维度,在SQLServeranalysisServices中,基于不同的维度,可以看到各度量值的汇总情况,也可以多个维度进行交叉分析。

在SQLServeranalysisServices中,维度还要确定维度的层次和级别。例如:在时间维度上,可以按照“年―月―日”形成一个层次,其中“年”、“月”、“日”成为了这个层次的3个级别。数据粒度则代表了数据汇总的层次或深度,在确定了度量值之后,要考虑到该度量值的汇总情况。

3.4创建事实表

事实表是维度模型的基本表,存在大量的业务性能度量值或Kpi指标。一个事实表代表一个业务度量,度量值的列表确定了事实表的粒度和度量值的取值范围。事实表中最有用的事实是数字类型和可加型事实。

日志数据仓库系统中存在特殊的维度表和事实表,来支持流量统计功能和将来的web使用挖掘,获得更多支持个性化网站的信息[2]。

4点击流数据仓库的etL设计

etL是数据仓库实施过程中的一个重要处理环节,e(extract)是从源数据库(oLtp系统)中抽取数据;t(transform)则是对数据进行加工的过程,也就是将不同数据源的数据进行转换和整合,得出一致性的数据;L(Load)则是把转换过程得出的一致性数据加载到数据仓库的过程。

在数据仓库的构建中,etL贯穿于项目始终,包括了数据清洗、整合、转换、加载等各个环节。所以etL在整个数据仓库项目中起着十分关键的作用。

4.1数据预处理

采用SQLServer2008里面的SQLServerintegrationServices集成服务进行预处理。

4.1.1数据采集

采用SQLServer2008里面的SQLServerintegrationServices集成服务将2009年10月16日“平和网”的web日志文件(文本文件)导入SQLServer2008数据库。

4.1.2数据清洗

数据清洗的任务就是删除那些和挖掘目的无关的数据,避免无关数据对后续步骤的影响。①对于大多数挖掘任务来说,网页上面的图形文件和页面样式文件,比如扩展名为GiF、JpeG,JpG、gif、jpg、swf、css、js、cgi和map等文件,在日志文件中是可以忽略的。②用户请求访问失败的记录,比如返回代码为404、500等,也可以删除。③用户请求方法中不是Get的记录也可以删除。④清除网络机器人(robots)的浏览日志记录。删除这些记录可以减少后续步骤所要处理的数据量,提高处理速度,同时还可以减少无效数据对挖掘过程的影响。

4.1.3用户识别

用户识别方法主要有三种,第一,基于Cookie技术[3]:在web日志文件中添加更多的附加信息,如用户机器名、内部ip名来标识用户,从而能识别通过同一服务器上网的不同用户;第二,基于ip地址的用户识别[4]:是指不同的ip地址代表不同的用户;第三,基于网络拓扑结构的路径分析[5]:根据网络拓朴结构分析web日志文件中的用户请求,构造用户浏览网页的路径,通过一些启发式规则来识别用户。

采用ip+agent机制,也就是基于ip地址和浏览器的方法进行用户识别,即不同的ip地址和浏览器类型代表不同的用户,并在数据仓库LogsDw的表LogClear中添加UseriD列,用于存储进行识别后的用户标识。

4.1.4会话识别

用户会话是指在某用户访问一个站点时,一次访问行为中所访问的全部页面的序列集。对于服务器日志中一个较长时间的跨度,可以认为用户很有可能访问了web站点一次以上。如果页面两次访问的时间间隔超过了一个限度,就认为用户又开始了一个新的会话,许多的实验使用30分钟为缺省的“超时”时间,即阈值。

在数据仓库LogsDw的表LogClear中添加SessioniD列和SequenceiD列,SessioniD用于存储进行识别后的会话标识,SequenceiD用于存储会话序列标识。

4.2维度处理

维度表既为事实表提供了结构和上下文,也为数据仓库系统提供了度量标准。维度表要小于事实表的规模[6]。

根据需要,分为如下维度:DimDate日期维度、Dimtime时间维度、DimRegion地区维度、Dimpage页面维度、DimUrl来源维度、DimForm格式维度、DimChannel频道维度、DimClass栏目维度、Dimarticle文章维度、DimSession会话维度等。以下为各维度表的基本信息:

表1日期维度表

字段含义字段含义

Date_Key日期编号Date日期

表2时间维度表

字段含义字段含义

time_Key时间编号time_ap是否工作时间

time_name时间名称time_wn午别

表3地区维度表

字段含义字段含义

Region_Key地区编号S_name省份名称

areainfo地区信息C_Code市区代码

areaCode地区代码C_name市区名称

Gj_Code国家代码X_Code县份代码

Gj_name国家名称X_name县份名称

S_Code省份代码

表4页面维度表

字段含义字段含义

page_Key页面编号page_name页面

表5来源维度表

字段含义字段含义

Url_key来源编号Url来源

表6格式维度表

字段含义字段含义

Form_Key格式编号Form格式

表7频道维度表

字段含义字段含义

Channel_Key频道编号Channelname频道

表8栏目维度表

字段含义字段含义

Class_Key栏目编号Classname栏目

Channel_Key频道编号

表9文章维度表

字段含义字段含义

info_Key文章编号Class_Key栏目编号

Channel_Key频道编号title文章标题

表10会话维度表

字段含义字段含义

SessioniD会话编号ipip地址

4.3事实处理

提取、合并事实数据,以及将事实数据加载到数据仓库中,大多数事实表都是事务粒度的表。事实表的处理过程建立integrationServices程序包。表11是点击流事实表。

表11点击流事实表

字段含义字段含义

Key点击记录编号Date日期

Date_Key日期编号time时间

time_Key时间编号ipip地址

Channel_Key频道编号UseriD用户编号

Class_Key栏目编号SessioniD会话编号

info_Key文章编号SequenceiD序列编号

Region_Key地区编号page访问地址

page_Key页面编号Url来源地址

Url_Key来源编号Form格式

Form_Key格式编号Channel频道

5点击流数据仓库的多维分析

数据仓库架构就绪后,使用SQLSever2008提供的功能强大的SSaS进行多维分析,利用前端分析工具来对建立的数据仓库做查询,除了用excel,performancepointServer等工具做查询外,还可以用mDX函数直接对oLap做查询。

下面通过以excel作为查询工具查询各维度的分析结果:

按“日期”维度分析:以Date属性可得到某年某月某日访问“平和网”的点击数。

按“时间”维度分析:以time_name属性可得到各个时段访问“平和网”的点击数,以time_ap属性可得到各午别访问“平和网”的点击数,以time_wn属性可得到工作时间与非工作时间访问“平和网”的点击数。

按“地区”维度分析:以“Gj_name”属性可得到各个国家访问“平和网”的点击数,以“S_name”属性可得到各省访问“平和网”的点击数,以“C_name”属性可得到各市访问“平和网”的点击数,以“X_name”属性可得到各县访问“平和网”的点击数。

按“页面”维度分析:以page_name属性可得到各页面访问“平和网”的点击数。

按“来源”维度分析:以Url属性可得到不同来源访问“平和网”的情况。

按“格式”维度分析:以Form属性可得到不同浏览器访问“平和网”的情况。

按“频道”维度分析:以page_name属性可得到各频道的点击数。

按“栏目”维度分析:以Classname属性可得到各栏目的点击数。

按“文章”维度分析:以title属性可得到各文章的点击数。

按“会话”维度分析:以ip属性可得到不同ip地址访问“平和网”的情况。

此外,还可以多个维度进行交叉分析,在多维数据集中进行切块和切片,可得到各页面的访问量,平均加载时间,通过钻取分析得到按月统计访问量和按时间段统计访问量等等。

如图1可以看出2009年10月16日“平和网”的“新闻频道”的访问量最多,其次是综合频道等。

图12009年10月16日浏览“平和网”各频道基本情况

6结束语

以上介绍了利用microsoftSQLServer2008构建点击流数据仓库的基本流程,并在此基础上进行多维数据分析。在具体做项目的过程中,每一个细节都要综合考虑,才能够构建出满足多维分析需求的点击流数据仓库,为企业管理决策服务。

参考文献:

[1]inmonwH.王志海,等译.数据仓库[m].北京:机械工业出版社,2003.

[2]Sweigerm,madsenmR,LangstonJetal.陆昌辉,等译.点击流数据仓库[m].北京:电子工业出版社,2004.

[3]pitkowJ.inSearchofReliableUsageDataonthewww[a].in:sixthinternationalworldwidewebConference[C].SantaClara,Ca:[s.n.],1997.451-463.

[4]CooleyR,mobasherB,SrivastaJ.Dataprepatationforminingworldwidewebbrowsingpatterns[J].JournalofKnowledgeaninformationSystem,1999,1(1):5-32.

大数据时代含义篇2

HuCY,HuLp.JChinintegrmed.2009;7(1):7478.

Receivedoctober9,2008;accptedDecember1,2008;publishedonlineJanuary15,2009.

indexed/abstractedinandfulltextlinkoutatpubmed.Journaltitleinpubmed:ZhongXiYiJieHeXueBao.

Freefulltext(HtmLandpDF).

ForwardlinkingandreferencelinkingviaCrossRef.

Doi:10.3736/jcim20090112openaccess

Howtoidentifystatisticaldata

ChunyanHU,LiangpingHU

ConsultingCenterofBiomedicalStatistics,academyofmilitarymedicalSciences,Beijing100850,China

Keywords:statistics;medicine;dataanalysis,statistical

统计资料是统计分析的对象,正确识别统计资料是合理运用统计分析方法处理统计资料的首要前提;而科学完善的实验设计又是获得准确而又可靠统计资料的基本保证。

1何为统计资料

1.1数据不等于统计资料某研究者提交了如下内容。请问:它们是否叫统计资料?

6.55.16.13.93.57.72.11.99.67.97.67.84.66.16.42.87.62.54.68.14.86.95.12.06.46.04.58.08.08.66.44.96.46.84.73.47.71.22.80.52.63.26.57.63.55.75.42.37.42.74.26.46.97.26.76.54.07.31.14.92.52.91.93.61.42.54.42.5

它们不叫统计资料,因为这些数据代表什么含义并不清楚,数据的单位是什么不清楚,能派什么用场也不清楚,它们只能叫68个数据而已。

1.2仅有度量衡单位的数据仍不能称为统计资料假定前面给出的68个数据的单位是ng/ml,是否可称其为统计资料呢?仍然不可以!因为还缺少数据的名称,即数据的专业含义是什么,必须交代清楚,对其进行分析和讨论才能有的放矢,否则,只能是玩弄数字游戏。

1.3仅有变量名及其取值的数据仍不能称为统计资料表1中有很多数据,其中的每一列都能被称为统计资料吗?

有些似乎可以,有些则不可以。因为有些列仅有变量名,其专业含义并不清楚,如“G”代表什么,其下方的“1”与“2”又分别代表什么,“X1”的含义可通过其下方的“男”、“女”得知其代表“性别”,但“X3~X13”的含义都不清楚,“X14”代表联合用药情况。

1.4有指标名称又有度量衡单位的数据是否一定就可称为统计资料假定前面给出的68个数据所代表的指标为神经元特异性烯醇化酶(neuronspecificenolase,nSe)的含量,其单位是ng/ml,此时,它们是否就能叫统计资料?若要求不高,基本上可以称其为统计资料;若要求严格,还不能这样称呼。因为它们测自什么样的受试者并不清楚!比如有的测自正常人,有的测自不同疾病患者,甚至有的测自动物。表1冠心病人与正常人多项指标的观测结果

1.5统计资料应具备4个基本要素应当说,指标(或变量)名称、度量衡单位和具体取值是统计资料的3个基本要素。仅有这些基本要素可能还达不到特定的研究目的,也就是说,统计资料还应包括实现特定研究目的所对应的特定条件。比如说,前面给出的68个数据是某年从某地区18~60岁全部正常成年人中随机抽取的68人血液nSe酶的具体数值,而且,在获得这些数据时,测定的时间、地点、方法、仪器设备和测定者等都相同。这样条件下测得的nSe酶含量(ng/ml)所得的统计资料,运用适当的统计分析方法,才可以推测该年该地区18~60岁全部正常成年人血中nSe酶含量的(1-α)100%容许区间(医学上习惯称为正常值范围)和nSe酶含量总体平均值的(1-α)100%置信区间(也有人称为可信区间)。概括起来说,统计资料应具备4个要素:影响因素(测定条件)、有明确专业含义的指标名称、度量衡单位和具体取值。由此可见,统计资料通常是复合型,一般至少含有2个变量,一个称为影响因素,另一个称为观测指标及其取值。前面举的例子中,影响因素是受试者类型,仅测定了正常人,隐含的另一个水平是除这里定义的正常人以外的其他人,要使两组人具有较好的可比性,与其可形成对照的是某年从某地区18~60岁全部非正常成年人中随机抽取的68人。下面的表2中,若给X5~X11加上相应的度量衡单位,就是一个比较正规且可达到一定研究目的的复合型统计资料。表2103例冠心病人与100例正常人多项指标的观测结果

2统计资料的分类

2.1定性与定量资料任何一个有一定实用价值的统计资料通常都是复合型统计资料,即至少有两类性质的资料,一类叫定性资料,另一类叫定量资料。通常影响因素是定性资料,而观测结果是定量资料,但有时影响因素和观测结果都可包含定性与定量两类资料。

2.2资料类型的两种划分方法资料类型的划分方法有传统与现代两种。现将这两种划分方法作一扼要介绍,并对其加以比较。

2.2.1资料类型的传统划分方法资料类型的传统划分方法是将资料分为计量资料、计数资料和等级资料3类。其定义如下。

计量资料:测定每个观察单位某项指标量的大小,所得的资料称为计量资料。例如测得正常成年男子身高(cm)、体质量(kg)、血红蛋白(g/L)和总铁结合力(μmol/L)等所得的资料。

计数资料:将观测单位按某种属性或类别分组计数,得到各组观察单位数称为计数资料。例如某单位全体员工按aBo血型系统划分所得a型、B型、aB型、o型血的人数分别为1598、2032、641、1823人;又例如某小学1年级至6年级的学生人数分别为90、100、86、95、112、96人。

等级资料:将观测单位按某种属性的不同程度分组计数,得到各组观察单位数称为等级资料或半定量资料或有序资料。例如用某种治疗方法医治100名某病患者,最后清点治愈、显效、好转、无效和死亡的人数分别为10、30、40、15和5人;又例如某医院检测1029例患者,其中眼晶状体混浊程度为+、++、+++的分别有494、296、239人。

2.2.2资料类型的现代划分方法资料类型的现代划分方法是将资料先粗分为定量资料和定性资料两大类,然后,再将定量资料划分为计量资料和计数资料两小类;将定性资料划分为名义资料和有序资料两小类。其定义如下。

定量资料:测定每个观察单位某项指标量的大小,所得的资料称为定量资料。

计量资料:指标的取值可以带度量衡单位,甚至可以带小数(标志测量的精度)的定量资料,就叫计量资料。例如测得正常成年男子身高(cm)、体质量(kg)、血红蛋白(g/L)和总铁结合力(μmol/L)等所得的资料,它们首先是定量资料,进一步细分,它们还是计量资料。

计数资料:在定量资料中,若指标的取值可以带度量衡单位,但不可以带小数(只能取整数,通常为正整数)的定量资料,就叫计数资料。例如测得正常成年男子脉搏数(次/min)和引体向上的次数(次/min)。

定性资料:观测每个观察单位某项指标质的状况,所得的资料称为定性资料。

名义资料:在定性资料中,若指标质的不同状况之间在本质上无数量大小或质量好坏之分或先后顺序之分的定性资料,就叫名义资料。例如某单位全体员工按aBo血型系统(a型、B型、aB型、o型)来记录每个人的情况所得的资料;又例如某市全体员工按职业(工人、农民、知识分子、军人……)来记录每个人的情况所得的资料。

有序资料:指标质的不同状况(状态个数≥3)之间在本质上有数量大小或质量好坏或有先后顺序之分的定性资料,就叫有序资料。例如某病患者按治疗后的疗效(治愈、显效、好转、无效、死亡)来划分所得的资料;又例如矽肺病患者按肺门密度级别(+、++、++

+)来划分所得的资料。

若用一张表将资料类型的现代划分方法表示出来,则一目了然。见表3。表3统计资料类型的现代划分方法

2.2.3资料类型两种划分方法的比较资料类型的传统划分方法是从资料的收集方式角度来定义,也可以说是就“形式”而言;而资料类型的现代划分方法是从资料的性质角度来定义,也可以说是就“本质”而言。

事实上,当人们看到一个记号“1”时,人们无法知道这个“1”究竟代表的是什么含义。因为它可以代表1个人的年龄为1天或1个月或1岁,可以代表某定量指标的一个具体取值,也可以代表某组个体中具有某种阳性反应的人数是1人(频数为1),还可以代表受试者的一个特定性别(如用“1”代表男性,用“0”代表女性)。这说明仅从事物的表面看问题,很难准确地获知事物的本质特征。要想准确地揭示统计资料的性质,只需给出资料所对应的指标名称(变量名,通常隐含专业意义,若含义不明,应明确给出)和具体取值,而不必将调查对象分组后数出各组的调查单位数。例如在表3的前4行中,任何一行的任何一个数据或符号都应叫做其表头上相应指标的具体取值,“25”是“年龄X1”的一个具体取值,“农民”是“职业X4”的一个具体取值,同理,“+”是“尿糖X7”的一个具体取值。对于资料类型的现代划分方法而言,可以说出表3中任何一列的资料类型;而对于资料类型的传统划分方法而言,就不便说出表3中后4列的资料类型,它需要先分组,然后,用每个指标的所有不同标志及其对应组内的个体数两部分结合在一起,才叫计数资料或等级资料。而在多变量回归分析中,需要直接利用后4列资料,此时,资料类型的传统划分方法就显得“心有余而力不足”了。

3误判资料类型的案例

例1原文题目:美泰宁对睡眠作用的影响。原作者研究美泰宁对戊巴比妥钠诱导的小鼠睡眠的影响,选用40只体质量相近的雄性小鼠,随机分为溶剂对照组和3个剂量组,根据0、12.5、25.0和75.0mg/kg体质量,用蒸馏水配成所需浓度,每天灌胃。第7天灌胃15min后,各组动物按28mg/kg体质量腹腔注射戊巴比妥钠,以小鼠翻正反射消失达1min以上作为入睡判断标准,观察腹腔注射戊巴比妥钠25min内各组动物发生睡眠的动物数。经统计学处理,中、高剂量组与溶剂对照组比较,差异有统计学意义(p<0.01)。见表4。表4美泰宁对阈下剂量戊巴比妥钠诱导雄性小鼠睡眠发生率的影响

对差错的辨析与释疑统计资料常常分为定量资料和定性资料两大类,所谓定量资料是指每个观察单位用计量方法测量某项指标数值大小;而定性资料是指记录每个观察单位的某一方面的特征和性质。本资料观察的是动物的入睡情况,原作者把每组入睡的每只动物记为1,不睡的动物记为0,这样第一组有2个1,8个0,第2组有5个1,5个0,第1组和第2组各10个数据进行t检验,得t=1.406,p<0.05(经验算,就计算本身而言,原作者的计算结果是正确的)。但实际上这里的1并不代表真正的数值,它只是代表一种状态,即入睡,而0则代表没有入睡,因而本资料从性质上说应属于定性资料。但原作者却错误地将其判断为定量资料,表的标题后括号内写了x±s的形式,但实际上表中并没有表示平均数和标准差的数据,反而误导读者该资料为定量资料。一般来说,t检验仅适于分析定量资料,用分析定量资料的方法去分析定性资料显然是错误的。

正确判定统计资料属于定量资料还是定性资料是选用统计分析方法的首要前提。本资料属于定性资料,应根据分析目的,合理选用适合此类资料的分析方法如Fisher精确检验进行统计分析。

例2原文题目:小儿皮肤血管瘤雌、孕激素受体的研究。原作者意在探讨雌激素受体(estrogenreceptor,eR)和孕激素受体(progesteronereceptor,pR)在血管瘤发生、发展中的意义。采用免疫组化方法对毛细血管瘤、混合型血管瘤、海绵状血管瘤、淋巴管瘤及正常皮肤组织的eR和pR进行检测。全部标本经10%福尔马林固定,常规石蜡包埋。每例选一典型蜡块,4~6μm切片,进行免疫组化染色,高倍镜下每例肿瘤区内计数500个细胞,计数eR和pR阳性细胞百分率,统计方法用χ2检验。结果见表5。表5血管瘤和淋巴管瘤中eR和pR检测结果

对差错的辨析与释疑正确判别统计资料的设计类型是合理选择统计分析方法的重要前提。根据统计指标的性质,统计资料一般分为定量资料和定性资料两大类。所谓定量资料,是指每个观察单位(针对此资料,其观察单位是病例标本)测得的指标是用具体的数值表示,其又细分为计量资料和计数资料;所谓定性资料,是指每个观察单位测得的指标仅反映某一方面的性质,并不能用具体的数值表示,其又细分为名义资料和有序资料。对于本资料来说,测量细胞的结果是“阳性”或“阴性”,且一般认为带有“率”的资料就是定性资料,似应判为定性资料。然而问题的关键在于,原作者的观察单位并不是细胞本身,而是每一个病例标本。原作者关心的是4种疾病病例标本和一组正常人标本的eR和pR阳性细胞率之均值是否相同,从每一个病例标本中得到的是eR和pR阳性细胞率,是一具体的数值,因而应属于定量资料。如果仅从资料的表面现象(有“率”)进行判断,而不考虑每一个数值的实际含义,没有从资料的本质上进行判断,很容易判断错误。

本资料的受试对象为病例标本,测量指标为“阳性细胞百分率”,因而应为定量资料,其涉及一个实验因素,即样品类别,有5个水平,即毛细血管瘤、混合型血管瘤、海绵状血管瘤、淋巴管瘤和正常皮肤。对于百分率的定量指标,一般根据经验,宜做平方根反正弦变换,使资料检验满足正态性和方差齐性的前提条件后,按单因素五水平设计资料进行方差分析,如变量变换后仍不满足前提条件,则用非参数检验。

例3有人对103例冠心病患者(G=1)和100例正常对照者(G=2)进行了多项指标的观测,资料见表2。若以X5~X11为定量的结果变量,分别以“组别、性别、年龄、高血压史、吸烟史、基因型”为影响因素,有人说此表中的资料类型为定性资料,也有人认为是定量资料。请问:此表中的统计资料究竟是什么资料[1]。

对差错的辨析与释疑将此表中的资料说成是定性资料或定量资料都不对,因为此表中有很多列,各列资料的性质不尽相同。若笼统地说,此表中的资料为混合型统计资料;具体地说,应根据各列变量、取值及其专业含义,区别对待。

第1列“编号”不属于统计资料,仅起一个标识作用,若一定要问该变量的性质是什么,可叫它为“多值有序变量”。

第2列“组别(区分正常人和冠心病病人)”、第3列“性别”、第5列“是否有高血压史”和第6列“是否抽烟”都是定性资料,其变量性质应叫做“二值名义变量”。

第7列~第13列都是“血脂指标”,它们都是定量资料,具体应叫做计量资料。

第14列和第15列分别是两种“基因型”(通常有3种表现:-/-、-/+、+/+),它们都是定性资料,其变量性质应叫做“三值名义变量”。

第16列是“服药情况”,其变量性质应叫做“多值名义变量”。

4小结

本文从正反两个方面介绍了什么是统计资料、统计资料的分类以及统计资料识别中常犯的错误。按现代划分方法来命名统计资料,有利于抓住问题的实质。科研设计的质量好坏和实施过程中的质量控制水平

的高低决定了所收集的统计资料是否准确、可靠;而正确识别各种研究问题中的统计资料类型,则是合理选用统计分析方法处理统计资料的关键环节。这是所有希望靠数据来说话的科研工作者不可小视的一个大问题!

大数据时代含义篇3

摘要apriori算法是发现频繁项目集的经典算法,但是该算法需反复扫描数据库,因此效率较低。本文介绍了apriori算法的思想,并分析了该算法的性能瓶颈。在此基础上,针对apriori算法提出了一种改进方法,该方法采用转置矩阵的策略,只扫描一次数据库即可完成所有频繁项目集的发现。与其他经典的算法相比,本文提出的算法在项目集长度较大时,性能明显提高。关键字关联规则,支持度,置信度,apriori1引言关联规则挖掘就是在海量的数据中发现数据项之间的关系,是数据挖掘领域中研究的热点问题。1993年agrawal等人[1]首先提出了交易数据库中不同商品之间的关联规则挖掘,并逐渐引起了专家、学者的重视。关联规则挖掘问题可以分为:发现频繁项目集和生成关联规则两个子问题,其中发现所有的频繁项目集是生成关联规则的基础。近年来,发现频繁项目集成为了关联规则挖掘算法研究的重点,在经典的apriori算法的基础上提出里大量的改进算法。savasere等[2]设计了基于划分(partition)的算法,该算法可以高度并行计算,但是进程之间的通信是算法执行时间的主要瓶颈;park等[3]通过实验发现寻找频集主要的计算是在生成频繁2-项集上,利用这个性质park等引入杂凑(hash)技术来改进产生频繁2-项集的方法,该算法显著的提高了频繁2-项集的发现效率;mannila等[4]提出:基于前一遍扫描得到的信息,对此仔细地作组合分析,可以得到一个改进的算法了。针对mannila的思想toivonen[5]进一步提出:先使用从数据库中抽取出来的采样得到一些在整个数据库中可能成立的规则,然后对数据库的剩余部分验证这个结果。toivonen的算法相当简单并显著地减少了i/o代价,但是一个很大的缺点就是产生的结果不精确,存在数据扭曲(dataskew)。上述针对经典apriori算法的改进算法在生成频繁项目集时都需要多次扫描数据库,没有显著的减少i/o的代价。本文在分析了经典的apriori算法的基础上,给出了一种改进的方法,该方法采用转置矩阵的策略,只扫描一次数据库即完成频繁项目集的发现,在项目集长度较大时,性能明显提高。2apriori算法2.1基本概念设i={i1,i2,…,im}是二进制文字的集合,其中的元素称为项(item)。定义交易(transaction)t为项的集合,并且tíi,定义d为交易t的集合。设x是i中若干项的集合,如果xít,那么称交易t包含x。项目集中包含项的个数成为项目集长度。关联规则是形如xþy的蕴涵式,这里xìi,yìi,并且xçy=f。规则xþy在交易数据库d中的支持度(support)是交易集合中包含x和y的交易数与所有交易数之比,记为support(xþy),即support(xþy)=|{t:xèyít,tîd}|/|d|。规则xþy在交易集中的置信度(confidence)是指包含x和y的交易数与包含x的交易数之比,记为confidence(xþy),即confidence(xþy)=|{t:xèyít,tîd}|/|{t:xít,tîd}|。给定一个交易集d,挖掘关联规则就是找出支持度和置信度分别大于用户给定的最小支持度(minsup)和最小置信度(minconf)的关联规则。2.2基本思想1994年agrawal等人在项目集格空间理论的基础上提出了用于发现频繁项目集的apriori算法。该算法采用“逐层搜索”的迭代方法,用k-项集生成(k+1)-项集。首先,扫描数据库计算出频繁1-项集的集合(记为:l1);然后,执行下面的迭代过程计算频繁k-项集,直到生成频繁k-项集的集合(记为:lk)为空:①连接:lk-1进行自连接运算,生成候选k-项集的集合(记为:ck)。所有的频繁k-项集都包含在ck集合中。②剪枝:①生成的ck是lk的超集,扫描数据库计算ck中每个候选项目集的支持度,支持度大于用户给定最小支持度的候选k-项目集就是频繁k-项目集。通过上述的迭代过程,可以发现项目集i在给定数据库d中满足最小支持度的所有频繁项目集。2.3算法分析apriori算法在执行“连接-剪枝”的迭代过程中,需要多次扫描数据库,如果生成的频繁项目集中含有10-项集,则需要扫描10遍数据库,增大了i/o负载。并且在迭代过程中,候选项目集合ck是以指数速度增长的,lk-1自连接会产生大量的候选k-项目集,例如有104个1-项集,自连接后就可以产生大约107个候选2-项集。这些都严重影响了apriori算法的效率。3改进的apriori算法3.1改进思想apriori算法在迭代过程中多次扫描数据库和产生大量的候选项目集形成了算法的性能瓶颈。为了提高算法的效率本文进行如下改进:数据库d中每个交易t都有一个唯一的编号tid。定义k-项集rk=,其中xk=(ij1,ij2,…,ijk),ij1,ij2,…,ijkîi,j1îd}。根据上面的定义k-项目集rk的支持度可以表示为:support(rk)=|tids(xk)|/|d|=|{tid:xkít,îd}|/|d|。rk的支持数supnum(rk)=support(rk)*|d|=|tids(xk)|。l’k表示k-项集的集合。改进的apriori算法依然采用“逐层搜索”的迭代方法,迭代过程的“连接-剪枝”运算定义如下:①连接:设两个(k-1)-项集:l’k-1(i)=îl’k-1,l’k-1(j)=îl’k-1,i

∪yk-1,tids(xk-1)∩tids(yk-1)>==rkîl’k;否则,不进行连接运算,因为产生的结果不是重复,就是非频繁项目集,这样可减少计算量。②剪枝:计算k-项集的支持数,根据上面的定义supnum(rk)=|tids(xk)|,该计算过程不需要再扫描数据库,避免了i/o操作,提高了算法的效率。如果supnum(rk)≥minsupnum,则îl;否则,从集合l’k中删除rk。3.2改进的算法描述输入:数据库d,最小支持数minsupnum输出:d中的频繁项目集l算法描述:①l’1=findfrequentoneitemsets(d);//扫描数据库d生成1-项集的集合l’1。②foreachoneitemsetîl’1//生成频繁1-项集的集合if(|tids(x1)|≥minsupnum)l=l∪{};elsel’1=l’1-{};③for(k=2;l’k-1≠ф;k++)l’k=l’k-1∞l’k-1;foreachk_itemsetîl’kif(|tids(xk)|≥minsupnum)l=l∪{};elsel’k=l’k-{};④returnl;3.3例举设数据库d表1所示,最小支持数minsupnum=4,运行改进的算法的过程如图所示:

4总结改进的apriori算法,只是在生成l’1时进行了一次数据库扫描,在之后的迭代过程中不需要扫描数据库。与文献2,3,4,5中提出的改进算法相比,使用本文提出的算法大大降低了i/o负载,使得频繁项目集的发现速度大大提高,尤其是在项目集长度较大的情况下。算法的迭代过程不需要复杂的计算,项目集连接仅仅使用集合的并、交运算即可完成,使得该算法易于实现,相信该算法具有一定的理论与实用价值。但是该算法也有不足:为了减少i/o负载,要求在第一次扫描时把所有的信息装入内存,虽然本算法对数据库进行编码,以二元组的形式存储项集,但是数据挖掘都是基于海量数据的,因此,算法运行时需要大量内存,对此将在今后的研究中进行改进。参考文献[1]r.agrawal,t.imielinski,anda.swami.miningassociationrulesbetweensetsofitemsinlargedatabases.proceedingsoftheacmsigmodconferenceonmanagementofdata,pp.207-216,1993[2]a.savasere,e.omiecinski,ands.navathe.anefficientalgorithmforminingassociationrulesinlargedatabases.proceedingsofthe21stinternationalconferenceonverylargedatabase,1995[3]j.s.park,m.s.chen,andp.s.yu.aneffectivehash-basedalgorithmforminingassociationrules.proceedingsofacmsigmodinternationalconferenceonmanagementofdata,pages175-186,sanjose,ca,may1995[4]h.mannila,h.toivonen,anda.verkamo.efficientalgorithmfordiscoveringassociationrules.aaaiworkshoponknowledgediscoveryindatabases,1994,pp.181-192[5]h.toivonen.samplinglargedatabasesforassociationrules.proceedingsofthe22ndinternationalconferenceonverylargedatabase,bombay,india,september1996[6]罗可,贺才望.基于apriori算法改进的关联规则提取算法.计算机与数字工程.2006,34(4):48-51,55[7]蔡伟杰,杨晓辉等.关联规则综述.计算机工程.2001,27(5):31-33,49

大数据时代含义篇4

对表1的具体分析如下。

1)“方剂”和“中药”类数量多的主要原因在于具体的方剂名称、中成药以及具体的单味药数量很多;

2)“中医文献”位居第二,是由于系统收录了大量的古代和现代医书、医案等名称,如“《经方要义》《南阳类案》”等,均属于中医文献类;

3)“医学人物”类,系统收录了古、近、现代中医医家,如“朱丹溪”“葛洪”等,这部分内容也很庞大;

4)“动植物”类实际指“药用动植物”,即单味中药的原植物和原动物,如“白斑角鲨”“黄凤仙花”等,有些概念词的中药名称与原植物、动物相同,既属于“中药”也属于“动植物”,如“黄柏”“蜈蚣”等;

5)“诊断的过程”这一语义类型是原来系统加工西医诊断学时设立的,目前暂时保留了这一部分数据,该部分的概念基本为西医诊断学术语;

6)“疾病或证候群”这一语义类型也是系统设立初期建立的一个语义类型,其内容包括了疾病、证候和症状,系统旧数据有大量的概念标为这一语义类型,还未修改;

7)“中药化学成分”类包含具体的化学成分名称,系统收集了中药涉及的化学成分名称;

8)“食疗-药膳”类包含可以用作食疗和药膳的具体名称,如“安神茶”“八宝粥”等;

9)“中医机构”类包含了全国所有中医药研究机构、行政机构、医院、制药企业等,如“安徽省卫生厅中医管理局”“安庆市中医医院”“安顺制药厂”等。综上所述,使用最多的10个的语义类型都属于实体类型,均有较多实例,故包含的概念较多,在语义类型的使用上属于正常现象。

2使用数量少于10个的语义类型的情况分析

具体分析语义类型使用数量少于10个的有30个,它们的使用情况分析如下。

1)语义类型本身为大类,按照“能用具体类型的就不用上位类型”的语义类型归类原则,这类语义类型本身在分类中只起到分类节点的作用,而具体归类则归为其下的具体类型,如“事件”“物理实体”“中医基础理论”“中医信息文献学”“中药性能与功能”“有机体”等;

2)语义类型本身定义范畴过窄,不能包含更多的概念,如“血”“血的功能”“津液功能”“精的功能”“腧穴功能”“五色”“五化”等;

3)在中医药学系统里不能或者不需要作为语义类型存在的,如“归经”“针灸处方”“中药功能”“方剂功用”等;

4)由于与其他语义类型定义分辨不清而归类错误或不完全的,如“针灸研究”“辅料”“中医预防”等;

5)由于中医药学语义类型也是在不断修改完善过程中,有部分数据还未完全修改为目前的语义类型,如“中药药理作用”“矿物”等;

6)语义类型分类过细,如“心理功能-中医心理”“神”“情志”“七情”。

3未用到的语义类型分析

中医药学语言系统现有语义类型128个,使用率为86.72%,未使用到的17个是:人工物质;中西医结合;医古文;自然物理学科;颜色;中医学与古代哲学;中西医结合疗法;制药工艺、农业;脏象学说;药用设备;思想或概念;研究设备;升降沉浮;研究活动;中药研究;师承关系;症状或体征。该17个语义类型的情况分析如下。

1)语义类型本身为上位概念,其下还有更具体的语义分类,如“思想与概念”“人工物质”“中医学与古代哲学”“制药工艺、农业”“研究活动”“中药研究”等;

2)语义类型本身表示的是一种组合关系,而不是单一概念所能表达的,如“师承关系”“中西医结合”“中西医结合疗法”等;

3)语义类型设置过大,过于空泛,目前中医药学语言系统未涉及其内容,如“自然物理学科”;

4)语义类型设置问题,不表示一种语义分类。如“医古文”表示的是一种语言形式,每个医古文形式的字、词、句都会表示具体的语义含义;

5)语义类型设置太过于狭小,仅表示特别具体的意思,如“升降沉浮”是具体指中药药性的一个方面,不应作为一个语义类型存在;

6)语言系统目前收词范围的局限导致未使用到该语义类型,如“研究设备”“药用设备”等;

7)语言系统数据问题,“症状或体征”是最近修改的语义类型,原有这部分数据均标为“疾病或症状群”,数据还未修改。

4小结

大数据时代含义篇5

许多先进的可视化方式(如:网络图、3D建模、堆叠地图)被用于特定用途,例如3D医疗影像、模拟城市交通、救灾监督。但无论一个可视化项目有多复杂,可视化的目的是帮助读者识别所分析的数据中的一种模式或趋势,而不是仅仅给他们提供冗长的描述,诸如:“2000年a的利润比B高出2.9%,尽管2001年a的利润增长了25%,但2001年利润比B低3.5%”。出色的可视化项目应该总结信息,并把信息组织起来,让读者的注意力集中于关键点。

对于elsevier’sanalyticalServices的项目而言,我们一直在寻找提升数据分析和可视化的方式。例如,在我们对于研究表现的分析中有大量关于研究合作的数据;我们为Scienceeurope提供的报告(ComparativeBenchmarkingofeuropeanandUSResearchCollaborationandResearchermobility)包含跨州合作以及国际合作的数据,这些数据不适合直接用二维表和X-Y图展示。

为了探索数据背后的故事,我们使用了网络关系图来识别国家间的合作,并了解每个合作关系的影响。

本文提供一份包含五个步骤的数据可视化指南,为想用表格、图形来传播观察结果、解读分析结果的人士提供帮助。要记住,建立好的可视化项目是一个反复迭代的过程。第1步-明确问题

开始创建一个可视化项目时,第一步是明确要回答的问题,又或者试着回答下面的问题“这个可视化项目会怎样帮助读者?”

3条数据记录

表1–数据集中的三条记录

图1-槽糕的可视化项目并不澄清事实,而是引人困惑。此图中包含太多变量

清晰的问题可以有助于避免数据可视化的一个常见毛病:把不相干的事物放在一起比较。假设我们有这样一个数据集(见表1),其中包含一个机构的作者总数、出版物总数、引用总数和它们特定一年的增长率。

图1是一个糟糕的可视化案例,所有的变量都被包含在一张表格中。在同一张图中绘制出不同类型的多个变量,通常不是个好主意。

注意力分散的读者会被诱导着去比较不相干的变量。

比如,观察出所有机构的作者总数都少于出版物总数,这没有任何意义,又或者发现athenaUniversity、BravoUniversity、Deltainstitution三个研究机构的出版物总数依次增长,也没有意义。拥挤的图表难以阅读、难以处理。在有多个Y轴时就是如此,哪个变量对应哪个轴通常不清晰。简而言之,槽糕的可视化项目并不澄清事实而是引人困惑。

第2步-从基本的可视化着手

确定可视化项目的目标后,下一步是建立一个基本的图形。它可能是饼图、线图、流程图、散点图、表面图、地图、网络图等等,取决于手头的数据是什么样子。在明确图表该传达的核心信息时,需要明确以下几件事:

我们试图绘制什么变量?X轴和轴代表什么?数据点的大小有什么含义吗?颜色有什么含义吗?我们试图确定与时间有关趋势,还是变量之间的关系?

有些人使用不同类型的图表实现相同目标,但并不推荐这样做。不同类型的数据各自有其最适合的图表类型。

比如,线形图最适合表现与时间有关的趋势,亦或是两个变量的潜在关系。当数据集中的数据点过多时,使用散点图进行可视化会比较容易。

此外,直方图展示数据的分布。直方图的形状可能会根据不同组距改变,见图2。(在绘制直方图时,本质是在绘制柱状图来展示特定范围内有多少数据点。这个范围叫做组距。)

图2-当组距变化,直方图的形状也发生变化。

组距太窄会导致起伏过多,让读者只盯着树木却看不到整个森林。此外,你会发现,在完成下一个步骤以后,你可能会想要修改或更换图表类型。

第3步-确定最能提供信息指标

假设我们有另一个关于某研究机构出版物数量的数据库(见表2)。可视化过程中最关键的步骤是充分了解数据库以及每个变量的含义。从表格中可以看出,在a领域(Subjecta),此机构出版了633篇文章,占此机构全部文章的39%;相同时间内全球此领域共出版了27738篇文章,占全球总量的44%。注意,B列中的百分比累计超过100%,因为有些文章被标记为属于多个领域。

在这个例子中,我们想了解此机构在各个领域发表了多少文章。出版数量是一个有用的指标,不仅如此,与下面这些指标对照会呈现出更多信息:

此领域的研究成果总量(B列)此领域的全球活跃程度

由此,我们可以确定一个相对活跃指标,1.0代表全球平均活跃程度。高于1.0代表高于全球水平,低于1.0代表低于全球水平。用B列的数据除以D列,得到这个新的指标,见表2。

表2-用B列的数据除以D列,得到新的指标:相对活跃程度(e栏)。

第4步-选择正确的图表类型

现在我们可以用雷达图来比较相对活跃指数,并着重观察指数最高/最低的研究领域。例如,此机构在G领域的相对活跃指数最高(1.8),但是,此领域的全球总量远远小于其他领域(见图3)。雷达图的另一个局限是,它暗示各轴之间存在关系,而在本案例中这关系并不存在(各领域并不相互关联)。

图3-相对活跃指数雷达图

数据的规范化(如本例中的相对活跃指数)是一个很常见也很有效的数据转换方法,但需要基于帮助读者得出正确结论的目的使用。如在此例中,仅仅发现目标机构对某个小领域非常重视没太大意义。

我们可以把出版量和活跃程度在同一个图表中展示,以理解各领域的活跃程度。使用图4的玫瑰图,各块的面积表示文章数量,半径长短表示相对活跃指数。注意在此例中,半径轴是二次的(而图3中是典型线性的)。图中可以看出,B领域十分突出,拥有最大的数量(由面积表示)和最高的相对活跃程度(由半径长度表示)。

图4-玫瑰图。此图中各块面积表示文章数量,半径长短表示相对活跃指数(e列)。

第5步-将注意力引向关键信息

用肉眼衡量半径长度可能并不容易。由于在本例中,相对活跃指数的1.0代表此领域的全球活跃程度,我们可以通过给出1.0的参照值来引导读者,见图5。这样很容易看出哪些领域的半径超出参考线。

图5-带有相对活跃指数参考线的玫瑰图

我们还可以使用颜色帮助读者识别出版物最多的领域。如图例所示,一块的颜色深浅由出版物数量决定。为了便于识别,我们还可以把各领域名称作为标签(见图6)。

图6-玫瑰图中的颜色深浅代表出版物数量(颜色越亮,出版物越多)

大数据时代含义篇6

【关键词】记账方法;账务处理;会计信息;会计方程式;多元记账

这里研究的记账方法是狭义的概念,即以会计凭证(通常是记账凭证)为依据,运用一定的记账原理和规则,把经济业务分类记录到账簿中去的方法。现在通行的复式(借、贷)记账方法符合人们对会计信息质量特征的一般要求,也能适用于电算化处理会计信息。但由于记账符号、记账规则等方面的一些局限性,需要对其进行扩展,从而能够进一步加强对经济业务的分类处理能力,进一步发挥会计信息系统的作用。

一、记账方法的数字化

马克思说:“一种科学,只有在成功地运用数学时,才算达到了真正完善的地步。”(保尔.拉法格著马集译回忆马克思恩格斯人民出版社1973.3)从纯数学的角度看,目前通行的复式借贷记账方法至少有三个方面还没达到完全数字化,一是记账科目用文字表示,二是记账符号用“借、贷”文字符号表示;三是记账金额只利用了数轴的右半部分,只是在极少的特例情况下使用负实数。为适应新经济时代信息处理技术高度发达的要求,需改进记账方法,使之全数字化。对于记账科目,可以使用科目编号的方法来解决,下面本文着重探讨记账符号的数字化和记账金额的全(实数)数轴化。

(一)“+-”记账符号

现行复式(借、贷)记账方法的记账符号“借贷”有二种含义,一是表示记账方向,如以丁字型账户为例则是表示左方和右方;二是在一定的程度上表示记账金额的增减,如资产类账户“借”表示金额的增加,“贷”表示金额的减少,而负债或权益类账户则相反。将“借贷”数字化需满足两个条件:一是能表示记账方向,二是能表示金额增减,且无论哪一类账户所对应的增减,含义最好是一致的。记账符号数字化的实现方法大体上可分两种:第一种方法是用数字替代“借贷”。如用“0”表示“借”,用“1”表示“贷”,但这种方法仅能满足前面所提出的第一个条件,如再用于表示增减含义则过于勉强了。第二种方法是用数学符号“+-”来代替“借贷”,既可以表示记账方向,又能直观地表示金额的增减,这是一种较为理想的记账符号。

其实,“+-”记账符号并不是本人的新发明,在会计发展史上曾有不少学者提出或使用过数学符号做记账符号:前苏联索科洛夫在《会记发展》(陈亚民等译、中国商业出版社1990年)一书中曾提到:“格拉杰夫和格诺夫(保加利亚)否定账户的两面结构而解释为单方面结构,每笔记录冠以‘+’号或‘-’号;19世纪末,德国学者m.伯利纳也提出用正号‘+’代表‘积极财产’,以负号‘-’代表‘消极财产’;法国经济学派的继承人查拉波尔特认为每项业务最低限度要有两个账户,一个是正的,另一个是负的,一个给予价值,另一个获取价值,然后引进符号‘-’和‘+’以取代‘借’和‘贷’”。近二十年来,我国也有一些学者提出使用正、负数学符号作为记账方向和记账符号,如杨爱芬《记账方法》、孙思湘《关于账户按用途和结构的分类》、陈颖源《现代会计学》、田君《复式记账原理探索》、李兴让《数理簿记与电脑簿记》以及付朝选在《财务与会计》上发文提出的以“+”、“-”作符号的“正负记账法”和万仁章设计的“中国式国际通用(+)(-)记账法”等等,限于篇幅,本文不打算把上述观点一一点述,仅将其进行一个概括:上述一些论文或专著已部分提出“正财产、负财产”、“正账户负账户”等概念,并提出使用(+)(-)、“+”“-”等数学符号分别取代“资产、负债、权益”等概念和“借、贷”等记账符号,其中已有学者将其命名为“正负记账法”(付朝选1989.5)。

本文所论述的“+-”记账符号不仅仅是以数学符号“+-”替代文字符号“借贷”,而且还具有数学含义和一定的经济学含义,主要表现在以下两个方面:

1.在数学含义方面:“+-”不仅表示了记账方向,而且还可以直接表示记账金额的增减,这样就可以将传统的两栏(借方栏、贷方栏)发生额的记录与计算简化为独栏(发生额栏)的记录与加减计算。由此推论,期初与期末余额栏也不必再分借、贷方,仅用带“+-”号的金额就可以了,一般是正(+)数表示借方余额,负(-)数表示贷方余额。当然,还可以进一步简化将正数的‘+’号省略。

2.在经济学含义方面:根据“+-”记账符号数学含义,应当存在一个原点,这个原点应怎样确立呢?正(+)数和负(-)数或加减法的经济学含义又是什么呢?查相关资料,负(-)数有两种含义,一是小于零的数,二是相反的数。显然,本文所述的负数主要采用第二种含义。现代企业大多是两权分离的,从理论上讲,无论是所有权或者是经营权都可作为原点,但在实际效果方面两者有较大的差异。现在做简要的剖析:先假设以所有权为原点,企业资产(财物)为“+”,对外负债为“-”,那么自有资本是“+”还是“-”呢?若为‘+’则难以建立方程式(也称会计等式),若为‘-’又好象有点牵强附会,也不太符合数学含义上的相反数的概念。但假设以经营权为原点,则能够顺理成章,较好地应用“+-”数了。企业的资产(财物)为‘+’、对外负债为‘-’,企业的资本(或权益)则可理解为是经营者对所有者的负债(一种内债,也可理解为是一种受托的责任),这样也符合数学上的“+-”数是相反数的含义。一般情况下企业的两权分离与企业所有制没有必然联系,因此以经营权为原点来理解“+-”记账符号的数学含义是普遍适用的。也有这样一种情况,某一人既是企业的所有者又是企业的经营者,但他可把资本看作是作为经营者的他对作为所有者的他的负债,即自己欠自己的债。从实际情况来看,企业的日常管理是由经营者进行的,账务处理过程作为经营管理活动的一个组成部分,站在经营者的角度是较为合适的。下面,本文还要涉及与“+-”记账相关的一些问题,均是从经营者的角度来论述的。

(二)利用全数轴——一种更完美的会计方程式

在现行的记账方法中,几乎不涉负数,使人感觉会计好象有些厌恶负数,在故意回避负数。从数学的方面来看,只使用正数就相当于只利用了实数的一半,效率不高。其实,最早使用负数的却正是会计,而且是中国人。著名数学家卡乔里(cajori)在《数学史》(1919)中提到:最早运用负数的是中国人,他们早在公元一世纪使用红筹代表之正数,记人欠;用黑筹代表负数,记欠人。由此可看出,负数的概念(主要是负数的相反数含义)首先是在会计里而不是在数学里出现的。

在本文论述“+-”记账符号时,又在账务处理中重新引入了负数,这不仅能更加有效地运用数学,而且还可以导出一种(可能是)更加完美的会计方程式。

1.簿记中的数轴:簿记中的数轴完全可以做到和数学中的数轴完全一致。但考虑到长期以来习惯的影响(左借右贷),还是如图1所示比较容易理解些:

图中a点代表甲公司2000年“现金”期初余额300.00

图中b点代表甲公司2000年“现金”本期正方发生额50350.00

图中c点代表甲公司2000年“现金”本期负方发生额-21730.00

图中d点代表甲公司2000年“现金”期末余额28920.00

图1会计账务处理中的数轴

此数轴和数学中的数轴方向相反,以经营者经营权为原点(亦可看作为中点),左方(含左方的向左增加和右方的向左减少)为“+”,右方(含左方的向右减少和右方的向右增加为“-”)。需要提请注意的是这里所指的增加与减少是相反数意义上的。账户余额是数轴中的一个点,根据点的位置可确定账户的性质;发生额是数轴中的某一段,如方向向左则为“+”,方向向右则为“-”。

2.新的会计方程式(会计等式):从图1的数轴中可以看出,余额是数轴中的某一点,它所在的位置决定了“+-”号,与原点的距离则是余额的大小;发生额是数轴中的某一段,可等效为与原点的距离,方向向左为正(+)、向右为负(-)。根据复式记账法原理(无论采用何种记账符号),每一笔经济业务要产生一对金额(距离)相等、方向相反的两条记录,由此可导出一种新形式的会计方程式:|∑(+)发生额|=|σ(-)发生额|∑发生额=0;|σ(+)余额|=|σ(-)余额|∑余额=0。这是一种具有自动平衡性质的会计方程式表达形式,∑发生额=0、∑余额=0,多么简单明了,最简单的往往也是最完美的,因为简单之中蕴藏着丰富的内涵。∑(+)余额(或∑(-)余额)表示某一时点的经营规模;∑(+)发生额(或∑(-)发生额)表示某一时段的业务量,“+-”在这里是如此地和谐。

二、一种多元(多维)的记账方法——多元“+-”记账法

记账符号的数字化使传统的复式(借贷)记账法朝全面数字化方向迈进了一大步,但数字化的道路是漫长的,本文在此继续向前探讨。

(一)从直线平面多维立体的转变

前述的会计账务处理中的数轴是一条直线,它从一个方面(即只考虑了记账方向和记账金额,而未涉及具体分类科目)体现了复式记账的一般数学表达式。从完整的复式记账角度来看,其数学表达方式应是平面的:见图2。

图2和数学中的平面坐标图有几处不同:

1.横轴的方向相反,原点与数轴相同;

2.纵轴的方向暂无实际数值意义,上面的各点表示分类,如各级科目。

3.纵轴原点仍为0,数值无正负(目前无正负,暂且以正数表示)。假设科目以等长的数字编码表示,则纵轴的数值可用于表示科目。每一科目的余额或发生额、每一笔会计分录都可以表示为图中的某一点。

图3举例:甲公司现金科目和其他应付款科目余额、发生额图示

图3中a点代表甲公司2000年“现金(科目代码101)”期初余额300.00

图3中b点代表甲公司2000年“现金(科目代码101)”本期正方发生额50350.00

图3中c点代表甲公司2000年“现金(科目代码101)”本期负方发生额–-21730.00

图3中d点代表甲公司2000年“现金(科目代码101)”期末余额28920.00

图3中e点代表甲公司2000年“其他应付款(科目代码209)”期初余额-50000.00

图3中f点代表甲公司2000年“其他应付款(科目代码209)”本期负方发生额–-1855.00

图3中g点代表甲公司2000年“其他应付款(科目代码209)”期末余额–-51855.00

会计账务处理数轴中的一些特性及体现的会计方程式在平面坐标图中依然成立,只是将浓缩在一条直线上的各点分散至平面中去了。若各点垂直向横线集中(即不考虑各具体科目),平面坐标图可等效数轴图。

尽管平面坐标较好地表达了传统的复式记账,但随着经济业务的日趋复杂化及加强管理的需要,对经济业的分类越来越精细化和多变化了。这就带来了一个矛盾,如何在平面图中表达越来越多的各种会计信息。其实,只要能够解决经济业务的分类问题,一切就可以迎刃而解了。这些越来越多的分类可以划分为两种情况:一种是仅通过细化纵轴,即细化科目的级数就可以实现,如往来类科目、存货类科目等;另一种情况是仅通过细科目仍难以达到需求,如费用类科目、某些资产类科目(如固定资产、低值易耗品)等,为了满足管理的要求,需加上部门分类,若仅通过细化科目有时就难以满足要求:如果在明细科目之下再增设一级部门分类科目,则只能表示某一明细科目的各部门分布情况,各部门的明细科目分布情况则难以直接表示;如果改在部门的明细科目之下再设明细分类科目,虽然解决了各部门的明细科目分布情况的表示问题,但又不能直接表示明细科目下的部门分布情况(需将各部门的明细科目分别汇总),也不太符合簿记核算的常规。因此,最好能根据需要,能同时(或随时)按明细科目和部门分类处理会计信息。这样一来,前述的平面图中的两根轴,即一根量(金额或数量)轴,一根分类(主要是常规会计科目分类)轴就不够用了,只有向新的空间进军,再增加一根辅助分类轴。当然这根分类轴不仅仅是分部门用的,还可以加入管理的其他分类。于是,这里就有了两根分类轴了,一根是常规会计科目的分类轴,一根是会计管理类的分类轴(此轴属性与会计科目分类轴类似),原来的二元(二维)平面坐标图变成了三元(三维)立体坐标图了。在此种情况下,如果设想两根分类轴可以根据需求相互调换,账务处理系统就可以根据需要随时选取择任一根分类轴进行处理输出信息,当然也可同时对两种分类进行处理输出信息。三元立体坐标图如图4所示:

也许,在将来的某一天,人们发觉三元立体坐标图也难以满足需求的时候,那就向超过三元的多元立体空间进军。三元立体坐标空间中的各点可根据一定的规则投影至平面坐标图中,又可再垂直集中至数轴上(或直接投影集中至数轴上),因此,会计账务处理数轴的特性及体现的会计方程式在三元立体坐标图中依然成立。

(二)动态分类

会计信息处理的核心问题是分类,前述的多元分类基本上满足了静态分类的要求,现在还可以在此基础上更进一步,通过动态分类实现更加灵活的分类形式,使得账务处理系统具备更强的信息处理功能。所谓动态分类包含两种情况:

1.动态重组:就是说某一分组(或称分区)的综合分类代码中的各组代码的位置可以动态地重新组合。如设某一会计主体的会计科目代码为三级(三组),分别以abc表示,则动态分类的表现形式是科目代码既可能是abc(常规科目与分类),也可能是acb、bac、cab…等多种组合。显然,动态分类比固定静态分类更加灵活,某些情况下具有多元分类的功能,可减轻分类多元化的压力。实现动态重组的一般做法是将分类代码的相关明细分类组码(即需要进行动态重新组合的一些分组码)相对独立,使它们之间不存在必然的顺序关系,然后将各种组合,(一般是根据实际情况预估的一些组合)存放于一数据字典中,在信息处理时按需要用其中的某一组合。

2.动态增加:根据实际需要能动态地(随机地)增加新的分类或新的分类组合,则是更加完善的动态分类,前提是有预留空间。一般情况下,在一个会计期间内,各分类及分类组合只可增加,不可更改或删除。

(三)多元“+-”记账法

传统的复式(借贷)记账方法符合人们对会计信息质量特征的要求,其基本原理不仅适用于手工处理会计信息,也适用于计算机处理会计信息。但由于前面所述的只能对经济业务做平面(二元)静态分类的局限性,需要对其进行扩展,加强对经济业务的分类处理能力。本文所设想的这种扩展的复式记账方法可称之为多元“+-”记账法,这是一种使用“+-”记账符号、采用多元动态分类进行会计信息处理的一种扩展的复式记账方法。基本方法是:1.在记账凭记数据结构中除常规的二元分类信息(记账方向,科目)数据项之外,增加一个或数个分类信息数据项,用于记载各种新的分类信息。该数据项使用数字组码,以容纳较多的分类信息。在实际会计信息处理过程中,重新分类的经济业务的记账方向与该笔业务的常规记账方向一致;2.上述方法可实现多元静态分类,在此基础上可将含有多级分类信息的数据项,如科目或其他分类等数据项中的各级(亦可称各段,各组等)分别独立,再增加一个分类组合数据项,用于记载各种需用的分类组合。在会计信息处理实际过程中,分别调用相关的分类组合,达到灵活处理、输出的目的。在这些分类组合当中,有些是固定的,每次均需处理的,而有些则是非固定的,只是在为满足某些特殊需求而临时调用一下;3.用“+-”代替“借贷”记账符号。“+-”号不仅表示记账方向(含余额方向,“+”代替“借”、“-”代替“贷”),同时也是运算符,在登账处理时仅需独栏求和即可达到传统的分两栏分别对发生额求和后再计算余额的效果。

多元“+-”记账法与传统的复式(借贷)记账法在本质上是一致的,就是对经济业务进行各种分类处理。主要区别是:1.传统复式(借贷)记账法对经济业务只作两种类型的分类,即记账方向与科目(账户);多元“+-”记账则能够对经济业务同时作多种类型的分类,以满足不同的需要;2.传统复式(借贷)记账法只是固定的、一次性的对经济业务静态分类;多元“+-”记账法则可以动态地选择分类组合或多次增加新的分类,并且不会对之前已作的分类及处理产生影响;3.传统的复式(借贷)记账法有严格平衡关系;多元“+-”记账法视具体情况,其中有些存在平衡关系(复式分类组合),有些不存在平衡关系(单式分类组合)。有些分类组合并不是单纯为了记账,而是直接为编制报表或后续的会计管理、决策支持信息处理服务的。

多元“+-”记账法,为会计基础数据的动态分类、重组及多次的再分类,再重组提供了广阔的自由空间,使会计信息加工处理能力产生了质的飞跃。

从上面论述中可以看出,多元“+-”记账法包含并扩展了传统的复式(借贷)记账法,即传统的复式(借贷)记账法是多元“+-”记账法的一个子集。

【主要参考文献】

[1]张芳.知识经济对会计中簿记方法的挑战[j].上海会计,2001(4).

[2]文硕.复式簿记原理与”符号之争”简介[j].会计学家,1990(1).

[3]李兴让.评正负记账法与符号之争[j].会计学家,1990(2).

大数据时代含义篇7

一、立足需求,培养数学符号引入意识

数学符号引入意识是指在表示数、数量关系和变化规律时,能比较科学地引入相应的符号来表达。这里主要指引入已知数表示不变量、引入字母表示变量或特定量、引入含有字母的算式表示数量关系和变化规律等。它不仅指初次接触时能在教师引领下引入符号,更指在以后运用所学解决其他问题时能自觉地引入符号。

把生活元素融入主题情境,从情境中引出数学符号,已经成为共识。但符号只有赋予了数学意义,才能成为数学符号,生活中的符号与数学符号常常同形不同义、同形不同法。笔者认为,如果要从生活中引入,还得增添数学化环节,也就是要从数学的发展需要引入数学符号,让数学符号的引入融入到数学发展的需要中。

1.注重表达的需求

实际上,原有的表达和引入符号后形成的新的表达,都有一定的、合理的存在基础。由前者到后者,不仅有学习内容上的转变,而且有学习者心理上的认同。判断引入符号是否成功的维度有两个:一是引入后表述的问题是否更清楚,二是引入后学生能不能感悟到它的必要性。由此不难发现,需要关注表达过程与表达形式的需求。

第一,要让学生自由表达,通过质疑让学生感悟到用符号表达的价值。例如,教学用数对表示物体的位置。当学生从生活经验中的第几排、第几行入手,表达教室里某同学的位置时,产生同一位置有不同的表示方法,很难更方便表达、更准确理解的疑问,从而引出数对。

第二,要让学生通过不同表达形式之间的比较权衡利弊。例如,教学乘法分配律,有的教师怕学生死记硬背,希望他们用自己的语言与方式来表达,故不出示运算律的文字叙述。这样,学生就很难把文字叙述与符号语言进行对比,从而明晰a×(b+c)=a×b+a×c的简洁性。为此,我们可以利用已有经验,强化比较,凸显简洁。譬如,在让学生做简便计算18×27+73×18时,可以提问:你运用了什么运算律?并请学生用语言叙述一下。当学生难以表达清楚时,请他用字母来表示。这样,学生就会在无形中体会数学符号的简洁性。

2.注重思考的需求

从数学思考的过程来看,数学符号的合理引入,有助于压缩思考过程,提高有效性。从数学思考的结果来看,引入数学符号,有助于突出思考结果的本质属性,有利于进行判断与推理、分析与综合。这里的数学思考包含三个内容:首先是引入数学符号的缘由,其次是引入数学符号的过程,第三是根据引入的数学符号来解决相关问题。可见,这种数学思考的需求,必须体现在相应的学与教的过程中。但是在用字母表示公式的教学中,有两种倾向值得关注。一是忽视巩固公式时数学思考上的需求。例如,教学平行四边形面积计算时,教师能注重分层引导学生用字母表示公式,但是在运用公式做习题时,只是让学生指出平行四边形底与相应的高各是多少,而不去引导学生先想一想字母公式。二是忽视在推导新的字母公式时运用已学过的相应的字母公式。例如,在教学三角形面积的计算时,有些教师没有利用平行四边形面积计算的字母公式去引导学生获得三角形面积计算的字母公式。

二、彰显变化,建立数学符号理解意识

数学符号理解意识是指能阐述数学符号在具体情境中的含义。关于数学符号,对于“教”来讲,其顺序是“引入理解运算”;但是对于“学”而言,其顺序是“理解运算引入”,或者“理解引入”。可见,数学符号理解意识直接影响着学生的数学符号引入意识和运算意识,它是学生数学符号意识的重要基石。这里的重点有三:其一,梳理结合具体情境的各种含义;其二,赋予数学符号以具体情境;其三,对数学符号进行更换或者一般化。由此可以看出,建立数学符号理解意识,离不开数学符号形式与含义的变式训练。

1.注重形式的变化

理解数学符号,关键是对其内涵及外延的正确把握,而学生往往受数学符号形式的困扰,难以甄别。因此,若是关系式,就要用各种形式去表示,或具象化,或抽象化。例如,教学乘法分配律。可以引导学生列举25×(16+37)=25×16+25×37等整数形式,4.3×6.1-5.9×4.3=(6.1―5.9)×4.3等小数形式,×(+-)=×+×-×等分数形式,引导学生画出“长方形面积图”(见图1)等几何形式,还可以引导学生用文字或字母进行表述。

若是数,就要变换情境,或序数、或基数、或数量。例如,教学分数的意义,当学生明确的含义后,可以引导学生做以下两道题目。(1)一根木料锯成两段,第一段长米,第二段长,哪一段长一些?(2)有两根同样长的木料,第一根用去米,第二根用去,哪一根剩下的长一些?通过画图、解题,使学生明白题中米和的单位“1”各指的是什么,能不能相同,从而加深对其含义的理解。

同时,也要用字母表示数,或改变取值范围,或更改运算符号。例如,教学公因数与公倍数。先让学生做习题:16÷2=8,16和2的最大公因数是(),最小公倍数是()。再引导学生进行抽象,用字母表示数,形成如下题目并解答。(1)a÷b=8(且a、b都是不为0的自然数),a和b的最大公因数是(),最小公倍数是()。(2)b=8a(且a、b都是不为0的自然数),a和b的最大公因数是(),最小公倍数是()。

2.注重含义的变化

对于数学符号的含义,我们通常让学生在具体的生活情境中获取,导致学生获得的“含义”既具有相对的情境性、初步的独立性,又具有一定的抽象性。即学生头脑里的“含义”可能全部内容都在变化,也可能部分内容在变化。因此,加强“含义”的变式训练,有助于学生建立数学符号理解意识。

第一,要引导学生分析同一个符号的不同含义。例如,教学用字母表示。可以运用下面的题组,帮助学生对a的含义进行对比。(1)摆1个三角形,要用3根小棒;增加1个三角形,共要用5根小棒。那么,增加a个三角形,共要用小棒()根。(2)摆1个三角形,要用3根小棒;摆2个三角形,要用5根小棒。那么,摆a个三角形要用小棒()根。其中,第1小题可以填“3+2a”,也可以填“1+2(a+1)”;第2小题可以填“3+2(a-1)”,也可以填“1+2a”。这里,每一个数(含表示数的字母)、每一步算式的含义都要让学生结合题意弄清楚。不仅要明白每一题前后两式之间的联系与区别,而且要知道每一道算式所表达的规律,更要清楚两题中变量a的含义的变化。

第二,要引导学生综合各个情境的不同含义。例如,教学分数的意义。可以运用填空题“把()平均分成()份,表示这样的()份”,来引导学生根据月饼图、长方形图、长度单位图、桃子图各自表示的分数,归纳出单位“1”及分数的含义。

第三,要引导学生推理同一道算式的不同含义。例如,教学长方形面积计算。在学生学完字母公式S=a×b进行综合练习时,可以引导他们推理出a×b=S,进而推出a×b=c,再根据“单价×数量=总价”进行类推,等等。让学生明白a×b=c可以表示两个数相乘的积,也可以表示长方形面积计算公式,还可以表示其他的数量关系式。

三、把握关系,发展数学符号运算意识

数学符号运算意识主要是指主动地对含有字母的算式进行运算或推理,获得新结论,它包括能解释原式与化简结果。这里的算式,指简单的整式和简易方程。它的运算前提有二,一是掌握运算方法,二是明确对运算结果的要求。

在小学阶段,整式的化简主要集中在形如ax±bx,aπ±bπ之类,运用乘法分配律进行合并同类项;较复杂的简易方程主要有ax±bx=c,ax±b=c之类,运用等式的性质解方程。我们知道,通过有效的训练,学生能够掌握此类运算。问题主要有二:一是学生只是抽象地按规则进行运算,不去具象化思考,不去运用多种方法,不去寻找方法之间的关系;二是学生只是机械地解决此类问题,不去灵活思考结果之间的关系。换句话讲,我们要让学生把握好以上两种关系来全面发展数学符号运算意识。

1.注重方法之间的关系

就习题来讲,分析的角度和思路不同,就会形成不同的解题方法。如何呈现解题方法是教学的关键所在,让学生在解题的过程中提高运算能力是教学的重要举措。笔者认为,对于学生而言,解题方法的意义,不仅仅在于找到题目的答案,更在于发展他们的数学符号运算意识。也正因为后者,才有了对方法的发现进行教学的可能性,才有了对方法进行比较的价值,才有了对方法进行训练的必要性。

在解决一些代数问题时,绝大多数学生倾向于只是运用算术方法,或者只是运用代数方法,不去考虑同时运用它们,也不去分析解题方法之间存在的联系与区别。例如,做选择题:a+124=b+257,a与b相比,()。①a>b;②a

2.注重结果之间的关系

运算结果往往是学生解题的唯一目标,对结果过于看重,也导致学生对其认可趋向偏执。尤其是对代数式进行运算,其结果不仅可以是一个数,而且可以是一道算式,学生往往难以接受,即使认同,也是囫囵吞枣。对运算结果的有效处理,不仅可以加深学生对运算符号及其运算本身的理解,还可以加深式与形、数与符号之间的理解,更可以通过结果之间关系的分析来发展学生数学符号运算意识。

第一,通过对算理的分析,加深对结果之间区别的认识。可以让学生在解决实际问题的过程中,通过提出问题、列式、说说算式每一步的意义等数学活动,来进一步明晰数学符号运算的规则,尤其是对结果的规定性。例如下面这道习题:利民公司运来a车蔬菜,每车装5吨,供应给菜场65吨。?学生能够根据条件提出如下问题:还剩多少吨蔬菜?列出如下算式:5a-65,5(a―65÷5)。通过讨论得出结果的两种形式:5(a―65÷5)=5a-65,5(a―65÷5)=5(a-13),它们分别使用了数量关系式“公司运来蔬菜的总吨数-供应给菜场的吨数=剩下的吨数”、“每车蔬菜的吨数×供应菜场后剩下的车数=剩下的吨数”,这就是它们主要的区别所在。

第二,通过部分与整体的对比,加深对结果之间联系的认识。可以让学生分析代数式不含字母的前几项的特征,找出算法,算出结果,再类推出整个代数式的结果。例如,计算1+2+4+8+…+m。可以先让学生计算1+2+4+8+16+32+64+128,找到算法“尾数×2-1”,再推出原代数式的结果2m-1,同时把结果255与“2m-1”进行比较。也可以在教学相关例题之后的综合练习中,把例题改编成含有字母的代数式,促进学生进行类推。比如,把例题++++改编成+++++…+,让学生由例题的结果1-推出改编题的结果1-。

综上,数学符号意识可以分成数学符号引入意识、理解意识和运算意识三种,其有效生成,需要立足需要,彰显变化,把握关系。

参考文献

大数据时代含义篇8

一、加强函数概念的教学

函数是中学数学中的重要概念.它既是从客观现实中抽象出来的,又超越了千变万化的客体的个性,其内涵极为深刻,外延又极为广泛.所以它既是重点,又是难点.教学时,教师应采取以下有效的措施:

1.注意早期渗透

事实上,函数观念的培养在小学已经开始了.进入中学,随着代数式、方程的研究已渗透了这一观念.例如,含有一个字母的代数式,就可看作它所含字母的函数.这是因为,含有一个字母的代数式的值,是由这个字母所取的值唯一确定的,它符合函数的定义.因此,在代数式的教学中,要有意识地渗透函数的概念.

2.注重概念的引入

为引入函数概念,课本上讲了四个例子,教师可根据学生的实际再增加一些例子.对每个例子都要进行分析,揭示它们的共同特性:

(1)问题中所研究的两个变量是互相联系的;

(2)其中一个变量变化时,另一个变量也随着发生变化;

(3)对第一个变量在某一范围内的每一个确定的值,第二个变量都有唯一确定的值与它对应.

3.准确理解定义

课本中函数的定义包含着三层意思:

(1)“x在某一范围内的每一个确定的值”,是说自变量是在某一范围内变化的,它揭示了自变量的取值范围;

(2)“y都有唯一确定的值和它对应”,它既揭示了所研究的函数是单值函数,又反映了两个变量间有着一个相互依存的关系,即函数的对应法则;

(3)谁是谁的函数要搞清.定义中说的是“y是x的函数”.

4.不断深化概念

在几类具体函数的研究过程中,要注重把所得的具体函数与函数的定义进行对照,使学生进一步加深对函数概念的理解.

二、强化函数性质的应用

不同的函数有不同的特性,探求并掌握一个新函数的性质是我们追求的目标.在掌握函数性质的同时,要注重强化学生应用函数性质的意识.应用函数性质时还应注意以下两点:

1.借助函数解题

我们知道,代数式、方程、不等式与函数有着密切的关系,因此可构造函数,利用函数的性质解决有关的问题.例如构造二次函数研究一元二次方程根的分布问题、解一元二次不等式等.

2.利用函数解决实际问题

利用函数知识解实际问题是近几年中考出题的热点.这类题目可以培养学生综合运用知识的能力,增强学生用数学的意识.但教材中这类题目设计得较少,应根据学生的实际补充一定的例题或习题.

三、加强数学思想方法的教学

新大纲把数学思想方法纳入数学基础知识的范畴,因此要加强数学思想方法的教学.函数这一章主要体现了以下思想或方法:

配方法.这一方法要求所有的学生都要掌握.

大数据时代含义篇9

关键词:软件通信体系结构;CoRBa;FpGa;iDL编译器

中图分类号:tn915?34;tp314文献标识码:a文章编号:1004?373X(2017)14?0018?05

abstract:thesoftwarecommunicationsarchitecture(SCa)normstipulatesthattheCoRBamiddlewareshouldbeusedtorealizeintercommunicationbetweenthewaveformcomponentsrunninginthedifferentprocessors,butthereisnoiDLcompilerwhichcansupporttheCoRBamiddlewareonFpGaeffectively.therefore,aniDL?Verilogcompilerwasdesigned,whichcansupportanyiDLfilesdefinedbyusersthemselves,andgeneratetheoRBcoreandFpGacomponentframeworkcoderunningonFpGaautomaticallyaccordingtothefunctionalrequirementsofFpGacomponents,soastorealizetheCoRBacommunicationbetweenFpGacomponentsandGppcomponents.thewholestructureofiDL?Verilogcompilerisintroduced.thedesignandimplementationofthecompilerareexpoundedindetail.Sometestsforthecompilerwerecarriedout.theresultsshowthattheiDL?VerilogcompilercanparsetheiDLfilescorrectly,implementthemappingfromiDLtoVeriloglanguage,andgeneratethetargetfilesautomaticallytomakeFpGareallyhavetheabilityofCoRBacommunication.

Keywords:softwarecommunicationarchitecture;CoRBa;FpGa;iDLcompiler

0引言

软件无线电(SoftwareDefinedRadio,SDR)是一种基于通用硬件平台依靠软件实现其功能的无线电通信技术,其体系结构是通过软件通信体系架构(SoftwareCommunicationarchitecture,SCa)来定义的[1?2]。SCa采用CoRBa中间件来实现其所需的分布式计算环境[3?4],其硬件平台通常包含通用处理器(Gpp)、数字信号处理器(DSp)、可编程门阵列(FpGa)等。虽然CoRBa(公共对象请求体系结构)中间件技术在Gpp上已经广泛应用,但在DSp,FpGa等专用处理器上实现起来较为困难,目前只有oiS公司开发的oRBexpressFpGa[5]和prismtech公司开发的集成电路oRB(iCo)[6]实现了FpGa上的CoRBa通信,但考虑到国防安全问题,不允许在我国军事领域中使用[7]。基于以上考虑,为了实现FpGa上的CoRBa通信,研发了支持FpGa处理器的CoRBa中间件产品FpGa?oRB。

FpGa?oRB中间件主要包括运行在FpGa处理器上的oRB核心、客户端桩和服务器框架以及运行在pC机上的iDL?Verilog编译器,其体系结构如图1所示。其中,oRB核心用于实现客户端请求和服务器对象之间的连接,客户端的oRB核心接收被调用操作的参数并将其组码为网络可接收的格式,服务器的oRB核心将来自网络的操作参数解组,然后送给服务器来执行所调用的操作。客户端桩用于将客户端的请求编码,通过客户端的oRB发送到服务器,并把返回的结果解码后送给客户端。服务器框架负责把客户端通过oRB发过来的请求解码,通过对象操作实现,然后把结果编码后通过服务器oRB发送给客户端。客户端调用的接口和服务器实现的接口是通过接口描述语言(interfaceDefinitionLanguage,iDL)来定义的,但是与某一种具体编程语言不同,iDL是一种纯说明性语言,它只能够给出该接口的定义和每个操作要求的参数而不牵涉到具体的实现[8?9],因此要用iDL?Verilog编译器对iDL文件进行编译,然后根据解析得到的iDL文件信息修改模板文件代码,最后生成Verilog语言实现的oRB核心、客户端桩和服务器框架。可见,iDL?Verilog编译器是FpGa?oRB的关键模块,本文主要论述iDL?Verilog编译器的设计与实现。

1iDL?Verilog编译器的设计与实现

本文设计的iDL?Verilog编译器划分为三个子系统:参数解析子系统、编译前端子系统、编译后端子系统,其具体结构如图2所示。其中,参数解析子系统用于完成对用户编译命令的解析,存储编译器控制信息;编译前端子系统用于完成对输入iDL文件的解析,并生成一棵抽象语法树;编译器后端子系统用于完成对编译前端子系统生成的抽象语法树的遍历,并提取相关信息完成对输入模板文件的修改,然后生成目标文件。这种设计方式带来的好处是,可以保持参数解析子系统和编译前端子系统的代码不变,仅仅通过改变编译后端子系统的代码就可以实现针对不同处理器和开发语言的iDL编译器,这样就大大增强了iDL编译器的通用性。下面分别对三个子系统进行详细的阐述。

1.1参数解析子系统

参数解析子系统的作用是通过解析处理用户输入的命令参数以获取控制命令信息来实现对编译器的控制。文中设计的iDL?Verilog编译器需要输入的命令参数包括:源文件名、包含文件路径、输出目标代码文件路径、模板文件路径、参数传递文件路径以及帮助查询命令。

1.2编译前端子系统

编译器前端子系统主要由预处理模块、词法分析模块和语法分析模块组成。下面分别对三个模块进行详细的阐述。

1.2.1预处理模块

预处理模块的主要作用是对输入的iDL文件进行预处理,以方便词法分析模块、语法分析模块进行后续处理。其主要功能子模块包括:源文件包含处理子模块、宏定义处理子模块和条件编译处理子模块。

(1)源文件包含处理子模块。源文件包含处理子模块用来对源文件当中的“#include”语句进行解析,提取输入源文件中的包含文件;然后以包含文件的绝对路径作为输入文件递归调用预处理模块;最后按由外向内和由前向后的原则存储包含文件的绝对路径。iDL?Verilog编译器将按照存储的包含文件的绝对路径的先后顺序对相关文件逐一进行解析处理。

(2)宏定义处理子模块。宏定义处理子模块用来对源文件和包含文件当中的“#define”语句进行解析,将宏定义中的宏名存储,用于预处理模块当中条件编译的判断处理,而并不进行宏定义替换。在语法解析模块中,则会提取完整的宏定义信息,然后将基本数据类型的标识符和已存储的有效宏名进行匹配,如果匹配成功,则将该标识符替换为宏定义的字符串。

(3)条件编译处理子模块。条件编译处理子模块用来对源文件和包含文件当中的“#ifdef”,“#ifdefined”等语句进行解析,具体方法就是将参数解析模块存储的预定义变量名和预处理模块存储的宏名作为依据,对条件编译语句进行判断,找出需要编译的语句。

为了确保源文件和包含文件内容的不变性,预处理模块为每个源文件和包含文件都新建一个与之对应的临时文件。将预处理之后的源文件和包含文件存入与之对应的临时文件。词法分析模块、语法分析模块对源文件和包含文件的后续处理就转化为对临时文件的解析。当所有解析处理结束之后,iDL?Verilog编译器会删除预处理模块生成的临时文件。

预处理模块具体执行流程图如图3所示。

1.2.2词法分析模块

词法分析模块是iDL?Verilog编译器前端子系统的关键模块之一。该模块按从左往右的顺序对源文件进行扫描,在扫描的过程中会跳过空格和换行符并删除注释,将若干连续字符拼接成一个符合iDL语言的构词规则的标识符并提取,然后将提取的标识符交给语法分析模块进行后续处理,其具体过程如图4所示。

1.2.3语法分析模块

语法分析模块采用“边检查、边存储、边转换”的方式来对输入文件进行语法解析:每当语法分析模块从输入文件中检查到一种语法成分时,则调用相对应的语法解析函数对该语法成分进行解析;接着按照iDL语言的语法规则来对语法成分进行解析和检查,并在解析和检查过程中,将该语法成分的信息存储;将Verilog语言不支持的函数参数类型转换为基本数据类型,当函数参数类型为结构体时,则将其按结构体成员的数量拆分为基本数据类型,当函数参数类型为别名时,则将其与存储的别名信息对比,找出其原始基本数据类型。其具体执行流程图如图5所示。最终,一个iDL文件经预处理模块、词法分析模块和语法分析模块会生成一棵抽象语法树,该抽象语法树存储了完整的iDL文件信息[10]。每棵抽象语法树可能包含十棵子树,这十棵子树分别存储:包含文件信息、宏定义信息、常量信息、结构体信息、别名信息、异常信息、枚举信息、联合信息、接口信息、模块信息。

语法分析流程如下:

(1)判断文件是否结束,如果是则执行第(6)步,否则继续执行第(2)步。

(2)从文件中读取一个字符串。

(3)判断该字符串是否为合法字符串,如果为合法字符串,则执行第(4)步,否则执行第(5)步。

(4)判断字符串,如果字符串为函数,则调用函数解析接口进行函数信息提取和存储,并将函数参数的数据类型转换为基本数据类型存储,然后返回第(1)步继续执行;如果字符串为文件包含、属性、异常和用户定义的数据类型(宏定义、别名、常量、结构、枚举、联合),则调用相应的解析函数,完成相应信息的提取和存储,然后返回第(1)步继续执行;如果字符串为接口,则提取接口名和继承接口信息并存储,然后返回第(1)步继续执行;如果字符串为模块,则提取并存储模块名,然后返回第(1)步继续执行;如果字符串不是上面提到的任一字符串,则返回第(1)步继续执行。

(5)报告错误文件名字、错误行数和错误类型。

(6)Y束。

1.3编译后端子系统

编译后端子系统主要包括目标代码生成模块。目标代码生成模块是iDL?Verilog编译器最后一个关键模块。这一模块的主要作用是通过遍历语法分析模块生成的抽象语法树来提取接口信息,然后根据提取的信息完成对模板文件的修改来生成目标文件。

为了方便生成目标代码,本文为每一个需要更改的FpGa?oRB模板文件内容都做了注释标记,目标文件生成函数会从抽象语法树中提取相应信息对模板文件中的标记内容进行修改,并生成目标文件,这样就大大减少了目标代码生成模块的工作量。生成的目标文件按功能可以划分为:oRB模块、ioR解析模块、选择器模块、客户端桩模块、服务器框架模块、组件接口模块,其结构如图6所示。

(1)oRB模块。该模块主要用于Giop报文头、请求报文头、应答报文头的解析和封装。

(2)ioR解析模块。该模块用于解析应答报文中的对象引用(ioR),获取相应的对象密钥(objectkey)。

(3)选择器模块。该模块为选择器模块,用于报文发送和接收选择。

(4)客户端桩模块。该模块包含多个客户端桩子模块,其数量与组件端口数量相同,其主要作用是对请求报文中的函数参数进行封装以及对应答报文中的函数参数进行解析。

(5)服务器框架模块。该模块包含多个服务器框架模子模块,其数量与组件端口数量相同,其主要作用是对请求报文中的函数参数进行解析以及对应答报文中的函数参数进行封装。

(6)组件接口模块。该模块采用硬件抽象层(HaL)的接口规范[11],其主要作用是实现FpGa组件端口和FpGa?oRB之间的数据传递。

2iDL?Verilog编译器测试

本文对iDL?Verilog编译器的测试主要分为本地测试和CoRBa通信测试两个方面。

(1)iDL?Verilog编译器本地测试。iDL?Verilog编译器本地测试主要是测试iDL?Verilog编译器对iDL文件的解析处理能力。因为输入的iDL文件是无法穷举的,本文采用了等价类测试的方法来测试[12]。通过将输入的文件中的语句划分成能够覆盖iDL语法各种情况的等价类,并对每个等价类完成了测试。由于各等价类的测试步骤相同,本文仅选用了一个测试用例来介绍本地测试的过程。测试的iDL文件test.idl如图7所示,该iDL文件经iDL?Verilog编译器编译之后生成的目标文件如表1所示。测试表明,iDL?Verilog编译器能够实现对输入iDL文件的正确解析,并成功生成目标文件。

(2)CoRBa通信测试。CoRBa通信测试主要是测试表1中的目标文件能否配合的FpGa?oRB实现FpGa上的CoRBa通信。

立足于实验室的测试条件,搭建一个如图8所示的测试平台。该测试平台主要由Gpp和FpGa组成,其中,Gpp主要用来运行核心框架和Gpp波形组件a,FpGa用来运行FpGa波形组件B。Gpp采用tao进行CoRBa通信,FpGa采用表1中目标文件组成的FpGa?oRB进行CoRBa通信,GppoRB与FpGaoRB之间实际通过eLBC总线相连。

测试平台的通信过程如图9所示,上电之后,FpGa组件B也能像Gpp组件a一样通过FpGa?oRB向核心框架中的域管理器进行注册,然后域管理器对组件a进行初始化、端口连接和参数配置以完成整个波形组件的初始化;最后组件a和组件B可以通过各自的中间件向对方发送函数调用请求,并返回调用结果。测试表明,iDL?Verilog编译器生成的目标文件成功地实现了FpGa与Gpp之间的CoRBa通信。

3结语

本文根据iDL语言的语法规则,使用C语言实现了iDL?Verilog编译器。该编译器采用模块化的设计方法,⒄个编译器按功能划分为不同的子模块,可以通过改变其子模块实现不同的语言映射,大大提高了iDL编译器的通用性。同时该编译器生成的目标文件能够正确完成iDL语言到Verilog语言的映射。iDL?Verilog编译器目前已经调试通过,并作为FpGa?oRB重要组成部分实现了FpGa上CoRBa通信。

参考文献

[1]JoHnSonCR,Jr,SetHaReSwa.软件无线电[m].北京:机械工业出版社,2008.

[2]粟欣,许希斌.软件无线电原理与技术[m].北京:人民邮电出版社,2010.

[3]崔小鹏,胡中豫,张豪.SCa中CoRBa与硬件抽象层技术研究[J].现代电子技术,2011,34(6):32?35.

[4]李雅萍,杨尚森,李阳.CoRBa技术在SCa系统中的应用[J].计算机工程与设计,2008,29(16):4200?4203.

[5]BeCKwitHw,DeLLeRS,GtHompSonJ.Hardwarecommunicationsinfrastructuresupportinglocationtransparencyanddynamicpartialreconfiguration:US2008/0229326a1[p].2008?09?18.

[6]prismtech.prismtechopenfusionCoRBaproducts[eB/oL].[2013?12?10].http:///sectionitem.

[7]高宏伟.SCa系统中针对FpGa处理器的中间件关键技术研究与实现[D].长沙:国防科技大学,2011.

[8]HenninGmichi,VinoSKiSteve.基于C++CoRBa高级编程[m].北京:清华大学出版社,2007.

[9]韦乐平.CoRBa语言映射[m].北京:电子工业出版社,2001.

[10]aHoaV.编译原理[m].北京:机械工业出版社,2009.

大数据时代含义篇10

关键词大豆;农艺性状;品质性状;遗传分析

中图分类号S565.1文献标识码a文章编号1007-5739(2011)21-0055-02

GeneticanalysisonagronomictraitsandQualitytraitsofSoybean

ZHonGYiHoUZong-yunJiaoRen-haiSUnFa-ming*

(maizeResearchinstitute,JilinacademyofagriculturalSciences,GongzhulingJilin136100)

abstractadditiveanddominanteffectsbothplaycertainrolesintheinheritanceandvariationoftheagronomictraitsmeasured.plantheightwasmainlycontrolledbyadditivemaineffects.Becauseheritabilityinthenarrowsenseofplantheightwas50.8%,thetraitcouldbeimprovedbyselectinginearlygenerationsandtheimprovedeffectswerestableenvironmentally;additiveanddominanteffectsbothplayrolesintheinheritanceandvariationofthecontentproteinandoil,whoseheritabilityinthenarrowsensewas66.3%and64.2%respectively,sothetraitsshouldbeselectedinearlygenerations.isoflavonecontentwasmainlycontrolledbydominantmaineffects,sothetraitshouldbeselectedinadvancedgenerations.

Keywordssoybean;agronomictraits;qualitytraits;geneticanalysis

Brim等[1]、Hanson等、weber、胡明祥等[2]均认为蛋白质含量的遗传实质上是加性效应起作用。iShiget则认为加效效应和非加效效应对蛋白质含量都是重要的。Chauhan、陈恒鹤报道蛋白质含量的一般配合力(GCa)与特殊配合力(SCa)的方差都显著,但加性效应更重要。Verma从大豆配合力分析研究,认为性成分是主要的。Gupta等用7个品种(系)配制4个组合,对亲本及其杂交F3、F4、F5代进行了研究,认为蛋白质含量的遗传主要受显性基因控制的[2],但在JS-2Xa和pS73-7XK组合中,实质上是加性效应起作用。weber认为有3个基因控制蛋白质。iShiget认为控制蛋白质的基因数目可能有2个或3个。海妻矩彦等用乙烯亚胺(ei)处理大豆种子,获得了蛋白质含量比对照显著不同的突变品系[3]。大豆蛋白质含量是一个高度可遗传的性状,蛋白质含量较产量、脂肪含量等性状的遗传力高。weber用亲子代回归法[4]估算的F2代单株蛋白质含量的遗传力为0.70;胡明祥等[5-6]用方差分析法估算的3个组合F2代蛋白质含量的广义遗传力分别为0.46、0.55及0.62;一些研究工作者曾对F3或更高世代的材料,无论是单杂交、三交或复合杂交组合进行研究,获得蛋白质含量的广义遗传力为0.39~0.92。对于这些结果还需进一步开展具体综合的研究和探讨。

1材料与方法

1.1试验材料

供试材料选用蛋白质、脂肪和异黄酮含量差异较大(表1)的5份大豆材料,a1006、a1016、a1019、oH1015、oH1020,按Griffing完全双列杂交将5份材料配成20个杂交组合。

1.2试验方法

2007年5月将5份亲本材料,播种于吉林农业大学大豆试验田,同年7月将5份材料互作父母本,分别进行人工授粉,得到正反交杂种1代(F1和RF1);2008年将亲本、杂种1代(F1和RF1)按随机区组,种植于试验田,3次重复,2行区,行距60cm,生长期间进行田间观察记载,成熟后,每个处理取10株进行室内考种,采用包括胚(子叶)、细胞质和母体植株3套遗传体系的双子叶植物种子数量性状遗传模型和统计分析方法(Zhu和weir,1994),分析大豆籽粒中品质性状含量的试验数据。

2结果与分析

2.1大豆主要农艺性状的遗传分析

利用农艺性状的加性-显性遗传模型,大豆农艺性状的遗传方差可进一步分解为加性方差(Va)、显性方差(VD)和机误方差(Ve)。大豆各农艺性状方差分量、方差分量比率和遗传力的估计值见表1。从各农艺性状的分析结果可知,除了未测到茎粗、百粒重和产量的加性方差外,其余各项方差分量达极显著和显著水平,表明在大多数农艺性状的遗传变异中,加性主效应和显性主效应均起到一定的作用,但作用大小有所不同。株高的加性方差大于显性方差,加性和显性方差占表型方差总量的60%,而加性方差比率达50.8%,表明株高主要受加性主效应控制,可通过选育纯系品种进行改良,且异地选择有效。节数的加性方差小于显性方差,加性方差和显性方差占表型方差总量的54.1%,机误方差较大,说明节数应该在稍后世代进行选择,且受环境的影响较大。分枝数的加性方差大于显性方差,加性方差和显性方差占表型方差总量的35.8%,因此分枝数受环境因素的影响较大,应该在较高世代进行选择。荚数的显性方差大于加性方差,加性方差和显性方差占表型方差总量的21.7%,对于荚数的选择也应该在较高世代进行。茎粗、百粒重和产量均未得到加性方差,主要受显性和环境效应影响,显性方差比率分别为26%、27.2%和36.6%,因此对于茎粗、百粒重和产量应该在稍后世代进行选择。所有农艺性状的机误方差分量均达到了极显著水平,说明该试验受环境因素的影响较大。

从遗传力分析结果来看,株高的狭义遗传力较高,为50.8%,早代选择有效;其余农艺性状的狭义遗传力均在28.2%以下,异地早代选择不可靠,应该在较高世代进行。

2.2大豆主要品质性状的遗传分析

利用二倍体种子遗传模型,大豆品质性状遗传方差可进一步分解为胚加性方差(Va)、胚显性方差(VD)、细胞质方差(VC)、母体加性方差(Vam)、母体显性方差(VDm)、机误方差(Ve)。各方差分量组成见表2,其中蛋白质含量的各方差分量,只有加性效应方差达到显著水平,占遗传效应方差总量(Va+VD+VC+Vam+VDm)的55.9%;脂肪含量的各方差分量加性效应方差达极显著水平,母体加性方差达显著水平,加性效应方差(Va+Vam)占遗传效应方差总量(Va+VD+VC+Vam+VDm)的88.8%;异黄酮含量的各方差分量,只有显性方差和母体显性方差达极显著和显著水平,显性效应方差占遗传效应方差总量(Va+VD+VC+Vam+VDm)的85.5%。

综上分析可以得出,大豆的蛋白质和脂肪含量性状均是以加性效应为主,尤其是脂肪含量受加性效应影响尤为明显,而且加性效应明显大于显性效应,因此对于蛋白质和脂肪含量性状在低世代选择效果比较好。大豆的异黄酮含量性状是以显性效应为主,因此对于该性状在高世代选择效果比较好。蛋白质、脂肪和异黄酮含量的机误方差分量均达到极显著和显著水平,表明蛋白质、脂肪和异黄酮含量性状的表现除受各种遗传效应的影响外,还明显受到环境机误和抽样误差的影响,但因其值较小,因此蛋白质、脂肪和异黄酮含量性状的表现主要受制于遗传效应的表达。

2.3大豆品质性状的遗传率分析

遗传率作为度量数量性状中遗传变异占表现型变异相对比率的重要遗传参数,在数量性状遗传改良中具有重要作用。当假设不存在基因型x环境互作效应时,对于只受基因加性和显性效应控制的一些数量性状,其狭义遗传率(h2)可定义为加性遗传方差占表型方差的比率(h2=Va/Vp),可衡量基因型变异和表型变异的相对程度。由于大豆品质性状同时受控于二倍体胚核基因、细胞质基因和二倍体母体植株核基因等不同遗传体系的基因效应,其狭义遗传率可区分为包括胚遗传率(h2Go)、细胞质遗传率(h2Gc)和母体遗传率(h2Gm)在内的普通狭义遗传率(h2G)。同时在选择育种中,根据数量性状中不同遗传率分量的大小和各个遗传率分量在总狭义遗传率中的相对重要性可以采用不同选择方法。如当以母体普通遗传率和细胞质普通遗传率为主时可以以母体植株为单位进行选择,而当以胚普通遗传率为主时,则需以后代单粒种子为单位进行单粒选择才更容易取得效果。

由表3可知,大豆品质性状中蛋白质、脂肪和异黄酮含量的狭义遗传率估计值分别为66.3%、64.2%和32.5%。在不同的遗传率分量中,胚直接加性遗传率显著大于细胞质遗传率或母体加性遗传率。蛋白质和异黄酮未测到细胞质遗传率,脂肪的细胞质遗传率也达显著水平,说明对于该性状细胞质遗传也起到较大作用。脂肪和异黄酮的母体加性遗传率均为负值,说明根据母体植株的脂肪和异黄酮的总体表现进行选择不能取得较好效果。

3结论

分析结果表明,大豆的7个主要农艺性状均受到加性和显性效应的控制,3个品质性状主要受胚加性效应和胚显性效应控制外,还不同程度地受到的细胞质基因、母体植株核基因和环境机误的影响。对大豆株高的改良应在较低世代进行,而对节数、分枝数、荚数、茎粗、百粒重和产量的改良应在较高世代进行,均采用单株选择法;对蛋白质含量和脂肪含量的改良应采取单粒选择法早代选择,对异黄酮含量的改良应采用单粒选择法稍后世代选择。大豆农艺及品质性状的遗传变异中以加性效应为主,显性效应次之,显示了自花授粉作物的一个突出特征[7-8]。

4参考文献

[1]BRimCa,CoLLinSFi.maternaleffectonfattyacidcompositionandoilcontentofsoybena[J].CropSeienee,1968(8):517-518.

[2]胡明祥,于德洋,孟祥勋,等.大豆杂种后代籽粒蛋白质含量遗传研究[J].中国农业科学,1984,6(6):40-44.

[3]SHiCH,wUJG,LoUXB,etal.Geneticanalysisoftransparencyandchalkinessareaatdifferentfillingstages.ofrice(oryzasativaL.)[J].FieldCropsResearch,2002(76):1-9.

[4]HaYmanBi.thetheoryandanalysisofdiallelcrosses[J].Genetics,1954(39):789-809.

[5]YanXF,SUSY,XUYH,etal.GeneticinvestigationofcontributionsofembryoandendospermgenestomaltkolbaⅠchindex,alpha-amylaseactivityandwortnitrogencontentinbarly[J].theorapplGenel,1998(96):709-715.

[6]胡明祥.大豆籽粒脂肪的遗传改良[J].中国油料,1989(2):82-85.