数学技术之常用算法篇:统计计算(一)
张建中
2017年05月27日
(1)统计计算概述
统计计算(statistical computing),又称概率统计计算、计算统计或计算机统计,是概率论、数理统计和应用统计、数学和计算机科学等学科之间的交叉性、边缘性、融合性和应用性的计算数学的一个分支,数学技术中的一类常用算法。
统计计算早已有之,和概率统计有着同样长的发展史,只是由于计算机的出现和网络技术的发展,解决了巨量计算、海量数据采集、存贮和传输等困难,才得到了较快发展和大量应用。统计计算软件的发展和普及,同计算机图形、图表及数据库等数学技术的有机结合,计算机网络的发展使全球数据得以共享,进一步推动了统计计算的快速发展和广泛应用。
统计计算,研究如何根据实际问题提出的要求,利用概率统计中提供的数学模型,计算数学中提供的有效算法及其自身发展起来的一些特别有效的算法,对数据进行统计分析,挖掘其中隐含的信息和知识,对问题做出科学的分析、合理的分类、可用的预测和辅助性决策,给出实际问题的统计描述和统计控制等结果。因此,现在组成了大数据处理中很重要的一类算法。
统计计算是处理海量数据的科学,是用海量计算替代理论公式推导的一组工具,开辟了统计理论和算法研究的一条新途径、一类新方法。
统计计算研究的主要范围包括海量数据的处理和分析,如数据预处理、数据分析计算、数据挖掘计算、多元统计分析计算、时序分析计算,随机模型模拟的蒙特卡罗方法,在计算机上实现具体计算的软件等多个相互关联的方面。同时,利用计算机高速实现数值运算和逻辑运算的特点,推出了一系列和传统统计计算不同的算法,如各种探索性数据分析算法、非参数统计算法、稳健性统计算法,神经元网络算法,遗传性搜索算法和再抽样算法等等,大大丰富和增强了统计计算处理实际问题的能力。现对其所含内容简介如下:
随机数据的统计分析计算
在计算机上,对实际问题中给出的一组试验观测数据或概率统计模型的随机模拟数据x1,x2?,…,xn?进行分析计算。这里,xi=(xi1,xi2,…,xim),(i=1,2,…,n;m≧1) 表示在第i次试验中或第i次模拟中得到的观测数据,可以是一个标量 (m=1),也可以是一个向量(m>1)。根据xi所含变量个数m的不同(m=1或m>1)和各次观测模拟之间是否统计相关或相互独立,在分析计算时使用不同的概率统计模型和不同的概率统计算法。对各次观测或模拟间相互独立的随机数据,有一元(m=1)和多元(m>1)统计分析计算之分;对相关性的观测数据,有处理平稳随机数据的数字时间序列分析计算,处理突发随机事件的随机点过程计算,处理状态离散的马尔可夫链计算和处理各种观测系统的数字滤波计算等。
对一组给定的随机观测数据{xi}进行统计分析计算,重要的是选择恰当的概率统计模型和有效的进行统计分析计算的算法。以对多元数据进行统计分析计算为例,目的各有不同:有的要求对观测变量之间进行调整,使它们之间可以进行平衡和便于比较;有的要求在不影响结果的精度和可靠度的条件下,降低观测数据的维数,化简问题的结构;有的要求按照一定的标准,对数据进行分类或分组;有的要求给出观测数据的方程或方程组,用这类模型解释因变量的变异,预测系统的未来可能取值等等。因此,在多元分析计算中,不仅要明确进行分析计算的目的和观测数据{xi}自身的一些性质和特点,而且还要了解各种不同的多元统计分析模型及其相应算法的特点。在多元统计分析计算中,进行统计分析的主要目的、相应可用的统计模型及其常用算法如图所示(箭头指示出可选用的统计模型)。