第1章绪论
本章主要围绕测量数据的特点、测量数据的性质和测量数据的误差进行介绍,论述测量数据处理的数学方法,阐述本书研究的理论问题和应用问题,包括拟解决的关键理论问题和技术问题.
1.1数据简介
俄国化学家门捷列夫计量科研院前院长德米特里 伊万诺维奇 门捷列夫曾说过:“没有测量,就没有科学.”科学离不开测量,同样人类的其他活动也离不开测量,可以说测量是人类认识自然、改造自然、利用自然的主要工具.从中国大禹治水、古埃及人修整尼罗河两岸的农田、法国米制委员会确定地球子午线长度到中国的嫦娥探月,都离不开测量.测量的直接结果就是数据,称之为测量值.测量值形形色色,繁繁种种,但不管怎么繁多,我们都可以将测量数据或测量值分为两类:一类是计数值,另一类是计量值.
只能用整数表示测量结果的测量值称之为计数值.计数值的单位不是国际单位制(SI)单位,也不是我国法定计量单位.如人和衣服只能用整数表示,1个人、1件衣服等都是计数值,“个”“件”都不是国际单位,也不是我国法定计量单位.产品质量的测量结果有时采用计数值表示,如不合格品数、合格品数、次品数、缺陷数等,这些都是用于测量产品质量的指标.同样,合格率、不合格率等用百分比表征产品质量的数值,也都属于计数值的范畴.
可以用无限分隔的小数表示测量结果的测量值称为计量值.计量值可以用有效数字表示,小数点后面的位数理论上可无限多,实际的位数多少,视测量环境和测量精度的要求而定,计量值也可以是整数.计量值的单位应是国际单位制单位,在我国则应是法定计量单位.如电流强度1.5A、1.0A、1A都是计量值,土地面积1000m2是计量值.采用非国际单位制单位或非法定计量单位的测量值,可通过单位换算,转化为计量值.国际单位制单位和我国法定计量单位制单位的使用可参考国际计量局(Bureau International des Poids et Measures,BIPM)相关标准和我国的计量法规.计量值小数点后的位数代表着测量结果的精度,不能随意增减,哪怕*后1位是零也必须保留,如上所述1.0A和1A,数值相同,但精度不相同,前者的精度要高于后者.计量值小数点后面的位数运算及取舍,有专门的计算标准和规则(费业泰,2015),应参照执行.计量值又简称为量值,它是由数值和单位相乘构成,缺一不可,在计量领域通常把测量值称为量值.
无论是计数值,还是计量值,凡是测量数据都分为两类,一类是确定性数据;另一类是不确定性数据,即随机数据.确定性测量数据,是指测量对象的真值是已知的,如三角形的内角之和为180°,或测量出的结果就是真值且不变化;不确定性测量数据,是指测量对象的真值未知,测量出的结果无法知道是不是真值,而且每次测量的结果一般不尽相同.确定性的测量结果在实践中是少之又少的,除非按某种规则约定,称之为约定真值,如光速299792458m/s就是约定的真值.实践中,绝大多数的测量值都是不确定的,即都是随机性测量值.
所以,本书要处理的测量数据是随机性测量数据,包括随机性计数值和随机性计量值.对测量数据处理的目的,是找出相关规律、发现相关结果和结论,计算相关参数和指标,并做出相关判断.要从测量数据获取上述结果,就必须用数学方法.处理随机数据的数学方法一般分为两类,一类是单值随机数据处理方法,又称“点”值随机数据处理方法;另一类是多值或数组随机数据处理方法,又称“线”值随机数据处理方法,这里的多值或数组描述的是某一过程,而不是一个随机点.
单值随机数据处理的数学方法是概率统计,多值随机数据处理的数学方法是随机过程理论.
凡是测量数据都有误差,这是测量公理.误差有大有小,应消除或削弱其影响.误差分为三种:一是粗大误差,简称粗差;二是系统误差,简称系差;三是随机误差,或称偶然误差.粗差是由误操作或不满足测量条件进行测量造成的误差,其本质是一种测量错误,含有粗差的测量数据,称之为异常数据,或异常值,测量数据中不容许异常数据存在,发现异常数据应剔除,数据处理第一项工作是判别异常数据,有专门的数学方法判别异常数据,如拉依达准则、格拉布斯准则等(费业泰,2015).系统误差是由测量环境中系统的影响因素产生的有规律误差,如砝码由于制造的原因,比标称值多0.1g,这一误差在一个时期内会不变,称之为固定系统误差,每使用一次该砝码就会产生0.1g误差,多数系统误差具有累积效应,若没有发现和修正,则会产生很大的影响,甚至是灾难性的后果,因此,若发现测量数据中有系统误差,一定要把系统误差的规律找出来,并对数据进行修正.系统误差是由人(测量人员)、机(机器、设备等)、料(材料)、法(测量方法、加工方法等)、环境(测量环境、加工环境、运输环境、贮藏环境等)等系统性变化造成的,所以在进行测量时一定要遵守测量规程和相关要求(如检定规程和校准规范等),使系统误差得到有效控制.当测量数据不含有粗大误差和系统误差时,测量数据为纯粹的随机数据,即测量数据中只含有随机误差,随机误差是由人、机、料、法、环境等因素的微小变化综合影响造成的,是以不可预知的方向发生微变化,无法消除,随机误差表面上呈现出无规律变化,但大量的数据则显现出概率统计规律.本书要处理的测量数据,是用概率统计方法处理的随机测量数据,这些随机测量数据主要来自两个领域:一是计量领域;二是质量领域.
1.2处理的基本模式
如上所述,本书研究的测量数据是不包含粗大误差和系统误差的随机数据,主要用概率统计理论与方法进行数据处理.概率统计理论与方法进行数据处理时,*佳的方法是能够获取测量数据所服从的概率分布,若能掌握测量数据服从的概率分布,就可以通过积分等方法获取测量数据的统计特征值;若测量数据的概率分布未知时,一是设法求得测量数据所服从的概率分布;二是获取离散型概率分布的估计模型,即用频率统计的方法获取测量数据的统计特征值.如上所述,本书的测量数据主要来自两个领域,一是计量领域,对计量检定、校准、测试的数据进行处理;二是质量领域,对产品质量检测的数据进行处理.
1.2.1概率分布已知的情景
当测量数据所服从的概率分布完全确定时,可按概率统计的定理公式计算测量数据的统计特征值.本书所述概率分布完全确定指的是概率分布函数或模型、公式确定,且概率分布函数或模型、公式的参数完全已知.测量数据有一维(或一元)和多维(或多元)之分.测量数据是一维的(或一元的)是指被测量只有一个,如被测量是桌子长度,测量对象是桌子长度,只对桌子长度进行测量即可;若测量数据是多维的(或多元的),是指被测量是由多个可直接测量的量所决定的,如测量一个长方体的体积,该体积是由长方体的长、宽和高所确定的,体积是被测量,长、宽和高是可直接测量的量,被测量是由这三个直接测量的量所决定的,此时,被测量称为间接测量的量,它的量值是随机的,是由三个随机测量值所决定的,测量数据是三维的(或称三元的).已知概率分布的情景下测量数据处理,通常分为三种情况,即分为一维、二维和多维进行讨论.
1.2.1.1一维随机测量数据
被测量可通过直接测量获得,即被测量就是直接量.设y代表被测量的量值,x是直接量的量值,则有yi=xi,i=1,2, ,n,即对y进行n次的直接测量.
1)概率分布函数和概率密度函数
设被测量Y的概率分布函数为F(y),直接测量的量X的概率分布函数为F(x),F(y)=F(x),若存在某非负可积函数f(y)或f(x),y∈(-∞,+∞)或x∈(-∞,+∞),使对一切实数y或x,均有其中,f(y),y∈R为被测量Y的概率密度函数;f(x),x∈R为直接量X的概率密度函数.
2)数字特征
被测量的数字特征是描述被测量统计特征的关键参数,对于一维随机变量而言,主要的数字特征有k阶原点矩和k阶中心矩.
(1)k阶原点矩.
Y的k阶原点矩记为E(Yk),k=1,2, ,m,或X的k阶原点矩记为.
当k=1时,有
或
其中,E(Y)是Y的数学期望,是Y的测量真值ay;E(X)是X的数学期望,是X的测量真值ax.
(2)k阶中心矩.
Y的k阶中心矩记为,k=1,2, ,m,或X的k阶中心矩记为,k=1,2, ,m.
当k=2时,有
或
其中是Y的方差D(y),称为Y的标准差
是X的方差D(x),称为X的标准差
1.2.1.2二维随机测量数据
当被测量由两个直接量确定时,且两个直接量为随机变量,此时,被测量为间接测量的量.
设y代表间接测量的量值,x1是第一个直接测量的量值,x2是第二个直接测量的量值,y=h(x1,x2)
1)概率分布函数和概率密度函数
设二维随机变量(X1,X2)的概率分布函数为F(x1,x2),若存在某一非负可积函数f(x1,x2),使对于任意实数x1,x2均有则称(X1,X2)为二维连续型随机变量,且f(x1,x2)为(X1,X2)的概率密度函数或概率密度,或称X1和X2的联合概率密度.
设G平面上的一个区域,则二维连续型随机变量(X1,X2)落在G内的概率是概率密度函数f(x1,x2)在区域上的积分,即
2)数字特征
对二维随机变量而言,主要的数字特征有k阶原点矩、k阶中心矩、k+l阶混合原点矩、k+l阶混合中心矩.X1,X2的k阶原点矩和k阶中心矩前面有所描述,不再重复,这里主要介绍X1,X2的混合原点矩和混合中心矩.
(1)X1与X2的k+l阶混合原点矩.
当k=1,l=0时,
当k=0,l=1时,
(2)X1与X2的k+l阶混合中心矩.
二维随机变量*常用的数字特征是X1与X2的协方差Cov(X1,X2),尤其是由Cov(X1,X2)计算出来的X1与X2的相关系数ρ12:
ρ12是表示X1与X2线性相关程度的指标.
展开