《分析化学》章末总结3

第三章总结,这章有很多统计学相关的计算式。

3 分析化学中的误差与数据处理

3.1 分析化学中的误差

误差有两种表示方法:绝对误差(absolute error, EE)和相对误差(relative error, ErE_r)。

绝对误差是测量值(measured value, xx)与真实值(true value, xTx_T)之间的差值,即

E=xxTE = x - x_T

相对误差是指绝对误差相当于真实值的百分率,即:

Er=ExT×100%E_r = \frac {E} {x_T} \times 100 \%

绝对误差表示测量值与真实值的接近程度,误差越小,准确度越高;相对误差反映的是误差占真实值的比例,因此在绝对误差相同的情况下,待测组分含量越高,相对误差越小。

对试样进行多次平行测定,此时通常用偏差来衡量所得结果的精密度。偏差(deviation, dd)表示测量值与平均值(mean, x\overline x)的差值,即

d=xxd = x - \overline x

显然这些偏差有正有负,还有一些偏差可能为0。如果将各单次测定的偏差相加,其和应该为0或接近0,即:

i=1ndi=0\sum^n_{i=1} d_i = 0

为了表明分析结果的精密度(precision),将各单次测定偏差的绝对值平均,称为单次测定结果的平均偏差(d\overline d):

d=1n(d1+d2++dn)=1ni=1ndi\overline d = \frac {1} {n} (|d_1| + |d_2| + \cdots + |d_n|) = \frac {1} {n} \sum^n_{i=1} |d_i|

平均偏差代表一组测量值中任何一个数据的偏差,没有正负号,在平行测定次数不多时常用平均偏差来表示分析结果精密度。

单次测定结果的相对平均偏差(dr\overline d_r)为:

dr=dx×100%\overline d_r = \frac {\overline d} {x} \times 100\%

当测定次数较多时,常使用标准偏差(standard deviation, ss)或相对标准偏差(relative standard deviation, RSD, srs_r)来表示一组平行测定值的精密度,单次测定的标准偏差表达式为:

s=i=1n(xix)2n1s = \sqrt{\frac {\sum\limits^n_{i=1}(x_i - \overline x)^2} {n-1}}

相对标准偏差也称变异系数:

sr=sx×100%s_r = \frac {s} {\overline x} \times 100\%

偏差也可用全距(range, RR, 也称极差)表示,它是一组测量数据中最大值与最小值之差。

评价一种分析方法首先要看准确度如何,准确度(accuracy)表示测量值与真值的接近程度,因此应该用误差来衡量。误差越小,分析结果的准确度越高。

精密度表示几次平行测定结果之间的相互接近程度,用偏差来衡量。偏差越小,精密度越好。

精密度很高,测定结果的准确度不一定高,可能有系统误差存在;精密度低,说明测量结果不可靠,此时考虑准确度就没有意义了,即使平均值很接近真值,也可能只是偶然结果。在确认消除系统误差的情况下,可用精密度表达测定准确度。

误差可分为系统误差(systematic error)和随机误差(random error)。

理论上系统误差是可以测定的,可分为方法误差、仪器和试剂误差、操作误差、主观误差等。而随机误差亦称偶然误差,它是不能避免和加以校正的,但是测量次数足够多时误差服从统计规律,因而可以用数理统计方法来处理。

公差是生产部门对分析结果误差允许的一种限量,由于各种实际情况要求和分析方法限制,公差范围各有不同。

误差在运算过程中会传递到分析结果中,所以需要做误差传递处理。

对于系统误差,加减运算中的误差等于各测量值的绝对系统误差的代数和(系数有关)、乘除运算中的误差等于各测量值相对系统误差的代数和、指数运算中的误差等于测量值相对系统误差的指数倍、对数运算中的误差等于相对系统误差的0.434倍(系数有关)。

对于随机误差,常用标准偏差ss来表示,加减运算中的偏差等于各测量值的标准偏差的平方和(系数平方有关)、乘除运算中的误差等于各测量值相对标准偏差的平方和、指数运算中的误差等于测量值相对标准偏差的指数倍、对数运算中的误差等于相对标准偏差的0.434倍(系数有关)。

不需要严格定量计算,只需要通过简单方法估计一下整个过程可能出现的最大误差时,可用极值误差来表示。加减运算中,分析结果可能的极值误差是各测量值绝对值误差的绝对值之和、乘除运算中,分析结果的极值相对误差等于各测量值相对误差的绝对值之和。

3.2 有效数字及其运算规则

用来表示量的多少,同时反映测量准确程度的各数字称为有效数字(significant figure)。具体点说,有效数字就是在分析工作中实际上能测量到的数字。

确定有效数字时,必须记一位不确定的数字,且只能记一位;不能因为变换单位而改变有效数字的位数;取对数时有效数字位数却决于小数部分数字的位数,整数部分只代表该数的方次。

处理数据时,舍弃多余数字的过程称为数字修约(rounding data),按照国家标准采用“四舍六入五成双”规则。

四舍六入易于理解,当被修约的数字等于5时,应让修约后的末尾为偶数,也就是说,前一位已经是偶数则舍去,是奇数则进位。特别的,若5的后面还有不为0的任何数,则不考虑前一位数的奇偶,都进位。

在运算过程中,先作修约再计算。几个数据相加减时,应以小数点后位数最少的数据为准,其他数据修约到这一位;几个数据相乘除时,应以有效数字位数最少的数据为准,其他数据修约到这一位。

0.0121+25.64+1.057820.01+25.64+1.06=26.710.0121 + 25.64 + 1.05782 \Rightarrow 0.01 + 25.64 + 1.06 = 26.71

0.0121×25.64×1.057820.0121×25.6×1.06=0.3280.0121 \times 25.64 \times 1.05782 \Rightarrow 0.0121 \times 25.6 \times 1.06 = 0.328

在乘除法的运算中,经常会遇到9以上的大数,它们的相对误差的绝对值约为0.1%,所以通常将它们当作四位有效数字的数值处理。

通常使用计算器计算时,不需要对每一步的数据进行修约,只需对最后结果修约处理即可。

3.3 分析化学中的数据处理

测量次数无限多时,其标准偏差称为总体标准偏差(population standard deviation),用符号σ\sigma表示,计算式:

σ=i=1n(xiμ)2n\sigma = \sqrt {\frac {\sum \limits^n_{i=1} (x_i - \mu)^2} {n}}

其中μ\mu为总体平均值(population mean),为数据无限多时多次测定的平均值:

limn1ni=1nxi=μ\lim_{n \rightarrow \infty} \frac {1} {n} \sum^n_{i=1} x_i = \mu

在确认消除系统误差的前提下总体平均值就是真值xTx_T,此时总体平均偏差为:

δ=i=1nxiμn\delta = \frac {\sum\limits^n_{i=1} |x_i - \mu|} {n}

测量数据往往符合正态分布(normal distribution)规律,如:

正态分布曲线数学表达式如下:

y=f(x)=1σ2πe(xμ)2/2σ2y = f(x) = \frac {1} {\sigma \sqrt {2\pi}} e^{-(x-\mu)^2/2\sigma^2}

yy表示概率密度(probability density),xx表示测量值,μ\mu是总体平均值,σ\sigma是总体标准偏差。σ\sigma小,数据精密度好,曲线瘦高;σ\sigma大,数据分散,曲线较扁平。xμx - \mu表示随机误差,若以xμx - \mu作横坐标,则曲线称为随机误差的正态分布曲线。

对其变形得到不含μσ\mu和\sigma的标准正态分布曲线,仅与新引入的变量uu有关,因此更加便于使用,可直接查表获得相关概率。

对于有限次的测量而言,多个样本分别多次计算所得的标准偏差sxs_{\overline x}比单个样本多次计算所得标准偏差ss更小,且符合如下关系:

sx=sns_{\overline x} = \frac {s} {\sqrt n}

平均值的标准偏差与测量次数的平方根成反比,这说明平均值的精密度会随着测量次数的增加而提高。

测量数据不多时,无法求得总体平均值μ\mu和总体标准偏差σ\sigma,只能用标准偏差ss来测量数据分散状况。因此为了衡量这一步转换引起的误差,必须要用一个新的因子代替uu,称为置信因子tt

t=xμsxt = \frac {\overline x - \mu} {s_{\overline x}}

tt为统计量的分布称为t分布,与正态分布曲线很相似,t分布曲线下方一定区间的积分面积就是随机误差的出现概率,但是t分布曲线的积分面积还与自由度(degree of freedom)ff有关,可查表查出对应自由度的误差概率,置信度(confidence)PP表示在某一个t值时,测定值落在(μ+ts)(\mu + ts)的概率;落在此范围之外的概率称为显著性水准(significance level),用α\alpha表示。

对于实际测量中的少量数据,需要用t分布进行统计处理:

μ=x±tsn\mu = \overline x \pm \frac {ts} {\sqrt n}

以平均值x\overline x为中心,包括总体平均值μ\mu在内的可靠范围,称为平均值的置信区间(confidence interval)。一般置信区间不能太窄或太宽,置信度常定在90%或95%。

3.4 显著性检验

通过t检验法和F检验法可以检验出分析结果之间是否存在显著性差异,若存在,说明可能有系统误差影响。

一种方法是t检验法,它常用来进行平均值与标准值的比较。首先计算出t的值:

t=xμsnt = \frac {|\overline x - \mu|} {s} \sqrt n

根据表格查出相应的tα,ft_{\alpha,f}值,若t值大于表格中t值,说明x\overline xμ\mu之间存在显著性差异,则该分析方法存在系统误差;反之则认为是随机误差。

若要比较两组平均值,先使用F检验检验两组数据的精密度,再用t检验法检验两组平均值有无显著性差异。

F检验法是通过比较两组数据的方差s2s^2,以确定它们的精密度是否有显著性差异的方法。F的定义为两组数据方差的比值:

F=s2s2F = \frac {s^2_大} {s^2_小}

根据表格查出相应的F值,若F值大于表格中F值,说明两组数据的精密度存在显著性差异(一定置信度下);反之则不存在显著性差异。

当已知一组数据的精密度高于/低于另一组时,常用单侧检验;若未知,常用双侧检验,其显著性水平为单侧检验的两倍。

3.5 可疑值取舍

对于一些偏差较大的极端数据,需要使用一定的方法来判断这写数据是否能够舍去,常见方法有4d4\overline d法、Q检验法、和Grubbs法。

  • 4d4\overline d法:偏差超过4d4\overline d的数据通常可以舍去。该法不需查表,比较简单,但是存在较大误差。首先应求出除可疑值外的其余数据的平均值x\overline x和平均偏差d\overline d,然后将可疑值与平均值进行比较,若差值大于4d4\overline d,则将可疑值舍去,否则保留。
  • QQ检验法:首先按照从小到大的顺序排列,然后计算Q:Q=xnxn1xnx1Q = \frac {x_n - x_{n-1}} {x_n - x_1}Q=xnx1xnx1Q = \frac {x_n - x_1} {x_n - x_1}。然后查表比较,若Q值大于表格中Q值,说明可疑值可以舍去;否则不能舍去。
  • Grubbs检验法:首先按照从小到大的顺序排列,然后计算T:T=xx1sT = \frac {\overline x - x_1} sT=xnxsT = \frac {x_n - \overline x} {s}。然后查表比较,若T值大于表格中T值,说明可疑值可以舍去;否则不能舍去。

3.6 回归分析法

各测量点不可能全部符合某条直线方程,需要用数理统计的方法找到一条接近于各测量点的直线,它对所有测量点来说误差是最小的,因此这条直线是最佳的标准曲线。

回归直线与所有实验点的误差平方和为:

Q=i=1nQi=i=1n[yi(a+bxi)]2Q = \sum^n_{i=1} Q_i = \sum^n_{i=1}[y_i - (a+bx_i)]^2

为使回归方程最接近实验点的真实分布状态,要求QQ必须为最小值,因此可推导出a和b的计算式:

a=i=1nyibi=1nxin=ybxa = \frac {\sum\limits^n_{i=1}y_i - b\sum\limits^n_{i=1}x_i} n = \overline y - b \overline x

b=i=1n(xix)(yiy)i=1n(xix)2b = \frac {\sum\limits^n_{i=1}(x_i - \overline x)(y_i - \overline y)} {\sum\limits^n_{i=1}(x_i - \overline x)^2}

确定直线截距a和斜率b后,一元线性回归方程(regression equation)和回归直线就确定了。

求得的回归直线不一定都有意义,此时可以用相关系数(correlation coefficient,rr)来检验,相关系数的定义为:

r=i=1n(xix)(yiy)i=1n(xix)2i=1n(yiy)2r = \frac {\sum\limits^n_{i=1}(x_i - \overline x)(y_i - \overline y)} {\sqrt {\sum\limits^n_{i=1}(x_i - \overline x)^2 \sum\limits^n_{i=1}(y_i - \overline y)^2}}

r的取值范围在0至1之间,越趋近1说明数据的线性关系越好,反之则线性关系越差。

以相关系数判断线性关系的好或不好时,还应考虑测量的次数以及置信度。

3.7 提高分析结果准确度的方法

要减少分析过程中的误差,可以从以下几个方面考虑:

  • 选择合适的分析方法,对于不同精度的测定应当选择不同的测定方式。还应考虑试样中待测组分的相对含量、试样组成等。
  • 减少测量误差,如测量时试样质量/体积不能太小,注意使测量的准确度与分析方法的准确度相适应。
  • 消除系统误差,常采用对照试验、空白实验、校准仪器、校正分析结果等方式。
  • 减少随机误差,增加平行测定次数等。

总结

太多了,写了一个周了。不过很多内容其实不很重要,基本上是会用就行的程度。


2023.3.31

增加一个图表,修改部分内容。


《分析化学》章末总结3
http://argon-gas.top/p/35336.html
作者
Sun
发布于
2023年3月11日
许可协议