《分析化学》章末总结3

第三章总结,这章有很多统计学相关的计算式。

3 分析化学中的误差与数据处理

3.1 分析化学中的误差

误差有两种表示方法:绝对误差(absolute error, $E$)和相对误差(relative error, $E_r$)。

绝对误差是测量值(measured value, $x$)与真实值(true value, $x_T$)之间的差值,即

$$
E = x - x_T
$$

相对误差是指绝对误差相当于真实值的百分率,即:

$$
E_r = \frac {E} {x_T} \times 100 %
$$

绝对误差表示测量值与真实值的接近程度,误差越小,准确度越高;相对误差反映的是误差占真实值的比例,因此在绝对误差相同的情况下,待测组分含量越高,相对误差越小。

对试样进行多次平行测定,此时通常用偏差来衡量所得结果的精密度。偏差(deviation, $d$)表示测量值与平均值(mean, $\overline x$)的差值,即

$$
d = x - \overline x
$$

显然这些偏差有正有负,还有一些偏差可能为0。如果将各单次测定的偏差相加,其和应该为0或接近0,即:

$$
\sum^n_{i=1} d_i = 0
$$

为了表明分析结果的精密度(precision),将各单次测定偏差的绝对值平均,称为单次测定结果的平均偏差($\overline d$):

$$
\overline d = \frac {1} {n} (|d_1| + |d_2| + \cdots + |d_n|) = \frac {1} {n} \sum^n_{i=1} |d_i|
$$

平均偏差代表一组测量值中任何一个数据的偏差,没有正负号,在平行测定次数不多时常用平均偏差来表示分析结果精密度。

单次测定结果的相对平均偏差($\overline d_r$)为:

$$
\overline d_r = \frac {\overline d} {x} \times 100%
$$

当测定次数较多时,常使用标准偏差(standard deviation, $s$)或相对标准偏差(relative standard deviation, RSD, $s_r$)来表示一组平行测定值的精密度,单次测定的标准偏差表达式为:

$$
s = \sqrt{\frac {\sum\limits^n_{i=1}(x_i - \overline x)^2} {n-1}}
$$

相对标准偏差也称变异系数:

$$
s_r = \frac {s} {\overline x} \times 100%
$$

偏差也可用全距(range, $R$, 也称极差)表示,它是一组测量数据中最大值与最小值之差。

评价一种分析方法首先要看准确度如何,准确度(accuracy)表示测量值与真值的接近程度,因此应该用误差来衡量。误差越小,分析结果的准确度越高。

精密度表示几次平行测定结果之间的相互接近程度,用偏差来衡量。偏差越小,精密度越好。

精密度很高,测定结果的准确度不一定高,可能有系统误差存在;精密度低,说明测量结果不可靠,此时考虑准确度就没有意义了,即使平均值很接近真值,也可能只是偶然结果。在确认消除系统误差的情况下,可用精密度表达测定准确度。

误差可分为系统误差(systematic error)和随机误差(random error)。

理论上系统误差是可以测定的,可分为方法误差、仪器和试剂误差、操作误差、主观误差等。而随机误差亦称偶然误差,它是不能避免和加以校正的,但是测量次数足够多时误差服从统计规律,因而可以用数理统计方法来处理。

公差是生产部门对分析结果误差允许的一种限量,由于各种实际情况要求和分析方法限制,公差范围各有不同。

误差在运算过程中会传递到分析结果中,所以需要做误差传递处理。

对于系统误差,加减运算中的误差等于各测量值的绝对系统误差的代数和(系数有关)、乘除运算中的误差等于各测量值相对系统误差的代数和、指数运算中的误差等于测量值相对系统误差的指数倍、对数运算中的误差等于相对系统误差的0.434倍(系数有关)。

对于随机误差,常用标准偏差$s$来表示,加减运算中的偏差等于各测量值的标准偏差的平方和(系数平方有关)、乘除运算中的误差等于各测量值相对标准偏差的平方和、指数运算中的误差等于测量值相对标准偏差的指数倍、对数运算中的误差等于相对标准偏差的0.434倍(系数有关)。

不需要严格定量计算,只需要通过简单方法估计一下整个过程可能出现的最大误差时,可用极值误差来表示。加减运算中,分析结果可能的极值误差是各测量值绝对值误差的绝对值之和、乘除运算中,分析结果的极值相对误差等于各测量值相对误差的绝对值之和。

3.2 有效数字及其运算规则

用来表示量的多少,同时反映测量准确程度的各数字称为有效数字(significant figure)。具体点说,有效数字就是在分析工作中实际上能测量到的数字。

确定有效数字时,必须记一位不确定的数字,且只能记一位;不能因为变换单位而改变有效数字的位数;取对数时有效数字位数却决于小数部分数字的位数,整数部分只代表该数的方次。

处理数据时,舍弃多余数字的过程称为数字修约(rounding data),按照国家标准采用“四舍六入五成双”规则。

四舍六入易于理解,当被修约的数字等于5时,应让修约后的末尾为偶数,也就是说,前一位已经是偶数则舍去,是奇数则进位。特别的,若5的后面还有不为0的任何数,则不考虑前一位数的奇偶,都进位。

在运算过程中,先作修约再计算。几个数据相加减时,应以小数点后位数最少的数据为准,其他数据修约到这一位;几个数据相乘除时,应以有效数字位数最少的数据为准,其他数据修约到这一位。

$$
0.0121 + 25.64 + 1.05782 \Rightarrow 0.01 + 25.64 + 1.06 = 26.71
$$

$$
0.0121 \times 25.64 \times 1.05782 \Rightarrow 0.0121 \times 25.6 \times 1.06 = 0.328
$$

在乘除法的运算中,经常会遇到9以上的大数,它们的相对误差的绝对值约为0.1%,所以通常将它们当作四位有效数字的数值处理。

通常使用计算器计算时,不需要对每一步的数据进行修约,只需对最后结果修约处理即可。

3.3 分析化学中的数据处理

测量次数无限多时,其标准偏差称为总体标准偏差(population standard deviation),用符号$\sigma$表示,计算式:

$$
\sigma = \sqrt {\frac {\sum \limits^n_{i=1} (x_i - \mu)^2} {n}}
$$

其中$\mu$为总体平均值(population mean),为数据无限多时多次测定的平均值:

$$
\lim_{n \rightarrow \infty} \frac {1} {n} \sum^n_{i=1} x_i = \mu
$$

在确认消除系统误差的前提下总体平均值就是真值$x_T$,此时总体平均偏差为:

$$
\delta = \frac {\sum\limits^n_{i=1} |x_i - \mu|} {n}
$$

测量数据往往符合正态分布(normal distribution)规律,如:

正态分布曲线数学表达式如下:

$$
y = f(x) = \frac {1} {\sigma \sqrt {2\pi}} e^{-(x-\mu)^2/2\sigma^2}
$$

$y$表示概率密度(probability density),$x$表示测量值,$\mu$是总体平均值,$\sigma$是总体标准偏差。$\sigma$小,数据精密度好,曲线瘦高;$\sigma$大,数据分散,曲线较扁平。$x - \mu$表示随机误差,若以$x - \mu$作横坐标,则曲线称为随机误差的正态分布曲线。

对其变形得到不含$\mu和\sigma$的标准正态分布曲线,仅与新引入的变量$u$有关,因此更加便于使用,可直接查表获得相关概率。

对于有限次的测量而言,多个样本分别多次计算所得的标准偏差$s_{\overline x}$比单个样本多次计算所得标准偏差$s$更小,且符合如下关系:

$$
s_{\overline x} = \frac {s} {\sqrt n}
$$

平均值的标准偏差与测量次数的平方根成反比,这说明平均值的精密度会随着测量次数的增加而提高。

测量数据不多时,无法求得总体平均值$\mu$和总体标准偏差$\sigma$,只能用标准偏差$s$来测量数据分散状况。因此为了衡量这一步转换引起的误差,必须要用一个新的因子代替$u$,称为置信因子$t$:

$$
t = \frac {\overline x - \mu} {s_{\overline x}}
$$

以$t$为统计量的分布称为t分布,与正态分布曲线很相似,t分布曲线下方一定区间的积分面积就是随机误差的出现概率,但是t分布曲线的积分面积还与自由度(degree of freedom)$f$有关,可查表查出对应自由度的误差概率,置信度(confidence)$P$表示在某一个t值时,测定值落在$(\mu + ts)$的概率;落在此范围之外的概率称为显著性水准(significance level),用$\alpha$表示。

对于实际测量中的少量数据,需要用t分布进行统计处理:

$$
\mu = \overline x \pm \frac {ts} {\sqrt n}
$$

以平均值$\overline x$为中心,包括总体平均值$\mu$在内的可靠范围,称为平均值的置信区间(confidence interval)。一般置信区间不能太窄或太宽,置信度常定在90%或95%。

3.4 显著性检验

通过t检验法和F检验法可以检验出分析结果之间是否存在显著性差异,若存在,说明可能有系统误差影响。

一种方法是t检验法,它常用来进行平均值与标准值的比较。首先计算出t的值:

$$
t = \frac {|\overline x - \mu|} {s} \sqrt n
$$

根据表格查出相应的$t_{\alpha,f}$值,若t值大于表格中t值,说明$\overline x$与$\mu$之间存在显著性差异,则该分析方法存在系统误差;反之则认为是随机误差。

若要比较两组平均值,先使用F检验检验两组数据的精密度,再用t检验法检验两组平均值有无显著性差异。

F检验法是通过比较两组数据的方差$s^2$,以确定它们的精密度是否有显著性差异的方法。F的定义为两组数据方差的比值:

$$
F = \frac {s^2_大} {s^2_小}
$$

根据表格查出相应的F值,若F值大于表格中F值,说明两组数据的精密度存在显著性差异(一定置信度下);反之则不存在显著性差异。

当已知一组数据的精密度高于/低于另一组时,常用单侧检验;若未知,常用双侧检验,其显著性水平为单侧检验的两倍。

3.5 可疑值取舍

对于一些偏差较大的极端数据,需要使用一定的方法来判断这写数据是否能够舍去,常见方法有$4\overline d$法、Q检验法、和Grubbs法。

  • $4\overline d$法:偏差超过$4\overline d$的数据通常可以舍去。该法不需查表,比较简单,但是存在较大误差。首先应求出除可疑值外的其余数据的平均值$\overline x$和平均偏差$\overline d$,然后将可疑值与平均值进行比较,若差值大于$4\overline d$,则将可疑值舍去,否则保留。
  • $Q$检验法:首先按照从小到大的顺序排列,然后计算Q:$Q = \frac {x_n - x_{n-1}} {x_n - x_1}$或$Q = \frac {x_n - x_1} {x_n - x_1}$。然后查表比较,若Q值大于表格中Q值,说明可疑值可以舍去;否则不能舍去。
  • Grubbs检验法:首先按照从小到大的顺序排列,然后计算T:$T = \frac {\overline x - x_1} s$或$T = \frac {x_n - \overline x} {s}$。然后查表比较,若T值大于表格中T值,说明可疑值可以舍去;否则不能舍去。

3.6 回归分析法

各测量点不可能全部符合某条直线方程,需要用数理统计的方法找到一条接近于各测量点的直线,它对所有测量点来说误差是最小的,因此这条直线是最佳的标准曲线。

回归直线与所有实验点的误差平方和为:

$$
Q = \sum^n_{i=1} Q_i = \sum^n_{i=1}[y_i - (a+bx_i)]^2
$$

为使回归方程最接近实验点的真实分布状态,要求$Q$必须为最小值,因此可推导出a和b的计算式:

$$
a = \frac {\sum\limits^n_{i=1}y_i - b\sum\limits^n_{i=1}x_i} n = \overline y - b \overline x
$$

$$
b = \frac {\sum\limits^n_{i=1}(x_i - \overline x)(y_i - \overline y)} {\sum\limits^n_{i=1}(x_i - \overline x)^2}
$$

确定直线截距a和斜率b后,一元线性回归方程(regression equation)和回归直线就确定了。

求得的回归直线不一定都有意义,此时可以用相关系数(correlation coefficient,$r$)来检验,相关系数的定义为:

$$
r = \frac {\sum\limits^n_{i=1}(x_i - \overline x)(y_i - \overline y)} {\sqrt {\sum\limits^n_{i=1}(x_i - \overline x)^2 \sum\limits^n_{i=1}(y_i - \overline y)^2}}
$$

r的取值范围在0至1之间,越趋近1说明数据的线性关系越好,反之则线性关系越差。

以相关系数判断线性关系的好或不好时,还应考虑测量的次数以及置信度。

3.7 提高分析结果准确度的方法

要减少分析过程中的误差,可以从以下几个方面考虑:

  • 选择合适的分析方法,对于不同精度的测定应当选择不同的测定方式。还应考虑试样中待测组分的相对含量、试样组成等。
  • 减少测量误差,如测量时试样质量/体积不能太小,注意使测量的准确度与分析方法的准确度相适应。
  • 消除系统误差,常采用对照试验、空白实验、校准仪器、校正分析结果等方式。
  • 减少随机误差,增加平行测定次数等。

总结

太多了,写了一个周了。不过很多内容其实不很重要,基本上是会用就行的程度。


2023.3.31

增加一个图表,修改部分内容。


《分析化学》章末总结3
http://argon-gas.top/p/35336.html
作者
Sun
发布于
2023年3月11日
许可协议