常用的统计量有哪些
在统计学中,统计量是用于描述数据集中特征和关系的数值。以下是一些常用的统计量,它们在数据分析中扮演着重要的角色:
1. 均值(Mean)
均值是所有数据点的总和除以数据点的数量。它是描述数据集中趋势的常用指标。
公式:\[ \text{均值} = \frac{\sum_{i=1}^{n} x_i}{n} \]
来源:[Wikipedia Mean](https://en.wikipedia.org/wiki/Mean)
2. 中位数(Median)
中位数是将数据按大小顺序排列后位于中间的数值。它对极端值不敏感,常用于描述数据的中间位置。
来源:[Wikipedia Median](https://en.wikipedia.org/wiki/Median)
3. 众数(Mode)
众数是数据集中出现频率最高的数值。它适用于描述分类数据的集中趋势。
来源:[Wikipedia Mode (statistics)](https://en.wikipedia.org/wiki/Mode_(statistics))
4. 方差(Variance)
方差衡量数据点与其均值之间的离散程度。它是衡量数据波动性的重要指标。
公式:\[ \text{方差} = \frac{\sum_{i=1}^{n} (x_i \mu)^2}{n} \]
来源:[Wikipedia Variance](https://en.wikipedia.org/wiki/Variance)
5. 标准差(Standard Deviation)
标准差是方差的平方根,用来衡量数据点与均值的平均距离。
公式:\[ \text{标准差} = \sqrt{\text{方差}} \]
来源:[Wikipedia Standard deviation](https://en.wikipedia.org/wiki/Standard_deviation)
6. 四分位数(Quartiles)
四分位数将数据分为四个部分,每个部分包含25%的数据。Q1、Q2(中位数)、Q3是这三个四分位数。
来源:[Wikipedia Quartile](https://en.wikipedia.org/wiki/Quartile)
7. 极差(Range)
极差是数据集中最大值与最小值之间的差值,用来描述数据的离散程度。
公式:\[ \text{极差} = \text{最大值} \text{最小值} \]
来源:[Wikipedia Range (statistics)](https://en.wikipedia.org/wiki/Range_(statistics))
8. 协方差(Covariance)
协方差衡量两个变量变化的关联性。正值表示正相关,负值表示负相关。
公式:\[ \text{协方差} = \frac{\sum_{i=1}^{n} (x_i \mu_x)(y_i \mu_y)}{n1} \]
来源:[Wikipedia Covariance](https://en.wikipedia.org/wiki/Covariance)
9. 相关系数(Correlation Coefficient)
相关系数是协方差的标准化形式,其值介于1和1之间。它描述了两个变量之间线性关系的强度和方向。
公式:\[ r = \frac{n(\sum xy) (\sum x)(\sum y)}{\sqrt{[n\sum x^2 (\sum x)^2][n\sum y^2 (\sum y)^2]}} \]
来源:[Wikipedia Correlation_coefficient](https://en.wikipedia.org/wiki/Correlation_coefficient)
10. 卡方检验(ChiSquare Test)
卡方检验用于检验两个分类变量之间是否独立。它基于观察频数与期望频数的比较。
来源:[Wikipedia Chisquared_test](https://en.wikipedia.org/wiki/Chisquared_test)
常见问题清单及解答
1. 问题:均值、中位数和众数有什么区别?
解答:均值是所有数据的平均值,中位数是将数据排序后位于中间的值,众数是数据中出现次数最多的值。均值受极端值影响较大,中位数对极端值不敏感,众数适用于分类数据。
2. 问题:方差和标准差如何计算?
解答:方差是每个数据点与均值差的平方的平均值,标准差是方差的平方根。计算公式如上文所述。
3. 问题:什么是四分位数,如何计算?
解答:四分位数将数据分为四个部分,Q1是第一四分位数,Q2是中位数,Q3是第三四分位数。计算方法是将数据从小到大排序,然后找到