什么是描述性统计分析,这不仅是数据分析面试中最常见的问题,也是我们日常分析中必过的一道关卡。
要把握数据的分布特征,需要从3个方面进行描述:集中趋势、离散程度和分布形状。
集中趋势就是指一组数据向某一中心靠拢的程度,通常有以下指标:
众数
对分类数据来说,众数是最适合描述其集中趋势的值,它是指一组数据中出现次数最多的变量,众数不受极端值的影响,但是可能不唯一,且当数据量较多时,才有意义。
中位数
对数据型数据来说,可以用中位数来描述其集中趋势的度量,中位数就是将一组数据排序以后处于中间位置的值,那么如何寻找中间位置呢?
1、 将这组数据按顺序排列 2、 中间数值所在的位置是(n+1)/2,n表示n个数 3、 当n为奇数时,中间位置的数就是中位数,当n为偶数时,中间位置两个数的均值为中位数。
显然这里有两种情况,当n为奇数和偶数两种情况,求下面这组数据的中位数
0 1 2 3 4 5 6 7 8
这里n=9,中位数的位置=(9+1)/2 = 5,那么中位数就是4.
0 1 2 3 4 5 6 7 8 9