在数据分析过程中,对分布的检验也是很重要的一步,那么如何检验数据是否服从正态分布呢?
常见的方法有:绘图检验(绘制直方图、QQ图)、Shapiro-Wilk检验、Kolmogorov-Smirnov检验、Anderson-Darling检验和D'Agostino-Pearsons检验,可以进行正态性检验。
1.绘图检验
1.1 绘制直方图
绘制直方图是检验数据正态性最简单和最快的方法,使用它将数据分成若干区间(bin),并对每个区间中的观察值进行计数,最后将数据可视化。使用Seaborn库中displot()来绘制直方图和核密度统计(KDE)。
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
sns.set()
#设置随机种子
np.random.seed(1234)
#创建不同规模样本的正态分布
small_sample = np.random.normal(size=100)
medium_sample = np.random.normal(size=1000)
large_sample = np.random.normal(size=100000)
#绘制直方图和核密度统计图
sns.distplot(small_sample,kde=True)
plt.show()
sns.distplot(medium_sample,kde=True)
plt.show()
sns.distplot(large_sample,kde=True)
plt.show()