Uji normalitas dengan python

Uji normalitas data dapat dilakukan dengan beberapa cara antara lain

  1. Visual dengan grafik salah satunya histogram
  2. Uji statistik seperti Kolmogorov-Smirnov atau Shapiro-Wilk

Berikut akan dilakukan uji normalitas atas data konsumsi bir tahun 2010. Data diambil dari https://github.com/fivethirtyeight/data/blob/master/alcohol-consumption/drinks.csv dengan pengubahan nama variabel menjadi lebih singkat.

Uji normalitas dengan histogram

Histogramnya

Dari histogram tersebut tampak dengan jelas bahwa histogram tidak simetris dengan skewness positif. Maka dapat disimpulkan data konsumsi bir ini tidak mengikuti distribusi normal.

Uji Kolmogorov-Smirnov dan Shapiro-Wilk

Misalkan ditentukan level signifikansi 5% atau 0.05. Hipotesisnya adalah:

  1. H0: data tidak sesuai dengan distribusi normal
  2. HA: data sesuai dengan distribusi normal
#!/usr/bin/python3

import pandas as pd
from scipy.stats import kstest, shapiro

# sumber data https://github.com/fivethirtyeight/data/blob/master/alcohol-consumption/drinks.csv
# dengan editing header variabel
alkohol = pd.read_csv("../dataset/drinks.csv")

# Uji Kolmogorov-Smirnov (kstest) dan Uji Shapiro-Wilk (shapiro)
ksdata = kstest(alkohol['beer_servings'], 'norm')
swdata = shapiro(alkohol['beer_servings'])
print(ksdata)
print(swdata)

Hasilnya

KstestResult(statistic=0.8950231589631885, pvalue=2.5964374859935023e-189)
ShapiroResult(statistic=0.8826810121536255, pvalue=3.9431170134607285e-11)

Dari hasil tersebut, kedua uji menunjukkan pvalue kurang dari 0.05. Sehingga H0 bisa diterima (data tidak sesuai dengan distribusi normal).

 Share!

 
comments powered by Disqus