Untuk menampilkan statistik deskriptif suatu data, bisa menggunakan fungsi describe() dari library yang dimiliki python yaitu pandas.
Berikut ini akan ditampilkan deskripsi data konsumsi alkohol dunia. Sumber data : https://github.com/fivethirtyeight/data/blob/master/alcohol-consumption/drinks.csv
Data tersebut memuat konsumsi alkohol perkapita dari 193 negara. Ada 4 variabel yaitu :
- beer_servings (konsumsi bir yang dinyatakan dalam kaleng)
- spirit_servings (konsumsi minuman beralkohol spirit; maaf, variabel ini masih belum penulis pahami sepenuhnya)
- wine_servings (konsumsi anggur yang dinyatakan dalam gelas)
- pure_alcohol (konsumsi alkohol murni yang dinyataksan dalam liter, nama variabel ini sudah penulis singkat)
Adapun deskripsi yang ditampilkan adalah :
- count (banyaknya observasi)
- mean (rerata)
- std (standar deviasi)
- min (nilai terendah)
- 25%, 50%, 75% (Kuartil 1 - 3)
- max (nilai tertinggi)
#!/usr/bin/env python3
import pandas as pd
data = pd.read_csv("../dataset/drinks.csv")
print(data.describe())
Outputnya
beer_servings spirit_servings wine_servings pure_alcohol
count 193.000000 193.000000 193.000000 193.000000
mean 106.160622 80.994819 49.450777 4.717098
std 101.143103 88.284312 79.697598 3.773298
min 0.000000 0.000000 0.000000 0.000000
25% 20.000000 4.000000 1.000000 1.300000
50% 76.000000 56.000000 8.000000 4.200000
75% 188.000000 128.000000 59.000000 7.200000
max 376.000000 438.000000 370.000000 14.400000