Mini Project Case Study: Data Profiling dan Cleansing
Pendahuluan
Dalam mini project ini, kita akan menerapkan data profiling dan data cleansing pada dataset fiktif yang berisi informasi tentang karyawan di sebuah perusahaan. Tujuan dari mini project ini adalah untuk memahami karakteristik dataset, mengidentifikasi masalah kualitas data, membersihkan data yang tidak valid atau tidak lengkap, dan memastikan bahwa data yang akurat dan andal.
Dataset ini terdiri dari beberapa kolom, termasuk:
- Nama: Nama karyawan
- Usia: Usia karyawan dalam tahun
- Jabatan: Jabatan karyawan di perusahaan
- Gaji: Gaji karyawan dalam ribuan Rupiah
- Departemen: Departemen di perusahaan tempat karyawan bekerja
Langkah-Langkah Mini Project
Langkah 1: Data Loading dan Exploration
Pertama, mari kita muat dataset ke dalam DataFrame pandas dan jelajahi beberapa informasi dasar tentang dataset tersebut.
pythonimport pandas as pd
# Muat dataset ke dalam DataFrame
df = pd.read_csv('data_karyawan.csv')
# Tampilkan beberapa baris pertama dataset
print(df.head())
# Tampilkan informasi tentang dataset
print(df.info())
# Hitung statistik ringkasan dataset
print(df.describe())
Langkah 2: Data Profiling
Selanjutnya, mari kita lakukan data profiling untuk memahami karakteristik dataset secara lebih mendalam.
python# Identifikasi jumlah data yang hilang untuk setiap kolom
print(df.isnull().sum())
# Hitung jumlah data unik untuk setiap kolom
print(df.nunique())
# Hitung distribusi jabatan karyawan
print(df['Jabatan'].value_counts())
# Visualisasikan distribusi usia karyawan menggunakan histogram
import matplotlib.pyplot as plt
df['Usia'].hist(bins=10)
plt.xlabel('Usia')
plt.ylabel('Frekuensi')
plt.title('Distribusi Usia Karyawan')
plt.show()
Langkah 3: Data Cleansing
Setelah mengetahui karakteristik dataset dan masalah kualitas data, kita dapat melakukan data cleansing untuk membersihkan data yang tidak valid atau tidak lengkap.
python# Tangani nilai yang hilang pada kolom gaji dengan mengganti dengan rata-rata gaji
mean_gaji = df['Gaji'].mean()
df['Gaji'].fillna(mean_gaji, inplace=True)
# Hapus baris data dengan nilai usia yang negatif
df = df[df['Usia'] >= 0]
# Ubah jabatan menjadi huruf kapital untuk konsistensi
df['Jabatan'] = df['Jabatan'].str.upper()
# Simpan dataset yang telah dibersihkan ke dalam file CSV baru
df.to_csv('data_karyawan_bersih.csv', index=False)
Kesimpulan
Dalam mini project case study ini, kita telah berhasil menerapkan data profiling untuk memahami karakteristik dataset dan mengidentifikasi masalah kualitas data. Selain itu, kita juga melakukan data cleansing dengan mengatasi nilai yang hilang, menghapus data yang tidak valid, dan mengubah data menjadi format yang lebih konsisten. Dengan data yang telah dibersihkan, kita dapat memastikan bahwa data tersebut lebih andal dan dapat diandalkan untuk pengambilan keputusan dan analisis lebih lanjut. Data profiling dan data cleansing merupakan langkah awal yang penting dalam analisis data yang akurat dan bermakna.
Tidak ada komentar:
Posting Komentar