Jumat, 04 Agustus 2023

Mini Project Case Study: Data Profiling dan Cleansing

 Mini Project Case Study: Data Profiling dan Cleansing

Pendahuluan

Dalam mini project ini, kita akan menerapkan data profiling dan data cleansing pada dataset fiktif yang berisi informasi tentang karyawan di sebuah perusahaan. Tujuan dari mini project ini adalah untuk memahami karakteristik dataset, mengidentifikasi masalah kualitas data, membersihkan data yang tidak valid atau tidak lengkap, dan memastikan bahwa data yang akurat dan andal.

Dataset Description

Dataset ini terdiri dari beberapa kolom, termasuk:

  • Nama: Nama karyawan
  • Usia: Usia karyawan dalam tahun
  • Jabatan: Jabatan karyawan di perusahaan
  • Gaji: Gaji karyawan dalam ribuan Rupiah
  • Departemen: Departemen di perusahaan tempat karyawan bekerja

Langkah-Langkah Mini Project

Langkah 1: Data Loading dan Exploration

Pertama, mari kita muat dataset ke dalam DataFrame pandas dan jelajahi beberapa informasi dasar tentang dataset tersebut.

python
import pandas as pd # Muat dataset ke dalam DataFrame df = pd.read_csv('data_karyawan.csv') # Tampilkan beberapa baris pertama dataset print(df.head()) # Tampilkan informasi tentang dataset print(df.info()) # Hitung statistik ringkasan dataset print(df.describe())

Langkah 2: Data Profiling

Selanjutnya, mari kita lakukan data profiling untuk memahami karakteristik dataset secara lebih mendalam.

python
# Identifikasi jumlah data yang hilang untuk setiap kolom print(df.isnull().sum()) # Hitung jumlah data unik untuk setiap kolom print(df.nunique()) # Hitung distribusi jabatan karyawan print(df['Jabatan'].value_counts()) # Visualisasikan distribusi usia karyawan menggunakan histogram import matplotlib.pyplot as plt df['Usia'].hist(bins=10) plt.xlabel('Usia') plt.ylabel('Frekuensi') plt.title('Distribusi Usia Karyawan') plt.show()

Langkah 3: Data Cleansing

Setelah mengetahui karakteristik dataset dan masalah kualitas data, kita dapat melakukan data cleansing untuk membersihkan data yang tidak valid atau tidak lengkap.

python
# Tangani nilai yang hilang pada kolom gaji dengan mengganti dengan rata-rata gaji mean_gaji = df['Gaji'].mean() df['Gaji'].fillna(mean_gaji, inplace=True) # Hapus baris data dengan nilai usia yang negatif df = df[df['Usia'] >= 0] # Ubah jabatan menjadi huruf kapital untuk konsistensi df['Jabatan'] = df['Jabatan'].str.upper() # Simpan dataset yang telah dibersihkan ke dalam file CSV baru df.to_csv('data_karyawan_bersih.csv', index=False)

Kesimpulan

Dalam mini project case study ini, kita telah berhasil menerapkan data profiling untuk memahami karakteristik dataset dan mengidentifikasi masalah kualitas data. Selain itu, kita juga melakukan data cleansing dengan mengatasi nilai yang hilang, menghapus data yang tidak valid, dan mengubah data menjadi format yang lebih konsisten. Dengan data yang telah dibersihkan, kita dapat memastikan bahwa data tersebut lebih andal dan dapat diandalkan untuk pengambilan keputusan dan analisis lebih lanjut. Data profiling dan data cleansing merupakan langkah awal yang penting dalam analisis data yang akurat dan bermakna.

Tidak ada komentar:

Posting Komentar

Privacy Statement

 

page views

Web Counter