Mini Project Case Study: Data Profiling dan Cleansing

Pendahuluan

Dalam mini project ini, kita akan menerapkan data profiling dan data cleansing pada dataset fiktif yang berisi informasi tentang karyawan di sebuah perusahaan. Tujuan dari mini project ini adalah untuk memahami karakteristik dataset, mengidentifikasi masalah kualitas data, membersihkan data yang tidak valid atau tidak lengkap, dan memastikan bahwa data yang akurat dan andal.

Dataset Description

Dataset ini terdiri dari beberapa kolom, termasuk:

Nama: Nama karyawan
Usia: Usia karyawan dalam tahun
Jabatan: Jabatan karyawan di perusahaan
Gaji: Gaji karyawan dalam ribuan Rupiah
Departemen: Departemen di perusahaan tempat karyawan bekerja

Langkah-Langkah Mini Project

Langkah 1: Data Loading dan Exploration

Pertama, mari kita muat dataset ke dalam DataFrame pandas dan jelajahi beberapa informasi dasar tentang dataset tersebut.

python
import pandas as pd

# Muat dataset ke dalam DataFrame
df = pd.read_csv('data_karyawan.csv')

# Tampilkan beberapa baris pertama dataset
print(df.head())

# Tampilkan informasi tentang dataset
print(df.info())

# Hitung statistik ringkasan dataset
print(df.describe())

Langkah 2: Data Profiling

Selanjutnya, mari kita lakukan data profiling untuk memahami karakteristik dataset secara lebih mendalam.

python
# Identifikasi jumlah data yang hilang untuk setiap kolom
print(df.isnull().sum())

# Hitung jumlah data unik untuk setiap kolom
print(df.nunique())

# Hitung distribusi jabatan karyawan
print(df['Jabatan'].value_counts())

# Visualisasikan distribusi usia karyawan menggunakan histogram
import matplotlib.pyplot as plt
df['Usia'].hist(bins=10)
plt.xlabel('Usia')
plt.ylabel('Frekuensi')
plt.title('Distribusi Usia Karyawan')
plt.show()

Langkah 3: Data Cleansing

Setelah mengetahui karakteristik dataset dan masalah kualitas data, kita dapat melakukan data cleansing untuk membersihkan data yang tidak valid atau tidak lengkap.

python
# Tangani nilai yang hilang pada kolom gaji dengan mengganti dengan rata-rata gaji
mean_gaji = df['Gaji'].mean()
df['Gaji'].fillna(mean_gaji, inplace=True)

# Hapus baris data dengan nilai usia yang negatif
df = df[df['Usia'] >= 0]

# Ubah jabatan menjadi huruf kapital untuk konsistensi
df['Jabatan'] = df['Jabatan'].str.upper()

# Simpan dataset yang telah dibersihkan ke dalam file CSV baru
df.to_csv('data_karyawan_bersih.csv', index=False)

Kesimpulan

Dalam mini project case study ini, kita telah berhasil menerapkan data profiling untuk memahami karakteristik dataset dan mengidentifikasi masalah kualitas data. Selain itu, kita juga melakukan data cleansing dengan mengatasi nilai yang hilang, menghapus data yang tidak valid, dan mengubah data menjadi format yang lebih konsisten. Dengan data yang telah dibersihkan, kita dapat memastikan bahwa data tersebut lebih andal dan dapat diandalkan untuk pengambilan keputusan dan analisis lebih lanjut. Data profiling dan data cleansing merupakan langkah awal yang penting dalam analisis data yang akurat dan bermakna.

Data Scientist For Beginner

Ads 468x60px

Pages

Jumat, 04 Agustus 2023

Mini Project Case Study: Data Profiling dan Cleansing

Mini Project Case Study: Data Profiling dan Cleansing

Tidak ada komentar:

Posting Komentar

Privacy Statement

Labels

Cari Blog Ini

Arsip Blog

Labels

Popular Posts

Followers

page views

Web Counter

Karina Dropship