Pertimbangkan a Prediksi Beban dataset. Kami akan mengimputasi nilai yang hilang di Loan_Amount_Term dengan menggunakan mode Metode.
Langkah 1: Impor pustaka yang diperlukan
impor panda sebagai pd
impor numpy sebagai np
dari mode impor scipy.stats
Langkah 2: Muat kumpulan data
kumpulan data = pd.baca_csv(“C:/prediksi_pinjaman_kereta.csv”)
Langkah 3: Menghitung nilai yang hilang berdasarkan modus
Kami akan memasukkan nilai yang hilang dalam variabel Loan_Amount_Term. Saat ini terdapat 14 nilai yang hilang dalam variabel ini. Anda dapat mengonfirmasi hal ini dengan menjalankan pernyataan berikut:
dataset['Jumlah_Pinjaman_Jangka_Waktu'].isnull().jumlah()
Sekarang mari kita ambil modus dari variabel ini dengan menggunakan mode fungsi yang ada di licik Perpustakaan.
mode(dataset['Jumlah_Pinjaman_Jangka_Waktu'])
mode(dataset['Jumlah_Pinjaman_Jangka_Waktu']).mode[0]
Keluaran:
ModeResult(mode=array([360.]), jumlah=array([526]))
360.0
Dikatakannya nilai yang paling sering muncul adalah 360 dan jumlahnya 526.
Mari kita imputasi nilai yang hilang dengan nilai ini:
dataset['Jumlah_Pinjaman_Jangka_Waktu'].mengisi(mode(dataset['Jumlah_Pinjaman_Jangka_Waktu']).modus[0], di tempat=Benar)
Sekarang hitung jumlah nilai yang hilang dalam variabel ini:
dataset['Jumlah_Pinjaman_Jangka_Waktu'].isnull().jumlah()
Hasilnya akan menjadi nol. Jadi, kami telah memasukkan semua nilai yang hilang dengan nilai yang paling sering muncul dalam variabel tersebut.