Dalam teknik binning, kita membagi nilai numerik kontinu ke dalam beberapa kelompok atau rentang yang disebut bin. Ini membantu dalam pemahaman yang lebih baik tentang beberapa fitur numerik kontinu. Untuk mengetahui lebih lanjut tentang teknik binning, Anda dapat mengunjungi posting ini. Saya telah menulis teori lengkap tentang hal itu. Hari ini, kita akan melihat cara membuat tempat sampah menggunakan fungsi potong perpustakaan panda?
Pertimbangkan a Prediksi Beban dataset. Kita akan membuat bin variabel LoanAmount. Kita akan membaginya menjadi empat bin: rendah, sedang, tinggi, sangat tinggi.
Langkah 1: Impor pustaka yang diperlukan
impor panda sebagai pd
impor numpy sebagai np
Langkah 2: Muat kumpulan data
kumpulan data = pd.baca_csv(“C:/prediksi_pinjaman_kereta.csv”)
Langkah 3: Buat bin variabel numerik menggunakan fungsi cut
Kita akan menentukan titik potong untuk pengelompokan dalam variabel kita dan meneruskannya ke fungsi pengelompokan sehingga ia dapat membuat pengelompokan berdasarkan titik potong yang telah kita teruskan kepadanya sebagai parameter.
#Buat fungsi binning
def binning(kolom, titik_potong, label=None):
#Tentukan nilai min dan maks:
minval = kolom.min()
maxval = kolom.maks()
#Buat daftar dengan menambahkan min dan maks ke cut_points
titik_putus = [nilai_min] + titik_potong + [nilai_maks]
#Jika tidak ada label yang diberikan, gunakan label default 0 … (n-1)
jika tidak ada label:
label = rentang(len(titik_potong)+1)
#Binning menggunakan fungsi cut dari pandas
colBin = pd.memotong(col, bins=break_points, labels=label, include_lowest=Benar)
kembalikan colBin
#Binning Variabel LoanAmount:
titik_potong = [90,140,190]
label = [“rendah”,”sedang”,”tinggi”,”sangat tinggi”]
dataset[“JumlahPinjaman_Bin”] = membuang(dataset[“JumlahPinjaman”], titik_potong, label)
cetak (pd.nilai_jumlah(dataset[“JumlahPinjaman_Bin”], urutkan=Salah))
Pada kode di atas, kita telah melewati 3 titik potong dan akan menghasilkan 4 bin:
Tempat sampah pertama berisi semua nilai dari nilai minimum hingga 90 (Label: rendah).
Tempat sampah kedua berisi semua nilai dari 91 nilai hingga 140 (Label: sedang).
Tempat sampah ketiga berisi semua nilai dari 141 nilai hingga 190 (Label: tinggi).
Tempat sampah keempat berisi semua nilai dari 191 nilai hingga nilai maksimum (Label: sangat tinggi).
Dari pada label “rendah”, “sedang”, “tinggi” dan “sangat tinggi”, Anda dapat meneruskan nilai numerik seperti 0, 1, 2 dan 3, dst.
Sekarang cetak variabel baru kumpulan data[“JumlahPinjaman_Bin”] dan lihat hasilnya. Alih-alih nilai sebenarnya, Anda akan melihat label dalam data.
Pertimbangkan a Prediksi Beban dataset. Kita akan membuat bin variabel LoanAmount. Kita akan membaginya menjadi empat bin: rendah, sedang, tinggi, sangat tinggi.
Langkah 1: Impor pustaka yang diperlukan
impor panda sebagai pd
impor numpy sebagai np
Langkah 2: Muat kumpulan data
kumpulan data = pd.baca_csv(“C:/prediksi_pinjaman_kereta.csv”)
Langkah 3: Buat bin variabel numerik menggunakan fungsi cut
Kita akan menentukan titik potong untuk pengelompokan dalam variabel kita dan meneruskannya ke fungsi pengelompokan sehingga ia dapat membuat pengelompokan berdasarkan titik potong yang telah kita teruskan kepadanya sebagai parameter.
#Buat fungsi binning
def binning(kolom, titik_potong, label=None):
#Tentukan nilai min dan maks:
minval = kolom.min()
maxval = kolom.maks()
#Buat daftar dengan menambahkan min dan maks ke cut_points
titik_putus = [nilai_min] + titik_potong + [nilai_maks]
#Jika tidak ada label yang diberikan, gunakan label default 0 … (n-1)
jika tidak ada label:
label = rentang(len(titik_potong)+1)
#Binning menggunakan fungsi cut dari pandas
colBin = pd.memotong(col, bins=break_points, labels=label, include_lowest=Benar)
kembalikan colBin
#Binning Variabel LoanAmount:
titik_potong = [90,140,190]
label = [“rendah”,”sedang”,”tinggi”,”sangat tinggi”]
dataset[“JumlahPinjaman_Bin”] = membuang(dataset[“JumlahPinjaman”], titik_potong, label)
cetak (pd.nilai_jumlah(dataset[“JumlahPinjaman_Bin”], urutkan=Salah))
Pada kode di atas, kita telah melewati 3 titik potong dan akan menghasilkan 4 bin:
Tempat sampah pertama berisi semua nilai dari nilai minimum hingga 90 (Label: rendah).
Tempat sampah kedua berisi semua nilai dari 91 nilai hingga 140 (Label: sedang).
Tempat sampah ketiga berisi semua nilai dari 141 nilai hingga 190 (Label: tinggi).
Tempat sampah keempat berisi semua nilai dari 191 nilai hingga nilai maksimum (Label: sangat tinggi).
Dari pada label “rendah”, “sedang”, “tinggi” dan “sangat tinggi”, Anda dapat meneruskan nilai numerik seperti 0, 1, 2 dan 3, dst.
Sekarang cetak variabel baru kumpulan data[“JumlahPinjaman_Bin”] dan lihat hasilnya. Alih-alih nilai sebenarnya, Anda akan melihat label dalam data.