Boxplot terutama digunakan untuk memvisualisasikan distribusi data dalam berbagai variabel dalam satu set data. Kita dapat dengan mudah memprediksi outlier dengan menggambar boxplot untuk suatu variabel. Kita juga dapat mengelompokkan hasil berdasarkan variabel lain dalam set data. Mari kita lihat caranya?
Pertimbangkan a Prediksi Beban dataset. Kami akan menganalisis Penghasilan Pemohon dan Pendidikan variabel dalam kumpulan data ini.
Langkah 1: Impor pustaka yang diperlukan
impor panda sebagai pd
impor numpy sebagai np
impor matplotlib sebagai plt
%matplotlib sebaris
impor seaborn sebagai sns
Langkah 2: Muat kumpulan data
kumpulan data = pd.baca_csv(“C:/prediksi_pinjaman_kereta.csv”)
Langkah 3: Gambar boxplot untuk Penghasilan Pemohon
Himpunan data.petak kotak(kolom='PendapatanPemohon')
Kita dapat melihat banyak outlier/nilai ekstrem di kolom pendapatan pelamar. Dari sini, kita dapat menyimpulkan bahwa terdapat banyak kesenjangan pendapatan di masyarakat. Namun tunggu dulu, kita menganalisis pendapatan semua orang dengan mengabaikan tingkat pendidikan mereka yang secara praktis tidaklah tepat. Ada kemungkinan besar bahwa orang yang berpendidikan akan memiliki pendapatan yang lebih tinggi dibandingkan dengan orang yang tidak berpendidikan/kurang berpendidikan. Mari kita pisahkan pendapatan berdasarkan pendidikan:
Himpunan data.petak kotak(kolom='PendapatanPemohon', by = 'Pendidikan')
Kita dapat melihat bahwa tidak ada perbedaan yang signifikan antara pendapatan rata-rata lulusan dan non-lulusan. Namun, ada lebih banyak lulusan dengan pendapatan yang sangat tinggi, yang tampaknya merupakan outlier.
Pertimbangkan a Prediksi Beban dataset. Kami akan menganalisis Penghasilan Pemohon dan Pendidikan variabel dalam kumpulan data ini.
Langkah 1: Impor pustaka yang diperlukan
impor panda sebagai pd
impor numpy sebagai np
impor matplotlib sebagai plt
%matplotlib sebaris
impor seaborn sebagai sns
Langkah 2: Muat kumpulan data
kumpulan data = pd.baca_csv(“C:/prediksi_pinjaman_kereta.csv”)
Langkah 3: Gambar boxplot untuk Penghasilan Pemohon
Himpunan data.petak kotak(kolom='PendapatanPemohon')
Kita dapat melihat banyak outlier/nilai ekstrem di kolom pendapatan pelamar. Dari sini, kita dapat menyimpulkan bahwa terdapat banyak kesenjangan pendapatan di masyarakat. Namun tunggu dulu, kita menganalisis pendapatan semua orang dengan mengabaikan tingkat pendidikan mereka yang secara praktis tidaklah tepat. Ada kemungkinan besar bahwa orang yang berpendidikan akan memiliki pendapatan yang lebih tinggi dibandingkan dengan orang yang tidak berpendidikan/kurang berpendidikan. Mari kita pisahkan pendapatan berdasarkan pendidikan:
Himpunan data.petak kotak(kolom='PendapatanPemohon', by = 'Pendidikan')
Kita dapat melihat bahwa tidak ada perbedaan yang signifikan antara pendapatan rata-rata lulusan dan non-lulusan. Namun, ada lebih banyak lulusan dengan pendapatan yang sangat tinggi, yang tampaknya merupakan outlier.