Random Forest merupakan kumpulan Pohon Keputusan. Pohon Keputusan membuat keputusan akhir berdasarkan keluaran dari satu pohon, sedangkan Random Forest menggabungkan keluaran dari sejumlah besar pohon kecil sambil membuat prediksi akhir. Berikut ini adalah daftar terperinci perbedaan antara Pohon Keputusan dan Random Forest:
1. Random Forest merupakan Teknik Ensemble Learning (Bagging) yang tidak seperti Decision Tree: Dalam Decision Tree, hanya satu pohon yang dikembangkan menggunakan semua fitur dan observasi. Namun dalam kasus Random Forest, fitur dan observasi dibagi menjadi beberapa bagian dan banyak pohon kecil (bukan satu pohon besar) dikembangkan berdasarkan data yang dibagi. Jadi, alih-alih satu pohon penuh seperti Decision Tree, Random Forest menggunakan beberapa pohon. Semakin besar jumlah pohon, semakin baik akurasi dan kemampuan generalisasi. Namun pada titik tertentu, menambah jumlah pohon tidak berkontribusi pada akurasi, jadi sebaiknya berhenti mengembangkan pohon pada titik tersebut.
2. Random Forest menggunakan sistem voting tidak seperti Decision Tree: Semua pohon yang tumbuh di Hutan Acak disebut pelajar lemah. Setiap peserta didik yang lemah memberikan suara sesuai prediksinya. Kelas yang memperoleh suara terbanyak dianggap sebagai hasil akhir prediksi. Anda dapat menganggapnya seperti sistem demokrasi. Di sisi lain, tidak ada sistem pemungutan suara di Decision Tree. Hanya satu pohon yang memprediksi hasilnya. Tidak ada demokrasi sama sekali!!
3. Random Forest jarang melakukan overfitting tidak seperti Decision Tree: Decision Tree sangat rentan terhadap overfitting karena hanya ada satu pohon yang bertanggung jawab untuk memprediksi hasil. Jika terdapat banyak noise dalam dataset, pohon tersebut akan mulai mempertimbangkan noise tersebut saat membuat model dan akan menghasilkan bias yang sangat rendah (atau tidak ada bias sama sekali). Karena itu, pohon tersebut akan menunjukkan banyak varians dalam prediksi akhir dalam data dunia nyata. Skenario ini disebut terlalu pasDi Random Forest, noise memiliki peran yang sangat kecil dalam merusak model karena terdapat begitu banyak pohon di dalamnya dan noise tidak dapat memengaruhi semua pohon.
4. Random Forest mengurangi varians alih-alih bias: Hutan acak mengurangi varians bagian dari kesalahan daripada bagian bias, jadi pada set data pelatihan tertentu, Pohon Keputusan mungkin lebih akurat daripada Hutan Acak. Namun pada set data validasi yang tidak terduga, Hutan Acak selalu menang dalam hal akurasi.
5. Kinerja: Kelemahan dari Random Forest adalah lambatnya proses yang Anda miliki, namun bisa juga lambat jika Anda memiliki satu proses saja. diparalelkan.
6. Pohon Keputusan lebih mudah dipahami dan ditafsirkan: Pohon Keputusan sederhana dan mudah diinterpretasikan. Anda mengetahui variabel apa dan nilai variabel apa yang digunakan untuk membagi data dan memprediksi hasilnya. Di sisi lain, Hutan Acak seperti Kotak Hitam. Anda dapat menentukan jumlah pohon yang Anda inginkan di hutan Anda (n_estimator) dan Anda juga dapat menentukan jumlah maksimum fitur yang akan digunakan di setiap pohon. Namun, Anda tidak dapat mengontrol keacakan, Anda tidak dapat mengontrol fitur mana yang menjadi bagian dari pohon mana di hutan, Anda tidak dapat mengontrol titik data mana yang menjadi bagian dari pohon mana.
1. Random Forest merupakan Teknik Ensemble Learning (Bagging) yang tidak seperti Decision Tree: Dalam Decision Tree, hanya satu pohon yang dikembangkan menggunakan semua fitur dan observasi. Namun dalam kasus Random Forest, fitur dan observasi dibagi menjadi beberapa bagian dan banyak pohon kecil (bukan satu pohon besar) dikembangkan berdasarkan data yang dibagi. Jadi, alih-alih satu pohon penuh seperti Decision Tree, Random Forest menggunakan beberapa pohon. Semakin besar jumlah pohon, semakin baik akurasi dan kemampuan generalisasi. Namun pada titik tertentu, menambah jumlah pohon tidak berkontribusi pada akurasi, jadi sebaiknya berhenti mengembangkan pohon pada titik tersebut.
2. Random Forest menggunakan sistem voting tidak seperti Decision Tree: Semua pohon yang tumbuh di Hutan Acak disebut pelajar lemah. Setiap peserta didik yang lemah memberikan suara sesuai prediksinya. Kelas yang memperoleh suara terbanyak dianggap sebagai hasil akhir prediksi. Anda dapat menganggapnya seperti sistem demokrasi. Di sisi lain, tidak ada sistem pemungutan suara di Decision Tree. Hanya satu pohon yang memprediksi hasilnya. Tidak ada demokrasi sama sekali!!
3. Random Forest jarang melakukan overfitting tidak seperti Decision Tree: Decision Tree sangat rentan terhadap overfitting karena hanya ada satu pohon yang bertanggung jawab untuk memprediksi hasil. Jika terdapat banyak noise dalam dataset, pohon tersebut akan mulai mempertimbangkan noise tersebut saat membuat model dan akan menghasilkan bias yang sangat rendah (atau tidak ada bias sama sekali). Karena itu, pohon tersebut akan menunjukkan banyak varians dalam prediksi akhir dalam data dunia nyata. Skenario ini disebut terlalu pasDi Random Forest, noise memiliki peran yang sangat kecil dalam merusak model karena terdapat begitu banyak pohon di dalamnya dan noise tidak dapat memengaruhi semua pohon.
4. Random Forest mengurangi varians alih-alih bias: Hutan acak mengurangi varians bagian dari kesalahan daripada bagian bias, jadi pada set data pelatihan tertentu, Pohon Keputusan mungkin lebih akurat daripada Hutan Acak. Namun pada set data validasi yang tidak terduga, Hutan Acak selalu menang dalam hal akurasi.
5. Kinerja: Kelemahan dari Random Forest adalah lambatnya proses yang Anda miliki, namun bisa juga lambat jika Anda memiliki satu proses saja. diparalelkan.
6. Pohon Keputusan lebih mudah dipahami dan ditafsirkan: Pohon Keputusan sederhana dan mudah diinterpretasikan. Anda mengetahui variabel apa dan nilai variabel apa yang digunakan untuk membagi data dan memprediksi hasilnya. Di sisi lain, Hutan Acak seperti Kotak Hitam. Anda dapat menentukan jumlah pohon yang Anda inginkan di hutan Anda (n_estimator) dan Anda juga dapat menentukan jumlah maksimum fitur yang akan digunakan di setiap pohon. Namun, Anda tidak dapat mengontrol keacakan, Anda tidak dapat mengontrol fitur mana yang menjadi bagian dari pohon mana di hutan, Anda tidak dapat mengontrol titik data mana yang menjadi bagian dari pohon mana.