Secara matematis, relu(z) = maks(0, z)
Untuk detail lebih lanjut tentang ReLU dan fungsi aktivasi lainnya, Anda dapat mengunjungi postingan saya ini tentang fungsi aktivasi dalam jaringan saraf.
Apa itu Dying ReLU?
ReLU yang sekarat mengacu pada masalah saat neuron ReLU menjadi tidak aktif dan hanya mengeluarkan 0 untuk setiap masukan. Jadi, begitu neuron mendapat masukan negatif, neuron itu akan selalu mengeluarkan nol dan kecil kemungkinannya untuk pulih. Neuron itu akan menjadi tidak aktif selamanya. Neuron semacam itu tidak akan memainkan peran apa pun dalam membedakan masukan dan menjadi tidak berguna dalam jaringan saraf. Jika proses ini berlanjut, seiring waktu Anda mungkin berakhir dengan sebagian besar jaringan Anda tidak melakukan apa pun.
Apa penyebab ReLU mati?
Mari kita lihat mengapa masalah ReLU yang sekarat terjadi? Masalah ReLU yang sekarat kemungkinan besar terjadi ketika:
1. Kecepatan belajar terlalu tinggi atau
2. Ada bias negatif yang besar.
Pertimbangkan pernyataan berikut yang digunakan untuk menghitung bobot baru selama back-propagation:
Bobot Baru = Bobot Lama – (Turunan Fungsi Kerugian * Laju Pembelajaran) + Bias
Jadi, jika laju pembelajaran terlalu tinggi, kita mungkin berakhir dengan bobot baru yang negatif. Selain itu, jika bias terlalu negatif, kita mungkin kembali berakhir dengan bobot negatif.
Begitu menjadi negatif, fungsi aktivasi ReLU neuron tersebut tidak akan pernah diaktifkan yang akan menyebabkan neuron tersebut mati selamanya.
Apa solusi dari Dying ReLU?
ReLU bocor adalah metode yang paling umum dan efektif untuk mengatasi ReLU yang sekarat. Metode ini menambahkan sedikit kemiringan dalam rentang negatif untuk mencegah masalah ReLU yang sekarat.
Leaky ReLU memiliki kemiringan kecil untuk nilai negatif, bukan nol sama sekali. Misalnya, Leaky ReLU mungkin memiliki y = 0.0001x saat x < 0.
Parametrik ReLU (PReLU) adalah jenis ReLU bocor yang, alih-alih memiliki kemiringan yang telah ditentukan seperti 0.0001, menjadikannya parameter bagi jaringan saraf untuk mencari tahu dirinya sendiri: y = αx ketika x < 0.
Tingkat pembelajaran yang lebih rendah sering kali meringankan masalah.