f(x)=max(0,x).
ReLU'ların sinir ağlarını iyileştirmesinin bir yolu, eğitimi hızlandırmaktır. Gradyan hesaplaması çok basittir ( işaretine bağlı olarak 0 veya 1 ). Ayrıca, bir ReLU'nun hesaplamalı basamağı kolaydır: Herhangi bir negatif element 0.0'a ayarlanır - üstel, çarpma veya bölme işlemleri yoktur.x
Lojistik ve hiperbolik teğet ağlarının gradyanları, ReLU'nun pozitif kısmından daha küçüktür. Bu, pozitif bölüm eğitim ilerledikçe daha hızlı bir şekilde güncellendiği anlamına gelir. Ancak, bunun bir bedeli var. Sol taraftaki 0 gradyanı, "ölü nöronlar" adı verilen ve gradyan güncellemesinin gelen değerleri bir ReLU'ya ayarladığı ve çıktının daima sıfır olacağı bir problemi vardır; ELU (veya Sızdıran ReLU veya PReLU vb.) gibi değiştirilmiş ReLU birimleri bunu iyileştirebilir.
ddxReLU(x)=1∀x>0 . Buna karşılık, bir sigmoid birimin gradyanı en çok ; Öte yandan, bileti daha girişler için 0'a yakın bir bölgede yana (yaklaşık olarak).0.25tanh0.25<ddxtanh(x)≤1∀x∈[−1.31,1.31]