Sigmoid의 문제점 : 왜 Sigmoid는 안될까?
·
프로그래밍/머신러닝
우연히 YOLO를 공부하다 다음과 같은 동영상을 보게 되었다. 전반적인 퍼셉트론 내용도 다루고 있는데, 거기서 Sigmoid함수를 왜 쓰지 않는지 이유를 알 수 있었다. https://youtu.be/u0eT7VZAgRw 이유는 간단하다. sigmoid함수의 도함수(미분한 것)의 최대값이 1/4인데, (위의 그림 참고) 이것이 하나의 층으로 이루어 진 것이면 괜찮지만, 여러개의 층인 모델의 경우, input layer쪽으로 역전파 할수록, 1/4 * 1/4 = 1/16 .... 1/16 * 1/4 = 1/64... 이런식으로 점점 영향력이 작아진다는 문제점이 있다. 그래서 이런 문제점을 해결하려면 도함수의 최대값이 1인 Activation 함수를 사용해야 한다. 그런 함수에는 Tanh이나 Relu같은 함..