우연히 YOLO를 공부하다 다음과 같은 동영상을 보게 되었다.
전반적인 퍼셉트론 내용도 다루고 있는데, 거기서 Sigmoid함수를 왜 쓰지 않는지 이유를 알 수 있었다.
이유는 간단하다.
sigmoid함수의 도함수(미분한 것)의 최대값이 1/4인데, (위의 그림 참고)
이것이 하나의 층으로 이루어 진 것이면 괜찮지만, 여러개의 층인 모델의 경우,
input layer쪽으로 역전파 할수록, 1/4 * 1/4 = 1/16 .... 1/16 * 1/4 = 1/64... 이런식으로 점점 영향력이 작아진다는 문제점이 있다.
그래서 이런 문제점을 해결하려면 도함수의 최대값이 1인 Activation 함수를 사용해야 한다.
그런 함수에는 Tanh이나 Relu같은 함수가 있다.
'프로그래밍 > 머신러닝' 카테고리의 다른 글
[컨볼루션] Mobilenet (0) | 2020.09.06 |
---|---|
[컴퓨터 비전] SRCNN, Image Super-Resolution Using Deep Convolutional Networks (0) | 2020.09.05 |
[컨볼루션] Depthwise separable convolution (0) | 2020.09.05 |
[컨볼루션] Dilated Convolution (0) | 2020.09.03 |
[사물인식] Non-Maximum-Suppression (0) | 2019.05.06 |