이전 장에서는 당연하 듯 진행했지만 사전에 정해진 분포에 따라 parameter initialization을 실행했다. 이것에 대해 자세히 살펴보도록 한다. 또한 activation function에 따른 여러 initialization 형태들도 살펴본다. 여러개의 layer가 있는 deep network의 gradient 연산을 수식화하면 다음과 같다. 여기서 numerical underflow문제가 발생할 수 있음을 확인해야 한다. numerical underflow란 너무 많은 확률값들을 곱할 때 생긱는 문제로 이는 그 연산값을 표현하기 어렵다는 문제뿐만 아니라 gradient 연산 자체를 불안정하게 만든다. 불안정한 optimization algorithm은 두가지 문제를 낳을 수 있는데 파라미터..