제목은 경사하강법이지만 사실 경사 상승법이 편해서 경사상승법 형식으로 다룹니다. GD(Gradient Descent) 경사하강법이 최적해(global optimal)를 보장하는지와 그리고 과연 진짜 수렴하는지에 대해서 수식적으로 알아 보겠습니다. 서적이나 강의를 바탕으로 한게 아니라 제가 혼자 수식을 끄적이고 공부한 내용을 정리하다 보니 아마 틀린 내용이 많습니다. sgd와 gd의 차이는 (mini-batch)sgd는 데이터 셋에서 mini-batch만큼 샘플링을 하여 추출하여 경사하강법을 하여 매개변수를 업데이트 합니다. gd는 전체 데이터 셋에 대하여 업데이트를 합니다. 이때 sgd에서 추출하는 mini-batch간의 관계가 i.i.d로 정의 된다면 기울기의 기댓값이 전체 데이터셋의 기울기와 같아져 ..