Backpropagation in Deep Learning

Backpropagation의 정체를 제대로 알게된 건 학부 4학년때 deep learning 수업 때문이었다. 당시 알파고 사건 이후로 머신러닝과 딥러닝을 통해 AI에 대한 관심이 대중으로부터도 커질 때 였건만, 지금 생각해보면 강건너 불구경하듯 그저 바라만 본 채 시간만 흘려 보내고 있었던 것 같다. 3학년때 퍼셉트론의 개념을 공부할 때도 머신러닝이 신기하다는 생각이 막연하게 자리하고 있었지만, backpropagation 처럼 이렇게 구체적인 수식으로 표현되는 줄은 몰랐다. 어찌되었든 직접 인공 신경망이 학습이 되는걸 계산하고 파라미터를 업데이트 하는 순간 받았던 신선한 충격은 아직도 생생하다. 오늘은 역전파에 대해서 글을 작성해보자.

역전파(Backpropagation)의 기본 개념과 직관적 이해

역전파란 무엇인가?

역전파(Backpropagation)는 인공 신경망을 학습시키는 핵심 알고리즘으로, 손실 함수의 그래디언트(기울기)를 출력층에서 입력층 방향으로 ‘역으로 전파’하며 계산하는 효율적인 방법이다. 이 알고리즘은 1986년 Rumelhart, Hinton, Williams가 발표한 논문에서 대중화되었으며, 현대 딥러닝의 기반이 되는 알고리즘이다. hinton은 이때 부터 중요 알고리즘을 만든사람이 었구나 ㄷㄷ

간단히 말하자면, 역전파는 신경망의 예측 오류를 최소화하기 위해 각 가중치가 최종 오류에 얼마나 기여했는지 계산하고, 이 정보를 바탕으로 가중치를 업데이트하는 과정이다.

역전파의 직관적 이해

인공신경망의 학습 과정은 크게 두 단계로 이루어진다:

순전파(Forward Propagation): 입력 데이터가 신경망을 통과하여 예측값을 생성
역전파(Backpropagation): 예측값과 실제값의 차이(오차)를 계산하고, 이 오차를 역으로 전파하여 각 가중치의 업데이트 방향과 크기를 결정

역전파가 작동하는 원리를 직관적으로 이해해 보자:

네트워크는 마치 복잡한 함수와 같다: 입력 → [블랙박스] → 출력
우리의 목표는 원하는 출력이 나오도록 이 블랙박스의 내부 설정(가중치)을 조정하는 것
출력에서 발생한 오차를 내부 설정의 조정 방향으로 변환하는 것이 바로 역전파

신용 카드 부정 거래 탐지 시스템을 예로 들면:

시스템이 정상 거래를 부정 거래로 잘못 분류함 (오류 발생)
역전파를 통해 “어떤 내부 연결(가중치)이 이 오분류에 가장 큰 영향을 미쳤는가?“를 찾아냄
해당 연결을 적절히 조정하여 다음에는 유사한 정상 거래를 올바르게 분류하도록 함

역전파의 수학적 정의와 작동 원리

기본 수식과 표기법

인공 신경망에서 역전파를 이해하기 위한 기본 수식을 알아보자. $L$개의 층으로 구성된 신경망을 가정할 때:

$W^l$: $l$번째 층의 가중치 행렬
$b^l$: $l$번째 층의 편향 벡터
$z^l = W^l a^{l-1} + b^l$: $l$번째 층의 가중합(weighted sum)
$a^l = \sigma(z^l)$: $l$번째 층의 활성화 출력
$\sigma$: 활성화 함수 (ReLU, sigmoid 등)
$L$: 신경망의 총 층 수
$C$: 비용 함수 (예: 평균 제곱 오차)

역전파 알고리즘의 단계별 설명

역전파는 다음과 같은 단계로 진행된다:

순전파 단계: 입력 데이터 $x = a^0$로 시작하여 모든 층을 통과시키며 최종 출력 $a^L$을 계산한다. $$a^l = \sigma(W^l a^{l-1} + b^l) \quad \text{for } l = 1, 2, \ldots, L$$
출력층 오차 계산: 예측값 $a^L$과 실제값 $y$ 사이의 오차를 계산하고, 이를 비용 함수 $C$의 그래디언트로 표현한다. $$\delta^L = \nabla_a C \odot \sigma’(z^L)$$ 이 수식을 분해해서 살펴보면
$\nabla_a C$ : 출력층 활성화 값 $a^L$에 대한 비용 함수 $C$의 편미분이다. 즉, 출력값이 변할 때 오차가 어떻게 변하는지를 나타낸다.
$\sigma’(z^L)$ : 출력층의 활성화 함수의 미분값이다. 입력값 $z^L$에 대한 활성화 함수의 변화율을 나타낸다.
$\odot$ : 요소별 곱셈(element-wise multiplication)으로, 두 벡터의 대응되는 요소끼리 곱하는 연산이다.
여기서 $\odot$는 하다마르 곱이라고도 하며, 내적, 행렬곱과 다르다. 요소별 곱셈(element-wise multiplication)을 의미한다.
오차 역전파: 출력층에서 계산된 오차를 이전 층으로 역으로 전파한다. $$\delta^l = ((W^{l+1})^T \delta^{l+1}) \odot \sigma’(z^l) \quad \text{for } l = L-1, L-2, \ldots, 1$$
그래디언트 계산: 각 층의 가중치와 편향에 대한 비용 함수의 그래디언트를 계산한다. $$\nabla_{W^l} C = \delta^l (a^{l-1})^T$$ $$\nabla_{b^l} C = \delta^l$$
가중치 및 편향 업데이트: 계산된 그래디언트를 사용하여 가중치와 편향을 업데이트한다. $$W^l \leftarrow W^l - \eta \nabla_{W^l} C$$ $$b^l \leftarrow b^l - \eta \nabla_{b^l} C$$ 여기서 $\eta$는 학습률이다.

체인 룰(Chain Rule)의 중요성

역전파의 핵심은 미적분학의 체인 룰(chain rule)을 활용하는 것이다. 복잡한 합성 함수의 미분을 각 구성 함수의 미분의 곱으로 표현할 수 있다는 원리를 이용한다.

예를 들어, $z = f(y)$와 $y = g(x)$라면, $\frac{dz}{dx} = \frac{dz}{dy} \cdot \frac{dy}{dx}$이다.

신경망에서는 입력부터 출력까지 여러 층의 연산이 중첩되어 있으므로, 최종 오차가 각 가중치에 미치는 영향을 계산하기 위해 체인 룰을 반복적으로 적용한다.

역전파 과정	수식	직관적 의미
출력층 오차 계산	$\delta^L = \nabla_a C \odot \sigma’(z^L)$	“최종 오차가 얼마인가?”
오차 역전파	$\delta^l = ((W^{l+1})^T \delta^{l+1}) \odot \sigma’(z^l)$	“이전 층의 각 뉴런이 최종 오차에 얼마나 기여했는가?”
그래디언트 계산	$\nabla_{W^l} C = \delta^l (a^{l-1})^T$	“각 가중치가 최종 오차에 얼마나 기여했는가?”
가중치 업데이트	$W^l \leftarrow W^l - \eta \nabla_{W^l} C$	“최종 오차를 줄이기 위해 각 가중치를 어떻게 조정할 것인가?”

역전파 알고리즘의 실제 구현

간단한 신경망에서의 역전파 예시

2개의 입력 뉴런, 2개의 은닉층 뉴런, 1개의 출력 뉴런으로 구성된 간단한 신경망을 예로 들어 역전파를 단계별로 살펴보자.

입력: $x = [x_1, x_2]^T$ 목표 출력: $y$

순전파:

은닉층 입력: $z^1 = W^1 x + b^1$
은닉층 출력: $a^1 = \sigma(z^1)$
출력층 입력: $z^2 = W^2 a^1 + b^2$
출력층 출력: $a^2 = \sigma(z^2)$
오차 계산: $C = \frac{1}{2}(a^2 - y)^2$

역전파:

출력층 오차: $\delta^2 = (a^2 - y) \cdot \sigma’(z^2)$
출력층 가중치 그래디언트: $\nabla_{W^2} C = \delta^2 \cdot (a^1)^T$
출력층 편향 그래디언트: $\nabla_{b^2} C = \delta^2$
은닉층 오차: $\delta^1 = (W^2)^T \delta^2 \odot \sigma’(z^1)$
은닉층 가중치 그래디언트: $\nabla_{W^1} C = \delta^1 \cdot x^T$
은닉층 편향 그래디언트: $\nabla_{b^1} C = \delta^1$

가중치 업데이트:

$W^2 \leftarrow W^2 - \eta \nabla_{W^2} C$
$b^2 \leftarrow b^2 - \eta \nabla_{b^2} C$
$W^1 \leftarrow W^1 - \eta \nabla_{W^1} C$
$b^1 \leftarrow b^1 - \eta \nabla_{b^1} C$

활성화 함수와 그 미분

역전파 과정에서는 활성화 함수의 미분 값이 필요하다. 주요 활성화 함수와 그 미분은 다음과 같다:

활성화 함수	정의	미분
Sigmoid	$\sigma(x) = \frac{1}{1 + e^{-x}}$	$\sigma’(x) = \sigma(x)(1 - \sigma(x))$
ReLU	$\text{ReLU}(x) = \max(0, x)$	$\text{ReLU}’(x) = \begin{cases} 1 & \text{if } x > 0 \ 0 & \text{if } x \leq 0 \end{cases}$
tanh	$\tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}$	$\tanh’(x) = 1 - \tanh^2(x)$
Leaky ReLU	$\text{LReLU}(x) = \begin{cases} x & \text{if } x > 0 \ \alpha x & \text{if } x \leq 0 \end{cases}$	$\text{LReLU}’(x) = \begin{cases} 1 & \text{if } x > 0 \ \alpha & \text{if } x \leq 0 \end{cases}$

실제 구현 시 고려사항

1. 수치적 안정성

오버플로우/언더플로우 방지: 지수 함수나 로그 함수 사용 시 주의
로그-합 트릭(log-sum trick)과 같은 기법 활용

2. 배치 처리

미니배치 경사 하강법 사용: 여러 샘플의 그래디언트 평균으로 가중치 업데이트
배치 정규화(Batch Normalization) 적용: 내부 공변량 이동(internal covariate shift) 감소

3. 그래디언트 소실/폭발 문제

그래디언트 클리핑(gradient clipping) 적용
적절한 가중치 초기화 방법 선택(Xavier, He 초기화 등)
잔차 연결(residual connections) 사용

4. 계산 효율성

행렬 연산 최적화
GPU 가속 활용
자동 미분(Automatic Differentiation) 라이브러리 사용

역전파의 한계와 최신 개선 기법

기존 역전파의 한계점

1. 깊은 신경망에서의 그래디언트 소실/폭발

층이 깊어질수록 그래디언트가 0에 가까워지거나(소실) 매우 커지는(폭발) 문제 발생
결과적으로 깊은 층은 효과적으로 학습되지 않음

2. 비효율적인 메모리 사용

순전파 과정의 모든 중간 결과를 저장해야 함
메모리 요구량이 네트워크 깊이에 비례하여 증가

3. 순차적 계산의 한계

본질적으로 순차적인 알고리즘이므로 병렬화에 제한이 있음
특히 순환 신경망(RNN)에서 시퀀스 길이가 길 경우 비효율적

결론 및 실용적 팁

역전파의 중요성 요약

역전파 알고리즘은 현대 딥러닝의 핵심 기술로, 복잡한 신경망의 효율적인 학습을 가능하게 했다. 체인 룰을 활용하여 출력층의 오차를 역으로 전파함으로써 각 가중치가 최종 오차에 기여하는 정도를 계산하고, 이를 바탕으로 가중치를 효과적으로 업데이트한다.

실용적 팁

1. 디버깅 전략

수치 미분(numerical differentiation)으로 역전파 구현 검증
그래디언트 노름(norm) 모니터링으로 학습 상태 확인
작은 네트워크부터 시작하여 점진적으로 복잡도 증가

2. 하이퍼파라미터 튜닝

적절한 학습률 선택: 너무 크면 발산, 너무 작으면 느린 수렴
미니배치 크기 조정: 메모리 사용량과 일반화 성능 사이의 균형
가중치 초기화 방법 선택: 활성화 함수에 맞는 초기화 기법 활용

3. 모니터링 지표

훈련/검증 손실 추이 관찰
각 층의 활성화 분포 및 그래디언트 분포 확인
가중치 및 편향의 변화량 모니터링

참고 문헌

Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning representations by back-propagating errors. Nature, 323(6088), 533-536.
LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521(7553), 436-444.
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.

역전파(Backpropagation)의 기본 개념과 직관적 이해#

역전파란 무엇인가?#

역전파의 직관적 이해#

역전파의 수학적 정의와 작동 원리#

기본 수식과 표기법#

역전파 알고리즘의 단계별 설명#

체인 룰(Chain Rule)의 중요성#

역전파 알고리즘의 실제 구현#

간단한 신경망에서의 역전파 예시#

순전파:#

역전파:#

가중치 업데이트:#

활성화 함수와 그 미분#

실제 구현 시 고려사항#

역전파의 한계와 최신 개선 기법#

기존 역전파의 한계점#

최신 개선 기법#

결론 및 실용적 팁#

역전파의 중요성 요약#

실용적 팁#

참고 문헌#