๋ชจ๋ฉ˜ํ…€์˜ ๊ธฐ๋ณธ ๊ฐœ๋…๊ณผ ์ง๊ด€์  ์ดํ•ด

๋ฌผ๋ฆฌํ•™์—์„œ์˜ ๋ชจ๋ฉ˜ํ…€๊ณผ ๋”ฅ๋Ÿฌ๋‹์—์„œ์˜ ์ ์šฉ

๋ฌผ๋ฆฌํ•™์—์„œ ๋ชจ๋ฉ˜ํ…€(momentum)์ด๋ž€ ์งˆ๋Ÿ‰๊ณผ ์†๋„์˜ ๊ณฑ์œผ๋กœ ์ •์˜๋˜๋Š” ๋ฌผ๋ฆฌ๋Ÿ‰์œผ๋กœ, ๋ฌผ์ฒด์˜ ์šด๋™ ์ƒํƒœ๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค. ์ด ๊ฐœ๋…์ด ๋”ฅ๋Ÿฌ๋‹์˜ ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ์–ด๋–ป๊ฒŒ ์ ์šฉ๋˜๋Š”์ง€ ์‚ดํŽด๋ณด์ž.

๋ฌผ๋ฆฌ์  ์„ธ๊ณ„์—์„œ๋Š”:

  • ๊ณต์ด ๊ฒฝ์‚ฌ์ง„ ์–ธ๋•์„ ๊ตด๋Ÿฌ ๋‚ด๋ ค๊ฐˆ ๋•Œ, ์ฒ˜์Œ์—๋Š” ์ฒœ์ฒœํžˆ ์›€์ง์ด๋‹ค๊ฐ€ ์ ์  ์†๋„๊ฐ€ ๋ถ™๋Š”๋‹ค
  • ์†๋„๊ฐ€ ๋ถ™์€ ๊ณต์€ ์ž‘์€ ์žฅ์• ๋ฌผ์„ ๋งŒ๋‚˜๋„ ๊ด€์„ฑ์— ์˜ํ•ด ๋ฉˆ์ถ”์ง€ ์•Š๊ณ  ๊ณ„์† ์ „์ง„ํ•œ๋‹ค
  • ์›€์ง์ด๋Š” ๋ฐฉํ–ฅ์„ ๋ฐ”๊พธ๊ธฐ ์œ„ํ•ด์„œ๋Š” ์ด๋ฏธ ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ๊ด€์„ฑ์„ ๊ทน๋ณตํ•ด์•ผ ํ•œ๋‹ค

๋”ฅ๋Ÿฌ๋‹ ์ตœ์ ํ™”์—์„œ์˜ ๋ชจ๋ฉ˜ํ…€๋„ ์ด์™€ ๋งค์šฐ ์œ ์‚ฌํ•˜๊ฒŒ ์ž‘๋™ํ•œ๋‹ค:

  • ํŒŒ๋ผ๋ฏธํ„ฐ ์—…๋ฐ์ดํŠธ๊ฐ€ ์ผ๊ด€๋œ ๋ฐฉํ–ฅ์œผ๋กœ ๊ณ„์†๋˜๋ฉด ๋” ํฐ “์†๋„"๊ฐ€ ๋ถ™๋Š”๋‹ค
  • ์ด๋ ‡๊ฒŒ ์†๋„๊ฐ€ ๋ถ™์€ ์—…๋ฐ์ดํŠธ๋Š” ์ž‘์€ ์ง€์—ญ์  ์žฅ์• ๋ฌผ(์ง€์—ญ ์ตœ์†Œ๊ฐ’, ๋…ธ์ด์ฆˆ)์„ ๊ฑด๋„ˆ๋›ธ ์ˆ˜ ์žˆ๋‹ค
  • ์ด์ „ ์—…๋ฐ์ดํŠธ ๋ฐฉํ–ฅ์˜ ์ •๋ณด๋ฅผ ๊ธฐ์–ตํ•˜์—ฌ ๋‹ค์Œ ์—…๋ฐ์ดํŠธ์— ๋ฐ˜์˜ํ•œ๋‹ค

๋‹จ์ˆœ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•์˜ ํ•œ๊ณ„

๊ธฐ๋ณธ์ ์ธ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•(Gradient Descent)์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ฌธ์ œ์ ์„ ๊ฐ–๋Š”๋‹ค

  1. ๋А๋ฆฐ ์ˆ˜๋ ด ์†๋„
  • ์†์‹ค ํ•จ์ˆ˜์˜ ๊ฒฝ์‚ฌ๊ฐ€ ์™„๋งŒํ•œ ์ง€์—ญ์—์„œ๋Š” ๋งค์šฐ ์ž‘์€ ์Šคํ…์œผ๋กœ ์ด๋™ํ•œ๋‹ค
  • ์ตœ์ ์ ๊นŒ์ง€ ๋„๋‹ฌํ•˜๋Š” ๋ฐ ๋งŽ์€ ๋ฐ˜๋ณต์ด ํ•„์š”ํ•˜๋‹ค
  1. ์ง„๋™(oscillation) ๋ฌธ์ œ
  • ์ข๊ณ  ๊นŠ์€ ๊ณ„๊ณก ํ˜•ํƒœ์˜ ์†์‹ค ํ•จ์ˆ˜์—์„œ๋Š” ๊ฒฝ์‚ฌ๊ฐ€ ์–‘์ชฝ์œผ๋กœ ๊ธ‰๊ฒฉํ•˜๊ฒŒ ๋ณ€ํ•œ๋‹ค
  • ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ๊ณ„๊ณก ์–‘์ชฝ์„ ์™”๋‹ค ๊ฐ”๋‹ค ํ•˜๋ฉด์„œ ์ง„๋™ํ•˜๊ณ , ์ตœ์ ์ ์„ ํ–ฅํ•ด ํšจ์œจ์ ์œผ๋กœ ์ง„ํ–‰ํ•˜์ง€ ๋ชปํ•œ๋‹ค
  1. ์ง€์—ญ ์ตœ์†Œ๊ฐ’์— ์‰ฝ๊ฒŒ ๊ฐ‡ํž˜
  • ๊ฒฝ์‚ฌ๋งŒ ๊ณ ๋ คํ•˜๋ฏ€๋กœ ์กฐ๊ธˆ๋งŒ ์˜ค๋ชฉํ•œ ์ง€์ ์—์„œ ์‰ฝ๊ฒŒ ๊ฐ‡ํž ์ˆ˜ ์žˆ๋‹ค
  1. ์•ˆ์žฅ์ (saddle point) ๋ฌธ์ œ ๊ณ ์ฐจ์› ๊ณต๊ฐ„์˜ ์•ˆ์žฅ์ ์—์„œ๋Š” ์ผ๋ถ€ ๋ฐฉํ–ฅ์˜ ๊ฒฝ์‚ฌ๊ฐ€ 0์— ๊ฐ€๊นŒ์›Œ์ ธ ๋น ์ ธ๋‚˜์˜ค๊ธฐ ์–ด๋ ต๋‹ค

๋ชจ๋ฉ˜ํ…€์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐฉ์‹

๋ชจ๋ฉ˜ํ…€์ด ์–ด๋–ป๊ฒŒ ์œ„ ๋ฌธ์ œ๋“ค์„ ํ•ด๊ฒฐํ•˜๋Š”์ง€ ์ง๊ด€์ ์œผ๋กœ ์ดํ•ดํ•ด๋ณด์ž

  1. ๊ฐ€์† ํšจ๊ณผ
  • ๊ณต์ด ์–ธ๋•์„ ๋‚ด๋ ค๊ฐˆ ๋•Œ์ฒ˜๋Ÿผ, ์ผ๊ด€๋œ ๋ฐฉํ–ฅ์œผ๋กœ์˜ ์—…๋ฐ์ดํŠธ๋Š” “๊ฐ€์†” ๋œ๋‹ค
  • ํ‰ํ‰ํ•œ ์ง€์—ญ(๊ฒฝ์‚ฌ๊ฐ€ ์ž‘์€ ๊ณณ)์—์„œ๋„ ์ด์ „ ์—…๋ฐ์ดํŠธ์˜ ๊ด€์„ฑ์œผ๋กœ ๋” ๋น ๋ฅด๊ฒŒ ์ง„ํ–‰ํ•œ๋‹ค
  1. ์ง„๋™ ๊ฐ์†Œ
  • ์ข์€ ๊ณ„๊ณก์—์„œ ์ง„๋™ํ•  ๋•Œ, ๋ชจ๋ฉ˜ํ…€์€ ๋งˆ์น˜ “ํ‰๊ท ํ™”” ์—ญํ• ์„ ํ•œ๋‹ค
  • ์ด์ „ ์Šคํ…๋“ค์˜ ๋ฐฉํ–ฅ ์ •๋ณด๊ฐ€ ๋ˆ„์ ๋˜์–ด ์ „์ฒด์ ์ธ ํ•˜๊ฐ• ๋ฐฉํ–ฅ์„ ์œ ์ง€ํ•œ๋‹ค
  1. ์ง€์—ญ ์ตœ์†Œ๊ฐ’ ํƒˆ์ถœ:
  • ์–•์€ ์ง€์—ญ ์ตœ์†Œ๊ฐ’์—์„œ๋Š” ์ด๋ฏธ ๊ฐ€์ง€๊ณ  ์žˆ๋˜ “์†๋„” ๋กœ ์ธํ•ด ๊ทน๋ณตํ•˜๊ณ  ๋น ์ ธ๋‚˜๊ฐˆ ์ˆ˜ ์žˆ๋‹ค
  • ๋งˆ์น˜ ๊ณต์ด ์ž‘์€ ์›€ํ‘น ํŒจ์ธ ๊ณณ์„ ์ง€๋‚˜์ณ ๊ฐ€๋“ฏ์ด ์ž‘๋™ํ•œ๋‹ค

๋ชจ๋ฉ˜ํ…€์˜ ์ˆ˜ํ•™์  ์ •์˜์™€ ์ž‘๋™ ์›๋ฆฌ

๋ชจ๋ฉ˜ํ…€ ๋ฐฉ์ •์‹ ์†Œ๊ฐœ

๋ชจ๋ฉ˜ํ…€ ๋ฐฉ๋ฒ•์€ ๊ธฐ๋ณธ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•์„ ํ™•์žฅํ•˜์—ฌ ์ด์ „ ์—…๋ฐ์ดํŠธ ๋ฐฉํ–ฅ์˜ ์ •๋ณด๋ฅผ ํ™œ์šฉํ•˜์—ฌ ํ˜„์žฌ์˜ ์—…๋ฐ์ดํŠธ ๋ฐฉํ–ฅ์„ ์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค.
์ˆ˜ํ•™์ ์œผ๋กœ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜๋œ๋‹ค

  1. ์†๋„ ๋ฒกํ„ฐ ์—…๋ฐ์ดํŠธ $$v_t = \gamma v_{t-1} + \eta \nabla J(\theta_t)$$

  2. ํŒŒ๋ผ๋ฏธํ„ฐ ์—…๋ฐ์ดํŠธ $$\theta_{t+1} = \theta_t - v_t$$ ์—ฌ๊ธฐ์„œ,
    $v_t$: ํ˜„์žฌ ์†๋„ ๋ฒกํ„ฐ (์ด์ „ ๊ทธ๋ž˜๋””์–ธํŠธ๋“ค์˜ ๊ธฐ์–ต)
    $\gamma$: ๋ชจ๋ฉ˜ํ…€ ๊ณ„์ˆ˜ (์ผ๋ฐ˜์ ์œผ๋กœ 0.9 ๋˜๋Š” 0.99๋กœ ์„ค์ •)
    $\eta$: ํ•™์Šต๋ฅ 
    $\nabla J(\theta_t)$: ํ˜„์žฌ ํŒŒ๋ผ๋ฏธํ„ฐ์—์„œ์˜ ์†์‹ค ํ•จ์ˆ˜ ๊ธฐ์šธ๊ธฐ

์ด ๋‘ ๋‹จ๊ณ„๋ฅผ ํ•ฉ์น˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์ด ํ‘œํ˜„ํ•  ์ˆ˜๋„ ์žˆ๋‹ค. $$\theta_{t+1} = \theta_t - \gamma v_{t-1} - \eta \nabla J(\theta_t)$$

๋ชจ๋ฉ˜ํ…€ ๊ณ„์ˆ˜($\gamma$)์˜ ์˜๋ฏธ์™€ ์˜ํ–ฅ

๋ชจ๋ฉ˜ํ…€ ๊ณ„์ˆ˜ $\gamma$๋Š” ์ด์ „ ์†๋„์˜ ์˜ํ–ฅ๋ ฅ์„ ์กฐ์ ˆํ•˜๋Š” ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋กœ, 0๊ณผ 1 ์‚ฌ์ด์˜ ๊ฐ’์„ ๊ฐ€์ง„๋‹ค.

  • $\gamma = 0$: ๋ชจ๋ฉ˜ํ…€์ด ์—†๋Š” ํ‘œ์ค€ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•๊ณผ ๋™์ผ
  • $\gamma \approx 1$: ์ด์ „ ์†๋„์˜ ์˜ํ–ฅ์ด ๋งค์šฐ ํฌ๊ฒŒ ์œ ์ง€๋จ

$\gamma$ ๊ฐ’์— ๋”ฐ๋ฅธ ํšจ๊ณผ:

  1. ํฐ $\gamma$ ๊ฐ’(0.9~0.99)
  • ์žฅ์ : ์žฅ๊ธฐ์ ์ธ ๋ฐฉํ–ฅ์„ฑ ์œ ์ง€, ์ž‘์€ ์ง€์—ญ ๋ณ€๋™ ๋ฌด์‹œ
  • ๋‹จ์ : ๊ณผ๋„ํ•œ ๋ชจ๋ฉ˜ํ…€์œผ๋กœ ์ตœ์ ์ ์„ ์ง€๋‚˜์น  ์ˆ˜ ์žˆ์Œ
  1. ์ž‘์€ $\gamma$ ๊ฐ’(0.5~0.8):
  • ์žฅ์ : ํ˜„์žฌ ๊ธฐ์šธ๊ธฐ์— ๋” ๋ฏผ๊ฐํ•˜๊ฒŒ ๋ฐ˜์‘
  • ๋‹จ์ : ๋ชจ๋ฉ˜ํ…€์˜ ์ด์ ์ด ์ค„์–ด๋“ฆ

๋ชจ๋ฉ˜ํ…€ vs ์ผ๋ฐ˜ SGD ๋น„๊ต ํ‘œ

๋ฌธ์ œ ์ƒํ™ฉ ์ผ๋ฐ˜ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•(SGD) ๋ชจ๋ฉ˜ํ…€ ๋ฐฉ๋ฒ•
ํ‰ํ‰ํ•œ ์ง€์—ญ (๊ฒฝ์‚ฌ๊ฐ€ ์ž‘์€ ๊ตฌ๊ฐ„) ๋งค์šฐ ๋А๋ฆฐ ์ง„ํ–‰, ์ž‘์€ ์—…๋ฐ์ดํŠธ ์ด์ „ ๋ฐฉํ–ฅ ๊ด€์„ฑ์œผ๋กœ ๋” ๋น ๋ฅด๊ฒŒ ์ง„ํ–‰
์ข์€ ๊ณ„๊ณก ํ˜•ํƒœ์˜ ๊ณก๋ฉด ์–‘์ชฝ ๋ฒฝ ์‚ฌ์ด์—์„œ ์ง„๋™, ๋น„ํšจ์œจ์ ์ธ ๊ฒฝ๋กœ ์ง„๋™ ๊ฐ์†Œ, ๊ณ„๊ณก์„ ๋”ฐ๋ผ ๋” ์ง์ ‘์ ์œผ๋กœ ํ•˜๊ฐ•
์–•์€ ์ง€์—ญ ์ตœ์†Œ๊ฐ’ ์‰ฝ๊ฒŒ ๊ฐ‡ํž˜ ๊ด€์„ฑ์œผ๋กœ ๋น ์ ธ๋‚˜๊ฐˆ ๊ฐ€๋Šฅ์„ฑ ๋†’์Œ
์•ˆ์žฅ์  ๋งค์šฐ ๋А๋ฆฌ๊ฒŒ ๋น ์ ธ๋‚˜์˜ด ์ด์ „ ์—…๋ฐ์ดํŠธ ๋ฐฉํ–ฅ ๋•๋ถ„์— ๋” ๋น ๋ฅด๊ฒŒ ํƒˆ์ถœ
$\gamma$ ๊ฐ’ ๋ฒ”์œ„ ์ตœ์ ํ™” ํŠน์„ฑ ์žฅ์  ๋‹จ์  ์ ํ•ฉํ•œ ์ƒํ™ฉ
๋‚ฎ์Œ (0.5~0.7) ํ˜„์žฌ ๊ทธ๋ž˜๋””์–ธํŠธ์— ๋” ๋ฏผ๊ฐ ์ง€์—ญ ๋ณ€ํ™”์— ๋” ์ž˜ ๋ฐ˜์‘ ๋ชจ๋ฉ˜ํ…€์˜ ์ด์  ๊ฐ์†Œ ๋น„๊ต์  ๋ถ€๋“œ๋Ÿฌ์šด ์†์‹ค ํ•จ์ˆ˜
์ค‘๊ฐ„ (0.8~0.9) ๊ท ํ˜• ์žกํžŒ ๋ฐ˜์‘ ์ ์ ˆํ•œ ์ˆ˜๋ ด ์†๋„์™€ ์•ˆ์ •์„ฑ - ๋Œ€๋ถ€๋ถ„์˜ ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ (๊ธฐ๋ณธ๊ฐ’์œผ๋กœ ์ถ”์ฒœ)
๋†’์Œ (0.95~0.99) ๊ณผ๊ฑฐ ๊ทธ๋ž˜๋””์–ธํŠธ์˜ ์˜ํ–ฅ์ด ๊ฐ•ํ•จ ์ง€์—ญ ๋…ธ์ด์ฆˆ์— ๊ฐ•์ธ, ๋น ๋ฅธ ์ง„ํ–‰ ๋ชฉํ‘œ ์ง€์ ์„ ์ง€๋‚˜์น  ์ˆ˜ ์žˆ์Œ ๋…ธ์ด์ฆˆ๊ฐ€ ๋งŽ์€ ์†์‹ค ํ•จ์ˆ˜, ๋งค์šฐ ๋ณต์žกํ•œ ์ง€ํ˜•