Viterbi ์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ๋ณธ ์๋ฆฌ
Viterbi ์๊ณ ๋ฆฌ์ฆ์ HMM(Hidden Markov Model)์์ ๊ฐ์ฅ ํ๋ฅ ์ด ๋์ ์๋ ์ํ ์ํ์ค๋ฅผ ์ฐพ๊ธฐ ์ํ ๋์ ํ๋ก๊ทธ๋๋ฐ ์๊ณ ๋ฆฌ์ฆ์ด๋ค. ASR์์๋ ๊ด์ธก๋ ์ํฅ ํน์ง(acoustic features)์ด ์ฃผ์ด์ก์ ๋, ๊ฐ์ฅ ํ๋ฅ ์ด ๋์ ๋จ์ด๋ ์์ ์ํ์ค๋ฅผ ์ฐพ๋ ๋ฐ ์ฌ์ฉ๋๋ค.
Viterbi ์๊ณ ๋ฆฌ์ฆ์ ์ฃผ์ ๊ตฌ์ฑ์์
- ์ํ ๊ณต๊ฐ: HMM์ ๊ฐ๋ฅํ ๋ชจ๋ ์ํ๋ค ($S = {s_1, s_2, …, s_N}$)
- ๊ด์ธก ์ํ์ค: ์๊ฐ์ ๋ฐ๋ฅธ ์ํฅ ํน์ง ๋ฒกํฐ ($O = o_1, o_2, …, o_T$)
- ์ํ ์ ์ด ํ๋ฅ : ํ ์ํ์์ ๋ค๋ฅธ ์ํ๋ก ์ ์ดํ ํ๋ฅ ($a_{ij}$)
- ๋ฐฉ์ถ ํ๋ฅ : ํน์ ์ํ์์ ๊ด์ธก๊ฐ์ ์์ฑํ ํ๋ฅ ($b_j(o_t)$)
Viterbi ์๊ณ ๋ฆฌ์ฆ์ ์์
- ์ด๊ธฐํ:
$\delta_1(i) = \pi_i \cdot b_i(o_1)$, $1 \leq i \leq N$ $$\psi_1(i) = 0$$ ์ฌ๊ธฐ์ $\pi_i$๋ ์ํ $i$์ ์ด๊ธฐ ํ๋ฅ , $\delta_t(i)$๋ ์๊ฐ $t$์์ ์ํ $i$์ ๋๋ฌํ๋ ์ต๋ ํ๋ฅ ๊ฒฝ๋ก์ ํ๋ฅ ์ด๋ค.
- ์ฌ๊ท:
$$\delta_t(j) = \max_{1 \leq i \leq N} [\delta_{t-1}(i) \cdot a_{ij}] \cdot b_j(o_t)$$ $$2 \leq t \leq T, 1 \leq j \leq N$$
$$\psi_t(j) = \arg\max_{1 \leq i \leq N} [\delta_{t-1}(i) \cdot a_{ij}]$$
- ์ข ๋ฃ:
$$P^* = \max_{1 \leq i \leq N} [\delta_T(i)]$$ $$q_T^* = \arg\max_{1 \leq i \leq N} [\delta_T(i)]$$
- ๊ฒฝ๋ก ์ญ์ถ์ :
$$q_t^* = \psi_{t+1}(q_{t+1}^*), t = T-1, T-2, …, 1$$
Viterbi์ ๊ตฌ์ฒด์ ์์
๋ฌด์จ ๋ง์ธ์ง ๋ชจ๋ฅด๊ฒ ๋ค๋ฉด ์์๋ฅผ ํตํด ์ข ๋ ์ฝ๊ฒ ์ดํดํ ์ ์๋ค. ์์ฑ ์ธ์์์ “๋๋” ์ด๋ผ๋ ๋จ์ด๋ฅผ ์ธ์ํ๋ ๊ฐ๋จํ ์๋ฅผ ํตํด Viterbi ์๊ณ ๋ฆฌ์ฆ์ ์์๋ณด์.
- ๋ฌธ์ ์ค์ : ์ธ์ํ ๋จ์ด: “๋๋” ์์ ๋ถํด: /ใด/, /ใ /, /ใด/, /ใ ก/, /ใด/ ๊ฐ ์์๋ 3๊ฐ์ ์ํ๋ฅผ ๊ฐ์ง HMM์ผ๋ก ๋ชจ๋ธ๋ง (์์, ์ค๊ฐ, ๋) ๊ด์ธก ์ํ์ค: 5๊ฐ์ ์ํฅ ํน์ง ๋ฒกํฐ $O = {o_1, o_2, o_3, o_4, o_5}$
- HMM ํ๋ผ๋ฏธํฐ: ์ํ ์งํฉ: /ใด1/, /ใด2/, /ใด3/, /ใ 1/, /ใ 2/, /ใ 3/, /ใด1’/, /ใด2’/, /ใด3’/, /ใ ก1/, /ใ ก2/, /ใ ก3/, /ใด1’’/, /ใด2’’/, /ใด3’’/ (์ด 15๊ฐ ์ํ)
์ ์ด ํ๋ฅ (์ผ๋ถ ์์): $$a_{/ใด1/, /ใด2/} = 0.7$$ (์ฒซ /ใด/์ ์ฒซ ์ํ์์ ๋ ๋ฒ์งธ ์ํ๋ก) $$a_{/ใด2/, /ใด3/} = 0.8$$ $$a_{/ใด3/, /ใ 1/} = 0.9$$ (์ฒซ /ใด/์ ๋ ์ํ์์ /ใ /์ ์ฒซ ์ํ๋ก)
๋ฐฉ์ถ ํ๋ฅ (t=1 ์์ ์ ์์): $$b_{/ใด1/}(o_1) = 0.4$$ $$b_{/ใ 1/}(o_1) = 0.1$$ $$b_{/ใ ก1/}(o_1) = 0.05$$
- Viterbi ์๊ณ ๋ฆฌ์ฆ ์คํ:
์ด๊ธฐํ (t=1): $$\delta_1(/ใด1/) = \pi_{/ใด1/} \cdot b_{/ใด1/}(o_1) = 1.0 \times 0.4 = 0.4$$ (์ฒซ ์์์ ์ฒซ ์ํ๋ก ์์ํ๋ค๊ณ ๊ฐ์ ) ๋ค๋ฅธ ๋ชจ๋ ์ํ์ ์ด๊ธฐ ํ๋ฅ ์ 0
t=2 ๊ณ์ฐ: $$\delta_2(/ใด2/) = \delta_1(/ใด1/) \cdot a_{/ใด1/, /ใด2/} \cdot b_{/ใด2/}(o_2)$$ $$= 0.4 \times 0.7 \times 0.3 = 0.084$$ $$\delta_2(/ใด1/) = \delta_1(/ใด1/) \cdot a_{/ใด1/, /ใด1/} \cdot b_{/ใด1/}(o_2)$$ $$= 0.4 \times 0.2 \times 0.25 = 0.02$$
t=3 ๊ณ์ฐ: $$\delta_3(/ใด3/) = \delta_2(/ใด2/) \cdot a_{/ใด2/, /ใด3/} \cdot b_{/ใด3/}(o_3)$$ $$= 0.084 \times 0.8 \times 0.5 = 0.0336$$ $$\delta_3(/ใด2/) = \max[\delta_2(/ใด1/) \cdot a_{/ใด1/, /ใด2/}, \delta_2(/ใด2/) \cdot a_{/ใด2/, /ใด2/}] \cdot b_{/ใด2/}(o_3)$$ $$= \max[0.02 \times 0.7, 0.084 \times 0.1] \times 0.45$$ $$= \max[0.014, 0.0084] \times 0.45 = 0.014 \times 0.45 = 0.0063$$
๊ณ์ํด์ t=4, t=5๊น์ง ๊ณ์ฐ:
๋ง์ฐฌ๊ฐ์ง ๋ฐฉ์์ผ๋ก ๋ชจ๋ ๊ฐ๋ฅํ ์ํ ์ ์ด์ ๋ํด ํ๋ฅ ์ ๊ณ์ฐํ๋ค.
์ต์ข
๊ฒฐ๊ณผ:
๊ฐ์ ๋ ๊ฐ๋ค๋ก ๊ณ์ฐ์ ์๋ฃํ๋ฉด, ๊ฐ์ฅ ๋์ ํ๋ฅ ์ ๊ฐ์ง ์ํ ์ํ์ค:
/ใด1/ โ /ใด2/ โ /ใด3/ โ /ใ
1/ โ /ใ
2/ โ /ใ
3/ โ /ใด1’/ โ …
๋ฐฉ์ถ ํ๋ฅ ($b_j(o_t)$), ์ํ ์ ์ด ํ๋ฅ ($a_{ij}$)
๊ทธ๋ ๋ค๋ฉด ๋์ฒด ‘๋ฐฉ์ถ ํ๋ฅ ($b_j(o_t)$)‘๊ณผ ‘์ํ ์ ์ด ํ๋ฅ ($a_{ij}$)’ ์ด๋ผ๋ ๊ฒ์ ์ด๋ป๊ฒ ๊ตฌํ ๊น?!
์ํ ์ ์ด ํ๋ฅ ($a_{ij}$) ๊ตฌํ๊ธฐ
- ์ ๋ฌธ๊ฐ ์ง์ ๊ธฐ๋ฐ ์ด๊ธฐํ
์ฌ์ฉ ์์ : ๋ชจ๋ธ ํ์ต ์์ ์ ์ด๊ธฐ๊ฐ ์ค์
- 3-์ํ left-to-right HMM ๊ตฌ์กฐ์์:
- ์๊ธฐ ๋ฃจํ(self-loop): $a_{ii} \approx 0.6$
- ๋ค์ ์ํ๋ก ์ ์ด: $a_{i,i+1} \approx 0.4$ Kaldi์ topo ํ์ผ์ ์ด๋ฌํ ์ด๊ธฐ๊ฐ ์ ์
- Baum-Welch ์๊ณ ๋ฆฌ์ฆ (EM ๊ธฐ๋ฐ)
์ฌ์ฉ ์์ : ๋ชจ๋ธ ํ์ต ๊ณผ์
- Baum-Welch ์๊ณ ๋ฆฌ์ฆ (EM ์๊ณ ๋ฆฌ์ฆ์ HMM ๋ฒ์ )
- E(Expectation)-๋จ๊ณ: ์ ๋ฐฉ($\alpha$)/ํ๋ฐฉ($\beta$) ํ๋ฅ ๊ณ์ฐ
- ํต๊ณ ์์ง: $\xi_t(i,j)$ (์๊ฐ $t$์ ์ํ $i$, ์๊ฐ $t+1$์ ์ํ $j$์ ์์ ํ๋ฅ )
- M(Maximization)-๋จ๊ณ: ์ํ ์ ์ด ํ๋ฅ ์ ๋ฐ์ดํธ $$a_{ij} = \frac{\sum_{t=1}^{T-1} \xi_t(i,j)}{\sum_{t=1}^{T-1} \gamma_t(i)}$$
์ฌ๊ธฐ์:
$\xi_t(i,j)$: ์๊ฐ $t$์ ์ํ $i$, ์๊ฐ $t+1$์ ์ํ $j$์ ์์ ํ๋ฅ
$\gamma_t(i)$: ์๊ฐ $t$์ ์ํ $i$์ ์์ ํ๋ฅ
- ๊ฐ์ ์ ๋ ฌ(Forced Alignment) ๊ธฐ๋ฐ
์ฌ์ฉ ์์ : ๋ชจ๋ธ ์ธ๋ จํ ๋ฐ ์ ์ ๋จ๊ณ
- ์์ฑ-ํ ์คํธ ์์ด ์๋ ํ์ต ๋ฐ์ดํฐ ์ค๋น
- ํ์ฌ ๋ชจ๋ธ๋ก ๋ฐํ๋ฅผ ์๋ ค์ง ํ ์คํธ์ ๊ฐ์ ์ ๋ ฌ
- ์ํ ์ํ์ค๋ฅผ ์นด์ดํธํ์ฌ ์ ์ด ํ๋ฅ ๊ณ์ฐ(์นด์ดํธ๋ฅผ ์ ๊ทํํ์ฌ ํ๋ฅ ๊ณ์ฐ): $$a_{ij} = \frac{์นด์ดํธ(์ํ i์์ j๋ก ์ ์ด)}{์นด์ดํธ(์ํ i์์์ ๋ชจ๋ ์ ์ด)}$$
๋ฐฉ์ถ ํ๋ฅ ($b_j(o_t)$) ๊ตฌํ๊ธฐ
GMM์ ์ฌ๋ฌ ๊ฐ์ฐ์์ ๋ถํฌ์ ๊ฐ์ค ํฉ์ผ๋ก ํํ๋๋ ํ๋ฅ ๋ฐ๋ ํจ์๋ค. HMM-GMM ์์คํ
์์๋ ๊ฐ HMM ์ํ์ ๋ฐฉ์ถ ํ๋ฅ ์ GMM์ผ๋ก ๋ชจ๋ธ๋งํ๋ค:
๊ฐ HMM ์ํ $j$์ ๋ฐฉ์ถ ํ๋ฅ ์ ๊ฐ์ฐ์์ ํผํฉ ๋ชจ๋ธ๋ก ํํ:
$b_j(o_t) = \sum_{m=1}^M c_{jm} \mathcal{N}(o_t; \mu_{jm}, \Sigma_{jm})$
$c_{jm}$: $m$๋ฒ์งธ ๊ฐ์ฐ์์ ์ปดํฌ๋ํธ์ ๊ฐ์ค์น (๋ชจ๋ ๊ฐ์ค์น ํฉ์ 1)
$\mu_{jm}$: $m$๋ฒ์งธ ๊ฐ์ฐ์์์ ํ๊ท ๋ฒกํฐ
$\Sigma_{jm}$: $m$๋ฒ์งธ ๊ฐ์ฐ์์์ ๊ณต๋ถ์ฐ ํ๋ ฌ
$\mathcal{N}(o_t; \mu, \Sigma)$: ํ๊ท $\mu$, ๊ณต๋ถ์ฐ $\Sigma$๋ฅผ ๊ฐ์ง ๋ค๋ณ๋ ๊ฐ์ฐ์์ ๋ฐ๋ ํจ์
(๋์ค์ ๋ฐ๋ก GMM์ ๋ํด์ ํฌ์คํ
์ ํ๋ ์ง ํด์ผ๊ฒ ๋ค. ์ด ์์๋ง ๋ด์๋ ์ด๋ป๊ฒ ๊ตฌํ ์ ์๋ ๊ฒ์ธ์ง ๊ฐ์ด ์ ์กํ๋ค. ๋ค๋ง ์๋ ํ์ต ๊ณผ์ ์ผ๋ก ์ด๋ฃจ์ด ์ง๋ ๊ฒ์ ์๊ณ ๋์ด๊ฐ์)
๋ฐฉ์ถ ํ๋ฅ ํ์ต๋ฐฉ๋ฒ
- GMM ์ด๊ธฐํ
์ฌ์ฉ ์์ : ๋ชจ๋ธ ํ์ต ์์ ์
๋ฐฉ๋ฒ:
- ๊ฐ ์ํ์ ํ ๋น๋ ํน์ง ๋ฒกํฐ์ k-means ํด๋ฌ์คํฐ๋ง
- ์ด๊ธฐ GMM ์ปดํฌ๋ํธ ์์ฑ (ํ๊ท , ๊ณต๋ถ์ฐ, ๊ฐ์ค์น)
- Kaldi์์๋ gmm-init-mono ๋ฑ์ ๋ช ๋ น์ด๋ก ๊ตฌํ
- Baum-Welch ์๊ณ ๋ฆฌ์ฆ ๋ด GMM ์ ๋ฐ์ดํธ
์ฌ์ฉ ์์ : ๋ชจ๋ธ ํ์ต ๊ณผ์
๋ฐฉ๋ฒ:
- E-๋จ๊ณ์์ ๊ฐ ํ๋ ์์ ์ํ ์์ ํ๋ฅ $\gamma_t(j)$ ๊ณ์ฐ
- ๊ฐ ๊ฐ์ฐ์์ ์ปดํฌ๋ํธ์ ๋ํ ์ฑ
์ ํ๋ฅ ($\gamma_t(j,m)$) ๊ณ์ฐ:
$$\gamma_t(j,m) = \gamma_t(j) \cdot \frac{c_{jm} \mathcal{N}(o_t; \mu_{jm}, \Sigma_{jm})}{\sum_{k=1}^M c_{jk} \mathcal{N}(o_t; \mu_{jk}, \Sigma_{jk})}$$
GMM ํ๋ผ๋ฏธํฐ ์
๋ฐ์ดํธ:
๊ฐ์ค์น: $c_{jm} = \frac{\sum_{t=1}^T \gamma_t(j,m)}{\sum_{t=1}^T \gamma_t(j)}$
ํ๊ท : $\mu_{jm} = \frac{\sum_{t=1}^T \gamma_t(j,m) \cdot o_t}{\sum_{t=1}^T \gamma_t(j,m)}$
๊ณต๋ถ์ฐ: $\Sigma_{jm} = \frac{\sum_{t=1}^T \gamma_t(j,m) \cdot (o_t - \mu_{jm})(o_t - \mu_{jm})^T}{\sum_{t=1}^T \gamma_t(j,m)}$
- ์ ๋ ฌ ๊ธฐ๋ฐ GMM ์ธ๋ จํ
์ฌ์ฉ ์์ : ๋ชจ๋ธ ์ธ๋ จํ ๋จ๊ณ
๋ฐฉ๋ฒ:
- ๊ฐ์ ์ ๋ ฌ๋ก ํน์ง ๋ฒกํฐ๋ฅผ HMM ์ํ์ ํ ๋น
- ์ ๋ ฌ๋ ๋ฐ์ดํฐ๋ก ๋ ๋ณต์กํ GMM ํ์ต (์: ํผํฉ ์ ์ฆ๊ฐ)
- Kaldi์์๋ gmm-acc-stats-ali์ gmm-est๋ก ๊ตฌํ
์ฑ ์ ํ๋ฅ ์์
$$\gamma_t(j,m) = \gamma_t(j) \cdot \frac{c_{jm} \mathcal{N}(o_t; \mu_{jm}, \Sigma_{jm})}{\sum_{k=1}^M c_{jk} \mathcal{N}(o_t; \mu_{jk}, \Sigma_{jk})}$$ ์ด ์์์ ์ํ $j$์ $m$๋ฒ์งธ ๊ฐ์ฐ์์ ์ปดํฌ๋ํธ๊ฐ ๊ด์ธก๊ฐ $o_t$๋ฅผ ์์ฑํ ์ฑ ์(responsibility) ์ ๋ํ๋ธ๋ค. ์ฆ, ๊ด์ธก๊ฐ $o_t$๊ฐ ์ํ $j$์์ ์์ฑ๋์๋ค๋ ์กฐ๊ฑดํ์, ๊ทธ ์ค์์๋ $m$๋ฒ์งธ ๊ฐ์ฐ์์ ์ปดํฌ๋ํธ์์ ์์ฑ๋์์ ํ๋ฅ ์ด๋ค.
๋ฐฉ์ถ ํ๋ฅ ์์
$$b_j(o_t) = \sum_{m=1}^M c_{jm} \mathcal{N}(o_t; \mu_{jm}, \Sigma_{jm})$$
์ด ์์์ ์ํ $j$์์ ๊ด์ธก๊ฐ $o_t$๋ฅผ ์์ฑํ ๋ฐฉ์ถ ํ๋ฅ (emission probability) ์ ๋ํ๋ธ๋ค. GMM์ผ๋ก ๋ชจ๋ธ๋ง๋ ํ๋ฅ ๋ฐ๋ ํจ์์ด๋ค.
๋ ์์์ ๊ด๊ณ
์ค์ํ ์ ์ ์ฒซ ๋ฒ์งธ ์์์ ๋ถ๋ชจ๊ฐ ๋ฐ๋ก ๋ ๋ฒ์งธ ์์๊ณผ ๊ฐ๋ค๋ ๊ฒ์ด๋ค:
$$\sum_{k=1}^M c_{jk} \mathcal{N}(o_t; \mu_{jk}, \Sigma_{jk}) = b_j(o_t)$$
๋ฐ๋ผ์ ์ฒซ ๋ฒ์งธ ์์์ ๋ค์๊ณผ ๊ฐ์ด ๋ค์ ์ธ ์ ์๋ค:
$$\gamma_t(j,m) = \gamma_t(j) \cdot \frac{c_{jm} \mathcal{N}(o_t; \mu_{jm}, \Sigma_{jm})}{b_j(o_t)}$$
์ด๋ Baum-Welch ์๊ณ ๋ฆฌ์ฆ์ E-๋จ๊ณ์์ ๊ณ์ฐ๋๋ ๊ฐ์ผ๋ก:
$\gamma_t(j)$: ์๊ฐ $t$์ ์ํ $j$์ ์์ ํ๋ฅ
$\frac{c_{jm} \mathcal{N}(o_t; \mu_{jm}, \Sigma_{jm})}{b_j(o_t)}$: ์ํ $j$ ๋ด์์ $m$๋ฒ์งธ ๊ฐ์ฐ์์ ์ปดํฌ๋ํธ์ ๊ธฐ์ฌ๋
๋ ์์์ ๋ค๋ฅธ ์๋ฏธ๋ฅผ ๊ฐ์ง์ง๋ง, GMM ํ๋ผ๋ฏธํฐ ํ์ต ๊ณผ์ ์์ ์๋ก ์ฐ๊ด๋์ด ์ฌ์ฉ๋๋ค:
- ๋ฐฉ์ถ ํ๋ฅ $b_j(o_t)$๋ HMM์ ๊ธฐ๋ณธ ๊ตฌ์ฑ์์
- ์ฑ ์ ํ๋ฅ $\gamma_t(j,m)$์ GMM ํ๋ผ๋ฏธํฐ ์ ๋ฐ์ดํธ์ ์ฌ์ฉ๋๋ ํต๊ณ๋
DNN-HMM ํ์ด๋ธ๋ฆฌ๋ ์์คํ ์์ DNN์ GMM ๋์ฒด ๋ฐฉ์
๊ธฐ๋ณธ ๊ฐ๋ ์ ๋ณํ
GMM-HMM ์์คํ ์์ DNN-HMM ํ์ด๋ธ๋ฆฌ๋ ์์คํ ์ผ๋ก์ ์ ํ์ ASR ๋ฐ์ ์ ์์ด ์ค์ํ ํจ๋ฌ๋ค์ ๋ณํ์๋ค. ์ฃผ์ ๋ณํ๋ ๋ค์๊ณผ ๊ฐ๋ค
GMM-HMM์์
- GMM์ ์์ฑ ๋ชจ๋ธ(generative model)๋ก $p(o_t|s_j)$, ์ฆ ์ํ $j$๊ฐ ์ฃผ์ด์ก์ ๋ ๊ด์ธก๊ฐ $o_t$์ ์ฐ๋(likelihood)๋ฅผ ์ง์ ๋ชจ๋ธ๋ง
- ๊ฐ HMM ์ํ๋ง๋ค ๋ณ๋์ GMM์ด ์กด์ฌ
- ๋ฐฉ์ถ ํ๋ฅ : $b_j(o_t) = p(o_t|s_j) = \sum_{m=1}^M c_{jm} \mathcal{N}(o_t; \mu_{jm}, \Sigma_{jm})$
DNN-HMM์์: - DNN์ ํ๋ณ ๋ชจ๋ธ(discriminative model)๋ก $p(s_j|o_t)$, ์ฆ ๊ด์ธก๊ฐ $o_t$๊ฐ ์ฃผ์ด์ก์ ๋ ์ํ $j$์ ์ฌํ ํ๋ฅ (posterior)์ ์์ธก
- ํ๋์ DNN์ด ๋ชจ๋ ์ํ์ ์ฌํ ํ๋ฅ ์ ๋์์ ์ถ๋ ฅ
- ๋ฒ ์ด์ฆ ๊ท์น์ผ๋ก ์ฐ๋๋ก ๋ณํ: $p(o_t|s_j) \propto \frac{p(s_j|o_t)}{p(s_j)}$
DNN์ด GMM์ ๋์ฒดํ๋ ๋ฉ์ปค๋์ฆ
DNN์ ๋ค์๊ณผ ๊ฐ์ ๋ฐฉ์์ผ๋ก GMM์ ์ญํ ์ ๋์ฒดํ๋ค:
์
๋ ฅ: ์ํฅ ํน์ง(MFCC, FBANK ๋ฑ)๊ณผ ๊ทธ ๋ฌธ๋งฅ(์๋ค ํ๋ ์)
์ถ๋ ฅ: ๊ฐ HMM ์ํ(senone)์ ๋ํ ์ฌํ ํ๋ฅ
๋์ฝ๋ฉ ์ ์ฌ์ฉ: ๋ฒ ์ด์ฆ ๊ท์น์ ํตํด ์ฐ๋๋ก ๋ณํ
GMM-HMM์ผ๋ก ์ด๊ธฐ ๊ฐ์ ์ ๋ ฌ ์ํ
์ ๋ ฌ๋ ํ๋ ์ ๋ ์ด๋ธ์ ์ฌ์ฉํด DNN ํ์ต (๊ต์ฐจ ์ํธ๋กํผ ์์ค ํจ์)
์ถ๋ ฅ์ธต์ softmax ํ์ฑํ ํจ์๋ฅผ ํตํด ๋ชจ๋ HMM ์ํ์ ๋ํ ํ๋ฅ ์ถ๋ ฅ
๋์ฝ๋ฉ ๋จ๊ณ
DNN์ด ๊ฐ ํ๋ ์์ ๋ํ ์ํ ์ฌํ ํ๋ฅ $p(s_j|o_t)$ ์ถ๋ ฅ
์ฌํ ํ๋ฅ ์ ์ฐ๋๋ก ๋ณํ: $p(o_t|s_j) \propto \frac{p(s_j|o_t)}{p(s_j)}$
์ด ์ฐ๋๋ฅผ HMM ๋์ฝ๋์ ์ ๊ณต (Viterbi, Beam Search ๋ฑ)
์ฌ๊ธฐ์ $p(s_j)$๋ ์ํ์ ์ฌ์ ํ๋ฅ ๋ก, ํ์ต ๋ฐ์ดํฐ์์ ๊ฐ ์ํ์ ์ถํ ๋น๋๋ฅผ ๊ณ์ฐํ์ฌ ์ป๋๋ค.
์ฃผ์ ํ์ ํฌ์ธํธ
- ํน์ง ํํ๋ ฅ
GMM: ํ๋ฅ ๋ถํฌ๋ฅผ ๋ช
์์ ์ผ๋ก ๋ชจ๋ธ๋งํ์ง๋ง ๋ณต์กํ ํจํด ์ธ์์ ์ ํ์
DNN: ๋น์ ํ ๋ณํ์ ํตํด ๋ ๋ณต์กํ ํจํด ์ธ์ ๊ฐ๋ฅ, ๋ ๊ฐ๋ ฅํ ํน์ง ํํ ํ์ต
- ๋ฌธ๋งฅ ์ ๋ณด ํ์ฉ
GMM: ์ฃผ๋ก ํ์ฌ ํ๋ ์์ ํน์ง๋ง ์ฌ์ฉ
DNN: ์ฌ๋ฌ ํ๋ ์์ ์
๋ ฅ์ผ๋ก ๋ฐ์ ๋ ๊ธด ๋ฌธ๋งฅ ์ ๋ณด ํ์ฉ ๊ฐ๋ฅ (์: 9ํ๋ ์ ์๋์ฐ)
- ํ๋ผ๋ฏธํฐ ๊ณต์
GMM: ๊ฐ ์ํ๋ง๋ค ๋ณ๋์ ํ๋ผ๋ฏธํฐ ์งํฉ
DNN: ํ๋์ ๋คํธ์ํฌ๋ก ๋ชจ๋ ์ํ์ ํ๋ฅ ๊ณ์ฐ, ํ์ ์ธต์์ ํน์ง ํํ ๊ณต์
...