한 언어에서 다른 언어로 텍스트를 번역하는 언어 번역 모델을 만든다고 가정해보자.소스 언어와 타깃 언어의 문법 구조가 다르기 때문에 텍스트를 한 단어씩 번역하는 것은 불가능하다. 이 문제를 해결하기 위해 심층 신경망에서는 인코더(encoder)와 디코더(decoder)라는 2개의 서브모듈을 사용한다.인코더가 먼저 전체 텍스트를 읽고 처리한 후 디코더가 번역된 텍스트를 생성한다. 트랜스포머가 개발되기 전에는 순환 신경망(recurrent neural network, RNN)이 언어 번역에서 가장 인기 있는 인코더-디코더 구조였다.RNN은 이전 스텝의 출력이 현재 스텝의 입력으로 사용되는 신경망으로, 텍스트와 같은 순차 데이터에 잘 맞는다. 인코더-디코더 RNN에서는 인코더가 입력 텍스트를 받아 순차적으로 ..