1. 주요 쟁점
1 - 1. 환경 문제
최근, 딥러닝 연구가 과한 전기를 사용하고, 이것이 지구온난화를 악화시키고 있다는 연구들이 많이 나오고 있다. 이 논문은 그러한 사회 분위기를 이해하고 거대 모델을 학습시킴에 있어서 더 적은 계산량만으로 충분히 좋은 성능을 내게 만드는데 초점을 맞추었다
1 - 2. data의 중요도
이 논문은 Introduction에서 "거대 모델이라 할지라도 좋은 퀄리티의 자언어 이해 모델을 만들고자 한다면 좋지 않은 데이터를 추가해서라도 대량의 데이터를 모으기보다는 이에 타협하지 않고 양질의 데이터만을 학습에 사용하는데에 집중을 해야 한다" 고 밝혔다.
GPT-3 등의 거대 모델들이 초대량의 언어 데이터셋으로 학습하는 과정에서 온라인 상의 다양한 데이터들을 스크랩해서 사용했고 이것이 언어모델의 편향 등에 영향을 미쳤다는 사실은 모두가 알고 있을 것이다. 구글은 이 논문에서 이에 대한 내용을 꼬집고 있다.
1 - 3. scale and sparsity
알다시피, 거대 언어모델들은 기존 모델들의 성능을 아득히 뛰어넘었다. 잘 학습된 거대 신경망 모델이 더 좋은 성능을 가진다는 것은 이미 잘 알려진 사실이다. 하지만, dense layer만으로 스케일을 키우다보면 복잡도 등이 기하급수적으로 증가하게 된다. 이에 구글 등의 기업들은 MoE(Mixture of Experts) 기술을 통한 sparse model을 스케일링하는 방식을 채택하기 시작했다. 이 논문 역시 MoE를 사용해서 sparse model을 만들었으며, 이러한 sparse model을 스케일을 키워도 충분히 dense model과 비슷한 성능을 낼 수 있다고 주장하였다.
sparse model은 dense model에 비해 파라미터의 수가 훨씬 적다. 파라미터의 수가 적다는 말은 학습 시에 더 적은 양의 연산이 필요하다는 것이다. 더 적은 양의 연산만으로 학습이 가능하다면, 더 적은 에너지 소모 만으로도 모델을 충분히 잘 학습시킬 수 있을 것이고, 이는 곧 위에서 언급하였던 dense model에 비해 지구 온난화를 덜 악화시킬 수 있다는 것이다.
2. 모델 구조
GLaM모델은 GLaM의 인코더 층들은 2가지 종류의 어텐션 층들을 순차적으로 쌓아서 만들었다.
아래쪽의 층은 MoE layer로, 기존 Transformer layer에서 FFN 부분을 dense layer에서 sparse layer로 바꾸었으며, spare layer 앞쪽에는 Gated Linear Unit과 Gaussian Error Linear Unit을 사용한 gating layer가 있다. 또한, sparse layer 뒤에 있는 Add & Norm 층에서는 기존 Transformer layer가 LayerNorm을 사용하는 것과는 달리 RMSNorm을 사용하였다.
MoE layer의 출력 값은 그대로 Transformer layer로 들어가며, MoE layer와 Transformer layer를 한 쌍으로 사용해서 GLaM의 인코더는 이 layer들을 여러 개 쌓는 방식으로 이루어진다.
또한, GLaM 모델은 기존 Transformer에서 사용한는 positional embedding을 per-layer positional bias로 대체하였다.
3. 학습
위에서 볼 수 있듯이, GLaM 모델은 매우 좋은 성능을 내었으며, 같은 횟수의 학습량을 가졌을 때, 같은 구조의 dense model보다 더 뛰어난 성능을 내었다.