Introduction기존에는 사전 학습된 언어 모델 (language model; LM)을 새로운 downstream task에 적용하기 위해 fine-tuning 방법이 흔히 사용되었다. 하지만, 이를 위해서는 모든 모델 parameter를 업데이트하고 저장해야 하는데, 최근 나온 대규모 언어 모델에 적용하기에는 비용이 너무 많이 든다는 단점이 있다. 예를 들어 2019년 소개된 GPT-2 (774M parameter) 혹은 2020년에 소개된 GPT-3 (175B parameter)에서 각 task에 대해 모델 전체를 fine-tuning하는 것은 매우 어려울 것이다.참언) 175B parameter는 저장 공간만 하더라도 700GB가 필요하다 (기본 32bit precision 기준).최근에는 이..