AI/LLM

LLM에서 강화학습은 어떻게 학습을 하는가?

검정비니 2025. 2. 26. 22:25
728x90
반응형

최근 OpenAI나 DeepSeek등의 빅테크에서 공개하는 모델이나 논문들이 모두 '강화학습'을 통해 성능을 크게 올렸다는 내용을 심심치 않게 담고 있다.

 

전통적인 지도학습 기반 방법론들은 라벨링된 데이터를 통해 학습을 한다.

Self-supervised 방식의 경우에는 문장의 일부가 주어졌을 때, 그 다음 부분을 예측하는 방식으로 별도의 라벨 없이 데이터 자체로부터 학습을 하게 된다.

 

이러한 지도학습은 정해진 정답이 있기 때문에 그 값으로부터의 차이를 통해 loss를 계산할 수 있고, 계산된 loss를 역전파시켜서 모델을 학습시킨다.

그에 비해 정해진 정답이 없는 강화학습은 데이터로부터 'loss'를 계산할 수 없게 된다.

따라서 강화학습에서는 모델의 '현재 행동'이 정답이라는 가정을 가지고 loss 계산을 진행한다.

 

LLM 학습에 자주 사용되는 PPO 알고리즘을 기준으로 문제를 이해해보도록 하자.

우선 PPO에서는 총 4 종류의 모델이 있다.

학습 대상이 되는 Policy 모델(정책 모델)이 있고, 현재 행동에 대해서 보상을 생성하는 Reward 모델, 현재 행동이 미래에 어떤 영향을 미칠지 예측하는 Value 모델, 그리고 베이스라인으로 사용하는 Reference 모델이 있다.

 

우선 정책 모델의 이전 상태에서 한 예측 값과 학습이 진행되면서 갱신된 상태에서의 예측 값을 가지고 가상의 gradient를 생성한다.

그 후, 현재 모델의 행동에 대한 Reward 모델의 reward 값을 계산한 뒤, gradient에 곱해주게 된다.

 

일반적으로 알려진 것과 같이 강화학습은 '보상'을 극대화하는 방향으로 학습이 진행된다.

Reward 모델이 계산한 현재 행동의 보상 값이 작으면 gradient 값에 작은 값을 곱하게 되므로 그만큼 학습에 영향을 거의 안 주게 된다.

반대로, 보상 값이 크게 되면 gradient 값에 큰 값을 곱해주므로 그만큼 학습에 큰 영향을 주게 된다.

 

문장 생성이라는 것이 'greedy'한 방식으로만 작동하는 것이 아니기 때문에, 현재 행동이 지금 시점에서는 최선의 수이나 전체 문장 생성의 관점에서는 잘못된 판단일 수도 있다. 이러한 부분에 대해서 교정을 해주기 위해 '미래'의 상황에 대한 보상 체계를 추가해주는 Value 모델이 추가로 사용되게 된다.

 

또한, RL에는 정답이 없기 때문에 학습 중에 보상 모델을 해킹하는 방향으로 학습이 진행되는 것을 막기 위해 reference 모델이 사용된다. Reference 모델의 생성 분포와 너무 크게 떨어지게 되면 그만큼 reward 모델 해킹일 가능성이 올라갈 수 있다는 가정 하에 만들어진 규제 항목인 것이다.

 

PPO에서는 위의 4 종류의 모델들 중 Policy 모델, Reward 모델, 그리고 Value 모델 이렇게 3 종류가 동시에 학습되어지게 된다.

 

DeepSeek의 GRPO는 이러한 학습 체계에서 Value 모델을 없애고, 대신 한번 생성을 할 때 여러 개의 토큰을 동시에 만들어서 그룹을 만들고, 이 그룹에 대해 일괄적으로 Reward 모델을 적용시킴으로써 Value 모델 없이도 다양한 경우의 수를 고려할 수 있도록 만들었다.

 

반응형