AI/LLM

PPO: 보상 해킹 피하기

검정비니 2025. 3. 2. 21:10
728x90
반응형

LLM의 강화학습을 하다보면 보상을 높게 받는 데에만 집중하는 보상 해킹 (reward hacking)이 발생할 수 있다. 평가 모델의 높은 점수를 받는 과정에서 다른 능력이 감소하거나 평가 점수만 높게 받을 수 있는 우회로를 찾는 현상이 바로 보상 해킹이다.

 

OpenAI는 이 보상 해킹을 피하기 위해 근접 정책 최적화(Proximal Preference Optimization; PPO)라는 학습 방법을 사용했다.

PPO의 Proximal은 '몸 쪽의, 가까운'이라는 뜻이다.

지도학습을 통해 학습된 미세조정 모델을 기준으로 학습하는 모델이 너무 멀지 않게 가까운 범위에서 리워드 모델의 높은 점수를 찾도록 한다는 의미이다.

이때 지도 미세조정 모델을 기준으로 거리를 측정하기 때문에 해당 모델을 참고 모델 (Reference model)이라고 한다.

PPO에서는 Value 모델 (현재 시점의 행동이 미래에 어떤 영향을 주는 지 예측하는 모델)까지 사용해서 다중으로 보상을 계산하기 때문에 보상 해킹을 더 방지하기 위한 가드라인을 많이 사용하게 된다.

 

OpenAI는 RLHF를 ChatGPT 개발에 도입하면서 AI 서비스에서 자주 문제가 되는 편향성, 공격성 등 여러 문제를 효과적으로 제어했다. ChatGPT를 사용하다 보면 자신은 AI 모델이기 때문에 질문에 답변하기 어렵다는 응답을 종종 받을 수 있는데, 완벽하지는 않지만 충분히 조심스럽게 대화한다는 인상을 받을 수 있다. 이런 능력은 많은 사용자에게 충격을 줬고 RLHF는 대화형 AI 모델을 개발하는데 있어서 필수 기술로 여겨졌다.

 

하지만 RLHF는 멋진 결과물만큼이나 사용하기 어렵기로 악명이 높다. 이 RLHF 학습을 위해서는 리워드 모델을 학습시켜야 하는데, 리워드 모델의 성능이 좋지 않으면 LLM이 일관성 없는 점수로 학습을 하게 되어 오히려 더 좋지 않은 결과 모델이 학습되게 된다. 따라서 성능이 높고 일관성 있는 강건성이 있는 (robust) 리워드 모델을 만들어야 한다. 또한 모델을 학습시킬 때 참고 모델, 학습 모델, 리워드 모델 총 3개의 모델이 필요하기 때문에 GPU와 같은 리소스가 더 많이 필요하다.

심지어 PPO는 Value 모델까지 사용되기 때문에 그만큼 더 많은 리워드가 사용되게 된다.

 

반응형