2025/03/02 2

LIMO: 추론은 적을수록 좋다 (Less is More for Reasoning)

LIMO: Less is More for Reasoning연구 개요LIMO 모델은 대규모 언어 모델에서 복잡한 추론 능력이 어떻게 나타나는지를 새롭게 이해하게 하는 발견을 제시함.기존의 생각과 달리, 복잡한 수학적 추론은 적은 수의 예제로도 효과적으로 유도될 수 있음.LIMO는 817개의 훈련 샘플만으로 AIME에서 57.1%, MATH에서 94.8%의 정확도를 달성함.이는 이전 SFT 기반 모델의 6.5%와 59.2%에 비해 크게 향상된 결과이며, 이전 접근법의 1% 훈련 데이터만 사용함.LIMO의 성능LIMO는 10개의 다양한 벤치마크에서 40.5%의 절대적인 성능 향상을 보이며, 100배 더 많은 데이터로 훈련된 모델들을 능가함.이는 SFT가 암기보다는 일반화로 이어진다는 기존의 생각에 도전함.LI..

AI/LLM 2025.03.02

PPO: 보상 해킹 피하기

LLM의 강화학습을 하다보면 보상을 높게 받는 데에만 집중하는 보상 해킹 (reward hacking)이 발생할 수 있다. 평가 모델의 높은 점수를 받는 과정에서 다른 능력이 감소하거나 평가 점수만 높게 받을 수 있는 우회로를 찾는 현상이 바로 보상 해킹이다. OpenAI는 이 보상 해킹을 피하기 위해 근접 정책 최적화(Proximal Preference Optimization; PPO)라는 학습 방법을 사용했다.PPO의 Proximal은 '몸 쪽의, 가까운'이라는 뜻이다.지도학습을 통해 학습된 미세조정 모델을 기준으로 학습하는 모델이 너무 멀지 않게 가까운 범위에서 리워드 모델의 높은 점수를 찾도록 한다는 의미이다.이때 지도 미세조정 모델을 기준으로 거리를 측정하기 때문에 해당 모델을 참고 모델 (Re..

AI/LLM 2025.03.02