2025/03 3

rsLoRA를 통해 LoRA 미세 조정의 잠재력 활용하기

대규모 언어 모델(LLM)의 컴퓨팅 및 메모리 사용량이 점점 더 증가함에 따라 매개변수 효율적 미세 조정(PEFT) 방법은 이제 LLM을 미세 조정하는 일반적인 전략이 되었다. 가장 널리 사용되는 PEFT 방법 중 하나이자 다른 많은 PEFT 방법의 기반이 되는 방법은 로우랭크 적응(LoRA) 방법이다. LoRA는 원래의 사전 학습된 모델 파라미터를 수정하고 미세 조정을 위해 학습 가능한 낮은 순위의 '어댑터'를 선택한 레이어에 추가하는 방식으로 작동한다. 원래 LoRA 작업의 중요한 발견 중 하나는 매우 낮은 어댑터 랭크(예: 4~32)로 미세 조정해도 성능이 좋으며, 이 성능은 랭크가 높아져도 더 이상 향상되지 않는다는 것이었다. 그러나 매우 낮은 랭크에서 이러한 성능 포화는 주로 학습 매니폴드의 내..

AI/LLM 2025.03.03

LIMO: 추론은 적을수록 좋다 (Less is More for Reasoning)

LIMO: Less is More for Reasoning연구 개요LIMO 모델은 대규모 언어 모델에서 복잡한 추론 능력이 어떻게 나타나는지를 새롭게 이해하게 하는 발견을 제시함.기존의 생각과 달리, 복잡한 수학적 추론은 적은 수의 예제로도 효과적으로 유도될 수 있음.LIMO는 817개의 훈련 샘플만으로 AIME에서 57.1%, MATH에서 94.8%의 정확도를 달성함.이는 이전 SFT 기반 모델의 6.5%와 59.2%에 비해 크게 향상된 결과이며, 이전 접근법의 1% 훈련 데이터만 사용함.LIMO의 성능LIMO는 10개의 다양한 벤치마크에서 40.5%의 절대적인 성능 향상을 보이며, 100배 더 많은 데이터로 훈련된 모델들을 능가함.이는 SFT가 암기보다는 일반화로 이어진다는 기존의 생각에 도전함.LI..

AI/LLM 2025.03.02

PPO: 보상 해킹 피하기

LLM의 강화학습을 하다보면 보상을 높게 받는 데에만 집중하는 보상 해킹 (reward hacking)이 발생할 수 있다. 평가 모델의 높은 점수를 받는 과정에서 다른 능력이 감소하거나 평가 점수만 높게 받을 수 있는 우회로를 찾는 현상이 바로 보상 해킹이다. OpenAI는 이 보상 해킹을 피하기 위해 근접 정책 최적화(Proximal Preference Optimization; PPO)라는 학습 방법을 사용했다.PPO의 Proximal은 '몸 쪽의, 가까운'이라는 뜻이다.지도학습을 통해 학습된 미세조정 모델을 기준으로 학습하는 모델이 너무 멀지 않게 가까운 범위에서 리워드 모델의 높은 점수를 찾도록 한다는 의미이다.이때 지도 미세조정 모델을 기준으로 거리를 측정하기 때문에 해당 모델을 참고 모델 (Re..

AI/LLM 2025.03.02