AI/LLM 8

rsLoRA를 통해 LoRA 미세 조정의 잠재력 활용하기

대규모 언어 모델(LLM)의 컴퓨팅 및 메모리 사용량이 점점 더 증가함에 따라 매개변수 효율적 미세 조정(PEFT) 방법은 이제 LLM을 미세 조정하는 일반적인 전략이 되었다. 가장 널리 사용되는 PEFT 방법 중 하나이자 다른 많은 PEFT 방법의 기반이 되는 방법은 로우랭크 적응(LoRA) 방법이다. LoRA는 원래의 사전 학습된 모델 파라미터를 수정하고 미세 조정을 위해 학습 가능한 낮은 순위의 '어댑터'를 선택한 레이어에 추가하는 방식으로 작동한다. 원래 LoRA 작업의 중요한 발견 중 하나는 매우 낮은 어댑터 랭크(예: 4~32)로 미세 조정해도 성능이 좋으며, 이 성능은 랭크가 높아져도 더 이상 향상되지 않는다는 것이었다. 그러나 매우 낮은 랭크에서 이러한 성능 포화는 주로 학습 매니폴드의 내..

AI/LLM 2025.03.03

LIMO: 추론은 적을수록 좋다 (Less is More for Reasoning)

LIMO: Less is More for Reasoning연구 개요LIMO 모델은 대규모 언어 모델에서 복잡한 추론 능력이 어떻게 나타나는지를 새롭게 이해하게 하는 발견을 제시함.기존의 생각과 달리, 복잡한 수학적 추론은 적은 수의 예제로도 효과적으로 유도될 수 있음.LIMO는 817개의 훈련 샘플만으로 AIME에서 57.1%, MATH에서 94.8%의 정확도를 달성함.이는 이전 SFT 기반 모델의 6.5%와 59.2%에 비해 크게 향상된 결과이며, 이전 접근법의 1% 훈련 데이터만 사용함.LIMO의 성능LIMO는 10개의 다양한 벤치마크에서 40.5%의 절대적인 성능 향상을 보이며, 100배 더 많은 데이터로 훈련된 모델들을 능가함.이는 SFT가 암기보다는 일반화로 이어진다는 기존의 생각에 도전함.LI..

AI/LLM 2025.03.02

PPO: 보상 해킹 피하기

LLM의 강화학습을 하다보면 보상을 높게 받는 데에만 집중하는 보상 해킹 (reward hacking)이 발생할 수 있다. 평가 모델의 높은 점수를 받는 과정에서 다른 능력이 감소하거나 평가 점수만 높게 받을 수 있는 우회로를 찾는 현상이 바로 보상 해킹이다. OpenAI는 이 보상 해킹을 피하기 위해 근접 정책 최적화(Proximal Preference Optimization; PPO)라는 학습 방법을 사용했다.PPO의 Proximal은 '몸 쪽의, 가까운'이라는 뜻이다.지도학습을 통해 학습된 미세조정 모델을 기준으로 학습하는 모델이 너무 멀지 않게 가까운 범위에서 리워드 모델의 높은 점수를 찾도록 한다는 의미이다.이때 지도 미세조정 모델을 기준으로 거리를 측정하기 때문에 해당 모델을 참고 모델 (Re..

AI/LLM 2025.03.02

LLM에서 강화학습은 어떻게 학습을 하는가?

최근 OpenAI나 DeepSeek등의 빅테크에서 공개하는 모델이나 논문들이 모두 '강화학습'을 통해 성능을 크게 올렸다는 내용을 심심치 않게 담고 있다. 전통적인 지도학습 기반 방법론들은 라벨링된 데이터를 통해 학습을 한다.Self-supervised 방식의 경우에는 문장의 일부가 주어졌을 때, 그 다음 부분을 예측하는 방식으로 별도의 라벨 없이 데이터 자체로부터 학습을 하게 된다. 이러한 지도학습은 정해진 정답이 있기 때문에 그 값으로부터의 차이를 통해 loss를 계산할 수 있고, 계산된 loss를 역전파시켜서 모델을 학습시킨다.그에 비해 정해진 정답이 없는 강화학습은 데이터로부터 'loss'를 계산할 수 없게 된다.따라서 강화학습에서는 모델의 '현재 행동'이 정답이라는 가정을 가지고 loss 계산을..

AI/LLM 2025.02.26

LLM의 미래에 대하여

최근 ChatGPT와 같은 LLM(Large Language Model) 기반 서비스가 IT업계를 뒤흔들고 있다.이 현상이 마치 디지털 카메라가 처음 나오던 시기에 고전적인 필름 카메라를 고집하던 당시의 공룡 기업인 "코닥"의 몰락을 가져왔던 것과 같이 현재의 공룡 기업들을 순식간에 파괴하는 기하급수적 변화를 이룩할 수 있을까? 구글은 바드를 성급하게 공개했다가 생성되는 답변의 퀄리티가 너무 낮은 모습에 주가가 순식간에 폭락했고, 네이버는 오랜 기간을 들여서 하이퍼클로바를 완성시키고 공개했으나 챗지피티 대비 오랜시간이 지난 것에 비해 특별히 더 뛰어난 모습을 보이지 못해서 사용자들에게 실망감을 안겼다. 1. 운영의 관점에서최근 IT 업계에서 DevOps나 MLOps와 같이 "개발 및 연구"와 "운영"이 ..

AI/LLM 2025.02.26

GPT-4o는 이미지를 어떻게 인코딩할까?

GPT-4o는 이미지를 어떻게 인코딩할까? GPT-4o는 고해상도 모드에서 사용되는 각 512x512 타일을 처리하는 데 170 토큰을 부과함. 약 0.75 토큰/단어의 비율로 보면 이는 그림 한 장이 약 227 단어와 같다는 것"그림 한 장이 천 마디 말보다 낫다"는 말과 비교했을 때 약 4배 차이임170이라는 숫자는 기괴할 정도로 특이한 숫자임. OpenAI는 가격 책정에서 "20달러" 또는 "0.50달러"와 같은 반올림된 숫자나 내부 차원에 2와 3의 거듭제곱을 사용함170과 같은 숫자를 선택한 이유는 무엇일까? 프로그래밍에서 코드베이스에 설명 없이 그냥 던져진 숫자를 "매직 넘버"라고 하는데, 170은 상당히 눈에 띄는 매직 넘버임이미지 비용을 토큰 수로 변환하는 이유는 무엇일까? 단순히 청구 목..

AI/LLM 2024.07.27

Multi-Query Attention 설명

효율적인 Inference 요약, 질의응답(Q&A), 검색 증강 생성 등 언어 작업에 효과적인 기술로 Transformer 아키텍처에 기반한 대규모 언어 모델(LLM)이 부상했다. 하지만 이러한 모델을 사용하려면 계산 비용이 매우 많이 들며, 주로 NVIDIA GPU와 같은 컴퓨팅 가속기를 통해 실행된다. LLM에 대한 입력과 출력은 토큰 시퀀스(예: 단어)로 표현됩니다. 긴 시퀀스(즉, 컨텍스트 창이 긴)를 처리할 수 있는 LLM을 훈련하거나 미세 조정하는 것은 활발히 발전하고 있는 분야이다. 대부분의 OSS LLM 기본 모델은 2K 컨텍스트 창으로 사전 학습된다. 문서 요약이나 컨텍스트 기반 질문 답변과 같이 점점 더 많은 사용 사례에서 LLM이 처리하는 시퀀스 길이는 수천에서 수만 개의 토큰으로 상..

AI/LLM 2023.10.25

LLM 연구의 주요 과제들

본 글은 https://huyenchip.com/2023/08/16/llm-research-open-challenges.html라는 포스트를 해석 및 요약한 글입니다. 환각(Hallucination) 감소 및 측정 - 회사에서 LLM을 채택하는데 가장 큰 장애물은 환각 - 환각을 완화하고 측정하기 위한 지표를 개발하는 것은 인기 있는 연구 주제로 많은 스타트업들이 집중하고 있음 - 환각을 줄이기 위한 임시 팁으로 프롬프트에 컨텍스트 추가하기, Chain-Of-Thought, Self-Consistency, 모델에게 간결한 답을 요청하기 등이 있음 컨텍스트 길이 및 컨텍스트 구성 최적화 - 대부분의 질문에는 컨텍스트가 필요함 - SituatedQA 논문에 의하면 정보 검색 질문의 상당부분이 컨텍스트에 따라..

AI/LLM 2023.10.14