분류 전체보기 258

rsLoRA를 통해 LoRA 미세 조정의 잠재력 활용하기

대규모 언어 모델(LLM)의 컴퓨팅 및 메모리 사용량이 점점 더 증가함에 따라 매개변수 효율적 미세 조정(PEFT) 방법은 이제 LLM을 미세 조정하는 일반적인 전략이 되었다. 가장 널리 사용되는 PEFT 방법 중 하나이자 다른 많은 PEFT 방법의 기반이 되는 방법은 로우랭크 적응(LoRA) 방법이다. LoRA는 원래의 사전 학습된 모델 파라미터를 수정하고 미세 조정을 위해 학습 가능한 낮은 순위의 '어댑터'를 선택한 레이어에 추가하는 방식으로 작동한다. 원래 LoRA 작업의 중요한 발견 중 하나는 매우 낮은 어댑터 랭크(예: 4~32)로 미세 조정해도 성능이 좋으며, 이 성능은 랭크가 높아져도 더 이상 향상되지 않는다는 것이었다. 그러나 매우 낮은 랭크에서 이러한 성능 포화는 주로 학습 매니폴드의 내..

AI/LLM 2025.03.03

LIMO: 추론은 적을수록 좋다 (Less is More for Reasoning)

LIMO: Less is More for Reasoning연구 개요LIMO 모델은 대규모 언어 모델에서 복잡한 추론 능력이 어떻게 나타나는지를 새롭게 이해하게 하는 발견을 제시함.기존의 생각과 달리, 복잡한 수학적 추론은 적은 수의 예제로도 효과적으로 유도될 수 있음.LIMO는 817개의 훈련 샘플만으로 AIME에서 57.1%, MATH에서 94.8%의 정확도를 달성함.이는 이전 SFT 기반 모델의 6.5%와 59.2%에 비해 크게 향상된 결과이며, 이전 접근법의 1% 훈련 데이터만 사용함.LIMO의 성능LIMO는 10개의 다양한 벤치마크에서 40.5%의 절대적인 성능 향상을 보이며, 100배 더 많은 데이터로 훈련된 모델들을 능가함.이는 SFT가 암기보다는 일반화로 이어진다는 기존의 생각에 도전함.LI..

AI/LLM 2025.03.02

PPO: 보상 해킹 피하기

LLM의 강화학습을 하다보면 보상을 높게 받는 데에만 집중하는 보상 해킹 (reward hacking)이 발생할 수 있다. 평가 모델의 높은 점수를 받는 과정에서 다른 능력이 감소하거나 평가 점수만 높게 받을 수 있는 우회로를 찾는 현상이 바로 보상 해킹이다. OpenAI는 이 보상 해킹을 피하기 위해 근접 정책 최적화(Proximal Preference Optimization; PPO)라는 학습 방법을 사용했다.PPO의 Proximal은 '몸 쪽의, 가까운'이라는 뜻이다.지도학습을 통해 학습된 미세조정 모델을 기준으로 학습하는 모델이 너무 멀지 않게 가까운 범위에서 리워드 모델의 높은 점수를 찾도록 한다는 의미이다.이때 지도 미세조정 모델을 기준으로 거리를 측정하기 때문에 해당 모델을 참고 모델 (Re..

AI/LLM 2025.03.02

LLM에서 강화학습은 어떻게 학습을 하는가?

최근 OpenAI나 DeepSeek등의 빅테크에서 공개하는 모델이나 논문들이 모두 '강화학습'을 통해 성능을 크게 올렸다는 내용을 심심치 않게 담고 있다. 전통적인 지도학습 기반 방법론들은 라벨링된 데이터를 통해 학습을 한다.Self-supervised 방식의 경우에는 문장의 일부가 주어졌을 때, 그 다음 부분을 예측하는 방식으로 별도의 라벨 없이 데이터 자체로부터 학습을 하게 된다. 이러한 지도학습은 정해진 정답이 있기 때문에 그 값으로부터의 차이를 통해 loss를 계산할 수 있고, 계산된 loss를 역전파시켜서 모델을 학습시킨다.그에 비해 정해진 정답이 없는 강화학습은 데이터로부터 'loss'를 계산할 수 없게 된다.따라서 강화학습에서는 모델의 '현재 행동'이 정답이라는 가정을 가지고 loss 계산을..

AI/LLM 2025.02.26

LLM의 미래에 대하여

최근 ChatGPT와 같은 LLM(Large Language Model) 기반 서비스가 IT업계를 뒤흔들고 있다.이 현상이 마치 디지털 카메라가 처음 나오던 시기에 고전적인 필름 카메라를 고집하던 당시의 공룡 기업인 "코닥"의 몰락을 가져왔던 것과 같이 현재의 공룡 기업들을 순식간에 파괴하는 기하급수적 변화를 이룩할 수 있을까? 구글은 바드를 성급하게 공개했다가 생성되는 답변의 퀄리티가 너무 낮은 모습에 주가가 순식간에 폭락했고, 네이버는 오랜 기간을 들여서 하이퍼클로바를 완성시키고 공개했으나 챗지피티 대비 오랜시간이 지난 것에 비해 특별히 더 뛰어난 모습을 보이지 못해서 사용자들에게 실망감을 안겼다. 1. 운영의 관점에서최근 IT 업계에서 DevOps나 MLOps와 같이 "개발 및 연구"와 "운영"이 ..

AI/LLM 2025.02.26

2025년의 AI: AI의 기초가 완성되는 해

원본2025년의 AI: AI의 기초가 완성되는 해세콰이어 캐피탈의 2025년 AI 업계 예상2024년은 AI의 “원시 수프(primordial soup)” 단계로, 새로운 아이디어와 가능성이 넘쳐났음."잠재력은 무궁무진하지만 아직은 무정형. 실체적이며 궁극적으로 영향력 있는 것으로 전환하려면 비전이 필요"2025년은 아이디어를 선별하여 실제로 구현하고 어떤 것이 효과적인지 검증하는 해AI의 가능성이 점차 구체적이고 실질적인 형태로 결집1. LLM 플레이어들의 차별화 전략2024년, GPT-4와의 품질 동등성을 목표로 한 경쟁에서 5개의 주요 플레이어가 남음:Microsoft/OpenAI, Amazon/Anthropic, Google, Meta, xAI.공통 전략: 방대한 데이터 수집, GPU를 활용한 대..

AI/AI News 2025.01.06

PostgreSQL 디스크 쓰기 지연 관련 설정

PostgreSQL에서는 WAL의 쓰기 동작을 조정하는 몇 가지 매개변수를 통해 유사한 효과를 낼 수 있다.이 값들을 통해 쓰기 성능을 개선할 수 있다. 단 이러한 설정 시, 재해 등으로 인해 데이터 손실 가능성이 생기게 된다. 다음은 관련 설정들이다:1. wal_writer_delayWAL Writer 프로세스가 디스크로 WAL을 기록하기 전에 대기하는 시간(밀리초)을 설정기본값: 200ms더 큰 값을 설정하면 쓰기 빈도가 줄어들어 디스크 I/O 부하를 줄일 수 있다.설정:SET wal_writer_delay = '500ms';2. wal_writer_flush_afterWAL Writer가 데이터를 디스크로 flush하기 전에 누적할 수 있는 최대 데이터 양(바이트)을 지정기본값: 1MB더 큰 값을 ..

DB/PostgreSQL 2025.01.05

Jetson에서 onnxruntime 사용 시 pthread_setaffinity_np failed 에러 해결하기

Nvidia 젯슨 플랫폼은 엔비디아에서 만든 엣지 디바이스 플랫폼으로 GPU를 엣지 디바이스에서도 사용하기 위한 프로젝트들을 위한 고성능 엣지 디바이스 플랫폼이다. 최근 Jetson 기기에서 onnxruntime을 사용해서 모델을 포팅하려던 중 다음과 같은 에러를 마주하게 되었다:2024-12-17 08:24:58.694297027 [E:onnxruntime:Default, env.cc:251 ThreadMain] pthread_setaffinity_np failed for thread: 531, index: 6, mask: {7, 39, }, error code: 22 error msg: Invalid argument. Specify the number of threads explicitly so th..

AI/Nvidia Jetson 2024.12.18

엔터프라이즈 아키텍처는 냉소적이어야 한다.

회사에 입사를 하고 많은 프로젝트들을 거치며 꾸준히 느끼는 바가 있는데, 기본적으로 엔터프라이즈 아키텍처는 냉소적이어야 한다는 것이다. 실제 세상에서 다양한 물리적 혹은 논리적인 이유로 시스템들은 에러를 마주하게 된다. 그 어떤 큰 기업에서 운영하는 시스템도 에러로부터 자유로울 수는 없다는 것은 확실하다. 엔터프라이즈 아키텍처는 이러한 현실에 냉소적일 수 있는 아키텍처여야만 한다. 다른 API나 모듈 또는 컴포넌트가 언제든 에러를 낼 수 있다고 의심하고, 그들이 주기적으로 에러를 낼 것이라는 가정 하에 스스로를 지킬 수 있는 방벽을 덕지덕지 세워 놓아야만 한다. 서킷브레이커 도입을 통해 장애 전파를 막고, try-catch 등을 통해 적절한 레이어에서 적절하게 에러 처리를 할 수 있도록 코드를 짜야 한다..