AI 30

rsLoRA를 통해 LoRA 미세 조정의 잠재력 활용하기

대규모 언어 모델(LLM)의 컴퓨팅 및 메모리 사용량이 점점 더 증가함에 따라 매개변수 효율적 미세 조정(PEFT) 방법은 이제 LLM을 미세 조정하는 일반적인 전략이 되었다. 가장 널리 사용되는 PEFT 방법 중 하나이자 다른 많은 PEFT 방법의 기반이 되는 방법은 로우랭크 적응(LoRA) 방법이다. LoRA는 원래의 사전 학습된 모델 파라미터를 수정하고 미세 조정을 위해 학습 가능한 낮은 순위의 '어댑터'를 선택한 레이어에 추가하는 방식으로 작동한다. 원래 LoRA 작업의 중요한 발견 중 하나는 매우 낮은 어댑터 랭크(예: 4~32)로 미세 조정해도 성능이 좋으며, 이 성능은 랭크가 높아져도 더 이상 향상되지 않는다는 것이었다. 그러나 매우 낮은 랭크에서 이러한 성능 포화는 주로 학습 매니폴드의 내..

AI/LLM 2025.03.03

LIMO: 추론은 적을수록 좋다 (Less is More for Reasoning)

LIMO: Less is More for Reasoning연구 개요LIMO 모델은 대규모 언어 모델에서 복잡한 추론 능력이 어떻게 나타나는지를 새롭게 이해하게 하는 발견을 제시함.기존의 생각과 달리, 복잡한 수학적 추론은 적은 수의 예제로도 효과적으로 유도될 수 있음.LIMO는 817개의 훈련 샘플만으로 AIME에서 57.1%, MATH에서 94.8%의 정확도를 달성함.이는 이전 SFT 기반 모델의 6.5%와 59.2%에 비해 크게 향상된 결과이며, 이전 접근법의 1% 훈련 데이터만 사용함.LIMO의 성능LIMO는 10개의 다양한 벤치마크에서 40.5%의 절대적인 성능 향상을 보이며, 100배 더 많은 데이터로 훈련된 모델들을 능가함.이는 SFT가 암기보다는 일반화로 이어진다는 기존의 생각에 도전함.LI..

AI/LLM 2025.03.02

PPO: 보상 해킹 피하기

LLM의 강화학습을 하다보면 보상을 높게 받는 데에만 집중하는 보상 해킹 (reward hacking)이 발생할 수 있다. 평가 모델의 높은 점수를 받는 과정에서 다른 능력이 감소하거나 평가 점수만 높게 받을 수 있는 우회로를 찾는 현상이 바로 보상 해킹이다. OpenAI는 이 보상 해킹을 피하기 위해 근접 정책 최적화(Proximal Preference Optimization; PPO)라는 학습 방법을 사용했다.PPO의 Proximal은 '몸 쪽의, 가까운'이라는 뜻이다.지도학습을 통해 학습된 미세조정 모델을 기준으로 학습하는 모델이 너무 멀지 않게 가까운 범위에서 리워드 모델의 높은 점수를 찾도록 한다는 의미이다.이때 지도 미세조정 모델을 기준으로 거리를 측정하기 때문에 해당 모델을 참고 모델 (Re..

AI/LLM 2025.03.02

LLM에서 강화학습은 어떻게 학습을 하는가?

최근 OpenAI나 DeepSeek등의 빅테크에서 공개하는 모델이나 논문들이 모두 '강화학습'을 통해 성능을 크게 올렸다는 내용을 심심치 않게 담고 있다. 전통적인 지도학습 기반 방법론들은 라벨링된 데이터를 통해 학습을 한다.Self-supervised 방식의 경우에는 문장의 일부가 주어졌을 때, 그 다음 부분을 예측하는 방식으로 별도의 라벨 없이 데이터 자체로부터 학습을 하게 된다. 이러한 지도학습은 정해진 정답이 있기 때문에 그 값으로부터의 차이를 통해 loss를 계산할 수 있고, 계산된 loss를 역전파시켜서 모델을 학습시킨다.그에 비해 정해진 정답이 없는 강화학습은 데이터로부터 'loss'를 계산할 수 없게 된다.따라서 강화학습에서는 모델의 '현재 행동'이 정답이라는 가정을 가지고 loss 계산을..

AI/LLM 2025.02.26

LLM의 미래에 대하여

최근 ChatGPT와 같은 LLM(Large Language Model) 기반 서비스가 IT업계를 뒤흔들고 있다.이 현상이 마치 디지털 카메라가 처음 나오던 시기에 고전적인 필름 카메라를 고집하던 당시의 공룡 기업인 "코닥"의 몰락을 가져왔던 것과 같이 현재의 공룡 기업들을 순식간에 파괴하는 기하급수적 변화를 이룩할 수 있을까? 구글은 바드를 성급하게 공개했다가 생성되는 답변의 퀄리티가 너무 낮은 모습에 주가가 순식간에 폭락했고, 네이버는 오랜 기간을 들여서 하이퍼클로바를 완성시키고 공개했으나 챗지피티 대비 오랜시간이 지난 것에 비해 특별히 더 뛰어난 모습을 보이지 못해서 사용자들에게 실망감을 안겼다. 1. 운영의 관점에서최근 IT 업계에서 DevOps나 MLOps와 같이 "개발 및 연구"와 "운영"이 ..

AI/LLM 2025.02.26

2025년의 AI: AI의 기초가 완성되는 해

원본2025년의 AI: AI의 기초가 완성되는 해세콰이어 캐피탈의 2025년 AI 업계 예상2024년은 AI의 “원시 수프(primordial soup)” 단계로, 새로운 아이디어와 가능성이 넘쳐났음."잠재력은 무궁무진하지만 아직은 무정형. 실체적이며 궁극적으로 영향력 있는 것으로 전환하려면 비전이 필요"2025년은 아이디어를 선별하여 실제로 구현하고 어떤 것이 효과적인지 검증하는 해AI의 가능성이 점차 구체적이고 실질적인 형태로 결집1. LLM 플레이어들의 차별화 전략2024년, GPT-4와의 품질 동등성을 목표로 한 경쟁에서 5개의 주요 플레이어가 남음:Microsoft/OpenAI, Amazon/Anthropic, Google, Meta, xAI.공통 전략: 방대한 데이터 수집, GPU를 활용한 대..

AI/AI News 2025.01.06

Jetson에서 onnxruntime 사용 시 pthread_setaffinity_np failed 에러 해결하기

Nvidia 젯슨 플랫폼은 엔비디아에서 만든 엣지 디바이스 플랫폼으로 GPU를 엣지 디바이스에서도 사용하기 위한 프로젝트들을 위한 고성능 엣지 디바이스 플랫폼이다. 최근 Jetson 기기에서 onnxruntime을 사용해서 모델을 포팅하려던 중 다음과 같은 에러를 마주하게 되었다:2024-12-17 08:24:58.694297027 [E:onnxruntime:Default, env.cc:251 ThreadMain] pthread_setaffinity_np failed for thread: 531, index: 6, mask: {7, 39, }, error code: 22 error msg: Invalid argument. Specify the number of threads explicitly so th..

AI/Nvidia Jetson 2024.12.18

AI 데이터 인프라의 부상

문서에서 정보를 추출하는 것은 새로운 개념은 아님. 하지만 생성형AI(GenAI)는 대량의 고품질 데이터를 필요로 함훈련과 추론 모두에 데이터가 중요하며 데이터 규모뿐만 아니라 텍스트, 테이블 데이터에서 비디오, 이미지, 오디오로 확장됨위성 이미지, 로봇 센서 데이터 등 공간 데이터의 증가도 관찰됨데이터 계층에서 AI로 인해 가장 즉각적으로 재창조될 수 있는 새로운 영역은 무엇일까?비정형 데이터 추출과 파이프라인, 검색 증강 생성 (Retrieval-Augmented Generation, RAG), 데이터 큐레이션, 데이터 스토리지 , - 인공지능 메모리이 글의 목적은 AI 데이터 인프라 환경을 분석하고, 최신 트렌드를 공유하고, 가장 유망한 혁신 영역에 대해 이야기 하는 것AI 데이터 인프라 현황AI ..

AI/AI News 2024.11.25

NVIDIA garak - LLM 취약점 스캐너

Garak은 LLM 기반 시스템의 취약점을 찾기 위해 개발된 무료 도구주로 LLM의 오작동과 보안 문제를 검사하며, nmap의 LLM 버전이라 할 수 있음다양한 정적, 동적, 적응형 탐침(probes)을 사용하여 LLM의 여러 취약점을 탐색Garak의 주요 기능LLM의 실패 지점 확인: 잘못된 정보 생성, 데이터 유출, 프롬프트 인젝션, 독성 생성, 제일브레이크(jailbreak) 등 여러 약점을 탐색다양한 프로빙 기법 사용: 수십 개의 플러그인과 수많은 탐침을 통해 다양한 LLM 실패 모드를 분석로그 기록: 각 실패 사례에 대해 프롬프트, 목표, 응답을 포함한 상세한 로그 제공지속적인 업데이트: 커뮤니티의 기여로 새로운 탐침이 추가되고 기존 탐침이 개선되며, 테스트 범위가 지속적으로 확대Garak의 주..

AI/AI News 2024.11.19