AI/LLM 2

Multi-Query Attention 설명

효율적인 Inference 요약, 질의응답(Q&A), 검색 증강 생성 등 언어 작업에 효과적인 기술로 Transformer 아키텍처에 기반한 대규모 언어 모델(LLM)이 부상했다. 하지만 이러한 모델을 사용하려면 계산 비용이 매우 많이 들며, 주로 NVIDIA GPU와 같은 컴퓨팅 가속기를 통해 실행된다. LLM에 대한 입력과 출력은 토큰 시퀀스(예: 단어)로 표현됩니다. 긴 시퀀스(즉, 컨텍스트 창이 긴)를 처리할 수 있는 LLM을 훈련하거나 미세 조정하는 것은 활발히 발전하고 있는 분야이다. 대부분의 OSS LLM 기본 모델은 2K 컨텍스트 창으로 사전 학습된다. 문서 요약이나 컨텍스트 기반 질문 답변과 같이 점점 더 많은 사용 사례에서 LLM이 처리하는 시퀀스 길이는 수천에서 수만 개의 토큰으로 상..

AI/LLM 2023.10.25

LLM 연구의 주요 과제들

본 글은 https://huyenchip.com/2023/08/16/llm-research-open-challenges.html라는 포스트를 해석 및 요약한 글입니다. 환각(Hallucination) 감소 및 측정 - 회사에서 LLM을 채택하는데 가장 큰 장애물은 환각 - 환각을 완화하고 측정하기 위한 지표를 개발하는 것은 인기 있는 연구 주제로 많은 스타트업들이 집중하고 있음 - 환각을 줄이기 위한 임시 팁으로 프롬프트에 컨텍스트 추가하기, Chain-Of-Thought, Self-Consistency, 모델에게 간결한 답을 요청하기 등이 있음 컨텍스트 길이 및 컨텍스트 구성 최적화 - 대부분의 질문에는 컨텍스트가 필요함 - SituatedQA 논문에 의하면 정보 검색 질문의 상당부분이 컨텍스트에 따라..

AI/LLM 2023.10.14