AI 데이터 인프라의 부상

AI/AI News

AI 데이터 인프라의 부상

검정비니 2024. 11. 25. 20:32

728x90

문서에서 정보를 추출하는 것은 새로운 개념은 아님. 하지만 생성형AI(GenAI)는 대량의 고품질 데이터를 필요로 함
훈련과 추론 모두에 데이터가 중요하며 데이터 규모뿐만 아니라 텍스트, 테이블 데이터에서 비디오, 이미지, 오디오로 확장됨
위성 이미지, 로봇 센서 데이터 등 공간 데이터의 증가도 관찰됨
데이터 계층에서 AI로 인해 가장 즉각적으로 재창조될 수 있는 새로운 영역은 무엇일까?
- 비정형 데이터 추출과 파이프라인, 검색 증강 생성 (Retrieval-Augmented Generation, RAG), 데이터 큐레이션, 데이터 스토리지 , - 인공지능 메모리
이 글의 목적은 AI 데이터 인프라 환경을 분석하고, 최신 트렌드를 공유하고, 가장 유망한 혁신 영역에 대해 이야기 하는 것

AI 데이터 인프라 현황

AI 데이터 가치 사슬에서 데이터 흐름을 간단히 시각화하며, 데이터 학습 및 추론 과정의 흐름을 설명하고자 함
데이터 인프라의 가치 사슬을 여섯 개 주요 영역으로 분류
- 데이터 소스 (Sources)
- 데이터 수집 및 변환 (Ingestion & Transformation)
- 저장 (Storage)
- 훈련 (Training)
- 추론 (Inference)
- 데이터 서비스 (Data Services)

데이터 소스

앱 데이터: Salesforce, ServiceNow 등에서 추출
실시간 데이터: 센서, 제조, 의료 데이터
OLTP 데이터베이스: Oracle, MongoDB와 같은 트랜잭션 데이터
합성 데이터: 현실 세계에서 수집하지 않은 인공 생성 데이터 (e.g., Mostly AI, Datagen, Tonic)
- 비용 효율적이고 데이터 준수 측면에서 유리함
- 그러나, 통계적 이상치 데이터 표현이 부족해 모델 성능 최적화에 한계 있음
웹 데이터: 웹 스크래핑을 통해 공용 데이터를 수집 (e.g., Browse AI, Apify)
- 대규모 데이터 모델 훈련에 필수적이나, 공개 데이터가 고갈될 가능성 있음 (2026~2032년 예상)

데이터 수집 및 변환

데이터 파이프라인은 데이터의 출발지에서 목적지로 데이터를 전송하고 분석 가능한 상태로 변환하는 과정
- ETL/ELT: 전통적인 방식 (배치 처리, 스트리밍 처리)
- 피쳐 엔지니어링/파이프라인: ML에서는 주로 테이블 데이터 처리
- 비정형 데이터 파이프라인: 데이터 추출, 변환, 저장 과정을 통합하여 비정형 데이터를 정리 및 저장
파이프라인 유형
- 배치 처리: 특정 시간 간격으로 데이터를 추출 및 적재
- 스트리밍 처리: 데이터를 실시간으로 로드 (Kafka, Flink등)
도구 및 프레임워크
- 스트리밍 (Kafka, Confluent), 처리 엔진 (Databricks, Flink), 오케스트레이션 도구 (Astronomer, Dagster, Airflow, Prefect 등)
- 라벨링 도구: LabelBox, Scale AI 등 (테스트 데이터 라벨링 중요)
  - 배치: ETL(Airbyte, Fivetran), 트랜스폼(dbt,coalesce)
  - 비정형 데이터 처리: Datavolo, Unstructured, LlamaIndex 등

데이터 저장

전통적 접근: 데이터 웨어하우스에 저장
AI 활용 데이터:
- 데이터 레이크와 레이크하우스 구조 활용
- 벡터 데이터베이스를 통한 데이터 임베딩 저장
주요 도구:
- 데이터 레이크 : Databricks, Onehouse, Tabular, Amazon S3, GCS 등
  - 벡터 DB: Pinecone, Chroma, Milvus, Weaviete 등

모델 훈련

학습 방식:
- 지도 학습, 비지도 학습, 강화 학습
대규모 언어 모델(LLM) 학습 과정:
- 사전 학습: 비지도 학습으로 데이터의 패턴 인식
- 지도 학습: 성능 최적화
- 강화 학습(RLHF): 인간 피드백을 통한 성능 향상
검증 및 평가:
- 정확도, 정밀도, 손실 최소화 등 모델의 적합성 평가
최종 단계:
- 보안 테스트, 거버넌스, 컴플라이언스 확인
주요 도구:
- 트레이닝: TensorFlow, Modular
  - Evaluation: neptune.ai, Weights & Biases
  - MLOps: Databricks, H2O.ai, DataRobot, Dataiku, DOMINO
  - Model: OpenAI, Cohere, Mistral AI, Runway

모델 추론

과정:
- 프롬프트 입력 → 토큰화/벡터화 → 데이터 처리 → 출력 생성
맞춤화:
- 벡터 데이터베이스와 LLM 연동
- 사용자의 컨텍스트를 반영한 고유한 결과 생성
필수 고려사항:
- 데이터 보안, 모델 품질, 컴플라이언스
주요 도구:
- Tooling: ANON, E2B
- Memory: MemGPT, cognee.ai
- RAG Framework: LangCHain, LlamaIndex, contextual.ai, databricks
- Agent/App: ChatGPT, Claude, character.ai, Decagon, NormAi

데이터 서비스

범주:
- 데이터 보안: 접근 제어, 데이터 유출 방지 (Rubrik, eureka, imperva, sentra, Dig, Cyera, Varonis, BigID)
- 데이터 가시성: 데이터 파이프라인의 품질 및 성능 모니터링 (Anomalo, datologyai, OBSERVE, MonteCarlo, Cleanlab, Scale AI, onum, metaplane)
- 데이터 카탈로그: 메타데이터 중앙화, 데이터 자산 조직화 (atlan, Alation, Collibra, Informatica, Acryl Data, CastorDoc, select star, data.world)
결론:
- 데이터가 잘 조직화될수록 보안, 가시성, 관리가 효율적임

[AI로 인한 데이터 재구성]

AI로 인해 데이터 인프라의 다음 영역에서 혁신이 관찰됨:

1. AI 에이전트 및 애플리케이션을 위한 비정형 데이터 파이프라인

비정형 데이터 파이프라인의 부상:
- 대화형 AI 및 에이전트 애플리케이션에 내부 비정형 데이터를 활용하려는 수요 증가
- 비정형 데이터 파이프라인은 전통적 데이터 파이프라인과 유사한 과정 포함: 데이터 추출, 변환, 인덱싱, 저장
주요 데이터 소스:
- PDF 텍스트, 지식 베이스, 이미지 등
- 주로 대화형 AI 활용 사례를 지원하는 데이터
차별화 요소:
- 변환 단계에서 기존 파이프라인과의 차이 발생:
  - 데이터 청킹(chunking): 데이터를 작은 단위로 나누기
  - 메타데이터 추출: 인덱싱을 위해 필요한 데이터 생성
  - 임베딩: 각 데이터 청크를 벡터 형태로 변환해 저장
성공 요소:
- 청킹 전략과 임베딩 모델의 선택은 데이터 검색 정확성에 중요한 영향을 미침
- 도메인 특화 임베딩 모델의 등장: 예를 들어 코드, 법률 콘텐츠에 특화된 모델
벡터 호환 데이터베이스 활용:
- 비정형 데이터를 저장하고 질의 가능한 형식으로 변환
- RAG(Retrieval-Augmented Generation) 및 에이전트를 통해 LLM 개인화 가능
주요 관찰
- 팀들은 다양한 청킹 전략을 시도하고 있음
- 도메인별 특화된 임베딩 모델이 점차 증가하며 정확도와 성능 개선에 기여
- 기업들은 데이터를 쉽게 질의할 수 있는 형식으로 변환하는 도구를 찾고 있음

2. Retrieval-Augmented Generation (RAG)

RAG 개요:
- RAG는 LLM 애플리케이션의 효율성을 개선하기 위해 사용자 정의 데이터를 활용하는 아키텍처적 워크플로
- 작동 방식:
  - 데이터를 로드하고 질의 처리를 위해 "인덱싱"
  - 질의는 인덱스를 기반으로 가장 관련성 높은 데이터를 필터링
  - 필터링된 컨텍스트와 질의가 LLM과 프롬프트로 전달되어 응답 생성
- 데이터를 제품 경험의 일부로 활성화 가능
RAG의 주요 장점:
- 업데이트된 정보 제공:
  - LLM은 사전 학습 데이터에 제한이 있어 오래되거나 부정확한 응답 가능성 존재
  - RAG는 외부 정보 소스에 접근해 최신 응답 제공
- 사실성 강화:
  - LLM이 정확한 정보를 제공하지 못하는 문제를 RAG가 보완
  - 선별된 지식 베이스를 활용해 신뢰도 높은 정보를 제공
- 출처 제공:
  - LLM의 응답에 인용 및 주석 추가 가능
  - 사용자 신뢰도 향상

3. 학습 및 추론 성능 향상을 위한 데이터 큐레이션

데이터 큐레이션: 최적의 학습 및 추론 성능을 위해 데이터셋을 필터링하고 구성하는 과정
- 주요 작업:
  - 텍스트 분류
  - NSFW 필터 적용
  - 데이터 중복 제거
  - 배치 크기 최적화
  - 성능 기반 소스 최적화
  - 합성 데이터를 통한 데이터 증강
Meta Llama-3 발표에서의 인사이트:
- 학습 데이터 큐레이션:
  - "최고의 언어 모델을 학습시키기 위해 고품질 대규모 데이터셋의 큐레이션이 중요"
  - Meta는 다음과 같은 데이터 필터링 파이프라인 개발:
    - 휴리스틱 필터
    - NSFW 필터
    - 의미적 중복 제거
    - 데이터 품질 예측 텍스트 분류기
- 미세 조정 데이터 큐레이션:
  - "모델 품질의 가장 큰 개선은 데이터를 신중히 큐레이션하고, 인간 주석가의 주석을 다수의 품질 보증 단계를 통해 검토함으로써 달성됨"
데이터 큐레이션의 효과:
- Meta AI 연구팀에 따르면:
  - 큐레이션은 학습 시간을 최대 20% 단축
  - 다운스트림 정확도 개선
  - 인터넷 데이터 고갈 상황에서도 모델 성능 개선 경로 제공
향후 방향:
- 모델 학습 및 미세 조정을 위해 자동화된 고품질 데이터 필터, 중복 제거, 분류기가 중요
- Datology AI와 같은 기업이 이를 실현하기 위해 노력 중

4. AI를 위한 데이터 저장

AI 데이터를 저장하는 방식에는 세 가지 주요 트렌드가 있음:
- 벡터 데이터베이스
- 데이터 레이크의 부상
- 레이크하우스에 대한 투자 증가
벡터 데이터베이스의 중요성:
- 벡터 데이터베이스는 AI 붐의 핵심 기술 중 하나로 주목받음
- 데이터 임베딩(숫자 표현) 저장에 적합:
  - 비정형 데이터(이미지, 오디오, 비디오 등)를 수치로 변환하여 저장
  - 의미적 검색(예: "dog" 검색 시 "wolf" 또는 "puppy" 반환) 지원
- 벡터 데이터베이스의 형태:
  - 네이티브 벡터 데이터베이스: 벡터 저장 전용으로 설계됨
  - 기존 데이터베이스 확장형: 기존 데이터베이스에 벡터 지원 기능 추가
- 활용 사례: LLM 개인화
  - 기업의 커스텀 데이터를 벡터 임베딩으로 저장하고 검색 가능
  - AI 에이전트가 이 구조를 활용해 맞춤형 경험 제공
데이터 레이크 및 레이크하우스
- 데이터 레이크의 부상:
  - 대부분의 기업이 대규모 데이터를 데이터 레이크에 저장
  - 커스텀 AI 개발을 위해 데이터 레이크 활용 필수
- 레이크하우스 아키텍처:
  - 데이터 레이크를 효과적으로 관리하고 질의할 수 있는 아키텍처 제공
  - 오픈 테이블 포맷으로 데이터 구성:
    - Iceberg, Delta Lake, Hudi 등 활용
  - 데이터 조직화 및 쿼리 성능 향상
- Databricks의 역할:
  - Databricks는 Tabular를 인수하여 Delta Lake와 Iceberg의 개발팀 통합
  - 경쟁사의 진입을 어렵게 하며 레이크하우스 기술 발전을 선도

5. AI 메모리

AI 메모리의 부상:
- ChatGPT의 메모리 기능 발표 이후 AI 메모리가 주요 논의 주제로 떠오름
- 표준 AI 시스템은 강력한 에피소드 메모리 및 상호작용 간 연속성이 부족:
  - 현재 시스템은 일종의 단기 기억 상실 상태에 있음
  - 복잡한 순차적 추론과 다중 에이전트 시스템에서의 지식 공유에 제약
다중 에이전트 시스템에서의 메모리
- 다중 에이전트 시스템으로 발전함에 따라 에이전트 간 메모리 관리 시스템이 필요
- 기능 요구사항:
  - 에이전트 별로 기억 저장 및 세션 간 접근 지원
  - 접근 및 개인정보 보호 통제 포함
  - 에이전트 간 메모리 풀링:
    - 한 에이전트가 다른 에이전트의 경험을 활용 가능
    - 의사결정 능력 향상
- 계층적 메모리 필요:
  - 접근 빈도, 중요도, 비용에 따라 메모리를 계층적으로 저장
MemGPT: AI 메모리 관리의 선도 프레임워크
- MemGPT의 비전: LLM이 차세대 운영 체제(OS)의 진화를 이끌 것이라는 목표
- 아키텍처 개요:
  - 메모리 유형:
    - 주요 컨텍스트 메모리: 주 메모리(RAM)와 유사
    - 외부 컨텍스트 메모리: 디스크 메모리/디스크 스토리지와 유사
AI 메모리의 중요성
- 개인화, 학습, 반성(reflection)을 지원하며 AI 애플리케이션 발전에 필수적
- 에이전트 간 협력과 기억 공유를 통해 복잡한 작업 해결 능력 향상

AI 워크로드의 기회

AI 워크로드와 데이터 인프라:
- GenAI의 부상으로 데이터 인프라의 모든 측면이 변화한 것은 아니지만, 다음과 같은 기술의 등장은 매우 흥미로운 발전:
  - 비정형 데이터 추출 및 파이프라이닝
  - Retrieval-Augmented Generation (RAG)
  - 데이터 큐레이션
  - 데이터 저장
  - AI 메모리
Felicis의 투자 전략
- AI와 데이터 인프라의 미래에 집중:
  - 데이터 및 인프라 계층 관련 스타트업에 투자
  - 주요 투자 사례:
    - Datology: 데이터 큐레이션
    - Metaplane: 데이터 관찰 가능성(data observability)
    - MotherDuck: 서버리스 데이터 웨어하우스
    - Weights & Biases: 실험 추적 도구
AI 시장의 성장 가능성
- 확장 가능성:
  - AI 시장은 채팅봇에서 다중 에이전트 워크플로까지 광범위하게 확장 중
  - 현재는 시작 단계에 불과하며 앞으로 더 많은 발전 가능성 존재
- 데이터 솔루션의 중요성:
  - 성공적인 AI 애플리케이션을 위해 데이터 솔루션이 핵심
  - AI 워크로드를 지원하는 대규모 데이터 비즈니스가 구축될 전망

https://www.felicis.com/insight/ai-data-infrastructure

저작자표시

'AI > AI News' 카테고리의 다른 글

2025년의 AI: AI의 기초가 완성되는 해 (1)	2025.01.06
NVIDIA garak - LLM 취약점 스캐너 (1)	2024.11.19
Briefer – 일정, SQL, 내장 LLM이 포함된 멀티플레이어 노트북 (0)	2024.07.27
Google, AI 계약 덕분에 Reddit에서 작동하는 유일한 검색 엔진이 되다 (1)	2024.07.27
"오픈소스 AI가 미래의 길입니다" by 마크 주커버그 (0)	2024.07.27

현재글AI 데이터 인프라의 부상

As I've always been

SQLAlchemy, MultiHead Attention, opensource llm, decoder-only transformer, Python, MultiQuery Attention, simple queue service, 파이썬 성능 튜닝, 오픈소스AI, Multi-Query Attention, pytorch, SQL, flask, llama3.1, mixtral, GPT, docker, LLM, 라마3, fifo queue,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

As I've always been

AI 데이터 인프라의 부상

AI 데이터 인프라 현황

데이터 소스

데이터 수집 및 변환

데이터 저장

모델 훈련

모델 추론

데이터 서비스

[AI로 인한 데이터 재구성]

1. AI 에이전트 및 애플리케이션을 위한 비정형 데이터 파이프라인

2. Retrieval-Augmented Generation (RAG)

3. 학습 및 추론 성능 향상을 위한 데이터 큐레이션

4. AI를 위한 데이터 저장

5. AI 메모리

AI 워크로드의 기회

'AI > AI News' 카테고리의 다른 글

'AI/AI News'의 다른글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

AI 데이터 인프라의 부상

AI 데이터 인프라 현황

데이터 소스

데이터 수집 및 변환

데이터 저장

모델 훈련

모델 추론

데이터 서비스

[AI로 인한 데이터 재구성]

1. AI 에이전트 및 애플리케이션을 위한 비정형 데이터 파이프라인

2. Retrieval-Augmented Generation (RAG)

3. 학습 및 추론 성능 향상을 위한 데이터 큐레이션

4. AI를 위한 데이터 저장

5. AI 메모리

AI 워크로드의 기회

'AI > AI News' 카테고리의 다른 글

'AI/AI News'의 다른글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역