research

Local LLM 요구사항 산정

Local LLM 요구사항 산정

Context Window 산정

정적 구성요소 (System Prompt)

| 구성 요소 | 추정 토큰 | |---|---| | 역할 정의 | ~200 | | Tool 명세 × 10개 | ~4,000 | | Skill 정의 × 5개 | ~1,500 | | 사용자 설정 | ~300 | | 현재 이벤트 맥락 | ~500 | | 합계 | ~6,500 |

동적 구성요소 (실행 중)

| 구성 요소 | 추정 토큰 | |---|---| | CoT 추론 | ~1,000~2,000 | | Tool 결과 (단순) | ~1,000 | | Tool 결과 (리서치) | ~10,000~30,000 |

Context Window 권장 크기

단순 작업 (알림, 파일 이동):   8K 이상
일반 작업 (검색, 다운로드):   16K 이상
리서치 작업:                  32K 이상  ← 권장
장문 문서 처리:               128K 이상

VRAM 산정

VRAM = 모델 가중치 + KV cache

총 VRAM 요구량

| 모델 | Context | 모델 | KV cache | 총 VRAM | 용도 | |---|---|---|---|---|---| | 7B 4bit | 16K | 4GB | 3GB | ~7GB | 단순 작업 | | 7B 4bit | 32K | 4GB | 5GB | ~9GB | 일반 작업 | | 13B 4bit | 32K | 8GB | 7GB | ~15GB | 권장 | | 7B 4bit | 128K | 4GB | 14GB | ~18GB | 리서치 | | 32B 4bit | 32K | 20GB | 8GB | ~28GB | 고품질 |

16GB VRAM 환경 권장 구성

현실적 최선:
  Qwen2.5-14B (4bit) + 32K context ≈ 15~16GB

안정적:
  Qwen2.5-7B (4bit) + 32K context ≈ 9GB

리서치 작업:
  Qwen2.5-7B (4bit) + 128K context ≈ 18GB  ← 16GB로 부족
  → 해결: context 32K 유지 + RAG로 동적 주입

핵심 전략

16GB 환경에서 리서치 작업을 하려면:

  • 문서 전체를 context에 넣지 않는다
  • RAG로 필요한 청크만 동적으로 주입
  • context window는 32K 유지

→ Harness Context Engineering의 "동적 context" 원칙과 동일

관련 개념