Local LLM 요구사항 산정

Context Window 산정

정적 구성요소 (System Prompt)

| 구성 요소 | 추정 토큰 | |---|---| | 역할 정의 | ~200 | | Tool 명세 × 10개 | ~4,000 | | Skill 정의 × 5개 | ~1,500 | | 사용자 설정 | ~300 | | 현재 이벤트 맥락 | ~500 | | 합계 | ~6,500 |

동적 구성요소 (실행 중)

| 구성 요소 | 추정 토큰 | |---|---| | CoT 추론 | ~1,000~2,000 | | Tool 결과 (단순) | ~1,000 | | Tool 결과 (리서치) | ~10,000~30,000 |

Context Window 권장 크기

단순 작업 (알림, 파일 이동):   8K 이상
일반 작업 (검색, 다운로드):   16K 이상
리서치 작업:                  32K 이상  ← 권장
장문 문서 처리:               128K 이상

VRAM 산정

VRAM = 모델 가중치 + KV cache

총 VRAM 요구량

| 모델 | Context | 모델 | KV cache | 총 VRAM | 용도 | |---|---|---|---|---|---| | 7B 4bit | 16K | 4GB | 3GB | ~7GB | 단순 작업 | | 7B 4bit | 32K | 4GB | 5GB | ~9GB | 일반 작업 | | 13B 4bit | 32K | 8GB | 7GB | ~15GB | 권장 | | 7B 4bit | 128K | 4GB | 14GB | ~18GB | 리서치 | | 32B 4bit | 32K | 20GB | 8GB | ~28GB | 고품질 |

16GB VRAM 환경 권장 구성

현실적 최선:
  Qwen2.5-14B (4bit) + 32K context ≈ 15~16GB

안정적:
  Qwen2.5-7B (4bit) + 32K context ≈ 9GB

리서치 작업:
  Qwen2.5-7B (4bit) + 128K context ≈ 18GB  ← 16GB로 부족
  → 해결: context 32K 유지 + RAG로 동적 주입

핵심 전략

16GB 환경에서 리서치 작업을 하려면:

문서 전체를 context에 넣지 않는다
RAG로 필요한 청크만 동적으로 주입
context window는 32K 유지

→ Harness Context Engineering의 "동적 context" 원칙과 동일

Local LLM 요구사항 산정

Local LLM 요구사항 산정

Context Window 산정

정적 구성요소 (System Prompt)

동적 구성요소 (실행 중)

Context Window 권장 크기

VRAM 산정

총 VRAM 요구량

16GB VRAM 환경 권장 구성

핵심 전략

관련 개념