Local LLM 요구사항 산정
Context Window 산정
정적 구성요소 (System Prompt)
| 구성 요소 | 추정 토큰 | |---|---| | 역할 정의 | ~200 | | Tool 명세 × 10개 | ~4,000 | | Skill 정의 × 5개 | ~1,500 | | 사용자 설정 | ~300 | | 현재 이벤트 맥락 | ~500 | | 합계 | ~6,500 |
동적 구성요소 (실행 중)
| 구성 요소 | 추정 토큰 | |---|---| | CoT 추론 | ~1,000~2,000 | | Tool 결과 (단순) | ~1,000 | | Tool 결과 (리서치) | ~10,000~30,000 |
Context Window 권장 크기
단순 작업 (알림, 파일 이동): 8K 이상
일반 작업 (검색, 다운로드): 16K 이상
리서치 작업: 32K 이상 ← 권장
장문 문서 처리: 128K 이상
VRAM 산정
VRAM = 모델 가중치 + KV cache
총 VRAM 요구량
| 모델 | Context | 모델 | KV cache | 총 VRAM | 용도 | |---|---|---|---|---|---| | 7B 4bit | 16K | 4GB | 3GB | ~7GB | 단순 작업 | | 7B 4bit | 32K | 4GB | 5GB | ~9GB | 일반 작업 | | 13B 4bit | 32K | 8GB | 7GB | ~15GB | 권장 | | 7B 4bit | 128K | 4GB | 14GB | ~18GB | 리서치 | | 32B 4bit | 32K | 20GB | 8GB | ~28GB | 고품질 |
16GB VRAM 환경 권장 구성
현실적 최선:
Qwen2.5-14B (4bit) + 32K context ≈ 15~16GB
안정적:
Qwen2.5-7B (4bit) + 32K context ≈ 9GB
리서치 작업:
Qwen2.5-7B (4bit) + 128K context ≈ 18GB ← 16GB로 부족
→ 해결: context 32K 유지 + RAG로 동적 주입
핵심 전략
16GB 환경에서 리서치 작업을 하려면:
- 문서 전체를 context에 넣지 않는다
- RAG로 필요한 청크만 동적으로 주입
- context window는 32K 유지
→ Harness Context Engineering의 "동적 context" 원칙과 동일
관련 개념
- tool-system-prompt-design — System Prompt 설계
- research/harness-engineering/context-engineering — 동적 context 관리
- research/harness-engineering/multi-agent-structure — KV cache 이슈 (llama.cpp)