Naran 핵심 엔진 모델 비교 — Unsloth 기준 (2026-03-25)
출처: https://unsloth.ai/docs 전체 모델 조사
Unsloth 등록 모델 전체 (16GB 기준)
| 모델 | 출처 | 16GB 적합성 | tool call | 비고 | |------|------|------------|-----------|------| | Qwen3.5-9B | Alibaba 🇨🇳 | ✅ ~6.5GB (Q4) | ✅ | 소형, Ollama 미지원 | | Qwen3.5-35B-A3B | Alibaba 🇨🇳 | ⚠️ CPU 오프로드 | ✅ (픽스 후) | 검증됨, Ollama 미지원 | | NVIDIA Nemotron 3 Nano 4B | NVIDIA 🇺🇸 | ✅ ~5GB | ✅ | 1M ctx, Ollama 가능 | | NVIDIA Nemotron 3 Nano 30B-A3B | NVIDIA 🇺🇸 | ❌ 24GB | ✅ | 16GB 불가 | | GLM-4.7-Flash | Z.ai 🇨🇳 | ⚠️ ~18GB Q4 | ✅ | agentic 최강, Ollama 미권장 | | gpt-oss-20b | OpenAI 🇺🇸 | ✅ ~14GB | ⚠️ Harmony | 미국 모델 최강 추론 | | Qwen3-14B | Alibaba 🇨🇳 | ✅ Q6K ~12GB | ✅ | 안정적 | | Qwen3-Coder-Next 80B | Alibaba 🇨🇳 | ❌ | ✅ | 코딩 특화, 너무 큼 | | MiniMax-M2.5 | MiniMax 🇨🇳 | ❌ | - | 수백GB급 | | Kimi K2.5 | Moonshot AI 🇨🇳 | ❌ | - | 너무 큼 | | GLM-5 | Zhipu AI 🇨🇳 | ❌ | - | 너무 큼 |
한국 모델은 Unsloth 미등재 — HF에서 직접 GGUF 사용 필요
LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct등
Agentic 핵심 벤치마크 비교
GLM-4.7-Flash 공식 자료 기준:
| 벤치마크 | GLM-4.7-Flash | Qwen3-30B-A3B | GPT-OSS-20B | |----------|--------------|---------------|-------------| | AIME 25 (수학) | 91.6 | 85.0 | 91.7 | | GPQA (과학추론) | 75.2 | 73.4 | 71.5 | | LiveCodeBench | 64.0 | 66.0 | 61.0 | | SWE-bench Verified | 59.2 | 22.0 | 34.0 | | τ²-Bench (agentic tool use) | 79.5 | 49.0 | 47.7 | | BrowseComp | 42.8 | 2.29 | 28.3 |
→ Naran의 핵심인 agentic tool use(τ²-Bench)에서 GLM-4.7-Flash가 압도적 (79.5 vs 49.0 / 47.7)
시나리오별 결론
시나리오 A: 미국 + 한국 모델만
- gpt-oss-20b (OpenAI, 16GB 딱 맞음) — tool call Harmony 이슈 있음
- Nemotron 3 Nano 4B (NVIDIA, 5GB) — 작지만 빠름, Ollama 지원
- 한국 모델: EXAONE-3.5-7.8B GGUF 직접 사용 가능
- 결론: 품질 한계 있음. gpt-oss-20b가 그나마 최선
시나리오 B: 미국 + 한국 + 중국 허용 (범용 Naran)
- GLM-4.7-Flash (Z.ai) — agentic tool use 최강, τ²=79.5
- 4-bit ~18GB, CPU 오프로드 소량 필요
- llama.cpp만 (Ollama 미권장)
- Qwen3.5-35B-A3B (Alibaba) — 이미 동작 확인, 멀티모달
- gpt-oss-20b (OpenAI) — 미국 모델, 추론 최강급
최종 권장 (범용 Naran)
GLM-4.7-Flash ← agentic 특화, Naran의 scheduling + tool call 워크플로에 최적
- HuggingFace:
unsloth/GLM-4.7-Flash-GGUF - 권장 퀀트:
UD-Q4_K_XL - llama-server 실행 (tool call):
./llama.cpp/llama-server \ --model GLM-4.7-Flash-UD-Q4_K_XL.gguf \ --alias "glm-4.7-flash" \ --temp 0.7 --top-p 1.0 --min-p 0.01 \ --ctx-size 16384 \ --port 8001 - ⚠️ Ollama 미사용, llama.cpp만
- ⚠️ repeat penalty 비활성화 필수 (
--repeat-penalty 1.0)
관련 노트
- 16gb-vram-reasoning-model-comparison — 전체 모델 비교
- gpt-oss-20b-naran — gpt-oss 상세
VRAM 티어별 추론+Context 가능성 (2026-03-25)
현재 16GB의 근본 딜레마
- 모델 weight(추론) + KV cache(context)가 같은 VRAM을 공유
- 추론 품질 올리면 → context 줄어듦
- context 확보하면 → 추론 모델 줄여야 함
- 근본 해결: VRAM 증설뿐
티어별 최소 VRAM
| 티어 | VRAM | 대표 GPU | 가능한 모델 | 실질 ctx | |------|------|---------|-----------|---------| | 입문 실용 | 24GB | RTX 3090/4090 | Qwen3.5-27B Q4(~17GB) | 32~64K | | 편안한 | 48GB | A6000, 3090x2 | Qwen3.5-35B-A3B full GPU | 100K+ | | 타협없음 | 80GB | H100/A100 | gpt-oss-120b, Qwen3.5-122B | 클라우드 수준 |
현재 16GB 최선 (타협 구조)
- Qwen3-14B Q4_K_M — weight 9GB, KV cache 7GB, 40~64K ctx, thinking 모드
- 추론과 context의 균형이 가장 좋은 선택
Naran 업그레이드 로드맵
- 지금: 16GB → Qwen3-14B로 agentic 구조 설계/검증
- 목표: 24GB(RTX 3090/4090) → Qwen3.5-27B로 전환, 추론+context 동시 해결