research

Naran 핵심 엔진 모델 비교 — Unsloth 기준 (2026-03-25)

Naran 핵심 엔진 모델 비교 — Unsloth 기준 (2026-03-25)

출처: https://unsloth.ai/docs 전체 모델 조사


Unsloth 등록 모델 전체 (16GB 기준)

| 모델 | 출처 | 16GB 적합성 | tool call | 비고 | |------|------|------------|-----------|------| | Qwen3.5-9B | Alibaba 🇨🇳 | ✅ ~6.5GB (Q4) | ✅ | 소형, Ollama 미지원 | | Qwen3.5-35B-A3B | Alibaba 🇨🇳 | ⚠️ CPU 오프로드 | ✅ (픽스 후) | 검증됨, Ollama 미지원 | | NVIDIA Nemotron 3 Nano 4B | NVIDIA 🇺🇸 | ✅ ~5GB | ✅ | 1M ctx, Ollama 가능 | | NVIDIA Nemotron 3 Nano 30B-A3B | NVIDIA 🇺🇸 | ❌ 24GB | ✅ | 16GB 불가 | | GLM-4.7-Flash | Z.ai 🇨🇳 | ⚠️ ~18GB Q4 | ✅ | agentic 최강, Ollama 미권장 | | gpt-oss-20b | OpenAI 🇺🇸 | ✅ ~14GB | ⚠️ Harmony | 미국 모델 최강 추론 | | Qwen3-14B | Alibaba 🇨🇳 | ✅ Q6K ~12GB | ✅ | 안정적 | | Qwen3-Coder-Next 80B | Alibaba 🇨🇳 | ❌ | ✅ | 코딩 특화, 너무 큼 | | MiniMax-M2.5 | MiniMax 🇨🇳 | ❌ | - | 수백GB급 | | Kimi K2.5 | Moonshot AI 🇨🇳 | ❌ | - | 너무 큼 | | GLM-5 | Zhipu AI 🇨🇳 | ❌ | - | 너무 큼 |

한국 모델은 Unsloth 미등재 — HF에서 직접 GGUF 사용 필요

  • LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct

Agentic 핵심 벤치마크 비교

GLM-4.7-Flash 공식 자료 기준:

| 벤치마크 | GLM-4.7-Flash | Qwen3-30B-A3B | GPT-OSS-20B | |----------|--------------|---------------|-------------| | AIME 25 (수학) | 91.6 | 85.0 | 91.7 | | GPQA (과학추론) | 75.2 | 73.4 | 71.5 | | LiveCodeBench | 64.0 | 66.0 | 61.0 | | SWE-bench Verified | 59.2 | 22.0 | 34.0 | | τ²-Bench (agentic tool use) | 79.5 | 49.0 | 47.7 | | BrowseComp | 42.8 | 2.29 | 28.3 |

→ Naran의 핵심인 agentic tool use(τ²-Bench)에서 GLM-4.7-Flash가 압도적 (79.5 vs 49.0 / 47.7)


시나리오별 결론

시나리오 A: 미국 + 한국 모델만

  • gpt-oss-20b (OpenAI, 16GB 딱 맞음) — tool call Harmony 이슈 있음
  • Nemotron 3 Nano 4B (NVIDIA, 5GB) — 작지만 빠름, Ollama 지원
  • 한국 모델: EXAONE-3.5-7.8B GGUF 직접 사용 가능
  • 결론: 품질 한계 있음. gpt-oss-20b가 그나마 최선

시나리오 B: 미국 + 한국 + 중국 허용 (범용 Naran)

  1. GLM-4.7-Flash (Z.ai) — agentic tool use 최강, τ²=79.5
    • 4-bit ~18GB, CPU 오프로드 소량 필요
    • llama.cpp만 (Ollama 미권장)
  2. Qwen3.5-35B-A3B (Alibaba) — 이미 동작 확인, 멀티모달
  3. gpt-oss-20b (OpenAI) — 미국 모델, 추론 최강급

최종 권장 (범용 Naran)

GLM-4.7-Flash ← agentic 특화, Naran의 scheduling + tool call 워크플로에 최적

  • HuggingFace: unsloth/GLM-4.7-Flash-GGUF
  • 권장 퀀트: UD-Q4_K_XL
  • llama-server 실행 (tool call):
    ./llama.cpp/llama-server \
        --model GLM-4.7-Flash-UD-Q4_K_XL.gguf \
        --alias "glm-4.7-flash" \
        --temp 0.7 --top-p 1.0 --min-p 0.01 \
        --ctx-size 16384 \
        --port 8001
    
  • ⚠️ Ollama 미사용, llama.cpp만
  • ⚠️ repeat penalty 비활성화 필수 (--repeat-penalty 1.0)

관련 노트


VRAM 티어별 추론+Context 가능성 (2026-03-25)

현재 16GB의 근본 딜레마

  • 모델 weight(추론) + KV cache(context)가 같은 VRAM을 공유
  • 추론 품질 올리면 → context 줄어듦
  • context 확보하면 → 추론 모델 줄여야 함
  • 근본 해결: VRAM 증설뿐

티어별 최소 VRAM

| 티어 | VRAM | 대표 GPU | 가능한 모델 | 실질 ctx | |------|------|---------|-----------|---------| | 입문 실용 | 24GB | RTX 3090/4090 | Qwen3.5-27B Q4(~17GB) | 32~64K | | 편안한 | 48GB | A6000, 3090x2 | Qwen3.5-35B-A3B full GPU | 100K+ | | 타협없음 | 80GB | H100/A100 | gpt-oss-120b, Qwen3.5-122B | 클라우드 수준 |

현재 16GB 최선 (타협 구조)

  • Qwen3-14B Q4_K_M — weight 9GB, KV cache 7GB, 40~64K ctx, thinking 모드
  • 추론과 context의 균형이 가장 좋은 선택

Naran 업그레이드 로드맵

  1. 지금: 16GB → Qwen3-14B로 agentic 구조 설계/검증
  2. 목표: 24GB(RTX 3090/4090) → Qwen3.5-27B로 전환, 추론+context 동시 해결