🖥️ Mac Studio 512GB RAM — 로컬 LLM 종합 비교표
M3 Ultra (80코어 GPU, 819GB/s) 기준 · GLM / Kimi 시리즈 포함 · 비교 기준: Gemini 2.5 Pro (~156 tok/s API)
⚠️ 기준 안내
• 성능 %: 종합 벤치마크(MMLU, SWE-bench, AIME, GPQA 등) 평균 기준 추정치
• 토큰 속도: Q4_K_M 양자화, 짧은 컨텍스트(~4K) 기준. MLX 또는 llama.cpp 사용
• 반응속도 %: Gemini 2.5 Pro API(~156 tok/s, TTFT ~1.3s) 대비 체감 비율
• ★ = MoE(혼합전문가) 모델 — 활성 파라미터만 연산하므로 크기 대비 빠름
• GLM = Z.AI(Zhipu AI) 시리즈 · Kimi = Moonshot AI 시리즈
성능순 로컬 LLM 비교 (512GB에 올릴 수 있는 모델)
| 모델명 | 분류 | 성능 (vs Gemini 2.5 Pro) |
필요 RAM (Q4) |
출력속도 (tok/s) |
반응속도 (vs Gemini) |
512GB 탑재 |
평가 |
|---|---|---|---|---|---|---|---|
| 🔴 초대형 (600B+ 파라미터) — 느리지만 최고 성능 | |||||||
| Kimi K2.5 ★1T 파라미터 (32B 활성) · MoEKIMI | 범용/에이전트 | ~93% | ~380 GB | 8–14 | ~7% | ✅ | 🏆 최강 오픈소스 |
| Kimi K2 Thinking ★1T 파라미터 (32B 활성) · MoEKIMI | 추론특화 | ~90% | ~380 GB | 8–14 | ~7% | ✅ | 강력 추론 |
| DeepSeek R1 671B ★671B (37B 활성) · MoEMOE | 추론특화 | ~88% | ~405 GB | 17–20 | ~12% | ✅ | 검증된 추론 |
| DeepSeek V3.1 671B ★671B (37B 활성) · MoEMOE | 범용 | ~85% | ~405 GB | 18–22 | ~13% | ✅ | 고품질 범용 |
| 🟠 대형 (200~400B) — 성능과 속도의 균형 | |||||||
| GLM-4.7 358B ★358B 파라미터 · MoE · 멀티모달GLM | 범용/코딩 | ~84% | ~140 GB | 15–22 | ~12% | ✅ | GLM 플래그십 |
| Qwen3-235B-A22B ★235B (22B 활성) · MoEMOE | 범용/코딩 | ~80% | ~88 GB | 25–35 | ~20% | ✅ | ⭐ 가성비 최고 |
| Llama 4 Maverick 400B ★400B (~17B 활성) · MoEMOE | 범용 | ~77% | ~220 GB | 20–30 | ~17% | ✅ | Meta 최신 |
| 🟡 중형 (60~150B) — 실용적 선택지 | |||||||
| Mistral Large 3 123B123B · DenseDENSE | 범용 | ~68% | ~72 GB | 12–16 | ~9% | ✅ | 유럽 대표 |
| GPT-OSS 120B ★120B (~6B 활성) · MoEMOE | 범용 | ~75% | ~65 GB | 40–55 | ~30% | ✅ | ⭐ 빠르고 우수 |
| Llama 3.3 70B70B · DenseDENSE | 범용 | ~72% | ~42 GB | 15–22 | ~12% | ✅ | 검증된 워크호스 |
| 🟢 중소형 (25~40B) — 빠른 일상 사용 | |||||||
| Qwen3-32B32B · DenseDENSE | 범용/코딩 | ~70% | ~20 GB | 30–42 | ~25% | ✅ | ⭐ 일상 추천 |
| GLM-4.7 Flash 30B ★30B (3B 활성) · MoEGLM | 코딩/에이전트 | ~66% | ~18 GB | 60–90 | ~45% | ✅ | ⭐⭐ OpenClaw 최적 |
| Qwen3-30B-A3B ★30B (3B 활성) · MoEMOE | 경량 범용 | ~62% | ~20 GB | 80–110 | ~60% | ✅ | ⭐⭐ 가장 빠름 |
| Gemma 3 27B27B · DenseDENSE | 범용/비전 | ~58% | ~17 GB | 33–41 | ~25% | ✅ | 비전 강점 |
| 📊 비교 기준 (클라우드 API) | |||||||
| **Gemini 2.5 Pro (API)**비공개 · Google 서버 인프라 | 기준 | 100% | - | ~156 | 100% | - | 클라우드 기준 |
80%+ (S급)
70~79% (A급)
60~69% (B급)
60%↓ (C급)
GLMZ.AI
KIMIMoonshot
MOE혼합전문가
OpenClaw 연동 시 체감 반응속도 상세
OpenClaw = 오픈소스 AI 에이전트 (Ollama/LM Studio 경유). 에이전트 오버헤드(도구 호출, 메모리 검색 등)로 순수 추론 대비 ~30~50% 추가 지연 발생.
| 모델 | 순수 속도 | OpenClaw 체감속도 |
vs Gemini (반응 %) |
TTFT | 평가 |
|---|---|---|---|---|---|
| Kimi K2.5 ★ KIMI | ~11 tok/s | ~7 tok/s | ~5% | 8~20초 | 최고 성능, 매우 느림 |
| Kimi K2 Thinking ★ KIMI | ~11 tok/s | ~7 tok/s | ~5% | 8~20초 | 추론 최강, 느림 |
| DeepSeek R1 671B ★ | ~18 tok/s | ~12 tok/s | ~8% | 5~15초 | 느림, 복잡추론만 |
| DeepSeek V3.1 671B ★ | ~20 tok/s | ~14 tok/s | ~9% | 4~12초 | 고품질, 느림 |
| GLM-4.7 358B ★ GLM | ~18 tok/s | ~12 tok/s | ~8% | 4~10초 | 코딩 강점, 느림 |
| Qwen3-235B ★ | ~30 tok/s | ~20 tok/s | ~13% | 2~5초 | ⭐ 가성비 최고 |
| Llama 4 Maverick ★ | ~25 tok/s | ~17 tok/s | ~11% | 3~8초 | 양호 |
| GPT-OSS 120B ★ | ~48 tok/s | ~33 tok/s | ~22% | 1~3초 | ⭐ 빠르고 우수 |
| Llama 3.3 70B | ~18 tok/s | ~12 tok/s | ~8% | 2~4초 | 느리지만 안정적 |
| Qwen3-32B | ~36 tok/s | ~25 tok/s | ~16% | 1~2초 | ⭐ 일상 추천 |
| GLM-4.7 Flash 30B ★ GLM | ~75 tok/s | ~50 tok/s | ~33% | <1초 | ⭐⭐ OpenClaw 최적 |
| Qwen3-30B-A3B ★ | ~100 tok/s | ~65 tok/s | ~43% | <1초 | ⭐⭐ 가장 빠름 |
| Gemma 3 27B | ~37 tok/s | ~25 tok/s | ~16% | 1~2초 | 비전 작업용 |
| Gemini 2.5 Pro (API) | ~156 tok/s | ~150 tok/s | 100% | ~1.3초 | 기준 (클라우드) |
GLM · Kimi 시리즈 상세 정보
| 모델 | 파라미터 | 활성 파라미터 | 아키텍처 | 컨텍스트 | Q4 크기 | 라이선스 | 특기 |
|---|---|---|---|---|---|---|---|
| GLM-4.7 | 358B | MoE (비공개) | MoE + 멀티모달 | 200K | ~140 GB | MIT | 코딩, "Vibe Coding", 비전 |
| GLM-4.7 Flash | 30B | ~3B | MoE (MLA) | 128K | ~18 GB | MIT | SWE-bench 59.2%, 에이전트 특화 |
| Kimi K2.5 | 1.04T | ~32B | MoE + 비전 | 128K+ | ~380 GB | MIT (수정) | Agent Swarm, 멀티모달, HLE 1위 |
| Kimi K2 (Thinking) | 1.04T | ~32B | MoE | 128K | ~380 GB | MIT (수정) | 추론 특화, GPT-5급 벤치마크 |
| Kimi K2 (Instant) | 1.04T | ~32B | MoE | 128K | ~380 GB | MIT (수정) | 빠른 응답 모드 |
💡 추천 조합 (업데이트)
🏆 최고 성능 (속도 희생) → Kimi K2.5 (Q4, ~380GB) — 오픈소스 최강, GPT-5급 · 느리지만 압도적
🧠 최고 추론 → DeepSeek R1 671B (Q4, ~405GB) — 수학·논리 최강, 검증된 모델
⚡ 가성비 최고 → Qwen3-235B (Q4, ~88GB) — 성능 80%에 30 tok/s, RAM 여유
💻 코딩 에이전트 → GLM-4.7 Flash (Q8, ~18GB) — SWE-bench 59.2%, 초고속 60~90 tok/s, OpenClaw 최적
🚀 일상 만능 → Qwen3-32B (Q8, ~36GB) — 균형잡힌 성능, 30+ tok/s
⚡ 최고속 → Qwen3-30B-A3B (Q8, ~20GB) — 100+ tok/s, 실시간 대화감
🔀 멀티 모델 → GLM-4.7 Flash(18GB) + Qwen3-235B(88GB) + Qwen3-32B(36GB) = ~142GB → 나머지로 OS·앱 여유
- Kimi K2.5/K2는 1T 파라미터(32B 활성) MoE로 Mac Studio 512GB에 Q4로 간신히 탑재 가능(~380GB). 컨텍스트는 제한적.
- GLM-4.7 Flash는 SWE-bench에서 30B급 최고 성능(59.2%)이나, 순수 추론/일반 지식은 Qwen3-32B보다 약할 수 있음.
- GLM-4.7 Flash는 OpenClaw에서 특히 좋은 평가 — 에이전트 도구 호출, 함수 콜링 성능이 우수.
- Kimi K2.5의 "Agent Swarm"은 API 환경에서 최적화된 기능으로, 로컬 단독 추론 시에는 효과 제한적.
- 모든 수치는 커뮤니티 벤치마크·실측 기반 추정치이며 양자화·컨텍스트·프레임워크에 따라 달라집니다.