오픈클로 오픈채팅방 오픈클로 오픈채팅방

🖥️ Mac Studio 512GB RAM — 로컬 LLM 종합 비교표

관리자 2026-02-09 08:53 조회 15

M3 Ultra (80코어 GPU, 819GB/s) 기준 · GLM / Kimi 시리즈 포함 · 비교 기준: Gemini 2.5 Pro (~156 tok/s API)

⚠️ 기준 안내
• 성능 %: 종합 벤치마크(MMLU, SWE-bench, AIME, GPQA 등) 평균 기준 추정치
• 토큰 속도: Q4_K_M 양자화, 짧은 컨텍스트(~4K) 기준. MLX 또는 llama.cpp 사용
• 반응속도 %: Gemini 2.5 Pro API(~156 tok/s, TTFT ~1.3s) 대비 체감 비율
• ★ = MoE(혼합전문가) 모델 — 활성 파라미터만 연산하므로 크기 대비 빠름
GLM = Z.AI(Zhipu AI) 시리즈 · Kimi = Moonshot AI 시리즈

성능순 로컬 LLM 비교 (512GB에 올릴 수 있는 모델)

모델명 분류 성능
(vs Gemini 2.5 Pro)
필요 RAM
(Q4)
출력속도
(tok/s)
반응속도
(vs Gemini)
512GB
탑재
평가
🔴 초대형 (600B+ 파라미터) — 느리지만 최고 성능
Kimi K2.5 ★1T 파라미터 (32B 활성) · MoEKIMI 범용/에이전트 ~93% ~380 GB 8–14 ~7% 🏆 최강 오픈소스
Kimi K2 Thinking ★1T 파라미터 (32B 활성) · MoEKIMI 추론특화 ~90% ~380 GB 8–14 ~7% 강력 추론
DeepSeek R1 671B ★671B (37B 활성) · MoEMOE 추론특화 ~88% ~405 GB 17–20 ~12% 검증된 추론
DeepSeek V3.1 671B ★671B (37B 활성) · MoEMOE 범용 ~85% ~405 GB 18–22 ~13% 고품질 범용
🟠 대형 (200~400B) — 성능과 속도의 균형
GLM-4.7 358B ★358B 파라미터 · MoE · 멀티모달GLM 범용/코딩 ~84% ~140 GB 15–22 ~12% GLM 플래그십
Qwen3-235B-A22B ★235B (22B 활성) · MoEMOE 범용/코딩 ~80% ~88 GB 25–35 ~20% ⭐ 가성비 최고
Llama 4 Maverick 400B ★400B (~17B 활성) · MoEMOE 범용 ~77% ~220 GB 20–30 ~17% Meta 최신
🟡 중형 (60~150B) — 실용적 선택지
Mistral Large 3 123B123B · DenseDENSE 범용 ~68% ~72 GB 12–16 ~9% 유럽 대표
GPT-OSS 120B ★120B (~6B 활성) · MoEMOE 범용 ~75% ~65 GB 40–55 ~30% ⭐ 빠르고 우수
Llama 3.3 70B70B · DenseDENSE 범용 ~72% ~42 GB 15–22 ~12% 검증된 워크호스
🟢 중소형 (25~40B) — 빠른 일상 사용
Qwen3-32B32B · DenseDENSE 범용/코딩 ~70% ~20 GB 30–42 ~25% ⭐ 일상 추천
GLM-4.7 Flash 30B ★30B (3B 활성) · MoEGLM 코딩/에이전트 ~66% ~18 GB 60–90 ~45% ⭐⭐ OpenClaw 최적
Qwen3-30B-A3B ★30B (3B 활성) · MoEMOE 경량 범용 ~62% ~20 GB 80–110 ~60% ⭐⭐ 가장 빠름
Gemma 3 27B27B · DenseDENSE 범용/비전 ~58% ~17 GB 33–41 ~25% 비전 강점
📊 비교 기준 (클라우드 API)
**Gemini 2.5 Pro (API)**비공개 · Google 서버 인프라 기준 100% - ~156 100% - 클라우드 기준

80%+ (S급)

70~79% (A급)

60~69% (B급)

60%↓ (C급)

GLMZ.AI

KIMIMoonshot

MOE혼합전문가

OpenClaw 연동 시 체감 반응속도 상세

OpenClaw = 오픈소스 AI 에이전트 (Ollama/LM Studio 경유). 에이전트 오버헤드(도구 호출, 메모리 검색 등)로 순수 추론 대비 ~30~50% 추가 지연 발생.

모델 순수 속도 OpenClaw
체감속도
vs Gemini
(반응 %)
TTFT 평가
Kimi K2.5 ★ KIMI ~11 tok/s ~7 tok/s ~5% 8~20초 최고 성능, 매우 느림
Kimi K2 Thinking ★ KIMI ~11 tok/s ~7 tok/s ~5% 8~20초 추론 최강, 느림
DeepSeek R1 671B ★ ~18 tok/s ~12 tok/s ~8% 5~15초 느림, 복잡추론만
DeepSeek V3.1 671B ★ ~20 tok/s ~14 tok/s ~9% 4~12초 고품질, 느림
GLM-4.7 358B ★ GLM ~18 tok/s ~12 tok/s ~8% 4~10초 코딩 강점, 느림
Qwen3-235B ★ ~30 tok/s ~20 tok/s ~13% 2~5초 ⭐ 가성비 최고
Llama 4 Maverick ★ ~25 tok/s ~17 tok/s ~11% 3~8초 양호
GPT-OSS 120B ★ ~48 tok/s ~33 tok/s ~22% 1~3초 ⭐ 빠르고 우수
Llama 3.3 70B ~18 tok/s ~12 tok/s ~8% 2~4초 느리지만 안정적
Qwen3-32B ~36 tok/s ~25 tok/s ~16% 1~2초 ⭐ 일상 추천
GLM-4.7 Flash 30B ★ GLM ~75 tok/s ~50 tok/s ~33% <1초 ⭐⭐ OpenClaw 최적
Qwen3-30B-A3B ★ ~100 tok/s ~65 tok/s ~43% <1초 ⭐⭐ 가장 빠름
Gemma 3 27B ~37 tok/s ~25 tok/s ~16% 1~2초 비전 작업용
Gemini 2.5 Pro (API) ~156 tok/s ~150 tok/s 100% ~1.3초 기준 (클라우드)

GLM · Kimi 시리즈 상세 정보

모델 파라미터 활성 파라미터 아키텍처 컨텍스트 Q4 크기 라이선스 특기
GLM-4.7 358B MoE (비공개) MoE + 멀티모달 200K ~140 GB MIT 코딩, "Vibe Coding", 비전
GLM-4.7 Flash 30B ~3B MoE (MLA) 128K ~18 GB MIT SWE-bench 59.2%, 에이전트 특화
Kimi K2.5 1.04T ~32B MoE + 비전 128K+ ~380 GB MIT (수정) Agent Swarm, 멀티모달, HLE 1위
Kimi K2 (Thinking) 1.04T ~32B MoE 128K ~380 GB MIT (수정) 추론 특화, GPT-5급 벤치마크
Kimi K2 (Instant) 1.04T ~32B MoE 128K ~380 GB MIT (수정) 빠른 응답 모드

💡 추천 조합 (업데이트)

🏆 최고 성능 (속도 희생)Kimi K2.5 (Q4, ~380GB) — 오픈소스 최강, GPT-5급 · 느리지만 압도적
🧠 최고 추론DeepSeek R1 671B (Q4, ~405GB) — 수학·논리 최강, 검증된 모델
⚡ 가성비 최고Qwen3-235B (Q4, ~88GB) — 성능 80%에 30 tok/s, RAM 여유
💻 코딩 에이전트GLM-4.7 Flash (Q8, ~18GB) — SWE-bench 59.2%, 초고속 60~90 tok/s, OpenClaw 최적
🚀 일상 만능Qwen3-32B (Q8, ~36GB) — 균형잡힌 성능, 30+ tok/s
⚡ 최고속Qwen3-30B-A3B (Q8, ~20GB) — 100+ tok/s, 실시간 대화감
🔀 멀티 모델 → GLM-4.7 Flash(18GB) + Qwen3-235B(88GB) + Qwen3-32B(36GB) = ~142GB → 나머지로 OS·앱 여유

  • Kimi K2.5/K2는 1T 파라미터(32B 활성) MoE로 Mac Studio 512GB에 Q4로 간신히 탑재 가능(~380GB). 컨텍스트는 제한적.
  • GLM-4.7 Flash는 SWE-bench에서 30B급 최고 성능(59.2%)이나, 순수 추론/일반 지식은 Qwen3-32B보다 약할 수 있음.
  • GLM-4.7 Flash는 OpenClaw에서 특히 좋은 평가 — 에이전트 도구 호출, 함수 콜링 성능이 우수.
  • Kimi K2.5의 "Agent Swarm"은 API 환경에서 최적화된 기능으로, 로컬 단독 추론 시에는 효과 제한적.
  • 모든 수치는 커뮤니티 벤치마크·실측 기반 추정치이며 양자화·컨텍스트·프레임워크에 따라 달라집니다.
Export 목록 답글

댓글 0

등록된 댓글이 없습니다.