바쁜 형들을 위한 3줄 요약
- Z.AI에서 괴물 스펙(200K 입력, 128K 출력) 코딩 모델 GLM-4.7을 출시했더라고요 ㄷㄷ
- "Vibe Coding"이라고 UI 디자인까지 예쁘게 뽑아주는 기능이 진짜 물건이에요 ㅋㅋ
- 가성비도 Claude 대비 압도적이라($3/월), 찍먹이라도 해보는 거 추천해요.
또 새로운 AI 모델이 나왔다고?
2025년 12월 22일에 Z.AI에서 GLM-4.7 출시했더라고요.
솔직히 또 나왔나 싶었는데 써보고 나서 생각이 바뀌었어요 ㄷㄷ
GLM-4.6도 좋았는데, 4.7은 진짜 차원이 다르더라고요.
특히 "Vibe Coding"이라고 UI 미학까지 알아서 챙겨주는 게 개신기해요 ㅋㅋ

핵심 스펙부터 보자
200K 컨텍스트 + 128K 출력
진짜 미친 스펙이에요.
입력은 200,000 토큰, 출력은 128,000 토큰까지 가능하더라고요.
무슨 말이냐면, 책 한 권 분량 넣고 또 책 한 권 분량 받을 수 있다는 거예요.
전체 프로젝트 코드 다 넣고 완전히 새로운 모듈 받는 것도 가능해서 놀랐어요.
355B 파라미터인데 32B만 활성화
MoE (Mixture-of-Experts) 구조라고 해요.
총 3,550억 개 파라미터인데 실제로는 320억 개만 활성화된다고 하네요.

이게 뭐가 좋냐면, 속도는 빠른데 성능은 큰 모델급이라는 거죠.
전기세도 덜 나가고 ㅋㅋ
가격이 진짜 착함

입력: $0.60 / 1M 토큰
출력: $2.20 / 1M 토큰
Claude보다 훨씬 싸더라고요.
게다가 캐시 기능 쓰면 $0.11 / 1M 토큰이라 20~40% 더 절약돼요 ㄷㄷ
개인 플랜은 $3/월부터 시작이라 부담도 없고요.
뭐가 달라졌냐 (체감 포인트)
1. Agentic Coding - 작업을 끝까지 완성함
기존 AI는 코드 조각만 줬잖아요.
GLM-4.7은 완전한 작업 완성에 초점을 맞추더라고요.
예를 들어 "Todo 앱 만들어줘"라고 하면:
- 요구사항 이해
- 프론트엔드-백엔드 협업 구조 설계
- 실시간 상호작용 로직 구현
- 실행 가능한 전체 코드 생성

이걸 한 번에 다 해줘요 ㄷㄷ
수동으로 조립하고 디버깅하는 시간이 확 줄어서 편해요.
통합된 도구들:
- Claude Code
- Cline
- Roo Code
- OpenCode
- Kilo Code
2. Vibe Coding - UI가 예쁘게 나옴
이거 진짜 신기해요 ㅋㅋ
다른 AI는 UI 코드 주면 디자인이 별로였거든요.
GLM-4.7은 기본값이 예뻐요:
- 레이아웃 구조가 깔끔해요
- 색상 조화가 자연스럽고요
- 컴포넌트 스타일링이 세련됐어요
PPT 만들면 16:9 비율 호환성이 52%에서 91%로 올라갔다고 해요.
포스터도 거의 즉시 쓸 수 있는 수준으로 나오더라고요.
CSS 튜닝하는 시간이 진짜 많이 줄었어요 ㅎㅎ
3. 사고 모드 3가지 (Thinking Modes)
복잡한 작업할 때 진짜 유용하더라고요.
Interleaved Thinking (교차 사고)
- 응답하기 전에 먼저 생각해요
- 복잡한 지시사항 이해도가 높아요
- 코드 품질이 확실히 좋아져요
Preserved Thinking (보존된 사고)
- 여러 턴 대화에서 사고 내용을 유지해요
- 정보 손실이 없어서 좋더라고요
- 긴 작업에 최적화되어 있고 캐시 효율도 올라가요
Turn-level Thinking (턴 레벨 사고)
- 간단한 작업: 사고 끄기 → 속도 빠름
- 복잡한 작업: 사고 켜기 → 정확도 높음
벤치마크 성능 (숫자로 보는 실력)

코딩 능력
| 벤치마크 | GLM-4.7 | GLM-4.6 | 개선 |
|---|---|---|---|
| SWE-bench Verified | 73.8% | 68.0% | +5.8% |
| SWE-bench Multilingual | 66.7% | 53.8% | +12.9% |
| Terminal Bench 2.0 | 41.0% | 24.5% | +16.5% |
| LiveCodeBench V6 | 84.9% | 82.8% | +2.1% |
SWE-bench는 실제 깃허브 이슈 해결 능력 측정하는 거예요.
73.8%면 Claude Sonnet 4.5 (77.2%)에 거의 근접한 수준이라 대단하더라고요.
추론 능력
| 벤치마크 | GLM-4.7 | GLM-4.6 | 개선 |
|---|---|---|---|
| HLE (인류 최후 시험) | 42.8% | 30.4% | +12.4% |
| AIME 2025 | 95.7% | 93.9% | +1.8% |
| HMMT Feb. 2025 | 97.1% | 89.2% | +7.9% |
수학 문제 푸는 능력이 엄청 올랐어요.
GPT-5.1보다도 높은 점수라니 말 다했죠 ㄷㄷ
도구 사용 (Agent 능력)
τ²-Bench에서 87.4% 나왔대요.
이건 Claude Sonnet 4.5 (87.2%)보다 약간 높은 수치예요.
여러 단계 작업 시킬 때 헷갈리지 않고 끝까지 잘 해내더라고요.
실제로 어디에 쓸 수 있냐
1. 복잡한 웹앱 만들 때
"실시간 채팅 앱 만들어줘" 하면:
- 프론트엔드 (React)
- 백엔드 (Node.js + WebSocket)
- DB 스키마
- 배포 설정
이거 다 한 번에 만들어줘요.
프로토타입 검증할 때 진짜 빨라서 놀랐어요.
2. 카메라 쓰는 인터랙티브 앱
제스처 인식, 실시간 필터, AR 같은 거요.
시각 인식 + 로직 제어 + 앱 코드를 통합해서 주더라고요.
3. 로우코드 플랫폼 / AI 프론트엔드 생성기
레이아웃, 색상, 스타일링 기본값이 세련돼요.
"미세 조정" 시간이 확 줄어서 좋아요.
4. PPT / 포스터 자동 생성
16:9 비율 완벽 지원해요.
타이포그래피, 여백, 색상 배치가 전문가 수준이더라고요.
거의 즉시 쓸 수 있는 결과물이 나와요.
5. 심층 리서치 / 정보 정리
복잡한 자료 여러 개 주고 "정리해줘" 하면:
- 구조화된 정보 조직
- 교차 소스 통합
- 핵심 결론 도출
다중 라운드로 점점 깊게 파고들어서 정리해줘요.
6. 스토리 / 캐릭터 창작
향기, 소리, 빛 같은 감각 묘사가 생생해요.
롤플레잉이나 소설 쓸 때 캐릭터 일관성 유지를 잘 하더라고요.
로컬에서도 돌릴 수 있음
API 말고 로컬 배포도 가능해서 좋아요.
vLLM으로 실행
# Docker 이미지 받기
docker pull vllm/vllm-openai:nightly
# 서버 실행
vllm serve zai-org/GLM-4.7-FP8 \
--tensor-parallel-size 4 \
--tool-call-parser glm47 \
--reasoning-parser glm45 \
--served-model-name glm-4.7-fp8
SGLang으로 실행
# Docker 이미지 받기
docker pull lmsysorg/sglang:dev
# 서버 실행
python3 -m sglang.launch_server \
--model-path zai-org/GLM-4.7-FP8 \
--tp-size 8 \
--tool-call-parser glm47 \
--reasoning-parser glm45 \
--served-model-name glm-4.7-fp8
GPU 여러 개 있으면 로컬에서 무제한으로 쓸 수 있어서 꿀이죠.
API 사용법 (Python 예제)
기본 호출
from zai import ZaiClient
client = ZaiClient(api_key="your-api-key")
response = client.chat.completions.create(
model="glm-4.7",
messages=[
{"role": "user", "content": "React로 Todo 앱 만들어줘"},
],
thinking={"type": "enabled"},
max_tokens=4096,
temperature=1.0,
)
print(response.choices[0].message)
스트리밍 (실시간 응답)
response = client.chat.completions.create(
model="glm-4.7",
messages=[
{"role": "user", "content": "Python 웹 서버 만드는 법 알려줘"},
],
thinking={"type": "enabled"},
stream=True,
max_tokens=4096,
)
for chunk in response:
if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end="", flush=True)
솔직한 장단점
장점은 확실해요
- 가성비 미쳤음
- $3/월부터 시작이라 부담 없어요.
- Claude Pro $20의 1/7 수준이라니 ㄷㄷ
- 캐시 쓰면 더 저렴해져요.
- 출력 길이 무시무시함
- 128K 출력이라 완전한 소프트웨어 모듈 생성이 가능해요.
- Claude는 4K 정도라 비교가 안 되더라고요.
- Vibe Coding 진짜 신기함
- UI 기본값이 예뻐서 좋아요.
- CSS 튜닝 시간 확 줄어서 편해요.
- 주요 도구 다 통합됨
- Claude Code, Cline, Roo Code 등 바로 연동돼요.
- 설정도 쉬워서 금방 시작할 수 있어요.
- 오픈소스 중 최강
- SWE-bench 같은 코딩 벤치마크 1등 찍었어요.
- LiveCodeBench에서 Claude Sonnet 4.5 이긴 거 보면 실력은 확실해요.
아쉬운 점도 있어요
- 완전 오픈소스는 아님
- 전체 가중치가 공개된 건 아니고 일부만 공개됐더라고요.
- 로컬 배포 가능하지만 제한적인 부분이 있어요.
- 텍스트만 지원
- 이미지 분석 같은 건 GLM-4V 따로 써야 해서 좀 불편해요.
- Claude Sonnet 4.5보단 밀림
- 복잡한 리팩토링은 아직 Claude가 더 정확하더라고요.
- 타입 에러 디버깅도 Claude가 나은 것 같아요.
- 생태계가 아직 좁음
- GPT나 Claude만큼 레퍼런스가 많지 않아요.
권장 파라미터 설정
일반 작업
{
"temperature": 1.0,
"top_p": 0.95,
"max_new_tokens": 131072
}
코딩 작업 (SWE-bench)
{
"temperature": 0.7,
"top_p": 1.0,
"max_new_tokens": 16384
}
도구 사용 작업 (Agent)
{
"temperature": 0,
"max_new_tokens": 16384
}
이런 분들께 추천해요
- 학생 / 취미 개발자
- $3/월이면 충분해서 가성비 최고예요.
- 프로토타입 빨리 만들 수 있어서 좋아요.
- 스타트업 개발자
- 빠른 MVP 개발이 필요할 때 딱이에요.
- 비용 절감 중요한 곳에선 필수일 듯해요.
- 프론트엔드 개발자
- Vibe Coding 때문에 UI 작업 수월해져요.
- CSS 튜닝 시간 아끼고 싶은 분들께 강추해요.
- 콘텐츠 크리에이터
- PPT, 포스터 자동 생성 기능이 쏠쏠해요.
- 스토리, 캐릭터 창작에도 도움 되더라고요.
이런 분들은 좀 더 생각해보세요
- 미션 크리티컬 프로젝트
- 아직은 Claude Sonnet 4.5가 더 안정적인 것 같아요.
- 복잡한 엔터프라이즈 앱은 Claude 추천해요.
- 멀티모달 필요한 경우
- 이미지 분석 필요하면 다른 모델 알아보셔야 해요.
내 결론
GLM-4.7은 가성비 끝판왕이에요 ㅋㅋ
Claude를 완전히 대체할 순 없지만, 보조 도구론 완벽해요.
특히 Vibe Coding 때문에 UI 작업하는 분들한테 강추해요.
학생이나 취미 개발자는 $3 Lite 플랜으로 충분하고,
프로 개발자는 $15 Pro 플랜 쓰면 돼요.
Claude Pro $20보다 싸고, 출력도 길고, UI도 예쁘게 나오니까
한 번쯤 써볼 가치는 충분한 것 같아요 ㅎㅎ
돈 아끼면서 코딩하고 싶으신 분들, 진지하게 추천해요!