
3월 27일에 Z.ai가 GLM-5.1을 공개했는데, 반응이 생각보다 빠르게 붙는 느낌이다. 신모델 하나 나왔다는 정도가 아니라, "이거 진짜 써볼 만한가?" 하고 바로 계산기를 두드리게 만드는 타입에 가까워 보인다.
점수부터
코딩 성능이 전작보다 28% 올라갔고, 동일 테스트 환경 기준으로 Claude Opus 4.6의 94.6% 수준까지 왔다는 게 Z.ai 측 발표다.
- GLM-5 코딩 점수: 35.4점
- GLM-5.1 코딩 점수: 45.3점
- 비교 기준 Claude Opus 4.6: 47.9점 (Z.ai 자체 평가 환경 기준)

2.6점 차이. 절대 성능보다 흥미로운 건 이 격차가 체감상 얼마나 의미 있느냐는 부분이다. 중국 AI가 코딩 벤치마크에서 이 정도로 붙은 건 DeepSeek R1(2025년 1월) 이후로 또 한 번의 사건 같은 느낌이다.
구성
744B 규모의 MoE(Mixture of Experts) 아키텍처다. MoE는 전체 파라미터를 한 번에 다 쓰는 게 아니라 질문에 맞는 부분만 골라 활성화하는 구조라서, 덩치에 비해 효율적으로 작동한다.
여기에 DeepSeek Sparse Attention(DSA)를 도입했다. 긴 문서를 읽을 때 모든 단어를 똑같이 보는 게 아니라 중요한 부분에 집중하도록 처리하는 기법이다. 결과적으로 컨텍스트가 최대 205K 토큰까지 늘었다. 긴 코드베이스나 문서를 잘게 쪼개서 여러 번 넣지 않아도 된다.
스펙만 보면 연구용 모델처럼 보이는데, 막상 가격을 보면 분위기가 달라진다.
가격
GLM Coding Plan Lite 기준 분기(Quarterly )$27, 월 환산 약 $9다. 2026년 2월 이전에는 월 $3짜리 프로모션이 있었는데 그건 이미 끝났다. Claude Pro나 GPT-4 Plus가 월 $20 선인 것과 비교하면, 절반 이하 가격에 이 성능이다.
코딩 작업이 주 용도고 비용이 중요하다면 직접 써보고 비교할 가치는 충분히 있다.

맥락
Zhipu AI는 2019년 칭화대 교수들이 창업한 회사다. Z.ai로 사명을 바꾸고 5세대 모델까지 왔다.
요즘 중국 AI를 보면 DeepSeek, Qwen, GLM 순으로 한 달에 하나씩 치고 나오는 느낌이다. 성능 격차를 좁히는 방식도 비슷해서, 이번 GLM-5.1이 DeepSeek의 DSA 기술을 도입한 것처럼 서로 기술을 주고받으며 빠르게 올라오고 있다.
누가 더 똑똑하냐보다 누가 더 싸고 빠르게 현업에 들어오냐 싸움이 된 것 같다. 진짜 재미있는 건 성능표보다 다음 달 실사용 후기일지도 모르겠다.

주의할 점
코딩 벤치마크는 표준화된 테스트 기준이라 실제 업무 성능과 항상 일치하지 않는다. 막상 써보면 점수는 비슷한데 체감이 다른 경우도 많다. 그리고 47.9점이라는 Claude 수치는 Anthropic 공식 발표가 아니라 Z.ai 자체 평가 수치다. 참고는 하되 그대로 믿기보단 직접 테스트해보는 게 낫다.
'픽돌이 정보' 카테고리의 다른 글
| 2026 근로장려금 신청 5월 시작|놓치면 5% 감액, 대상·금액 총정리 (0) | 2026.04.29 |
|---|---|
| 2026년 4월 1일~16일 GitHub 인기 신생 레포 정리, 왜 메모리와 스킬 레포가 이렇게 셌나 (0) | 2026.04.16 |
| 굿바이 소라, OpenAI가 Sora를 닫은 이유 (0) | 2026.03.26 |
| BTS 월드투어 아리랑 공연 일정 총정리, 34개 도시 순서대로 따라가 봤다 (0) | 2026.03.20 |
| NemoClaw 발표 핵심 정리: 강한 비전, 아직은 알파인 현실 (0) | 2026.03.18 |