텍스트만 보던 임베딩이 이제 영상, 오디오까지 같이 본다

검색이나 RAG 시스템 짜다 보면 항상 같은 벽에 부딪혀요. 텍스트 검색은 텍스트 모델로, 이미지 검색은 이미지 모델 따로 붙이고, 음성 데이터는 일단 받아쓰기로 텍스트 변환한 다음 처리하고. 멀티모달이 중요하다는 건 다들 아는데, 실제로 구현하면 파이프라인이 점점 덩치를 불려서 나중엔 수습이 안 되는 거 알잖아요 ㅠㅠ

2026년 3월 10일, Google은 Gemini Embedding 2를 퍼블릭 프리뷰로 공개했어요. 텍스트, 이미지, 비디오, 오디오, 문서를 하나의 임베딩 공간에 매핑하는 첫 네이티브 멀티모달 임베딩 모델이라는 설명입니다.

이게 기존이랑 왜 다른가

임베딩이라는 건 결국 "서로 다른 자료를 같은 지도 위에 올려놓는 기술"이에요. 예전에는 텍스트 지도, 이미지 지도가 따로 있었거든요. 의미가 비슷해도 다른 지도에 있으니까 서로 비교가 안 됐어요.

Gemini Embedding 2는 이 지도를 하나로 합쳤어요. 글로 쓴 설명이든, 사진이든, 영상이든, 녹음 파일이든 전부 같은 좌표계에 들어가는 거죠. 그러면 "이 이미지랑 의미가 비슷한 텍스트 찾아줘"가 자연스럽게 작동해요. 이미지 + 텍스트를 한 번에 넣어도 모델이 두 가지를 함께 이해하고 임베딩 하나로 내놓아요.

이걸 그냥 "멀티모달 지원한다"는 모델들이랑 구분해야 하는 이유가 여기 있어요. 붙여서 되는 게 아니라 처음 설계부터 같이 이해하도록 만들어진 거거든요.

스펙 정리 (공식 문서 기준)

텍스트는 최대 8192 토큰. RAG에서 청크를 너무 촘촘하게 자르지 않아도 될 여지를 줍니다. 다만 문서 길이나 구조에 따라 청킹 전략은 여전히 필요할 수 있어요.

이미지는 최대 6장, PDF는 최대 6페이지, 오디오는 전사 없이 직접 임베딩할 수 있어요. 비디오는 API 채널마다 제한이 조금 다른데, Gemini API 기준 128초, Vertex AI 기준 오디오 포함 80초·오디오 없는 경우 120초로 나뉘어 있으니 적용 전에 확인이 필요합니다.

출력 차원은 768·1536·3072 중 선택 가능. Matryoshka Representation Learning 방식으로 차원을 줄일 수 있어요. 100개 이상 언어를 지원하고, 기존 gemini-embedding-001 벡터와는 호환되지 않아 재임베딩이 필요합니다.

이게 실제로 어디 좋아지나

기능 설명보다 이게 더 궁금하잖아요.

쇼핑 검색이 좀 덜 답답해질 수 있어요. 지금 쇼핑 검색은 보통 텍스트 기반이라, 상품 설명에 없는 키워드로 찾으면 결과가 엉뚱하게 나오는 경우가 많거든요. 이미지와 텍스트 설명을 같은 공간에서 이해하면 "이 옷이랑 비슷한 스타일 찾아줘" 같은 의도가 좀 더 잘 잡혀요.

사내 자료 검색도 덜 불편해져요. 회사에서 쓰는 자료는 PDF, 이미지, 텍스트 파일이 다 섞여 있잖아요. 지금까지는 이거 다 RAG에 태우려면 형식별로 파이프라인을 따로 만들어야 했는데, 하나로 묶이면 유지보수가 훨씬 편해져요. 미디어 아카이브 검색도 비슷한 맥락이에요. 영상이나 오디오 중심 콘텐츠에서 자막이나 전사 파이프라인을 반드시 거치지 않아도 되는 검색 설계를 고민해볼 수 있는 방향이거든요. 지금 당장 완성형은 아니지만, 구조 자체가 이쪽으로 가고 있다는 게 중요한 거죠.

도입 전에 계산기부터 두드려라

멀티모달 통합이 반가운 건 맞지만, 도입 전에 계산기를 먼저 두드려야 해요. gemini-embedding-001과 임베딩 공간이 호환되지 않아 기존 데이터를 전부 다시 임베딩해야 할 수 있고, 기본 3072차원 벡터는 Pinecone이나 Qdrant 같은 벡터 DB 저장비와 조회비를 빠르게 키웁니다. 그래서 MRL 차원 축소는 옵션이 아니라 비용 전략에 가까워요. 768차원으로 잘라 쓰면 성능을 살짝 타협하는 대신 현실적인 균형을 잡을 수 있고, 3072를 그대로 쓰는 게 맞는 환경은 생각보다 많지 않습니다.

Pre-GA 단계인 만큼 운영 안정성도 직접 검증하는 편이 안전해요. Vertex AI 문서는 "as is로 제공되며 지원이 제한될 수 있다"고 명시하고 있어요. 프로덕션 SLA가 걸린 환경이라면 GA 이후를 기다리는 판단도 충분히 합리적입니다.

감상

솔직히 멀티모달 지원 모델이라는 표현은 이제 좀 흔해요. "붙여서 지원"하는 수준이 많거든요. Gemini Embedding 2가 다른 건, 처음 설계 단계부터 서로 다른 미디어를 같이 이해하도록 만들었다는 거예요. 임베딩 레이어에서 통합하는 거라 파이프라인 복잡도가 줄어드는 게 직접적으로 느껴질 수 있는 부분이에요.

기술 하나 추가됐다는 소식보다, 파이프라인 설계 자체를 다르게 생각할 수 있게 됐다는 점에서 좀 더 오래 지켜볼 만해요. 단, 파이프라인 통합의 대가는 수백만 건의 기존 데이터 전면 재색인 비용이에요. 설레기 전에 계산기부터 두드려보는 게 맞습니다.

'픽돌이 정보' 카테고리의 다른 글

BTS 월드투어 아리랑 공연 일정 총정리, 34개 도시 순서대로 따라가 봤다 (0)	2026.03.20
NemoClaw 발표 핵심 정리: 강한 비전, 아직은 알파인 현실 (0)	2026.03.18
Gemini 3.1 Flash-Lite, 비싼 AI보다 무서운 이유 (0)	2026.03.09
GPT-5.3 Instant 나왔는데, 환각 줄었다는 수치 진짜 믿어도 될까요? (0)	2026.03.04
GLM-4.7 나왔는데 이거 진짜 미쳤음 (UI 디자인까지 알아서?) (0)	2025.12.30

픽돌이 랜드

텍스트만 보던 임베딩이 이제 영상, 오디오까지 같이 본다 - Gemini Embedding 2 정리

이게 기존이랑 왜 다른가

스펙 정리 (공식 문서 기준)

이게 실제로 어디 좋아지나

도입 전에 계산기부터 두드려라

감상

'픽돌이 정보' 카테고리의 다른 글

티스토리툴바

텍스트만 보던 임베딩이 이제 영상, 오디오까지 같이 본다 - Gemini Embedding 2 정리

이게 기존이랑 왜 다른가

스펙 정리 (공식 문서 기준)

이게 실제로 어디 좋아지나

도입 전에 계산기부터 두드려라

감상

'픽돌이 정보' 카테고리의 다른 글

'픽돌이 정보' Related Articles

티스토리툴바