문샷 AI 키미 K2.5 네이티브 멀티모달 모델 공개

에이전트 스웜과 대규모 컨텍스트로 텍스트 이미지 비디오 통합 처리 구현
중국 인공지능 스타트업 문샷 AI가 네이티브 멀티모달 모델인 키미 K2.5를 공개했다. 이 모델은 텍스트와 이미지, 비디오를 동시에 처리하도록 설계된 구조를 갖추고 있으며 기존 키미 K2를 기반으로 시각과 텍스트가 혼합된 약 15조 개의 토큰을 추가 학습해 개발되었다. 문샷 AI는 알리바바의 지원을 받는 기업으로, 이번 공개를 통해 단일 프롬프트만으로 다양한 형태의 결과물을 생성하는 통합 모델의 방향성을 제시했다.
키미 K2.5는 멀티모달 처리를 네이티브 수준에서 수행한다는 점에서 기존의 파이프라인 방식과 차이를 보인다. 텍스트 이해 이후 별도의 모듈로 이미지를 처리하는 구조가 아니라 입력 단계부터 텍스트와 시각 정보를 함께 해석한다. 이를 통해 문맥 손실을 줄이고 생성 결과의 일관성을 확보한다. 사용자는 하나의 지시문으로 문서 작성, 이미지 생성, 짧은 비디오 제작을 연속적으로 요청할 수 있다.
이번 모델에서 가장 눈에 띄는 요소는 에이전트 스웜 시스템이다. 에이전트는 특정 작업을 수행하는 소프트웨어 단위로, 키미 K2.5는 복잡한 문제를 처리할 때 최대 100개의 서브 에이전트를 동시에 생성한다. 각 에이전트는 병렬로 워크플로우를 실행하며 필요한 도구를 호출한다. 이 과정에서 최대 1,500회의 도구 호출이 가능하며 단일 에이전트 방식과 비교해 작업 시간이 최대 4.5배 단축된다. 이는 대규모 데이터 분석이나 자동화된 업무 처리에서 실질적인 시간 절감 효과로 이어진다.
멀티모달 기능의 확장은 코드 생성 영역에서도 뚜렷하게 나타난다. 키미 K2.5는 UI 디자인 이미지나 서비스 설명 영상과 같은 시각 자료를 분석해 실제 작동하는 코드를 생성한다. 화면 구성 요소의 위치와 색상, 상호작용 흐름을 파악해 프론트엔드 코드로 변환하며 생성 이후에는 시각적 오류를 점검하고 수정하는 단계까지 수행한다. 이 과정은 텍스트 설명에만 의존하던 기존 방식에서 벗어나 시각적 명세를 직접 해석하는 방향으로 발전했다. 그 결과 스케치나 디자인 시안을 기반으로 웹사이트나 간단한 3D 모델을 구현하는 작업이 가능해졌다.
기술 사양 측면에서 키미 K2.5는 혼합 전문가 구조를 채택했다. 혼합 전문가 구조는 여러 개의 전문가 네트워크 중 일부만을 선택적으로 활성화하는 방식이다. 전체 매개변수는 약 1조 개에 달하지만 실제 연산 과정에서는 약 320억 개의 활성 매개변수만 사용된다. 이를 통해 계산 비용을 줄이면서도 높은 표현력을 유지한다. 대규모 모델 운용에서 문제로 지적되던 하드웨어 부담을 완화했다는 평가가 나온다.
컨텍스트 처리 능력도 강화되었다. 키미 K2.5는 최대 256,000 토큰의 컨텍스트 창을 지원한다. 토큰은 텍스트를 구성하는 최소 단위로 단어 또는 단어의 일부를 의미한다. 이 크기의 컨텍스트는 방대한 코드베이스나 긴 기술 문서를 한 번에 입력하고 분석할 수 있는 수준이다. 개발자는 여러 파일에 흩어진 코드를 요약하거나 오류를 추적하는 작업을 단일 세션에서 수행할 수 있다.
문샷 AI는 키미 K2.5를 오픈소스로 공개해 개발자 생태계 확장에 집중하고 있다. 모델 가중치는 허깅페이스와 같은 플랫폼을 통해 제공되며 전용 API를 활용해 상용 서비스 구축도 가능하다. 일반 사용자를 위한 접근성도 고려했다. 키미 공식 웹사이트와 앱에서는 인스턴트 모드, 싱킹 모드, 에이전트 모드를 제공하며 에이전트 스웜 기능은 베타 형태로 운영된다. 이를 통해 전문 개발자가 아니더라도 최신 기능을 직접 체험할 수 있다.
이번 공개는 중국 AI 기술이 글로벌 시장에서 존재감을 넓히는 계기로 평가된다. 고성능 추론과 실행 중심의 에이전트 기능을 결합해 업무 자동화와 생산성 도구로서의 활용 가능성을 높였기 때문이다. 오픈소스 모델임에도 불구하고 독점적 상용 모델과 비교되는 성능을 보이면서 AI 기술 접근성을 확대하는 흐름에 영향을 주고 있다.
최지환기술의 본질과 그 파급력을 깊이 있게 탐구하며, IT 산업 전반에 걸친 변화의 흐름을 날카롭게 짚어내는 데 집중하고 있습니다. 인공지능, 클라우드, 반도체, 사이버보안 등 빠르게 진화하는 분야에서 핵심 이슈를 선별하고, 일반 독자도 쉽게 이해할 수 있도록 맥락을 갖춘 보도를 지향합니다. 기술 자체보다는 그것이 산업과 사회에 어떻게 작용하는지를 관찰하고, 기업 전략, 기술 규제, 사용자 경험 등 다양한 관점에서 접근합니다. 각종 기술 행사와 컨퍼런스를 직접 취재하며, 깊이 있는 분석과 균형 잡힌 시각으로 독자의 신뢰를 쌓아가고 있습니다.
