홈으로 이동

AI 반도체 시장 추론 경쟁 본격화

최지환IT
데이터센터 서버실에서 엔지니어가 다양한 AI 반도체를 점검하는 모습을 그린 가로형 AI 일러스트
데이터센터 서버실에서 엔지니어가 다양한 AI 반도체를 점검하는 모습을 그린 가로형 AI 일러스트

학습 중심 투자에서 서비스 운영 효율 경쟁으로 축 이동

인공지능 반도체 시장의 방향이 달라지고 있다. 그동안 기업의 관심은 대규모 언어모델을 훈련하는 데 집중됐다. 훈련은 방대한 데이터를 투입해 모델의 가중치를 조정하는 과정이다. 이 단계에서는 그래픽처리장치 GPU가 표준 장비로 자리 잡았다. GPU는 동시에 많은 연산을 처리하는 구조를 갖고 있다. 병렬 계산에 강점이 있다. 대형 기술 기업은 수천 장의 GPU를 연결해 모델을 학습시켰다. 막대한 전력 소모가 뒤따랐다.

최근 분위기는 다르다. 초점이 추론으로 옮겨가고 있다. 추론은 학습을 마친 모델이 실제 사용자의 요청에 답을 내놓는 단계다. 사용자가 질문을 입력하면 문장을 생성한다. 이미지를 요청하면 그림을 만든다. 영상도 생성한다. 이 과정은 실시간으로 이뤄진다. 생성형 인공지능 서비스가 확산되면서 하루 수억 건의 요청이 발생한다. 요청이 늘어날수록 처리 속도와 지연 시간 문제가 부각된다. 전력 사용량도 비용 부담으로 이어진다.

훈련은 한 번에 집중적으로 이뤄진다. 반면 추론은 서비스가 유지되는 한 계속 반복된다. 데이터센터는 24시간 가동된다. 추론이 전체 연산량에서 차지하는 비중이 빠르게 커지고 있다. 기업은 모델의 성능만 따지기 어렵다. 서비스 운영 비용이 수익 구조를 압박한다. 전력 대비 성능 효율이 투자 판단 기준으로 떠오른 배경이다.

이 변화는 반도체 설계 방식에 영향을 준다. GPU는 범용 연산 장치다. 다양한 작업을 처리할 수 있다. 그러나 추론은 반복되는 특정 연산이 많다. 맞춤형 설계가 유리하다는 평가가 나온다. 이에 따라 주문형 반도체 ASIC이 주목받고 있다. ASIC은 Application Specific Integrated Circuit의 약자다. 특정 목적에 맞춰 설계된 집적회로를 뜻한다. 불필요한 기능을 줄여 전력 소모를 낮춘다. 신경망처리장치 NPU도 확산되고 있다. NPU는 Neural Processing Unit의 약자다. 인공신경망 계산에 특화된 구조를 갖는다. 구글의 TPU도 비슷한 흐름에 있다. TPU는 Tensor Processing Unit의 약자다. 텐서 연산을 빠르게 처리하도록 설계됐다.

시장 참여자의 전략도 달라지고 있다. 엔비디아는 GPU 중심 사업을 유지한다. 동시에 추론 성능을 높이는 소프트웨어 최적화 기술을 강화하고 있다. 데이터 전송 효율을 개선하는 기술을 도입했다. 스타트업 인수를 통해 추론 가속 기술을 확보하려는 움직임도 보인다. AMD는 서버용 프로세서와 AI 가속기를 결합한 제품을 내놓고 있다. 구글은 자사 클라우드 서비스에 TPU를 적용해 비용을 낮추는 전략을 추진한다. 클라우드 사업자는 고객에게 더 낮은 사용 요금을 제시해야 한다는 압박을 받고 있다.

추론 중심 전환은 데이터센터 밖으로도 확산된다. 스마트폰에서 음성 비서를 실행한다. 자동차에서 실시간 객체 인식을 수행한다. 공장 설비에서 이상 징후를 감지한다. 이 과정은 네트워크 지연이 허용되지 않는다. 장치 내부에서 바로 계산해야 한다. 이를 온디바이스 AI라고 부른다. 엣지 컴퓨팅 수요가 늘어난다. 저전력 반도체 설계 경쟁이 치열해진다. 배터리 사용 시간을 늘리는 것이 제품 경쟁력으로 이어진다.

반도체 공급망에도 파장이 있다. 미세 공정 의존도가 높아진다. 고성능 칩은 첨단 공정에서 생산된다. 동시에 중저가 추론 칩은 다양한 공정에서 제작된다. 파운드리 기업의 고객 구성이 바뀌고 있다. 스타트업도 설계 시장에 진입한다. 소프트웨어 최적화 역량이 하드웨어 성능만큼 중요해졌다. 모델 압축 기술, 양자화 기술이 비용 절감 수단으로 활용된다. 양자화는 데이터 표현 비트를 줄여 연산량을 낮추는 방식이다.

AI 산업은 실험 단계를 넘어 상용 서비스 단계에 들어섰다. 수익을 내지 못하면 투자도 줄어든다. 추론 효율 경쟁은 기업의 생존과 직결된다. 단일 구조가 지배하던 구도는 흔들리고 있다. 범용 GPU, 맞춤형 ASIC, NPU가 동시에 경쟁한다. 기술 선택에 따라 비용 구조가 달라진다. 기업은 연산 성능만 보지 않는다. 전력 단가, 서버 밀도, 냉각 비용을 함께 따진다. 반도체 시장은 새로운 기준 아래 재편되고 있다.

FAQ

추론이 왜 중요해졌나요?
생성형 인공지능 서비스가 늘어나면서 실제 사용자의 요청을 처리하는 횟수가 급증했기 때문입니다. 이 과정에서 발생하는 전력 비용과 지연 시간이 기업 수익에 큰 영향을 줍니다.
GPU와 ASIC의 차이는 무엇인가요?
GPU는 다양한 연산을 처리할 수 있는 범용 장치입니다. ASIC은 특정 목적에 맞춰 설계된 칩으로 불필요한 기능을 줄여 전력 효율을 높일 수 있습니다.
NPU는 어디에 사용되나요?
NPU는 인공신경망 계산에 특화된 장치입니다. 스마트폰, 자동차, 산업 장비 등에서 실시간 인공지능 처리를 수행할 때 활용됩니다.
이 변화가 소비자에게 어떤 영향을 주나요?
서비스 응답 속도가 빨라질 수 있습니다. 동시에 기업의 비용 절감이 요금 인하로 이어질 가능성도 있습니다.
최지환

기술의 본질과 그 파급력을 깊이 있게 탐구하며, IT 산업 전반에 걸친 변화의 흐름을 날카롭게 짚어내는 데 집중하고 있습니다. 인공지능, 클라우드, 반도체, 사이버보안 등 빠르게 진화하는 분야에서 핵심 이슈를 선별하고, 일반 독자도 쉽게 이해할 수 있도록 맥락을 갖춘 보도를 지향합니다. 기술 자체보다는 그것이 산업과 사회에 어떻게 작용하는지를 관찰하고, 기업 전략, 기술 규제, 사용자 경험 등 다양한 관점에서 접근합니다. 각종 기술 행사와 컨퍼런스를 직접 취재하며, 깊이 있는 분석과 균형 잡힌 시각으로 독자의 신뢰를 쌓아가고 있습니다.

IT 관련 게시물