아마존이 중단한 AI 리더보드는 무엇인가요?

직원들의 키로 사용량을 기준으로 순위를 매기던 내부 시스템입니다. 사용량이 높을수록 상위권에 오를 수 있었습니다.

토큰은 무엇을 의미하나요?

토큰은 AI가 텍스트를 처리할 때 사용하는 데이터 단위입니다. 사용량이 늘어나면 컴퓨팅 비용도 증가할 수 있습니다.

AI 사용량이 많으면 생산성도 높아지나요?

반드시 그렇지는 않습니다. 사용량은 비용과 활동 수준을 보여줄 수 있지만 실제 업무 성과는 별도 지표로 확인해야 합니다.

기업은 AI 성과를 어떻게 평가해야 하나요?

배포 속도, 오류 감소, 문서 품질 향상, 재작업 감소 같은 업무 결과 중심의 지표를 함께 살펴야 합니다.

홈으로 이동

AI를 많이 쓰라는 지표가 왜 불필요한 업무를 만들었나

2026년 6월 1일기사 분량: 2929자, 8분 소요

최지환IT

AI 코딩 도구 사용량과 생산성 지표를 분석하는 소프트웨어 개발 조직을 표현한 AI 이미지. 실제와 관련 없음.

토큰 소비 늘었지만 업무 성과는 별도 검증 필요 지표 설계의 허점 드러나

아마존이 직원들의 인공지능(AI) 활용도를 순위로 공개하던 내부 리더보드를 중단했다. 파이낸셜타임스 보도에 따르면 해당 시스템은 아마존의 AI 개발 도구인 키로(Kiro) 사용량을 기준으로 직원들의 순위를 매겼다. 일부 직원들은 순위를 높이기 위해 AI 에이전트에 불필요한 작업을 반복적으로 맡겼고, 그 결과 토큰 사용량이 크게 늘어났다. 토큰은 AI가 텍스트를 처리할 때 사용하는 데이터 단위다. 사용량 증가와 함께 컴퓨팅 비용도 상승했고, 결국 회사는 리더보드 운영을 중단했다.

표면적으로 보면 이번 사건은 직원들이 점수를 높이기 위해 시스템을 악용한 사례처럼 보인다. 그러나 더 중요한 쟁점은 개인의 행동이 아니라 평가 방식에 있다. 기업이 AI 활용 성과를 사용량 중심으로 측정할 경우 실제 업무 개선과 관계없는 행동도 보상받을 수 있기 때문이다.

키로는 단순한 대화형 AI가 아니다. 아마존웹서비스(AWS)는 키로를 개발 업무를 지원하는 에이전트형 코딩 서비스로 설명한다. 사용자가 입력한 요구사항을 코드, 문서, 테스트 작업으로 연결할 수 있으며 문서 작성, 단위 테스트 생성, 대규모 코드 작업을 지원한다. 개발자는 반복 작업을 줄일 수 있고 설계부터 검증까지 이어지는 업무 흐름을 단축할 가능성이 있다.

문제는 도구의 성능보다 평가 구조에 있었다. 리더보드가 공개되고 사용량이 경쟁 요소가 되는 순간 직원들의 관심은 자연스럽게 결과보다 수치에 집중될 수 있다. AI로 어떤 문제를 해결했는지보다 얼마나 많이 사용했는지가 더 눈에 띄는 지표가 되기 때문이다. 특히 에이전트형 AI는 사용자가 직접 모든 과정을 관리하지 않아도 장시간 작업을 수행할 수 있다. 이런 환경에서는 업무에 필요한 작업과 순위 상승을 위한 작업의 경계가 흐려질 수 있다.

이번 사례가 주목받는 이유는 비슷한 상황이 다른 기업에서도 발생할 수 있기 때문이다. 많은 기업이 AI 도입 성과를 확인하기 위해 다양한 수치를 추적한다. 도입률, 세션 수, 프롬프트 입력 횟수, 토큰 사용량은 수집이 쉽고 비교도 간단하다. 경영진 입장에서는 AI 전환이 얼마나 진행되고 있는지 빠르게 확인할 수 있는 자료가 된다.

하지만 측정이 쉽다는 이유만으로 가치 있는 지표가 되는 것은 아니다. 토큰 사용량은 비용을 설명하는 데는 도움이 되지만 생산성을 직접 증명하지는 못한다. AI가 개발 시간을 줄였는지, 오류를 감소시켰는지, 코드 품질을 높였는지, 배포 속도를 개선했는지는 별도의 검증이 필요하다. 사용량이 증가했다고 해서 성과가 함께 증가한다고 단정할 수는 없다.

이 문제는 오래전부터 알려진 경영 원칙과도 연결된다. 특정 지표가 목표가 되는 순간 그 지표는 측정 도구로서의 가치를 잃기 쉽다. 조직이 사용량 증가를 강조하면 직원들은 자연스럽게 사용량을 늘리는 방향으로 행동한다. 회사가 원한 것은 더 나은 결과물이었지만 실제로는 더 많은 토큰 소비만 발생할 수 있다. 숫자는 늘었지만 성과는 그대로인 상황이 만들어질 수 있다는 의미다.

비즈니스 인사이더 보도에 따르면 아마존은 AI 사용량 자체를 추적하는 정책을 중단한 것은 아니다. 비용 관리 목적의 모니터링은 계속 유지하고 있다. 다만 AI를 많이 사용하는 행동 자체를 경쟁 요소로 만들지 않겠다는 입장을 내놓았다. 이는 문제의 핵심이 추적이 아니라 활용 방식에 있다는 점을 보여준다.

기업이 AI 활용 성과를 평가하려면 질문의 방향부터 달라져야 한다. 직원이 AI를 얼마나 사용했는지가 아니라 AI가 어떤 문제를 줄였는지를 확인해야 한다. 개발 조직이라면 배포까지 걸리는 시간, 테스트 범위, 코드 리뷰 통과 비율, 버그 수정 속도, 장애 발생 빈도 같은 항목을 함께 살펴야 한다. 문서 작성 업무에서는 작성 시간 단축뿐 아니라 정확성 유지 여부와 검토 비용 감소 효과도 중요하다.

에이전트형 AI 평가도 같은 기준이 적용된다. 에이전트가 오랜 시간 동작했다고 해서 반드시 높은 가치가 발생한 것은 아니다. 고객 문제를 해결했는지, 실제 사용 가능한 결과물을 만들었는지, 검토 과정이 단순해졌는지 확인해야 한다. 만약 AI가 생성한 결과물을 사람이 다시 수정하는 데 더 많은 시간을 사용했다면 이는 생산성 향상보다 업무 이동에 가까운 현상이다.

이번 사례는 조직 문화 측면에서도 의미가 있다. 직원들은 대체로 조직이 주목하는 지표에 맞춰 행동한다. 순위가 공개되고 경쟁이 강조되는 환경에서는 수치 최적화가 자연스럽게 나타난다. 특히 AI 활용 능력이 성과 평가나 경력 관리와 연결된다고 인식되는 경우에는 더욱 그렇다. 직원 입장에서는 실제 생산성보다 AI를 잘 활용하는 사람으로 보이는 것이 더 중요한 목표가 될 수 있다.

그렇다고 해서 AI 코딩 도구의 효과를 부정할 수는 없다. 키로와 같은 도구는 테스트 생성, 문서화, 코드 설명, 초기 설계 정리, 단순 리팩터링 작업에서 시간 절약 효과를 제공할 수 있다. 반복 업무 감소는 개발자의 집중도를 높이고 업무 효율 향상에도 도움을 줄 수 있다. 다만 이런 효과는 사용량이 아니라 결과를 통해 검증해야 한다.

기업은 AI 관련 지표를 설계할 때 사용량, 산출물, 품질을 구분해 관리할 필요가 있다. 사용량 지표는 비용과 활용 현황을 파악하는 데 의미가 있다. 산출물 지표는 AI가 만든 결과물이 실제 업무 성과로 이어졌는지 확인하는 역할을 한다. 품질 지표는 오류 감소, 재작업 감소, 보안 위험 축소, 검토 시간 단축 같은 변화를 측정한다. 세 가지 영역이 함께 관리될 때 AI의 실제 효과를 파악할 수 있다.

아마존의 리더보드 중단은 AI 도입의 실패라기보다 성과 측정 방식의 한계를 보여준 사례로 해석된다. 기업은 AI 사용량을 늘리는 데 성공할 수 있다. 그러나 사용량 증가와 성과 향상은 같은 의미가 아니다. 앞으로 AI 경쟁에서 중요한 것은 얼마나 많은 토큰을 소비했는지가 아니라 실제 업무 문제를 얼마나 줄였는지에 대한 증명이다. 이번 사건은 AI 시대의 성과 평가가 어떤 방향으로 설계돼야 하는지 다시 묻고 있다.

FAQ

아마존이 중단한 AI 리더보드는 무엇인가요?: 직원들의 키로 사용량을 기준으로 순위를 매기던 내부 시스템입니다. 사용량이 높을수록 상위권에 오를 수 있었습니다.
토큰은 무엇을 의미하나요?: 토큰은 AI가 텍스트를 처리할 때 사용하는 데이터 단위입니다. 사용량이 늘어나면 컴퓨팅 비용도 증가할 수 있습니다.
AI 사용량이 많으면 생산성도 높아지나요?: 반드시 그렇지는 않습니다. 사용량은 비용과 활동 수준을 보여줄 수 있지만 실제 업무 성과는 별도 지표로 확인해야 합니다.
기업은 AI 성과를 어떻게 평가해야 하나요?: 배포 속도, 오류 감소, 문서 품질 향상, 재작업 감소 같은 업무 결과 중심의 지표를 함께 살펴야 합니다.

최지환

기술의 본질과 그 파급력을 깊이 있게 탐구하며, IT 산업 전반에 걸친 변화의 흐름을 날카롭게 짚어내는 데 집중하고 있습니다. 인공지능, 클라우드, 반도체, 사이버보안 등 빠르게 진화하는 분야에서 핵심 이슈를 선별하고, 일반 독자도 쉽게 이해할 수 있도록 맥락을 갖춘 보도를 지향합니다. 기술 자체보다는 그것이 산업과 사회에 어떻게 작용하는지를 관찰하고, 기업 전략, 기술 규제, 사용자 경험 등 다양한 관점에서 접근합니다. 각종 기술 행사와 컨퍼런스를 직접 취재하며, 깊이 있는 분석과 균형 잡힌 시각으로 독자의 신뢰를 쌓아가고 있습니다.

ai 관련 게시물

최근 게시물

기업의 업무 현장에 투입된 AI 엔지니어들이 고객사의 개발자, 사업 담당자, 보안 전문가와 함께 에이전트형 AI 시스템을 구축하는 장면. AI 생성 이미지.

AWS가 고객사에 AI 엔지니어를 직접 보내는 이유

AWS가 10억달러를 투입해 고객 현장에 AI 엔지니어를 배치하는 FDE 조직을 만듭니다. 기업의 AI 도입 속도를 높이려는 전략이지만, 진짜 성과는 구축 기간보다 엔지니어가 떠난 뒤 고객이 시스템을 독립적으로 운영할 수 있는지에 달려 있습니다.

2026년 7월 2일15분 소요

애플이 AI 해킹에 맞서 iOS 보안 패치를 앞당기는 이유

애플이 AI를 활용한 해킹 도구의 발전 속도에 대응하기 위해 일부 보안 수정을 정기 iOS 배포보다 먼저 제공하기 시작합니다. 이번 변화의 의미와 한계, 사용자가 확인해야 할 업데이트 설정, 기업 보안 관리에 미칠 영향을 분석합니다.

2026년 6월 30일17분 소요

데이터센터 사이에서 AI 토큰 처리량이 제한되고 연산 자원 병목이 발생했음을 표현한 AI 생성 이미지

구글의 메타 제미나이 사용 제한이 드러낸 기업 AI 연산 자원의 병목

구글이 메타가 요청한 제미나이 연산 용량을 모두 제공하지 못하면서 일부 내부 AI 프로젝트가 영향을 받은 것으로 전해졌습니다. 이번 사례는 기업의 AI 경쟁력이 모델 성능뿐 아니라 안정적인 처리량 확보와 공급자 의존 관리에 달려 있음을 보여줍니다.

2026년 6월 28일14분 소요

아이폰과 노트북, 스마트워치를 사용하는 이용자가 인공지능 비서를 통해 메시지와 일정, 연락처를 연결해 작업을 처리하는 모습을 표현한 일러스트. AI 생성 이미지. 실제와 관련 없음.

애플 Siri 전면 개편 구글 손잡고 AI 운영체제 경쟁 나선다

애플이 새 AI 기반 Siri를 공개하며 구글 기술 협력을 선택했다. 목표는 챗봇 경쟁이 아니라 아이폰과 맥 안에 AI를 녹여 사용자의 작업 흐름을 줄이는 데 있다. 개인정보 보호, 기기 지원 범위, 언어 품질이 성패를 가를 전망이다.

2026년 6월 10일9분 소요

기업 사무실에서 직원들이 AI가 생성한 결과물을 검토하며 업무를 분담하는 모습을 표현한 일러스트. AI 생성 이미지

Anthropic Fable 5가 던진 질문 AI는 생산성, 일자리 무엇이 바뀔까?

Anthropic의 Fable 5 공개는 AI가 단순 보조 도구를 넘어 업무 흐름에 들어서고 있음을 보여준다. 관심은 일자리 대체보다 과업 재배치, 검토 책임, 조직 운영 방식 변화로 이동하고 있다.

2026년 6월 10일9분 소요

기업 사무실에서 직원들이 AI 도구를 활용하며 업무 성과와 조직 준비 수준의 차이를 보여주는 일러스트 이미지. AI 생성 이미지.

AI가 기업의 성과 격차를 벌리는 이유는 기술보다 사람과 조직에 있다

기업 전반에 AI 적용이 확대되면서 성과 차이는 기술 접근 여부보다 준비 수준에서 나타나고 있다. 데이터 관리, 업무 흐름, 교육, 검증 체계를 갖춘 조직은 생산성을 높이지만 그렇지 못한 조직은 비용과 혼란에 직면할 수 있다.

2026년 6월 10일9분 소요

합성 DNA 주문 심사 절차를 검토하는 연구원들과 생물보안 담당자를 묘사한 일러스트 이미지. AI 생성 이미지.

AI 기업 CEO들이 합성 DNA 주문 심사를 의무화하자고 나선 이유

미국 인공지능 기업 경영진들이 합성 DNA·RNA 주문 심사 의무화를 촉구했다. AI가 생물학 정보 접근을 쉽게 만들면서 위험 서열이 실제 물질로 이어지는 공급망 관리가 생물보안 정책의 새로운 과제로 떠오르고 있다.

2026년 6월 7일8분 소요

API 출시 지연으로 개발자들이 서버 대시보드를 확인하는 사무실 일러스트. AI 생성 이미지.

메타 AI 모델 API 지연이 개발자 신뢰를 흔드는 이유

메타의 뮤즈 스파크 API 출시 지연은 일정 문제가 아니라 개발자 신뢰와 수익화 전략을 흔드는 상용화 준비도 문제로 번지고 있다.

2026년 6월 7일6분 소요