퀄컴($QCOM) 온디바이스 생성형 AI 최적화된 NPU 개발 가속화

2024. 2. 2. 03:34미국 주식

반응형

퀄컴($QCOM)이 온디바이스 생성형 AI 최적화된 NPU 개발 가속화를 한다는 소식입니다. 공식 웹사이트에 미국 시간 2024년 2월 1일에 이 내용이 게재되었습니다. 이 회사의 NPU 전략에 대해서 알아보겠습니다.

 

퀄컴의 NPU (출처: qualcomm.com)

 

NPU란 무엇인가?

NPU는 Neural Processing Unit의 약자로 신경 처리 장치라고 번역할 수 있습니다. 생성형 인공지능(AI) 혁명이 시작된 요즘, 다양한 요구 사항과 계산 요구 사항을 가진 수직 분야에서 생성형 AI 사용 사례의 수요가 증가함에 따라 AI를 위해 맞춤 설계된 새로운 컴퓨팅 아키텍처가 필요합니다.

 

이는 생성형 AI를 위해 처음부터 설계된 신경 처리 장치(NPU)로부터 시작되며, 중앙 처리 장치(CPU)와 그래픽 처리 장치(GPU)와 같은 다양한 프로세서를 혼합하여 활용합니다. NPU와 함께 적절한 프로세서를 사용함으로써, 이종 컴퓨팅은 애플리케이션 성능, 열 효율성 및 배터리 수명을 극대화하여 새롭고 향상된 생성 AI 경험을 가능하게 합니다.

 

적절한 프로세서와 NPU를 함께 사용함으로써, 이종 컴퓨팅은 애플리케이션 성능, 열 효율성, 배터리 수명을 극대화하여 새롭고 향상된 생성 AI 경험을 가능하게 합니다. NPU는 저전력에서 AI 추론을 가속화하기 위해 처음부터 설계되었으며, 새로운 AI 사용 사례, 모델, 요구 사항의 발전에 따라 진화하였습니다.

 

CPU, GPU 그리고 NPU 특성

AI 중심의 맞춤형 설계된 NPU와 CPU, GPU를 함께 사용합니다. 예를 들어, 각각은 다른 작업에서 뛰어납니다. CPU는 순차적 제어와 즉각성, GPU는 스트리밍 병렬 데이터, NPU는 스칼라, 벡터, 텐서 수학으로 구성된 핵심 AI 작업을 위한 것입니다.

 

CPU와 GPU는 범용 프로세서입니다. 유연성을 위해 설계된 그들은 매우 프로그래밍 가능하며, 운영 체제, 게임, 그리고 다른 애플리케이션을 실행하는 '주 업무’를 가지고 있습니다. 이것은 어느 시점에서든 AI 작업을 위한 그들의 사용 가능한 용량을 제한합니다.

 

NPU는 AI를 위해 특별히 만들어졌습니다. NPU는 최고의 성능, 전력 효율성, 면적 효율성을 위해 프로그래밍 용이성의 일부를 포기하고, 기계 학습(Machine Learning)에 필요한 많은 곱셈, 덧셈, 그리고 다른 연산을 실행합니다.

 

온디바이스 생성형 AI 사용 사례

스마트폰 SoC(System on a Chip)는 여러 세대에 걸쳐 NPU를 활용하여 백그라운드에서 우수한 사진, 오디오, 연결성, 보안 등의 일상적인 경험을 개선해 왔습니다. 다른 점은 다양한 요구 사항과 계산 요구 사항을 가진 수직 분야에서 생성형 AI 사용 사례에 대한 수요가 증가하고 있다는 것입니다.

 

이러한 사용 사례는 다음과 같이 세 가지 범주로 분류할 수 있습니다.

 

  1. 온디맨드 사용 사례 : 사용자에 의해 트리거 되며 즉각적인 응답이 필요하며, 사진/비디오 캡처, 이미지 생성/편집, 코드 생성, 오디오 녹음 텍스트(이메일, 문서 등) 생성/요약 등을 포함합니다. 이에는 휴대폰으로 문자를 보내면서 맞춤형 이미지를 생성하거나, PC에서 회의 요약을 생성하거나, 운전 중에 음성으로 가장 가까운 주유소를 찾는 것이 포함됩니다.
  2. 지속적인 사용 사례 : 더 긴 기간 동안 실행되며, 음성 인식, 게임 및 비디오 초고해상도, 비디오 통화 오디오/비디오 처리, 실시간 번역 등을 포함합니다. 이에는 해외 출장 중에 휴대폰을 실시간 대화 통역기로 사용하거나, PC에서 게임을 할 때 매 프레임마다 초고해상도를 실행하는 것이 포함됩니다.
  3. 공통적인 사용 사례 : 항상 백그라운드에서 실행되며, 항상 켜져 있는 예측 AI 보조, 상황 인식에 기반한 AI 개인화, 고급 텍스트 자동 완성 등을 포함합니다. 이에는 대화 내용에 기반하여 동료와의 회의를 제안하는 휴대폰이나, 질문에 대한 답변에 따라 학습 자료를 조정하는 PC의 튜터 보조가 포함됩니다.

 

이러한 AI 사용 사례는 두 가지 주요 과제를 공통적으로 가지고 있습니다.

 

  • 첫째, 요구 사항과 계산 요구 사항이 다양하고 까다로운 것은 플랫폼에서 여러 가지 요구 사항을 충족시키는 범용 CPU나 GPU를 사용하여 전력과 열 제약이 있는 기기에서 충족시키기 어렵습니다.
  • 둘째, 그들은 끊임없이 진화하고 있으므로 순수하게 고정 기능 하드웨어에 구현하는 것은 비현실적입니다. 따라서, 처리 다양성을 가진 이종 컴퓨팅 아키텍처는 각 프로세서의 강점을 활용할 수 있는 기회를 제공합니다.

 

퀄컴의 NPU 제품

우수한 NPU 설계는 올바른 설계 선택을 하며 AI 산업의 방향과 밀접하게 연결됩니다. 업계 선도적인 퀄컴® 헥사곤™ NPU는 저전력에서 지속적이고 고성능의 AI 추론을 위해 설계되었습니다. NPU를 맞춤형으로 설계하고 명령어 집합 구조 (ISA)를 제어함으로써, 병목 현상을 해결하고 성능을 최적화하기 위해 설계를 빠르게 진화하고 확장할 수 있습니다.

 

헥사곤 NPU는 최고 수준의 이종 컴퓨팅 아키텍처인 퀄컴® AI 엔진의 핵심 프로세서로, 아드레노™ GPU, 크라이오™ 또는 오리온™ CPU, 센싱 허브, 그리고 메모리 하위 시스템도 포함합니다. 이러한 프로세서들은 함께 작동하여 AI 애플리케이션을 기기에서 빠르고 효율적으로 실행할 수 있도록 공학적으로 설계되었습니다.

 

업계 선도적인 AI 벤치마크와 실제 생성형 AI 애플리케이션에서의 성능은 이를 입증합니다. 또한 개발자들을 지원하기 위해 퀄컴®과 스냅드래곤® 플랫폼으로 구동되는 전 세계 수십억 대의 기기에서의 개발과 배포의 용이성에 초점을 맞추고 있습니다.

 

퀄컴® AI 스택을 사용하면 개발자들은 하드웨어에서 AI 애플리케이션을 생성, 최적화, 배포할 수 있으며, 칩셋 솔루션을 사용하여 다양한 제품과 세그먼트에 걸쳐 한 번 작성하고 배포할 수 있습니다. 회사는 기기 내(온디바이스) 생성형 AI를 대규모로 가능하게 하고 있습니다.

 

마무리

퀄컴은 전체 시스템을 맞춤형으로 설계함으로써, 적절한 설계 절충안을 만들고 그 통찰력을 활용하여 더 유기적인 솔루션을 제공합니다. 반복적인 개선과 피드백 주기는 최신 신경망 구조에 기반하여 우리의 NPU뿐만 아니라 AI 스택도 지속적이고 빠르게 개선할 수 있게 합니다. AI 벤치마크와 스마트폰과 PC를 위한 생성 AI 애플리케이션에서의 선도적인 성능은 차별화된 솔루션과 풀스택 AI 최적화의 결과입니다.

 

회사의 AI 스택은 개발자들이 다양한 제품에 걸쳐 AI 애플리케이션을 생성, 최적화, 배포할 수 있게 해주며, AI 엔진에서의 AI 가속을 접근 가능하고 확장 가능하게 만듭니다. 기술 리더십, 맞춤형 실리콘 설계, 풀스택 AI 최적화, 그리고 생태계 활성화의 결합은 회사의 기술을 기기 내 생성 AI의 개발과 채택을 주도하는 데 돋보이게 합니다.

반응형