Aible의 솔루션은 언어 모델 실행부터 RAG에 이르기까지 다양한 최신 AI 워크로드에서 CPU가 어떻게 성능을 크게 향상시킬 수 있는지 보여줍니다. Intel 프로세서에 최적화된 Aible의 기술은 AI를 위한 효율적인 서버리스 엔드투엔드 접근 방식을 활용하여 활성 사용자 요청이 있을 때만 리소스를 소비합니다. 예를 들어, 벡터 데이터베이스는 단 몇 초 동안 활성화되어 사용자 쿼리와 관련된 정보를 검색하며, 언어 모델도 마찬가지로 잠시 동안 작동하여 요청을 처리하고 응답합니다. 이러한 주문형 작업은 총 소유 비용(TCO)을 줄이는 데 도움이 됩니다.
RAG는 병렬 처리 기능을 활용하기 위해 GPU(그래픽 처리 장치) 및 가속기를 사용하여 구현되는 경우가 많지만 Intel Xeon Scalable 프로세서와 결합된 Aible의 서버리스 기술을 사용하면 RAG 사용 사례를 전적으로 CPU로 구동할 수 있습니다. 성능 데이터는 여러 세대의 Intel Xeon 프로세서가 RAG 워크로드를 효율적으로 실행할 수 있음을 보여줍니다.
Aible을 사용하면 고객은 서버리스 형태로 CPU를 독점적으로 활용하여 동일한 기본 컴퓨팅 리소스를 여러 고객 간에 보다 안전하게 공유함으로써 GenAI 프로젝트의 운영 비용을 낮출 수 있습니다. 이에 비해 운영비가 절감되는 것은 발전기를 임대하는 것이 아니라 전기를 사용할 때 구입하는 것과 비교할 수 있습니다. 더욱이, 생성적 AI에 대한 수요가 증가함에 따라 성능과 에너지 소비를 모두 최적화할 필요성이 더욱 중요해지고 있습니다. Aible의 CPU 기반 서비스는 고객에게 비용 효율적이고 에너지 효율적인 솔루션을 제공합니다.
Aible의 벤치마크 분석에 따르면 고객은 CPU 기반 서버리스 솔루션에서 RAG 모델을 실행할 때 최대 55배의 비용 절감을 실현할 수 있습니다1. 이러한 비용 절감은 공유 서비스나 전용 서버를 갖춘 더 비싼 GPU 기반 인프라의 필요성을 회피하는 Aible의 CPU 독점 접근 방식의 효과를 입증합니다.
Intel Labs를 포함한 Intel은 Aible과 협력하여 Xeon 프로세서의 AI 워크로드를 최적화했습니다. 특히 Aible은 AVX-512용 Aible 코드를 최적화함으로써 Xeon 프로세서에서 상당한 성능 향상과 처리량 향상을 확인했으며, 이는 전략적 소프트웨어 최적화가 전반적인 효율성에 미치는 영향을 강조했습니다.
Aible과 같은 플랫폼을 통해 지원되는 Intel Xeon 프로세서와 RAG 모델의 결합을 통해 다음과 같은 애플리케이션을 구현할 수 있습니다.
● 자연어 처리(NLP)
● 추천 시스템
● 의사결정 지원 시스템
● 콘텐츠 생성
Intel과 Aible의 협력은 4세대 Xeon 프로세서 출시로 시작되었습니다. 이후 두 회사는 Aible 제품 제공의 성능을 높이기 위해 Xeon 프로세서용 AI 워크로드, 코드 및 라이브러리를 최적화했습니다.
Intel과 Aible은 6월 26일과 27일에 워싱턴 DC에서 열리는 Amazon Web Services Summit에서 솔루션을 시연할 예정입니다. Aible의 솔루션은 AWS Lambda에서 실행되며 AWS Marketplace에서 사용할 수 있습니다.
|