[퀄컴 - AI(인공지능)]
▶ 퀄컴 'AI(인공지능)-스택' & 'LLaMa II 언어 모델'
- INT 4(양자화 기법)
- 연동 작동 유닛 : 텐서, 스칼라, 벡터
- LLM(대형 언어 모델)의 최대 처리 속도 : LPDDR5X
[최대 동작 클럭(4.8Ghz) / 대역폭(77GB/s) ▷ 모바일에서 가장 빠른 '온-디바이스' 메모리)
▶ 퀄컴 AI(인공지능) 엔진의 '내부 유닛' 별 언어 모델 처리량
- 퀄컴 센싱 허브(ASR - Whisper) : '2억 4천만 개' 매개변수 모델[개방형 AI(인공지능 모델 기반]
- 퀄컴 헥사곤 NPU(LLM 모델 - Llama II) + 카이로 모바일 CPU : '70억 개' 매개 변수 기초 모델(문자 → 문자 추론 수행)
- 퀄컴 카이로 CPU(말하기 - '오픈 소스 TTS')
- '언어 모델' 처리 구조 : ASR(Whisper) → LLM 모델(LlaMa II) → 말하기(오픈 소스 TTS) → 클라우드(스카이스캐너 → 데이터는 퀄컴의 5G 통신망 기술을 사용하여 클라우드 서버로부터 수신)
※ '모바일 AP 프로세서' 중세계 최초로 '추론 디코딩' 기술을 지원
▶ 퀄컴 AI 스택[새로운 'AI(인공지능) 시대'를 위한 통합 소프트웨어 스택]
- (공식 발표 - 퀄컴 인증)퀄컴 AI 스택 모델 : '3세대 스냅드래곤 VIII' 모바일 AP 프로세서 & '스냅드래곤-X 엘리트 모바일 프로세서'에 최적화
- AI 스택 모델 종류 : SESR, XLSR, QuickSRNET, SESR, ResNet(18, 50 101), ResNeXt(101), DeepLabV3-ResNet(50, 101), FCN-ResNet50, Lite R-ASPP, SSD MobileNet V2, YOLOX, DETR-ResNet101, FFNET, FCN-ResNet101, YOLO-NAS, MobileNetV2, RegNetX_3.2GF, HRNet_W32, EnlightenGAN, MBLLEN, SCI, StableLLVE, Zero-DCE++, ALBERT, BERT, DistillBERT, ELECTRA, MobileBERT
※ Hugging Face의 모델을 사용이 가능함!
▶ 퀄컴 AI 스택의 'AI(인공지능)-프레임워크' 연결 구조
① 텐서플로우 + ONNX + PyTorch(파이토치), Keras
- 퀄컴 '신경망 처리' SDK → '퀄컴 AI 엔진 다이렉트' → CPU, GPU, NPU(헥사곤) 커널
② 텐서플로우 + ONNX + PyTorch(파이토치 - 신규 추가)
- 텐서플로우 → 'TF-Lite' →'퀄컴 AI 엔진 다이렉트' → CPU, GPU, NPU(헥사곤) 커널
- ONNX → 'ONNX RT' →'퀄컴 AI 엔진 다이렉트' → CPU, GPU, NPU(헥사곤) 커널
- (신규 추가)PyTorch → 'ExecuTorch' →'퀄컴 AI 엔진 다이렉트' → CPU, GPU, NPU(헥사곤) 커널
※ 고성능 & 고효율 기반으로 'LVM' + 'LVMS' 언어 모델 실행이 가능함
|