무슨 일이 있었나요? 애플은 제너레이티브 AI 도입에 소극적이었지만 이미지와 텍스트 데이터를 모두 해석할 수 있는 멀티모달 대규모 언어 모델인 MM1의 도입으로 변화가 있을 수 있습니다. 이 기능은 애플이 구글의 제미니 AI를 통합할 것이라는 소문도 있지만, 애플의 차세대 단말기와 서비스에 포함될 가능성이 있습니다.
애플 연구원들은 텍스트와 시각 정보를 모두 통합하는 대규모 언어 모델(LLM)을 학습하기 위한 새로운 접근 방식인 MM1을 개발했습니다. 연구진이 발표한 논문에 따르면 MM1은 이미지-캡션 쌍, 인터리브 이미지-텍스트 문서, 텍스트 전용 데이터로 구성된 데이터 세트를 활용하여 최대 300억 개의 파라미터를 포함하는 멀티모달 모델 제품군의 일부입니다.
멀티모달 대규모 언어 모델(MLLM)은 이미지와 텍스트 데이터를 처리하여 텍스트 출력을 생성하는 대규모 기초 모델이라고 연구진은 설명합니다. "LLM의 부상 이후 MLLM은 기초 모델의 다음 개척지로 떠오르고 있습니다."라고 연구진은 말합니다. 애플, 사진 해석 및 사물 수 계산이 가능한 AI 모델 공개
애플은 MM1이 물체를 세고, 이미지의 일부를 식별하고, 일상적인 사물에 대한 상식 및 단어 지식을 보여주고, 기본적인 수학적 기능을 수행할 수 있다고 주장합니다. 또한 문맥 내 학습을 지원하므로 각 쿼리에 대해 모델을 재학습하거나 미세 조정할 필요 없이 제공된 문맥을 기반으로 쿼리를 이해할 수 있습니다. 또한 다중 이미지 추론 기능을 통해 여러 이미지를 해석하고 결론을 도출할 수 있습니다.
애플은 사용자가 모델에게 사진을 보여주며 메뉴판의 가격을 기준으로 테이블에 있는 모든 맥주의 가격이 얼마인지 묻는 예를 제공합니다. |