마이크로소프트는 오늘 150억 개의 파라미터를 가진 멀티모달 추론 모델 ‘Phi-4-reasoning-vision-15B’를 공개했다. 이 모델은 과학 차트와 같은 멀티모달 파일을 처리할 수 있는 하드웨어 효율을 중시하는 점이 특징이다. 핵심 알고리즘인 ‘SigLIP-2’는 이미지를 신경망이 이해할 수 있는 숫자 데이터로 압축하며, ‘Phi-4 Reasoning’은 추론 모델로 지난해 4월 오픈소스로 공개됐다.
이 두 알고리즘은 ‘중간 융합’ 방식으로 결합됐다. 일반적으로 인공지능 모델은 여러 개의 인공 뉴런 층으로 이루어지는데, 중간 융합 모델에서는 일부 층만 멀티모달 데이터를 처리한다. 이러한 방식은 하드웨어 사용량을 크게 줄이는 대신 출력 품질을 일부… 더보기


답글 남기기