AI(인공지능) 경량화 및 최적화 전문 스타트업 스퀴즈비츠가 대형 언어 모델 서빙(LLM Serving)을 위한 맞춤형 솔루션 ‘핏츠 온 칩스(Fits on Chips)’를 출시했다고 3일 밝혔다.
핏츠 온 칩스는 LLM 서빙 전 과정을 단순화하고 최적의 설정을 찾을 수 있도록 돕는 솔루션이다. 모델 선택 단계부터 서빙 옵션 조정, 장치 및 프레임워크 설정, 성능 평가, 배포까지 LLM 서빙에 필요한 모든 단계를 원스톱으로 지원한다. 허깅페이스 등 오픈소스 라이브러리와 연동해 다양한 LLM 모델을 손쉽게 통합하고 성능을 비교 평가해 최적의 LLM 서빙 설정 값을 찾아 적용하는 방식이다. 이를 통해 엔지니어의 기존 작업 시간을 30시간에서 3시간까지 10분의 1로 줄일 수 있다. 비용 또한 약 2배 이상 절약할 수 있다는 게 회사 측 설명이다.
스퀴즈비츠는 최근 인텔, 네이버와 함께 인텔의 가우디 하드웨어에서 LLM을 효율적으로 작동시키기 위한 협업 프로젝트를 진행하고 있다. 이번 협업을 통해 엔비디아의 GPU에 이어 인텔의 가우디까지 핏츠 온 칩스의 지원 범위를 확장했다. 추후 다양한 하드웨어를 비용, 속도 관점에서 비교할 수 있도록 제공할 방침이다.
하드웨어뿐 아니라 vLLM, TensorRT-LLM과 같은 프레임워크를 다각도로 비교 분석하는 기능도 제공한다. 사용자는 분석 결과를 바탕으로 최적화된 LLM 서빙 환경을 구축해 인프라의 전체적인 효율을 극대화할 수 있다. 추후 AI 에이전트(Agent)를 연동하거나 AMD, 아마존, 구글 등의 하드웨어를 지원하는 등 더 다양한 모델과 하드웨어, 서버 환경 등을 지원할 수 있도록 확장해 나갈 계획이다.
김형준 스퀴즈비츠 대표는 “누구나 쉽게 LLM 서빙을 시뮬레이션하고 분석해볼 수 있도록 제품을 설계하고 개발했다”며 “앞으로도 LLM 서빙 솔루션을 비롯한 다양한 기술 개발을 통해 AI 서비스 기업의 성능 최적화와 비용 절감을 적극 지원하겠다”고 말했다.