logo

터보퀀트

구글이 발표한 AI 메모리 압축 기술

Key points

  • AI 모델이 사용하는 벡터를 매우 낮은 비트 수준으로 압축하면서도 성능 저하를 최소화
  • LLM은 이전 계산 결과를 저장하는 KV 캐시를 사용해 추론 속도를 높이는데, 이 KV 캐시를 최대 6배 이상 압축하면서도 정확도를 유지
  • 대규모 벡터 데이터베이스에서도 높은 검색 정확도를 유지하면서 메모리 사용량과 검색 비용을 줄임

터보퀀트(TurboQuant)는 구글이 발표한 AI 메모리 압축 기술입니다. 핵심은 AI가 사용하는 벡터(vector)를 훨씬 더 작은 크기로 압축하면서도 성능 저하를 최소화하는 데 있습니다.

AI 모델은 텍스트, 이미지, 검색 결과 등을 모두 벡터 형태로 변환해 처리합니다. 문제는 벡터 안에 복잡한 정보를 많이 담을수록 메모리 사용량과 계산 비용이 크게 증가한다는 점입니다. 특히 최근의 대규모 언어모델(LLM)은 수십억 개 이상의 벡터를 다루기 때문에 메모리 병목이 매우 중요한 문제가 됩니다.

이 문제를 해결하기 위해 사용하는 대표적인 방법이 양자화(quantization)입니다. 양자화는 벡터를 더 적은 비트(bit)로 표현해 크기를 줄이는 기술입니다. 예를 들어 원래 32비트로 저장하던 값을 8비트나 4비트 수준으로 압축하는 식입니다. 다만 일반적인 양자화는 압축률이 높아질수록 정확도가 떨어지는 문제가 있습니다.

터보퀀트는 여기서 한 단계 더 나아갑니다. 구글은 벡터를 더 효율적으로 회전·변환한 뒤 압축하는 방식으로, 매우 낮은 비트 수준에서도 성능 손실을 최소화했다고 설명합니다. 특히 기존 방식 대비 거의 최적에 가까운 압축 효율을 달성했다고 주장합니다.

이 기술이 특히 주목받는 이유는 LLM의 KV 캐시(KV Cache) 때문입니다. LLM은 텍스트를 생성할 때 이전 계산 결과를 계속 재사용합니다. 만약 매 토큰마다 이전 문장을 전부 다시 계산한다면 속도가 극도로 느려지기 때문입니다. 그래서 모델은 이전 계산 결과를 KV 캐시라는 메모리에 저장해두고 필요할 때 다시 사용합니다. 하지만 문맥이 길어질수록 KV 캐시는 엄청난 메모리를 차지하게 됩니다. 터보퀀트는 이 KV 캐시를 강하게 압축하면서도 성능 저하를 거의 발생시키지 않았습니다. 구글은 최대 6배 이상의 메모리 절감과 GPU 연산 속도 향상을 보고했습니다.

또 다른 중요한 활용 분야는 벡터 검색(vector search)입니다. 오늘날 AI 검색 시스템은 문서를 벡터로 변환해 저장한 뒤, 의미적으로 비슷한 벡터를 찾는 방식으로 동작합니다. 예를 들어 “고양이에 대한 글”을 검색하면 단순 키워드가 아니라 의미적으로 가까운 벡터를 찾아내는 것입니다. 문제는 검색 대상 벡터가 수십억 개 규모로 커질 수 있다는 점입니다. 터보퀀트는 벡터를 매우 작게 압축하면서도 검색 정확도를 유지해, 대규모 벡터 데이터베이스의 메모리 사용량과 검색 비용을 줄이는 데에도 효과를 보였습니다.

관련 위키