Vector DB - Product Quantization
Vector DB - Product Quantization 1. 개요 DiskANN과 여러 VectorDB 운용간 쓰이는 양자화 방식인 Product Quantization(이하 PQ)에 예시와 함께 잘 설명해둔 한국어 포스팅이 없어서 내가 정리해서 쓰게 되었다. 이해한대로 썼는데 혹시나 내용이 틀렸다면 메일(blakewoo0819@gmail.com)...
Vector DB - Product Quantization 1. 개요 DiskANN과 여러 VectorDB 운용간 쓰이는 양자화 방식인 Product Quantization(이하 PQ)에 예시와 함께 잘 설명해둔 한국어 포스팅이 없어서 내가 정리해서 쓰게 되었다. 이해한대로 썼는데 혹시나 내용이 틀렸다면 메일(blakewoo0819@gmail.com)...
공간 데이터 베이스 1. 개요 인간이 IT 기술을 다루다보니 여러가지 데이터들을 한데 모아두고 운용할 필요성을 느꼈고 그에 따라 Database라는게 등장했다. Database라고 하면 어떤 데이터의 뭉치를 말한다. 이 뭉치에 편하고 빠르게 데이터를 넣고 뺄 수 있도록 지원하는 프로그램이 바로 Database Management System이다. 줄...
Apache Kafka 구조 이전에 Apache Kafka 포스팅을 보고 이게 어떻게 가능한가 하는 생각이 들었을 것이다. 이번 포스팅인 Kafka에 대한 구조를 살펴본다면 어떻게 해당 작업이 가능한지 이해할 수 있을 것이다. 1. Overview 기본적으로 Kafka는 아래와 같은 구조를 갖는다. 기본적으로 Producer에서 Topic을 ...
Fine tuning 1. 개요 사전학습(대규모 일반 데이터)된 LLM의 가중치(또는 일부 구성 요소)를 특정 작업·도메인·스타일에 맞게 추가로 학습시키는 과정이다. 목적은 같은 모델로 더 정확하고 안정적인 결과를 얻거나, 사용 사례(챗봇, 분류, 요약 등)에 특화시키는 것이다. 이미 만들어져있는것을 세부적으로(fine) 튜닝(tuning)하는 것이다...
Transformer and “Attention Is All You Need” 1. 개요 기본적으로 언어라는 것은 순서가 있다. 각각의 단어들이 위치와 앞뒤 단어와의 연관성에 따라 관계를 가지고 뜻을 형성한다. 이는 이전에 포스팅했던적 있는 LSTM과 GRU가 등장하게 된 계기다. 기존 딥러닝 모델에 비해서 순차 데이터 처리에는 LSTM과 GRU가 ...
구문 분석 1. 개요 어휘 분석기에서는 입력 받은 토큰 스트림이 생성 가능한 것인지 판별했다. 토큰 스트림이 생성 가능하다고 판별되면 이는 구문 분석기로 넘겨져 파스 트리(Parse tree)나 추상 구문트리(AST)를 생성하게 된다. 이를 가능케하는 것은 컴파일러 형식언어에서 이야기하는 문법이며, 이 문법은 유도를 이용해서 도출하는 것을 따른다....
형식언어 1. 형식언어 구조, 범위 등이 명확히 규정되어 있는 언어. 자연 언어의 문법 구조를 수학적 측면에서 형식화한 것으로서 자연 언어보다 훨씬 간단한 구조의 인공 언어로 볼 수 있다. 형식 언어의 이론은 알골 등의 프로그램 작성 언어에서 제반 문제로 응용되고 있다. 형식 언어는 알파벳으로부터 생성되는 모든 문자열의 부분집합을 말하는데 이러한 언...
어휘분석기 - 유한 상태 오토마타 공부해보니 오토마타에 대한 내용은 매우 크고, 언어학과 다른 지식 어딘가에 모호하게 걸쳐있는 느낌이 있어서 다른 분류로 분리해야겠지만, 일단은 현재 컴파일러에 대해서 논하고 있으므로 일단 이곳에 포스팅하기로 했다. 1. 유한 상태 기계 유한 상태 기계라는게 있다. 이는 상태가 유한한 기계를 말한다. 여기서 말하는 기...
어휘분석기 - 정규표현식(regular expression) 1. 개요 정규표현식을 한마디로 말하자면 문자들의 집합(이 집합을 언어라고 한다) 간결한 패턴으로 표현하는 방법이다. 사실 정규표현식이야 개발간에 많이 사용한다. 가령 로그인간 아이디 형태 검증이나, 이메일 형태 검증만 예시를 들어도 바로 알 수 있을 것이다. 우리가 단순히 문자열 매칭에...
LangGraph 1. 개요 Trusted by companies shaping the future of agents – including Klarna, Replit, Elastic, and more – LangGraph is a low-level orchestration framework for building, managing, and deploy...