반응형
Vector DB란 무엇인가?
CS 지식/AI 관련2024. 12. 26. 22:30Vector DB란 무엇인가?

Vector DB란?핵심 요소는 3가지입니다.1. Vector2. Dimensionality3. Similarity Search Vector란?수학적으로 방향 (direction)과 크기 (magnitude)가 존재하는 값입니다. 왜 Vector DB를 써야 하는가?80%의 데이터는 unstructured data입니다.예를 들면 사진, 음악, PDF, 영상 등이 있죠.그래서 기존의 Relational DB에 위와 같은 데이터들을 저장하기 위해서는 별도의 메타데이터를 추가하는 등의 작업이 필요합니다.잘 어울리지는 않는 use case에 가깝죠. 반면 vector DB는 이러한 unstructured data의 저장에 특화되어 있습니다.왜일까요?1. 비정형 데이터를 의미 벡터로 변환해 저장임베딩 : 비정형..

Vector DB : 전통적인 DB와 비교한 Vector DB의 특징들
CS 지식/AI 관련2024. 12. 25. 11:19Vector DB : 전통적인 DB와 비교한 Vector DB의 특징들

Vector DB에 대해서 정리 하면서 궁금한점을 중간 중간에 추가해 두었고 그에 대한 답도 추가해 두었습니다.전통 DB의 특징RDBMS 기반입니다.Structured data 입니다 - predefined column과 row가 있습니다.Schema-based - database structure는 사용전에 미리 정의되어야 합니다.Data manipulation and querying - SQL로 데이터를 조작해야함.ACID Compliant - Atomicity, Consistency, Isolation, Durability를 보장해야함.Indexing - 데이터 검색 및 가져오기를 빠르게 하기 위함. 전통 DB의 한계Scalability - 큰 테이블에 대해서 복잡한 쿼리를 처리하는데 어렵다.Fle..

Vector DB - Vector Similarity 측정 방법 3가지
CS 지식/AI 관련2024. 12. 22. 21:52Vector DB - Vector Similarity 측정 방법 3가지

Vector Similarity 측정 방법vector similarity는 기본적으로 vector의 방향, 크기, 그리고 상대적인 위치에 영향을 많이 받습니다.이를 고려해서 vector similarity를 측정할 수 있는 3가지 정도의 방법이 있는데 아래와 같습니다. 1. Cosine Similarity위의 예제를 Cosine Similarity를 통해서 계산하면 아래와 같은 결과가 나옵니다. 2. Euclidean Distance1. vector의 크기가 고려 되어야할때2. clustering 할때 가장 이상적임과 같은 두가지 특징을 가지고 있습니다. 3. Dot Product1. Image 검색과 도출2. 음악 추천등에 도움이 되는 계산 방식이라고 합니다.

Docs as code - (4) Docusaurus 방문자 확인 on-premise ackee analytics 적용기
업무 개선/Docs as code2024. 12. 22. 14:43Docs as code - (4) Docusaurus 방문자 확인 on-premise ackee analytics 적용기

Docs as code - (1) Docusaurus v3의 on-premise analytics (matomo) 설정하기 (https 설정 추가) Docs as code - (1) Docusaurus v3의 on-premise analytics (matomo) 설정하기 (https 설정 추가)ADR 도입기 - (3) Docs as code 추가 기능 도입 (Local LLM으로 문서 번역, 문서 페이지 접속 데이터)우리 부서에 맞는 ADR (Architecture Decision Record) 템플릿 작성과 ADR 시스템 도입현재 우리 부서 상황에 맞는ray5273.tistory.com위의 포스트에서 matomo analytics를 적용을 해 보았습니다.정상 작동하는 것을 확인은 했으나 일단 matom..

Docs as code - (3) Docusaurus 페이지에 대해 Typesense scraper로 검색 인덱스가 잘 생성되지 않는 문제 해결
업무 개선/Docs as code2024. 12. 22. 01:03Docs as code - (3) Docusaurus 페이지에 대해 Typesense scraper로 검색 인덱스가 잘 생성되지 않는 문제 해결

Docs as code - (2) Docusaurus v3의 On-premise 검색 엔진으로 Typesense 사용 하기 Docs as code - (2) Docusaurus v3의 On-premise 검색 엔진으로 Typesense 사용 하기실행 환경Windows 11 환경에서 실행되었습니다.또한 localhost (host.docker.internal) 환경에서 docusaurus와 typesense 서버를 실행합니다.docusaurus 버전은 3.5.2를 사용했습니다. 실행 방법 1. docusaurus.config.ts 파ray5273.tistory.com기존 포스트를 통해 Typesense를 사용하여 검색 인덱스를 생성 했었는데, 일부 문제가 있어서 해결하려고 합니다.Scraper를 통해서 i..

[번역] Uber가 Postgres에서 MySQL로 데이터베이스를 전환 한 이유
카테고리 없음2024. 12. 21. 18:01[번역] Uber가 Postgres에서 MySQL로 데이터베이스를 전환 한 이유

Why Uber Engineering Switched from Postgres to MySQL | Uber Blog Why Uber Engineering Switched from Postgres to MySQLUber Engineering explains the technical reasoning behind its switch in database technologies, from Postgres to MySQL.www.uber.com위의 2016년 포스트를 번역했습니다.IntroductionUber의 초기 아키텍처는 Python으로 쓰여진 monolithic architecture 였습니다.시간이 지나면서 microservice 와 새로운 데이터 플랫폼 모델로 크게 바뀌었으며 대부분의 경우 이전에는 ..

[번역] Shopify - 탄력 있는 결제 시스템을 위한 10가지 팁
관심 분야 센싱/다른 사람 포스팅 구경하기2024. 12. 21. 10:00[번역] Shopify - 탄력 있는 결제 시스템을 위한 10가지 팁

10 Tips for Building Resilient Payment Systems - Shopify 10 Tips for Building Resilient Payment Systems - ShopifyTop ten tips and tricks for building resilient payment systems from a Staff Developer working on Shopify’s payment infrastructure.shopify.engineering위의 문서를 번역 및 정리했습니다. 1. Timeout을 줄여라Ruby 언어의 서버와의 Connection을 연결 하기 위한  HTTP Client timeout은 60초이고, write data, read response를 위한 timeout..

Docs as code - (2) Docusaurus v3의 On-premise 검색 엔진으로 Typesense 사용 하기
업무 개선/Docs as code2024. 12. 11. 00:02Docs as code - (2) Docusaurus v3의 On-premise 검색 엔진으로 Typesense 사용 하기

실행 환경Windows 11 환경에서 실행되었습니다.또한 localhost (host.docker.internal) 환경에서 docusaurus와 typesense 서버를 실행합니다.docusaurus 버전은 3.5.2를 사용했습니다. 실행 방법 1. docusaurus.config.ts 파일을 변경합니다.1) url과 baseUrl을 변경합니다.어떻게 되어 있었든 localhost에서의 서버 실행을 위해서 아래와 같이 변경합니다.// Set the production url of your site here url: 'http://host.docker.internal', // Set the // pathname under which your site is served // For GitHub pag..

Docs as code - (1) Docusaurus v3의 on-premise analytics (matomo) 설정하기 (https 설정 추가)
업무 개선/Docs as code2024. 12. 5. 21:34Docs as code - (1) Docusaurus v3의 on-premise analytics (matomo) 설정하기 (https 설정 추가)

ADR 도입기 - (3) Docs as code 추가 기능 도입 (Local LLM으로 문서 번역, 문서 페이지 접속 데이터)우리 부서에 맞는 ADR (Architecture Decision Record) 템플릿 작성과 ADR 시스템 도입현재 우리 부서 상황에 맞는 ADR 템플릿을 작성해 보려고 합니다.사실은 ADR이 무엇인지, ADR을 써야하는 이유는 무엇인ray5273.tistory.comAnalytics 관련 몇가지 자료를 더 찾아보다가 드디어 API를 사용하지 않고도 On-premise로 Docusaurus에 대해서 접속 정보를 확인할 수 있는 페이지를 찾았습니다. 여러모로 Docusaurus와의 연결성과 배포의 용이성을 판단 해 봤을때 대략 사용 가능한 후보는 두개정도 있었는데요.1. matom..

Database Engine 비교하기
CS 지식/데이터베이스 기본 다지기2024. 11. 20. 22:49Database Engine 비교하기

데이터베이스 엔진(Database Engine)은 데이터베이스 관리 시스템(DBMS)의 핵심 요소로, 데이터를 저장, 관리, 처리, 검색하는 역할을 수행하는 소프트웨어 구성 요소입니다. 사용자가 데이터베이스와 상호 작용할 수 있도록 하는 기본적인 백엔드 역할을 하며, 데이터를 처리하는 모든 작업의 중심에 있다고 할 수 있습니다. 아래에 Database Engine의 주요 기능과 개념을 설명합니다.Database Engine의 주요 기능1. 데이터 저장 및 관리:데이터베이스 엔진은 데이터를 효율적으로 저장하고 관리하는 역할을 합니다. 테이블, 인덱스, 트리거, 뷰 등 데이터 구조를 생성하고 유지합니다.2. 데이터 쿼리 처리:SQL(Structured Query Language)을 사용해 데이터를 검색하고 ..

반응형
image