Word Embedding에 관련된 질문 그리고 해답 찾기

Word Embedding에 관련된 질문 그리고 해답 찾기CS 지식/AI 관련2025. 3. 5. 21:35@ray5273

Table of Contents

1. Video, Audio, Text의 Embedding model은 어떤 종류가 있고 어떻게 다르게 생겼는지?

Video embedding의 예시

Multimodal Embeddings API | Generative AI on Vertex AI | Google Cloud

의견 보내기 Multimodal Embeddings API 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요. Multimodal Embeddings API는 제공된 입력에 따라 벡터를 생성하며, 여기에는 이미

cloud.google.com

구글에서 제공하는 Video Embedding은 StartOffsetSec, endOffsetSec을 필요로 합니다.

또한, 1408차원을 사용한다고 합니다.

동영상에서는 하나하나의 캡처를 주로 인풋으로 사용한다고 합니다.

Audio Embedding의 예시

파형을 사용하는 embedding케이스

스펙트로그램을 input으로 사용하는 embedding 케이스

Whisper에서도 스펙트로그램을 기반으로 한 input을 사용한다고 합니다.

Audio에서 가장 많이 쓰는 방식인듯 하네요.

개인적으로는 이런 파형을 인풋으로 사용한다는게 신기했습니다.

2. Video나 Audio의 학습단위는 무엇인지? video나 audio 임베딩 모델도 transformer 모델을 사용하는 경우가 있을지?

Video의 경우 - Vision Transfomer (ViT)가 유명함.

[논문요약] Vision분야에서 드디어 Transformer가 등장 - ViT : Vision Transformer(2020)

*크롬으로 보시는 걸 추천드립니다* https://arxiv.org/pdf/2010.11929.pdf 종합 : ⭐⭐⭐⭐ 1. 논문 중요도 : 5점 2. 실용성 : 4점 설명 : 게임 체인저(Game Changer), Convolutional Network구조였던 시각 문제를 Transforme

kmhana.tistory.com

[2103.15691] ViViT: A Video Vision Transformer

ViViT: A Video Vision Transformer

We present pure-transformer based models for video classification, drawing upon the recent success of such models in image classification. Our model extracts spatio-temporal tokens from the input video, which are then encoded by a series of transformer lay

arxiv.org

아래는 ViT의 아키텍처 예시

이를 제외하고도 여러가지 Transformer 기반의 모델이 있음을 알 수 있었습니다.

Audio - 여러가지 Transformer 기반 모델

오디오 기반 모델의 경우에도 Transformer 기반 모델이 많이 사용된다고 합니다.

audio-transformers-course/chapters/ko/chapter3/introduction.mdx at main · huggingface/audio-transformers-course

The Hugging Face Course on Transformers for Audio. Contribute to huggingface/audio-transformers-course development by creating an account on GitHub.

github.com

Wav2Vec 2.0: Facebook AI Research에서 개발한 모델로, 원시 오디오 파형을 입력으로 받아 **자기 지도 학습(self-supervised learning)**을 통해 음성 인식 성능을 크게 향상시켰습니다. Transformer 아키텍처를 활용하여 음성 데이터를 효과적으로 처리합니다.
HuBERT (Hidden-Unit BERT): 이 모델은 Wav2Vec 2.0과 유사하게 자기 지도 학습을 활용하며, BERT와 같은 마스킹 기법을 적용하여 음성 데이터의 숨겨진 표현(hidden representation)을 학습합니다. Transformer 기반 구조를 통해 음성 인식 및 처리에서 우수한 성능을 보입니다.
Speech-Transformer: 음성 인식 분야에서 Transformer를 적용한 초기 연구 중 하나로, RNN 기반 모델의 한계를 극복하고자 제안되었습니다. 이 모델은 음성 신호의 시간적 특징을 Transformer를 통해 효과적으로 학습합니다.

이런 모델들이 있다고 합니다.

3. 최신의 GPT 모델이나 오픈소스 LLM 모델들은 embedding 사이즈가 얼마나 커지고 있는지? 계속 커지고 있는지?

ChatGPT를 통해서 Deep research를 시켰습니다.

4. Special Token의 종류가 LLM별로 얼마나 다양한지?

LLAMA3의 경우 아래와 같은 Special Token들을 사용한다고 합니다.

생각보다 개수가 많지 않네요.

실제로 Tokenizer 코드를 보면 256개 정도의 reserved token을 추가로 보유하고 있습니다.

이는 혹시나 나중에 모델 업그레이드가 가능한/필요한 경우에 대비해서 미리 만들어 둔 것으로 생각됩니다.

현재는 명시적으로 역할을 가지고 있지는 않은것으로 이해됩니다.

https://github.com/meta-llama/llama3/blob/a0940f9cf7065d45bb6675660f80d305c041a754/llama/tokenizer.py#L61-L74

llama3/llama/tokenizer.py at a0940f9cf7065d45bb6675660f80d305c041a754 · meta-llama/llama3

The official Meta Llama 3 GitHub site. Contribute to meta-llama/llama3 development by creating an account on GitHub.

github.com

5. 한국어는 BPE tokenizing을 하면 결과가 어떻게 보이는지? 다른 tokenizer를 써야하는지?

한국어를 활용한 Byte-Pair Encoding

[자연어 개인 프로젝트] 한국어를 활용한 Byte-Pair Encoding

형태소 없이 Byte-Pair Encoding 하기 안녕하세요 머킹입니다. 오늘은 형태소 없이 Byte-Pair encoding 하는 코드를 적어보고자 합니다! 개념 정리를 제대로 하고 싶어서 개인 프로젝트 외에 자연어 / 음성

machinelog.tistory.com

이 블로그의 포스트에서 보면 아래와 같은 결과가 나옴을 볼 수 있었습니다.

대충의 느낌을 파악하는데 도움이 되는것 같습니다.

Google Sentence Tokenizer 사용한 한국어 Token화

또한, Google에서 발표한 SentenceTokenizer를 통해서 한국어를 tokenizing한 케이스도 있었습니다.

SentencePiece를 활용한 효과적인 한국어 토크나이저 만들기 - Luke's Blog

SentencePiece를 활용한 효과적인 한국어 토크나이저 만들기

소개자연어 문장을 컴퓨터가 쉽게 이해하게 만들기 위해서는 다양한 전처리 과정을 거쳐야합니다.그 중 하나로 문장을 토큰 단위로 쪼개서 처리하는 토크나이징 기법이 있습니다.오늘은 Sentence

eagle705.github.io

실제 예시는 아래와 같다고 합니다.

또한, huggingface의 tokenizer도 있습니다.

huggingface/tokenizers: 💥 Fast State-of-the-Art Tokenizers optimized for Research and Production

GitHub - huggingface/tokenizers: 💥 Fast State-of-the-Art Tokenizers optimized for Research and Production

💥 Fast State-of-the-Art Tokenizers optimized for Research and Production - huggingface/tokenizers

github.com

참고바랍니다.

저작자표시

'CS 지식 > AI 관련' 카테고리의 다른 글

Transformer 바닥부터 이해하기 - 2. Transformer 구조 (1)	2025.03.09
Transformer 바닥부터 이해하기 - 1. Attention 이해하기 (0)	2025.03.08
Effective LLMs and MoE (Mixture of Experts) (0)	2025.02.12
Transformer 바닥부터 이해하기 - 0. Transformer 이전의 NLP 역사들 (0)	2025.02.12
Multimodal AI에 대한 여러 의견과 주요 모델들 (2)	2025.02.09

@ray5273 :: Micro Changes, Macro Impact

개발 및 IT 관련 포스팅을 작성 하는 블로그입니다.

IT 기술 및 개인 개발에 대한 내용을 작성하는 블로그입니다. 많은 분들과 소통하며 의견을 나누고 싶습니다.

1. Video, Audio, Text의 Embedding model은 어떤 종류가 있고 어떻게 다르게 생겼는지?

Video embedding의 예시

Audio Embedding의 예시

파형을 사용하는 embedding케이스

스펙트로그램을 input으로 사용하는 embedding 케이스

2. Video나 Audio의 학습단위는 무엇인지? video나 audio 임베딩 모델도 transformer 모델을 사용하는 경우가 있을지?

Video의 경우 - Vision Transfomer (ViT)가 유명함.

Audio - 여러가지 Transformer 기반 모델

3. 최신의 GPT 모델이나 오픈소스 LLM 모델들은 embedding 사이즈가 얼마나 커지고 있는지? 계속 커지고 있는지?

4. Special Token의 종류가 LLM별로 얼마나 다양한지?

5. 한국어는 BPE tokenizing을 하면 결과가 어떻게 보이는지? 다른 tokenizer를 써야하는지?

한국어를 활용한 Byte-Pair Encoding

Google Sentence Tokenizer 사용한 한국어 Token화

'CS 지식 > AI 관련' 카테고리의 다른 글

티스토리툴바