목록분류 전체보기 (61)
TechY
kernel method pattern analysis의 목적은 general type of relation in dataset이라고 할 수 있다. 다양한 algorithm을 통해 이를 해결할 수 있는데 이중 kernel method는 kernel function으로 high-dimensional mapping 을 하며, inner-product를 통해 이들 간의 similarity(relation) 를 계산한다. Φ(𝑥𝑖)𝑇Φ(𝑥𝑗) kernel trick 위의 연산은 고차원 연산과 내적 연산이 따로 이루어져, computationally expensive 하다. mercer's theorem에 따라, 두 연산을 한 번에 진행해주는 kernel function 𝐾K를 정의한다. 𝐾(𝑥𝑖,𝑥𝑗)=Φ(𝑥𝑖..
GAN 논문의 수식적 정리를 해보려 한다. 수식과 이미지는 원 논문과 최윤제 님의 자료를 참고 및 첨부하였다. 틀린 부분이나 빠뜨린 부분은 향후 지속적으로 보강할 예정이다. GAN의 컨셉은 원 데이터 X의 분포를 학습하려는 G 와 이로부터, 생성된 데이터 G(z)와 진짜 데이터 X를 구분해내는 D를 번갈아가며 학습하는 것이다. GAN이 이전에 포스팅했던 VAE와 같이, Generative Model이기 때문에, Generator를 학습시키고 싶은 것이고, 수식적으로는 p(x)에 근사하는, generator distribution p_g(x)를 구하고 싶은 것이다. 이를 구하기 위해, prior noise variable z가 p_z에서 샘플링되고, 이를 deterministic function G(.) ..
Variational Auto Encoder (VAE) 에 대한 수학적 정리를 해보려 한다. 이해가 쉽지 않은 논문이라 논문을 읽고 정리하기 보다는, Clova 이활석 님 발표와 ratsgo 님, 마지막으로 GAN tutorial, VAE tutorial 자료를 많이 참고하였고 이미지 또한 이에 따른 것이다. 또한, 이미지는 잘못 이해하였거나 틀린 부분이 있는 경우에 계속적으로 공부하면서 수정할 예정이다. Generative Model VAE 모델은 우선 Generative Model 이다. 따라서, Generative Model이 무엇인지 간략하게 짚고 넘어가려 한다. 아래 두 개의 이미지가 나름 직관적이라 이를 통해 이야기를 해보려 한다. Generative Model 은 Latent Variable..
LM 테스크를 통해 pre-train되는 큰 모델들은 domain의 편향없이 general-corpus 에서 학습되곤 한다. 하지만 finance 나 medical 분야 등 domain-specific corpus가 많고 그 의미 차이가 분명한 분야에서는 domain adaptation 의 방법으로 모델을 fine-tuning할 필요가 있다. 해당 논문은 pre-trained 모델에 네 가지 다른 도메인 데이터에 대한 pre-training 실험을 진행한 논문이다. 논문에서 진행한 실험은 아래와 같다. 1. DAPT (Domain-adaptitve pre-training) 2. TAPT (Task-Adaptive pre-training) 3. Curated-TAPT 0. 데이터 논문에서 사용한 domai..
조경현 교수님의 RNN Seq2Seq 논문에 이어 구글에서 나온 논문 Sequence to Sequence Learning with Neural Networks 논문에 대해 다뤄보도록 하겠습니다. 모든 내용과 이미지는 해당 논문을 참고합니다. Abstract 우리는 일반적인 end-to-end approach 를 사용해서 시퀀스를 학습한다. RNN Encoder-Decoder 모델을 학습하는데 있어서, Multi-layer LSTM 을 사용할 것이다. 또한, 우리는 source sentence 의 순서를 역으로(reversing) 만드는 것이 긴 문장에 대해서 장거리 의존성을 해결하고, 성능 향상에 도움을 준다는 것을 확인했다. Introduction DNN(Deep Neural Network) 모델은 ..
Dzmitry Bahdanau와 조경현 교수님이 함께하신 논문 Neural Machine Translation by Jointly Learning to Align and Translate 논문에 대해 다뤄보도록 하겠습니다. 모든 내용과 이미지는 해당 논문을 참고합니다. Abstract RNN Encoder-Decoder 모델의 특성 상, information compression이 발생하고, 이에 따른 고정 길이 벡터의 보틀넥(bottleneck) 현상이 발생, 이에 다라, Encoder-Decoder 모델에서 더 나아가서 모델이 자동적으로 target sequence와 관련이 있는(유사한,relevant) source sequence를 찾게 하는 방법을 제시한다. Introduction 이전 논문들이 ..
Transformer 논문에 나오는 self-attention을 먼저 제시한 논문인 A Structured Self-Attentive Sentence Embedding 논문과 이러한 모델이 multi-head attention 을 적용하였을 때, generalized pooling 을 제시한 논문, Enhancing Sentence Embedding with Generalized Pooling 을 간략하게 정리해보려 한다. 부족한 경험이지만, 논문을 하나씩 읽으면서 느끼는 것은 기발하고 훌륭한 아이디어를 내는 논문들은 정말 간단한 로직이라는 것이다. 논문을 읽으면서, 기존의 연구에 간단한 레이어를 통해 또 다른 많은 질문들을 제시하는 논문이라는 생각이 들었다. (그 결과가 transformer 아닐까) ..
FAIR팀에서 2016년에 제안한 Unsupervised Deep Embedding for Clustering Analysis 논문을 간단하게 정리하려 한다. 해당 논문은 Input 데이터를 임베딩하고 클러스터링까지 함께 함으로써, 클러스터링에 적합한 임베딩을 학습한다는 것에 학습의 목표가 있다. 모델이 학습하는 과정을 하나씩 살펴보면 아래와 같다. 1) 인풋 데이터를 Stacked Auto Encoder 에 encoding 하면서 Latent Vector Space 로 차원 축소를 해준다. 2) encoding 된 latent vector 를 미리 정해둔 K개의 클러스터로 클러스터링해준다. 이 과정에서 centroid와 데이터 포인트 간 거리로 첫 번째 loss 가 도출된다. 3) 다시 latent v..