목록[논문 정리] (22)
TechY
어떤 분야를 공부하려고 마음을 먹으면, 어떤 논문을 어떤 순서로 읽어야 할지, 아득해지곤 한다. 이럴 때 가장 좋은 방법은 survey 논문을 읽는 것이라는 이야기가 있길래 시도해보았는데, 엄청난 노력의 산물을 맞닥뜨리니 너무나도 감사하게 잘 읽었다. 앞으로 survey 를 쭉 훑는 포스팅을 해봐도 재밌을 것 같은데.. 거두절미하고, 최근 metric learning 에 관심이 생기기 시작했다. 그 이유로는, classification/regression task 가 아닌 특정 task 에 잘 fitting 된 임베딩을 얻을 일이 생겨, 간단하게 코드 구현을 했는데, 학습과 결과가 마음에 들었기 때문이다. 결과를 보고 공부를 시작하는게 좀 이상해보이긴 하지만, 이제라도 좀 알고 써보려 한다. Metric..
최근 model compression 에 관심이 생겨, 논문을 찾아보던 와중, 인용 수가 높아보여서 읽어본 논문이다. 코드는 해당 깃헙을 참고하였다. 해당 논문은 network pruning 기법을 사용한다. network pruning 이란 가지치기라는 말과 마찬가지로, neural network 가 가지고 있는 weight matrix 의 중요도를 계산한 이후, 상대적으로 중요도가 낮은 neuron 또는 connection을 masking 하는 기법이다. 해당 논문에서는 그 중, 파라미터인 neuron을 마스킹하는 방법을 사용한다. 논문이 제시한 학습 순서는 아래와 같다. 우선, 우리가 가지고 있는 모델을 학습한다. (pre-trained model도 좋은 선택이다.) 흥미로운 부분이 있는데, 논문의..
말그대로 흥미로운 논문이다. 소스 코드는 깃헙을 참고하였다. 논문에서 진행한 연구는 크게 2가지로 나눌 수 있다. 1. Neural Network 모델이 학습한 representation은 individual unit 이 아닌, space에서 유의미하다. 2. Neural Network 모델은 input-output mapping에 있어서 상당히 불연속적인 모습을 보여주며, 이에 따라, 인식하기 어려운 pertubatation을 통해서도 pretrained model의 기존 의사결정을 바꿀 수 있음을 보인다. 1. Units of: φ(x) Neural Network 모델의 특징 중 하나는 feature representation이라고 할 수 있다. 즉, 특정 input을 사용자에 의해 정해진 차원 크기..
GAN 논문의 수식적 정리를 해보려 한다. 수식과 이미지는 원 논문과 최윤제 님의 자료를 참고 및 첨부하였다. 틀린 부분이나 빠뜨린 부분은 향후 지속적으로 보강할 예정이다. GAN의 컨셉은 원 데이터 X의 분포를 학습하려는 G 와 이로부터, 생성된 데이터 G(z)와 진짜 데이터 X를 구분해내는 D를 번갈아가며 학습하는 것이다. GAN이 이전에 포스팅했던 VAE와 같이, Generative Model이기 때문에, Generator를 학습시키고 싶은 것이고, 수식적으로는 p(x)에 근사하는, generator distribution p_g(x)를 구하고 싶은 것이다. 이를 구하기 위해, prior noise variable z가 p_z에서 샘플링되고, 이를 deterministic function G(.) ..
Variational Auto Encoder (VAE) 에 대한 수학적 정리를 해보려 한다. 이해가 쉽지 않은 논문이라 논문을 읽고 정리하기 보다는, Clova 이활석 님 발표와 ratsgo 님, 마지막으로 GAN tutorial, VAE tutorial 자료를 많이 참고하였고 이미지 또한 이에 따른 것이다. 또한, 이미지는 잘못 이해하였거나 틀린 부분이 있는 경우에 계속적으로 공부하면서 수정할 예정이다. Generative Model VAE 모델은 우선 Generative Model 이다. 따라서, Generative Model이 무엇인지 간략하게 짚고 넘어가려 한다. 아래 두 개의 이미지가 나름 직관적이라 이를 통해 이야기를 해보려 한다. Generative Model 은 Latent Variable..
LM 테스크를 통해 pre-train되는 큰 모델들은 domain의 편향없이 general-corpus 에서 학습되곤 한다. 하지만 finance 나 medical 분야 등 domain-specific corpus가 많고 그 의미 차이가 분명한 분야에서는 domain adaptation 의 방법으로 모델을 fine-tuning할 필요가 있다. 해당 논문은 pre-trained 모델에 네 가지 다른 도메인 데이터에 대한 pre-training 실험을 진행한 논문이다. 논문에서 진행한 실험은 아래와 같다. 1. DAPT (Domain-adaptitve pre-training) 2. TAPT (Task-Adaptive pre-training) 3. Curated-TAPT 0. 데이터 논문에서 사용한 domai..
조경현 교수님의 RNN Seq2Seq 논문에 이어 구글에서 나온 논문 Sequence to Sequence Learning with Neural Networks 논문에 대해 다뤄보도록 하겠습니다. 모든 내용과 이미지는 해당 논문을 참고합니다. Abstract 우리는 일반적인 end-to-end approach 를 사용해서 시퀀스를 학습한다. RNN Encoder-Decoder 모델을 학습하는데 있어서, Multi-layer LSTM 을 사용할 것이다. 또한, 우리는 source sentence 의 순서를 역으로(reversing) 만드는 것이 긴 문장에 대해서 장거리 의존성을 해결하고, 성능 향상에 도움을 준다는 것을 확인했다. Introduction DNN(Deep Neural Network) 모델은 ..
Dzmitry Bahdanau와 조경현 교수님이 함께하신 논문 Neural Machine Translation by Jointly Learning to Align and Translate 논문에 대해 다뤄보도록 하겠습니다. 모든 내용과 이미지는 해당 논문을 참고합니다. Abstract RNN Encoder-Decoder 모델의 특성 상, information compression이 발생하고, 이에 따른 고정 길이 벡터의 보틀넥(bottleneck) 현상이 발생, 이에 다라, Encoder-Decoder 모델에서 더 나아가서 모델이 자동적으로 target sequence와 관련이 있는(유사한,relevant) source sequence를 찾게 하는 방법을 제시한다. Introduction 이전 논문들이 ..