목록[논문 정리] (20)
TechY
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/pbe7O/btsHD6jHvBu/KLsRK06MiUc0B3dFSkkEAK/img.png)
논문 : 링크 켈리 공식이라고 알려져 있는 식에 대한 페이퍼를 읽고 정리해본다. 기본적으로 사용할 수식 표현은 아래와 같다. $X_0$ = 초기에 우리가 갖고 있는 돈$X_n$ = 투자를 특정 policy에 따라 해서 $n$ 번의 trial 후 얻게 될 돈$f$ = 우리가 갖고 있는 돈 $X$에서 betting할 금액의 비율$S$ = $n$ 번의 trial에서 우리가 돈을 딴 횟수$F$ = $n$ 번의 trial에서 우리가 돈을 잃은 횟수$n$ = 우리가 시도할 trial의 수$p$ = 승률$q$ = $1-p$ 이기면 betting한만큼 따고, 지면 그 돈을 모두 잃는다고 했을 때, 우리는 아래 수식을 얻을 수 있다. $S+F = n$$X_n = X_0 (1+f)^S (1-f)^F$ kelly crite..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/brF2ma/btrq8t9xALs/oA5jc0DgkhE2HVcQEpV4iK/img.png)
논문 링크 : [link] transfer learning 학습 방법이 딥러닝 분야에서 널리 쓰이면서, huggingface나 timm과 같은 pretrained big-model을 제공해주는 라이브러리도 많아지고 있다. 이에 따라, 실무자들은 각자에게 맞는 테스크와 데이터에 맞게, 모델을 재학습시킨다. 이 때 여러 방법들이 있는데, 첫 번째로는, fine-tuning 방식이다. 이는 작은 학습률로 모델의 전체 파라미터를 업데이트하는 방식으로, 이전 실험에 따르면, 가장 좋은 학습 결과를 가져다준다고 한다. 두 번째로는 linear probing 이라고 하는 방식으로, output head 만 바꿔서, 마지막 linear layer만 재학습시키는 방식이다. 이는, pretrained layer를 업데이트..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bwDapm/btq9XcwprYK/s2J9NOGDjEZMHZVMfN1emk/img.png)
딥러닝 기반의 time-series clustering 논문을 리뷰해보려 한다. 혹시 DEC 논문을 읽은 사람이라면, 가볍게 훑으면 다 읽을 수 있을 정도로 거의 유사한 아키텍처를 가지고 있다. 참고한 소스 코드는 해당 깃헙을 참고하였다. 1. Architecture 제시된 모델의 아키텍처는 아래 이미지와 같으며, 크게 두 개의 서브 아키텍처와 이에 해당되는 loss 로 구분 가능하다. 1. Temporal Auto Encoder : Reconstruction Loss 2. Clustering Net : KL divergence loss 1.1 Temporal Auto Encoder 이부분은 간단하며, 크게 어려운 부분이 없다. spatio-temporal 한 특징을 잡기 위해, Convolution 연..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/dgi4dd/btq9O7pxOC5/TqqWqxTdxkMYjpjXiebe0k/img.png)
Time series clustering 분야 논문을 찾던 도중에, 어렵지만 (내겐) 인용도 많이 되고, 구현도 잘 되어 있는 논문이길래 읽어보았다. 또한 무엇보다 선행 연구 정리가 잘 되어 있다! 수학적으로는 모두 이해하지는 못했지만, 일단 어떻게든 읽었으니 기록해두겠다.. 논문은 자신의 알고리즘을 이야기하기 전에, time-series clustering 을 위해 필요한 성분(?) 들을 하나씩 정리하는데 이것부터 이야기해보려 한다. 1. Time-series Invariances : 시계열 데이터를 클러스터링하려면 이들 간의 distance 를 계산해야 하는데, 시계열 데이터는 어떤 이유로는 시퀀스에 왜곡이 생긴 경우가 존재한다. 이렇게 되면 유사도를 계산할 때, 적합한 결과값이 나오지 않을 수 있는..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cfmwUf/btq7Wwqneih/oCCoQFT2HoCZKhracP5yMk/img.png)
여러 종류의 data 가 많다는 가정 하에, 우리는 많은 가정들을 세울 수 있다. "사람의 음성과 문장, 그리고 행동은 그 사람의 감정을 잘 맞출 것이다." 라는 것과 같이 말이다. 최근, Multi-modal learning 분야를 보면서, 이런게 진짜 end-to-end 구나 라는 생각이 들었다. 가지고 있는 데이터를 전부 각기 다른 vector space 로 보내서, 합쳐버리는데, 이 때 어떻게 합칠 것인지도 학습하는 이런 학습 방법은, 다양한 아이디어를 모델까지 부드럽고 효율적으로 이어주는데 중요한 역할을 할 것으로 느껴진다. Multi-modal 분야의 survey 논문을 보니, 해당 영역은 크게 아래와 같이 4가지로 나뉘어진다. - Representation : multiple modaliti..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/VunN9/btq6RJe2aq5/VGxaMjUZ9olrFkXkfHT8e1/img.png)
제목이 멋있어서, 읽었지만, 유명한 augmentation 기법을 다룬 논문인, mix-up 에 대해 이야기해보겠다. 본 논문과 함께 참고하고 다룰 논문은 아래 두 논문이다. Augmenting Data with Mixup for Sentence Classification: An Empirical Study On Mixup Training: Improved Calibration and Predictive Uncertainty for Deep Neural Networks 논문은 초반에 empirical risk minimization(ERM) 과 vicinal risk minimization(VRM) 에 대해 이야기한다. 우선, ERM 에 대해 이야기해보자면, 컨셉은 간단하다. "우리가 경험한 것에 따라 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/BHRSo/btq6PbPrZxs/Pb8qUpaxZx0SdDHkXvI140/img.png)
어떤 분야를 공부하려고 마음을 먹으면, 어떤 논문을 어떤 순서로 읽어야 할지, 아득해지곤 한다. 이럴 때 가장 좋은 방법은 survey 논문을 읽는 것이라는 이야기가 있길래 시도해보았는데, 엄청난 노력의 산물을 맞닥뜨리니 너무나도 감사하게 잘 읽었다. 앞으로 survey 를 쭉 훑는 포스팅을 해봐도 재밌을 것 같은데.. 거두절미하고, 최근 metric learning 에 관심이 생기기 시작했다. 그 이유로는, classification/regression task 가 아닌 특정 task 에 잘 fitting 된 임베딩을 얻을 일이 생겨, 간단하게 코드 구현을 했는데, 학습과 결과가 마음에 들었기 때문이다. 결과를 보고 공부를 시작하는게 좀 이상해보이긴 하지만, 이제라도 좀 알고 써보려 한다. Metric..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/GvEgw/btq580u24x9/ILJJDOVyDkOkQpKKH8KKy1/img.png)
최근 model compression 에 관심이 생겨, 논문을 찾아보던 와중, 인용 수가 높아보여서 읽어본 논문이다. 코드는 해당 깃헙을 참고하였다. 해당 논문은 network pruning 기법을 사용한다. network pruning 이란 가지치기라는 말과 마찬가지로, neural network 가 가지고 있는 weight matrix 의 중요도를 계산한 이후, 상대적으로 중요도가 낮은 neuron 또는 connection을 masking 하는 기법이다. 해당 논문에서는 그 중, 파라미터인 neuron을 마스킹하는 방법을 사용한다. 논문이 제시한 학습 순서는 아래와 같다. 우선, 우리가 가지고 있는 모델을 학습한다. (pre-trained model도 좋은 선택이다.) 흥미로운 부분이 있는데, 논문의..