목록[논문 정리] (22)
TechY
논문 : 링크 residual network 의 수식 표현은 아래와 같다.$y_l = h(x_l) + F(x_l, W_l)$$x_{l+1} = f(y_l)$ residual learning을 처음 제시했던 논문 에서는 $h$ 는 identity mapping 이었고, $f$ 는 ReLU 였다.해당 논문에서는 $h, f$ 를 identity 로 만드는 것이 최적화를 쉽게 만들어주고 이에 따른 모델 성능 부스트에 효과적임을 보인다. 우선 $h, f$ 를 identity 로 만드는 것이 최적화를 쉽게 만들어주는 것에 대한 수식적 접근을 보면 아래와 같다. 위에 쓴 식에서 $h, f = \mathbb{I}$ 라고 하면 아래와 같이 단순해진다.$x_{l+1} = x_l + F(x_l, W_l)$ 이 식은 일종의 ..
논문 : 링크문제 인식neural network 의 깊이가 깊어질 때, 어느 정도 높아지다가 일정 수준에서 성능 감소가 발생하는 degradation 이 있음.저자는 이를 overfitting 의 이슈로 보지 않음. 그 이유는 test 뿐만 아니라 training 에서도 그 error 가 상승하기 때문, 이에 따라 저자는 모델의 깊이가 깊어질 수록 최적화의 난이도가 함께 변화한다고 보았음. 방법 제안저자는 $n$ th layer 까지 학습한 representation 이 있고, $n+1$ th layer 를 추가했을 때 해당 layer 가 identity mapping 이라면 $n$ th layer network 보다 성능이 나빠지지 않아야 한다는 것으로 시작했다. 또한 이전 layer (shallowe..
논문 : 링크 켈리 공식이라고 알려져 있는 식에 대한 페이퍼를 읽고 정리해본다. 기본적으로 사용할 수식 표현은 아래와 같다. $X_0$ = 초기에 우리가 갖고 있는 돈$X_n$ = 투자를 특정 policy에 따라 해서 $n$ 번의 trial 후 얻게 될 돈$f$ = 우리가 갖고 있는 돈 $X$에서 betting할 금액의 비율$S$ = $n$ 번의 trial에서 우리가 돈을 딴 횟수$F$ = $n$ 번의 trial에서 우리가 돈을 잃은 횟수$n$ = 우리가 시도할 trial의 수$p$ = 승률$q$ = $1-p$ 이기면 betting한만큼 따고, 지면 그 돈을 모두 잃는다고 했을 때, 우리는 아래 수식을 얻을 수 있다. $S+F = n$$X_n = X_0 (1+f)^S (1-f)^F$ kelly crite..
논문 링크 : [link] transfer learning 학습 방법이 딥러닝 분야에서 널리 쓰이면서, huggingface나 timm과 같은 pretrained big-model을 제공해주는 라이브러리도 많아지고 있다. 이에 따라, 실무자들은 각자에게 맞는 테스크와 데이터에 맞게, 모델을 재학습시킨다. 이 때 여러 방법들이 있는데, 첫 번째로는, fine-tuning 방식이다. 이는 작은 학습률로 모델의 전체 파라미터를 업데이트하는 방식으로, 이전 실험에 따르면, 가장 좋은 학습 결과를 가져다준다고 한다. 두 번째로는 linear probing 이라고 하는 방식으로, output head 만 바꿔서, 마지막 linear layer만 재학습시키는 방식이다. 이는, pretrained layer를 업데이트..
딥러닝 기반의 time-series clustering 논문을 리뷰해보려 한다. 혹시 DEC 논문을 읽은 사람이라면, 가볍게 훑으면 다 읽을 수 있을 정도로 거의 유사한 아키텍처를 가지고 있다. 참고한 소스 코드는 해당 깃헙을 참고하였다. 1. Architecture 제시된 모델의 아키텍처는 아래 이미지와 같으며, 크게 두 개의 서브 아키텍처와 이에 해당되는 loss 로 구분 가능하다. 1. Temporal Auto Encoder : Reconstruction Loss 2. Clustering Net : KL divergence loss 1.1 Temporal Auto Encoder 이부분은 간단하며, 크게 어려운 부분이 없다. spatio-temporal 한 특징을 잡기 위해, Convolution 연..
Time series clustering 분야 논문을 찾던 도중에, 어렵지만 (내겐) 인용도 많이 되고, 구현도 잘 되어 있는 논문이길래 읽어보았다. 또한 무엇보다 선행 연구 정리가 잘 되어 있다! 수학적으로는 모두 이해하지는 못했지만, 일단 어떻게든 읽었으니 기록해두겠다.. 논문은 자신의 알고리즘을 이야기하기 전에, time-series clustering 을 위해 필요한 성분(?) 들을 하나씩 정리하는데 이것부터 이야기해보려 한다. 1. Time-series Invariances : 시계열 데이터를 클러스터링하려면 이들 간의 distance 를 계산해야 하는데, 시계열 데이터는 어떤 이유로는 시퀀스에 왜곡이 생긴 경우가 존재한다. 이렇게 되면 유사도를 계산할 때, 적합한 결과값이 나오지 않을 수 있는..
여러 종류의 data 가 많다는 가정 하에, 우리는 많은 가정들을 세울 수 있다. "사람의 음성과 문장, 그리고 행동은 그 사람의 감정을 잘 맞출 것이다." 라는 것과 같이 말이다. 최근, Multi-modal learning 분야를 보면서, 이런게 진짜 end-to-end 구나 라는 생각이 들었다. 가지고 있는 데이터를 전부 각기 다른 vector space 로 보내서, 합쳐버리는데, 이 때 어떻게 합칠 것인지도 학습하는 이런 학습 방법은, 다양한 아이디어를 모델까지 부드럽고 효율적으로 이어주는데 중요한 역할을 할 것으로 느껴진다. Multi-modal 분야의 survey 논문을 보니, 해당 영역은 크게 아래와 같이 4가지로 나뉘어진다. - Representation : multiple modaliti..
제목이 멋있어서, 읽었지만, 유명한 augmentation 기법을 다룬 논문인, mix-up 에 대해 이야기해보겠다. 본 논문과 함께 참고하고 다룰 논문은 아래 두 논문이다. Augmenting Data with Mixup for Sentence Classification: An Empirical Study On Mixup Training: Improved Calibration and Predictive Uncertainty for Deep Neural Networks 논문은 초반에 empirical risk minimization(ERM) 과 vicinal risk minimization(VRM) 에 대해 이야기한다. 우선, ERM 에 대해 이야기해보자면, 컨셉은 간단하다. "우리가 경험한 것에 따라 ..