목록[간단 정리] (10)
TechY

이전 ChatGPT 포스팅에서 가장 인상깊게 들은 부분이 "Model needs token to think" 이었는데, 최근 deepseek r1 paper가 나와 읽다가 해당 부분에 대해 잘 설명하는 재밌는 부분이 있어 짧게 메모하려 한다. Deepseek R1 은 강화학습을 통해, 질문과 정답을 받고 정답을 잘 맞추기 위한 중간 response 를 생성해나가는 구조이다. 더 잘 정답을 맞추기 위해서 모델은 output sequence 를 스스로 만들어나간다. 아래는 논문에서 보여준 figure이다. x축은 강화학습을 진행한 횟수로, 학습을 얼마나 많이 시켰는지에 대한 것이고, y축은 모델이 정답을 맞춘 비율로 정확도 즉, 성능이라고 보면 된다. 많이 학습을 시킬 수록 모델의 성능이 올라간다는 일반..
이전 ChatGPT 포스팅에서 LLM psychology 부분에서 vague recollection과 working memory 에 대해서 이야기했다.이는 LLM memory 에 대한 것이며, LLM memory 에 영향을 주는 요소는 복합적이겠지만, value recollection vs working memory 의 관점에서 이야기한 것이다. 이 둘에 대한 간략한 설명은 아래와 같다. 1. Working Memory:지식이 잠시 머무는 공간attention mechanism을 통해 입력 간의 관계를 파악 2. Vague Recollection:parameter 에 분산되어 저장되어 있는 지식working memory가 이 저장된 지식을 활성화시켜, 적절한 출력을 생성하는 역할을 합니다.knowl..
강의를 들으면서 실시간으로 들으면서 쓰는 메모.섹션은 유튜브에 맞춰져 있습니다. (앞에 몇 개 섹션은 듣기만 했습니다) 다 쓰고 나서..들으면서 생각나는데로 쓴거라 해당 글만 가지고는 충분히 도움이 안될 수도 있을 것 같다. 영상을 들으면서 참고용으로만 보시길..Inference : generating new data from model주어진 초기값 이후에 draw 되는 많은 토큰들의 확률 분포, 그 중에 하나가 뽑힘, (one token at time)gpt2modern stack 이 처음 나온 형태지금 모델들은 이게 커진 것1.6 billion parameters지금은 trillion or serveral hundreds of billionsmax context length is 1,024 token..
최근에 openai 의 structured output 지원이 공개되었는데 기존에 지원하던 json mode보다 더 강력한 구조화 출력이 지원된다.공개 문서를 읽어보니 structured output 을 만든 방법을 간단하게 써줬길래 잊어버리고 싶지 않아 간단하게 정리해본다. 1. 학습을 많이 시킴- gpt-4o-2024-08-06 모델이 structured output 을 지원하는데, 복잡한 스키마를 이해하고 이를 기반으로 출력을 생성하게끔 학습을 많이 시켰다고 한다.- 하지만 LLM은 태생적으로 non-deterministic 하기에 deterministic 한 engineering-based approach 를 추가로 사용했다. 2. Constrained decoding- 우선 constrained..

calibration 1편에서는 calibration 이란 무엇인지와 주로 사용되는 metric 에 대해 다루었고, calibration 2편에서는 고전적인 calibration 방식이자 sklearn.calibration module 이 지원하는 방법론인 sigmoid 와 isotonic method 에 대해 알아봤다. 이번에는 딥러닝에서 사용되는 calibration method 에 대해 알아보려 한다. 참고한 논문은 아래와 같다. On Calibration of Modern Neural Networks [링크] Calibrating Deep Neural Networks using Focal Loss [링크] On Mixup Training: Improved Calibration and Predict..

지난 1편에 이어, 이번에는 model calibration 에 대한 기법들을 알아보려 한다. model calibration 기법은 크게 두 개로 나뉘어질 수 있다. 1. 모델을 학습한 후 (train-set), calibration post-processing 진행 (validate-set) 2. 모델을 학습할 때, calibration method 동시에 학습 (train-set), calibration method 에 대한 hyper-parameter tuning (validate-set) 이번에 다뤄보려고 하는 것은, 위의 1번에 해당하는 post-processing 기법이며 특히 sklearn.calibration.CalibratedClassifierCV 모듈에 있는 기법인 'sigmoid' ..

model distilation 논문을 보면, teacher model이 주어진 input 에 대한 예측값, 더 정확히는 특정 class labels 에 할당된 predicted probability 을 사용해 student model 을 학습시킨다. 이는, 모델이 주는 probability 는 모델의 knowledge 라고 할 수 있음을 시사한다. calibration 이란 예측된 probability 가 옳음의 우도 (likelihood of correctness) 를 나타내게 하는 task 를 의미한다. 한 논문의 예시를 가지고 와보면, 100개의 예측값이 있다고 하고 모델이 특정 class label 에 대한 예측 probability/confidence (probability 는 불확실성을 내포..
neural network 의 vector output 은 D를 output dimension 이라고 하면, 데이터 하나에 [1XD] 의 형태를 띄고 있다. neural netowork 모델 파라미터를 고정시키고, output vector 를 input 으로 하는, (non) linear regression 을 통해, task 를 해결하려고 할 때, input 의 형태를 보면, multi-collinearity 의 형태를 띄고 있다. multi-collinearity 는 parameter estimate 의 variance 를 크게 만들기 때문에, 평소 SVD를 해서 사용해오던 차에, 논문을 읽었는데, 글을 인용해본다. "Due to its overparameterization, the coeficien..