TechY

Model needs token to think 본문

[간단 정리]

Model needs token to think

hskimim 2025. 2. 15. 14:47

이전 ChatGPT 포스팅에서 가장 인상깊게 들은 부분이 "Model needs token to think" 이었는데, 최근 deepseek r1 paper가 나와 읽다가 해당 부분에 대해 잘 설명하는 재밌는 부분이 있어 짧게 메모하려 한다.

 

Deepseek R1 은 강화학습을 통해, 질문과 정답을 받고 정답을 잘 맞추기 위한 중간 response 를 생성해나가는 구조이다. 더 잘 정답을 맞추기 위해서 모델은 output sequence 를 스스로 만들어나간다.

 

아래는 논문에서 보여준 figure이다. 

 

 

x축은 강화학습을 진행한 횟수로, 학습을 얼마나 많이 시켰는지에 대한 것이고, y축은 모델이 정답을 맞춘 비율로 정확도 즉, 성능이라고 보면 된다. 많이 학습을 시킬 수록 모델의 성능이 올라간다는 일반적인 이야기이며, RL post-training 의 효과가 있다는 것을 보인다.

 

재밌는 것은 그 다음인데, x축은 위의 figure와 같은 것을 의미하며, y축은 모델이 반환한 output response 의 평균 길이를 의미한다. 학습이 더 많이 될 수록 평균적으로 더 긴 response 를 반환한다는 것을 알 수 있다. 모델의 학습이 진행될 수록, 성능은 좋아지며 이 과정에서 모델은 평균 응답 길이가 길어지는 방식으로 이를 달성하는 것이다.

 

 

이는 풀려고 하는 문제가 어려워질 수록 require total computation 이 높다고 할 수 있고, 토큰 하나 하나는 동일한 모델에 feed되기 때문에, 토큰 단위로 finite computation 을 사용하기에, 많은 token을 반환하여, require computation 을 token 별로 나눠서 할당해 이를 달성한다는 관점에 따른다.

 

논문에는 나오지 않았지만, 아래와 같은 결과가 나오게 될 것임을 알 수 있다.

 

  1. 문제가 어려울 수록 평균 response가 더 길 것이다.
  2. 아래는 deepseek r-1에서 사용한 응답의 template으로 항상 answer 가 think 의 뒤에 나오는데 (first thinks ... and then provides .. with the answer) 만약 이 순서를 거꾸로 한다면 (<answer>...</answer><think>...</think>) 첫 번째 figure와 같은 학습 효과가 발현되지 않을 것이다.

추가적으로 상상해본 것이 있는데.. 

  • response token length 에 대한 penalty 를 함께 걸면 어떻게 될까? 제한된 환경에서 높은 성능을 달성하기 위해서 모델은 어떤 token 들을 반환할까? 
    • 우선, human friendly 한 response 에서 점점 멀어지게 될 것이다. 조사같은 것들을 다 제외할 것이다.기호를 사용하게 될 수도 있다.
    • 자기만의 기호를 만들거나, 인간이 사용하는 논리 기호를 사용하게 될 수도 있다. 그러면 진정한 의미의 neuro-symbolic 이 나올 수도 있다.