TechY
LLM working-memory vs vague recollection 본문
이전 ChatGPT 포스팅에서 LLM psychology 부분에서 vague recollection과 working memory 에 대해서 이야기했다.
이는 LLM memory 에 대한 것이며, LLM memory 에 영향을 주는 요소는 복합적이겠지만, value recollection vs working memory 의 관점에서 이야기한 것이다. 이 둘에 대한 간략한 설명은 아래와 같다.
1. Working Memory:
- 지식이 잠시 머무는 공간
- attention mechanism을 통해 입력 간의 관계를 파악
2. Vague Recollection:
- parameter 에 분산되어 저장되어 있는 지식
- working memory가 이 저장된 지식을 활성화시켜, 적절한 출력을 생성하는 역할을 합니다.
knowledge in the parameters 은 vague recollection of internet document이다.
internet document를 LLM 내의 제한적인 vector space 에 때려박기 때문에, 모든 것이 독립적으로 sparse 하게 존재하지는 못하고, 흐릿하게 (dense) 존재한다는 것이다. 흐릿하게 존재한다는 것은 학습 과정에서 경험한 모든 것들이 선명하게 기억 자체가 잘 안난다는 것도 있지만, 흐릿하게 존재함에 따라 유사한 경험이 서로 연결되어 있음을 이야기하기도 한다.
이 때, 더 많이 경험한 것은 더 선명하게 되며, (분산이 낮은 정규분포는 더 뾰족해지는데, 이건 어떤 의미에서는 선명하다고 생각할 수 있다.) model 은 이를 달달 외울 수도 있게 되고, 관련된 경험이 발생하면, 바로 해당 기억이 호출된다.
반대로 자주 안보던 기억은 점점 희미해지며, 기억의 저편으로 밀려들어가, 잘 호출되기 어렵고 호출된다고 하더라도 기억 속에서 경험했던 그 기억의 원본을 얻기 어렵다. 이 과정에서 hallucination 이 발생하기도 한다.
knowledge in the tokens of the context window 은 working memory 이다.
관련된 텍스트를 prompt 에 넣어 모델의 입력에 넣으면, 그 입력은 모델의 아키텍쳐를 쭉 지나친다. LLM은 알다시피 next token prediction으로 학습되며 이는 앞선 토큰이 들어가면 그 다음에 나올 토큰들이 ignite 되게끔 하는 구조이다.
이러한 메커니즘에 따라, 어떤 문장에 담긴 토큰들이 모델을 순서대로 통과하면, 모델 파라미터 안에 있는 vague knowledge 들이 아무리 vague 하더라도 앞선 토큰들이 일종의 촉매역할을 해, 불이 켜지게 된다.
불이 켜진다는 건, 은유이고 attention 메커니즘이 작동한다는 것이며, 앞선 Input sequence가 통째로 들어가면서 내부적으로 query 를 하게 되기에 흐릿한 기억들이 끄집어내지는 것이다.
tokens of the context window 는 working memory 임과 동시에 LLM 내부 memory 를 향한 query 가 된다.
'[간단 정리]' 카테고리의 다른 글
Model needs token to think (0) | 2025.02.15 |
---|---|
Karpathy ChatGPT 강의 메모 (0) | 2025.02.09 |
OpenAI's structured output (0) | 2024.09.11 |
[간단 정리] model calibration 에 대해 알아보자 (3) (2) | 2021.11.22 |
[간단 정리] model calibration 에 대해 알아보자 (2) (0) | 2021.11.06 |