목록[간단 정리] (13)
TechY
개발자를 위한 컴퓨터공학 1: 혼자 공부하는 컴퓨터구조 + 운영체제 : 링크 컴퓨터가 이해하는 정보데이터명령어컴퓨터의 네 가지 핵심 부품CPU메모리 (주기억장치)보조기억장치입력출력장치메모리현재 실행되는 프로그램에 데이터와 명령어를 저장하는 부품메모리에는 주소라는 것이 있음. 원하는 명령어와 데이터의 위치를 특정하기 위한 것이 주소프로그램이 실행되기 위해서는 메모리에 저장되어 있어야 함CPU메모리에 저장된 명령어를 읽어 들이고, 해석하고 실행하는 부품ALU, 제어장치, 레지스터 이렇게 3개가 핵심 부품임ALU : 계산기레지스터 : cpu 내부의 작은 저장장치제어장치 : 제어 신호를 내보내고, 명령어를 해석하는 장치제어 신호 : 부품들을 관리하고 작동시키기 위한 전기 신호메모리 읽기 (read from me..
Cursor 보안 문서(공식 링크)를 읽다 보니 코드 인덱싱 방식이 꽤 흥미로워서 관련 기술 요소인 Merkle Tree와 Turbopuffer에 대해 정리해본다.단순히 코드를 검색하는 걸 넘어서, 로컬과 서버 간의 해시 동기화 방식이나 벡터 검색 시스템 설계에 실용적인 포인트들이 많아 보임.Merkle TreeMerkle Tree는 해시 기반 트리 구조로, 파일 집합 전체의 무결성을 추적하고 변경된 부분만 효율적으로 감지하는 데 유용하다.Git이나 블록체인에서도 핵심적으로 사용되는 구조.구조리프 노드: 개별 파일 혹은 데이터 청크의 해시값상위 노드: 자식 노드 두 개의 해시값을 연결해 다시 해시한 값루트 노드: 전체 데이터셋의 최종 대표 해시예시: H(root) / \..

요새 deep research 기능이 다양한 챗봇들에서 보이는데, 이걸 돌리고 trajectory 를 가만히 읽어보면 아래와 같은 구조를 갖고 있는 것 같다는 생각이 들었다.생각 -> 서치 -> 관측 -> 생각 -> 서치 -> 관측 -> ...더보기이건 아래와 같이 추상화가 될 수 있겠다는 생각이 들었다.생각(관측_t) -> 서치, 관측_0 = user question, 서치 = action생각이라는 고정된 함수가 주어진 관측값을 갖고 어떤 액션을 취하는 것이다.강화 학습 scheme 으로 치환하면 생각은 policy, 관측은 state, 서치는 action이다. $\rightarrow \pi(a|s) = Pr(A_t=a|S_t=s)$ 이러한 공상을 하다가, 이러한 구조로 llm agent 를 만들었던 ..

이전 ChatGPT 포스팅에서 가장 인상깊게 들은 부분이 "Model needs token to think" 이었는데, 최근 deepseek r1 paper가 나와 읽다가 해당 부분에 대해 잘 설명하는 재밌는 부분이 있어 짧게 메모하려 한다. Deepseek R1 은 강화학습을 통해, 질문과 정답을 받고 정답을 잘 맞추기 위한 중간 response 를 생성해나가는 구조이다. 더 잘 정답을 맞추기 위해서 모델은 output sequence 를 스스로 만들어나간다. 아래는 논문에서 보여준 figure이다. x축은 강화학습을 진행한 횟수로, 학습을 얼마나 많이 시켰는지에 대한 것이고, y축은 모델이 정답을 맞춘 비율로 정확도 즉, 성능이라고 보면 된다. 많이 학습을 시킬 수록 모델의 성능이 올라간다는 일반..
이전 ChatGPT 포스팅에서 LLM psychology 부분에서 vague recollection과 working memory 에 대해서 이야기했다.이는 LLM memory 에 대한 것이며, LLM memory 에 영향을 주는 요소는 복합적이겠지만, value recollection vs working memory 의 관점에서 이야기한 것이다. 이 둘에 대한 간략한 설명은 아래와 같다. 1. Working Memory:지식이 잠시 머무는 공간attention mechanism을 통해 입력 간의 관계를 파악 2. Vague Recollection:parameter 에 분산되어 저장되어 있는 지식working memory가 이 저장된 지식을 활성화시켜, 적절한 출력을 생성하는 역할을 합니다.knowl..
강의를 들으면서 실시간으로 들으면서 쓰는 메모.섹션은 유튜브에 맞춰져 있습니다. (앞에 몇 개 섹션은 듣기만 했습니다) 다 쓰고 나서..들으면서 생각나는데로 쓴거라 해당 글만 가지고는 충분히 도움이 안될 수도 있을 것 같다. 영상을 들으면서 참고용으로만 보시길..Inference : generating new data from model주어진 초기값 이후에 draw 되는 많은 토큰들의 확률 분포, 그 중에 하나가 뽑힘, (one token at time)gpt2modern stack 이 처음 나온 형태지금 모델들은 이게 커진 것1.6 billion parameters지금은 trillion or serveral hundreds of billionsmax context length is 1,024 token..
최근에 openai 의 structured output 지원이 공개되었는데 기존에 지원하던 json mode보다 더 강력한 구조화 출력이 지원된다.공개 문서를 읽어보니 structured output 을 만든 방법을 간단하게 써줬길래 잊어버리고 싶지 않아 간단하게 정리해본다. 1. 학습을 많이 시킴- gpt-4o-2024-08-06 모델이 structured output 을 지원하는데, 복잡한 스키마를 이해하고 이를 기반으로 출력을 생성하게끔 학습을 많이 시켰다고 한다.- 하지만 LLM은 태생적으로 non-deterministic 하기에 deterministic 한 engineering-based approach 를 추가로 사용했다. 2. Constrained decoding- 우선 constrained..

calibration 1편에서는 calibration 이란 무엇인지와 주로 사용되는 metric 에 대해 다루었고, calibration 2편에서는 고전적인 calibration 방식이자 sklearn.calibration module 이 지원하는 방법론인 sigmoid 와 isotonic method 에 대해 알아봤다. 이번에는 딥러닝에서 사용되는 calibration method 에 대해 알아보려 한다. 참고한 논문은 아래와 같다. On Calibration of Modern Neural Networks [링크] Calibrating Deep Neural Networks using Focal Loss [링크] On Mixup Training: Improved Calibration and Predict..