목록2025/03/05 (1)
TechY

요새 deep research 기능이 다양한 챗봇들에서 보이는데, 이걸 돌리고 trajectory 를 가만히 읽어보면 아래와 같은 구조를 갖고 있는 것 같다는 생각이 들었다.생각 -> 서치 -> 관측 -> 생각 -> 서치 -> 관측 -> ...더보기이건 아래와 같이 추상화가 될 수 있겠다는 생각이 들었다.생각(관측_t) -> 서치, 관측_0 = user question, 서치 = action생각이라는 고정된 함수가 주어진 관측값을 갖고 어떤 액션을 취하는 것이다.강화 학습 scheme 으로 치환하면 생각은 policy, 관측은 state, 서치는 action이다. $\rightarrow \pi(a|s) = Pr(A_t=a|S_t=s)$ 이러한 공상을 하다가, 이러한 구조로 llm agent 를 만들었던 ..
[간단 정리]
2025. 3. 5. 00:50