'2025/03/05 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/03 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Tags more

Archives

Today

Total

관리 메뉴

글쓰기
방명록
RSS
관리

목록2025/03/05 (1)

TechY

ReAct paper 읽어보며 이것저것 생각해보기

요새 deep research 기능이 다양한 챗봇들에서 보이는데, 이걸 돌리고 trajectory 를 가만히 읽어보면 아래와 같은 구조를 갖고 있는 것 같다는 생각이 들었다.생각 -> 서치 -> 관측 -> 생각 -> 서치 -> 관측 -> ...더보기이건 아래와 같이 추상화가 될 수 있겠다는 생각이 들었다.생각(관측_t) -> 서치, 관측_0 = user question, 서치 = action생각이라는 고정된 함수가 주어진 관측값을 갖고 어떤 액션을 취하는 것이다.강화 학습 scheme 으로 치환하면 생각은 policy, 관측은 state, 서치는 action이다. $\rightarrow \pi(a|s) = Pr(A_t=a|S_t=s)$ 이러한 공상을 하다가, 이러한 구조로 llm agent 를 만들었던 ..

[간단 정리] 2025. 3. 5. 00:50

이전 Prev 1 Next 다음

목록2025/03/05 (1)

TechY

티스토리툴바