목록분류 전체보기 (46)
TechY
최근에 openai 의 structured output 지원이 공개되었는데 기존에 지원하던 json mode보다 더 강력한 구조화 출력이 지원된다.공개 문서를 읽어보니 structured output 을 만든 방법을 간단하게 써줬길래 잊어버리고 싶지 않아 간단하게 정리해본다. 1. 학습을 많이 시킴- gpt-4o-2024-08-06 모델이 structured output 을 지원하는데, 복잡한 스키마를 이해하고 이를 기반으로 출력을 생성하게끔 학습을 많이 시켰다고 한다.- 하지만 LLM은 태생적으로 non-deterministic 하기에 deterministic 한 engineering-based approach 를 추가로 사용했다. 2. Constrained decoding- 우선 constrained..
배우는 중이라 틀린 정보가 있을 수 있는데, 업데이트되는 공부 내용이 있으면 계속 고치겠습니다. 교정해주시면 감사하겠습니다..! (_ _)concurrency 는 parallelism 과 asyncronous programming 의 pre-conditionparallelism과 asyncronous programming는 concurrency를 달성하는 수단parallelism 에 있는 multi-threading 과 multi-processing 은 os-level 에서 concurrency를 구현async개념들 코루틴(Coroutine): async로 정의된 비동기 함수로, 이벤트 루프가 관리하는 기본 작업 단위태스크(Task): 코루틴을 래핑한 객체로, 이벤트 루프에 의해 스케줄링되고 실행Futu..
참조- chatgpt- https://gmlwjd9405.github.io/2018/09/14/process-vs-thread.html- https://ivdevlog.tistory.com/3- https://hhj6212.github.io/programming/python/2021/04/18/python-multi.html- https://velog.io/@wonhee010/%EB%8F%99%EA%B8%B0vs%EB%B9%84%EB%8F%99%EA%B8%B0-feat.-blocking-vs-non-blocking- https://brownbears.tistory.com/292- https://data-newbie.tistory.com/231#google_vignette배우는 중이라 틀린 정보가 있을 수..
참조- chatgpt- https://gmlwjd9405.github.io/2018/09/14/process-vs-thread.html- https://ivdevlog.tistory.com/3- https://hhj6212.github.io/programming/python/2021/04/18/python-multi.html- https://velog.io/@wonhee010/%EB%8F%99%EA%B8%B0vs%EB%B9%84%EB%8F%99%EA%B8%B0-feat.-blocking-vs-non-blocking배우는 중이라 틀린 정보가 있을 수 있는데, 업데이트되는 공부 내용이 있으면 계속 고치겠습니다. 교정해주시면 감사하겠습니다..! (_ _) 목록1. CPU2. Core3. Process4. Th..
논문 : 링크 residual network 의 수식 표현은 아래와 같다.$y_l = h(x_l) + F(x_l, W_l)$$x_{l+1} = f(y_l)$ residual learning을 처음 제시했던 논문 에서는 $h$ 는 identity mapping 이었고, $f$ 는 ReLU 였다.해당 논문에서는 $h, f$ 를 identity 로 만드는 것이 최적화를 쉽게 만들어주고 이에 따른 모델 성능 부스트에 효과적임을 보인다. 우선 $h, f$ 를 identity 로 만드는 것이 최적화를 쉽게 만들어주는 것에 대한 수식적 접근을 보면 아래와 같다. 위에 쓴 식에서 $h, f = \mathbb{I}$ 라고 하면 아래와 같이 단순해진다.$x_{l+1} = x_l + F(x_l, W_l)$ 이 식은 일종의 ..
논문 : 링크문제 인식neural network 의 깊이가 깊어질 때, 어느 정도 높아지다가 일정 수준에서 성능 감소가 발생하는 degradation 이 있음.저자는 이를 overfitting 의 이슈로 보지 않음. 그 이유는 test 뿐만 아니라 training 에서도 그 error 가 상승하기 때문, 이에 따라 저자는 모델의 깊이가 깊어질 수록 최적화의 난이도가 함께 변화한다고 보았음. 방법 제안저자는 $n$ th layer 까지 학습한 representation 이 있고, $n+1$ th layer 를 추가했을 때 해당 layer 가 identity mapping 이라면 $n$ th layer network 보다 성능이 나빠지지 않아야 한다는 것으로 시작했다. 또한 이전 layer (shallowe..
강의 : 링크 이전 포스팅에서 laplace transform 에 대한 변환식과 몇가지 함수의 변환값을 알아보았다.추가적인 변환값은 라플라스 변환표를 검색해보면 나오니 참고하면 좋을 듯 하다. 본 포스팅에서는 이전 시리즈에서 풀었던 미분방정식을 laplace transform 을 사용해서 풀어보려 한다. $F(s) = \frac{2(s-1)e^{-2s}}{s^2-2s+2}$ $F(s) = \frac{2(s-1)e^{-2s}}{s^2-2s+2} = \frac{2(s-1)e^{-2s}}{(s-1)^2+1} = 2e^{-2s} \frac{s-1}{(s-1)^2+1}$ $\frac{s-1}{(s-1)^2+1}$ 부분부터 보자. 해당 부분은 $cos(t)$ 의 변환값의 형태임을 알 수 있다. $s$ 값에 $F(..
강의 : 링크 미분 방정식을 쉽게 풀기 위한 유용한 도구인 laplace transform에 대해 알아본다.laplace transform 의 식은 아래와 같다. $\mathscr{L}\{f(t)\}=\int_{t=0}^{\infty}f(t)e^{-st}dt = F(s)$ 위를 보게 되면 $\mathscr{L}$ 변환을 통해 $t$ 에 대한 식인 $f(t)$ 를 $s$ 에 대한 식으로 변환된다.후에 역변환을 통해 다시 $t$에 대한 식으로 되돌려주게 되는데 이 과정을 통해 미분방정식을 더 쉽게 풀 수 있게 해준다고 한다. 본 포스팅에서는 몇 가지 $f(t)$ 에 대해 laplace transform 을 해보도록 하겠다. 여기서는 변환만 소개하고 역변환을 포함한 미분 방정식 풀이는 다음 포스팅에서 마저 ..