목록ML & DL & RL (32)
No Limitation

본 포스팅은 카이스트 산업 및 시스템 공학과 신하용 교수님의 동적계획법과 강화학습 강의 자료와 노승은 님의 바닥부터 배우는 강화학습 교재를 참고해 작성되었습니다. 본 포스팅은 어느 정도 RL에 대한 어느 정도의 개념을 아시는 분들이 참고해주시면 감사하겠습니다. ( 물론 저도 제대로 잡혀있다고 볼 순 없지만...ㅠ 이상한 부분은 크리틱 부탁드립니다..! 신하용 교수님께서 만드신 슬라이드 중에서 굉장히 RL 모델들의 분류가 잘 되어있다고 생각이 드는 슬라이드를 가지고 와 보았습니다. 이 중에서 본 포스팅에서 다루는 파트가 어딘 지도 살펴보겠습니다. 우선, 보상 함수와 상태 전이 확률을 알고 있는 경우, model을 알고 있다고 표현합니다. 이런 경우는 일반적인 DP로 문제를 풀 수 있습니다. 하지만, 대부분..

본 포스팅은 카이스트 산업 및 시스템 공학과 신하용 교수님의 동적계획법과 강화학습 강의 자료를 바탕으로 작성되었음을 밝힙니다. MAB에 대한 기초 설명이 필요하신 분들은 앞서 작성된 포스팅을 참고하시면 감사하겠습니다! https://yscho.tistory.com/111 [Reinforcement Learning] Multi-Arm Bandit (1) - Intro 본 포스팅은 카이스트 산업 및 시스템 공학과 신하용 교수님의 동적계획법과 강화학습 강의 자료를 바탕으로 작성되었음을 밝힙니다. Exploration vs Exploitation 이 둘 간의 어떤 것을 선택하는 지가 yscho.tistory.com MAB에서 sub-linear regret을 달성할 수 있는 방법 중 하나인 UCB를 지난 포스팅..

본 포스팅은 카이스트 산업 및 시스템 공학과 신하용 교수님의 동적계획법과 강화학습 강의 자료를 바탕으로 작성되었음을 밝힙니다. Exploration vs Exploitation 이 둘 간의 어떤 것을 선택하는 지가 많은 RL 기반의 문제에서 딜레마가 됩니다. Exploitation은 말 그대로 지금 가장 좋은 것을 선택하는 행동을 의미합니다. 하지만 exploitation이 좋아보이지만, 만약 지금 내가 가지고 있는 정보가 충분하지 않다면 더 optimal한 선택을 할 수 있는 가능성을 애초에 놓치게 됩니다. 그래서 정보를 더 얻기 위한 방법을 수행해야 하는데, 그럴 때 Exploration을 통해 다른 길을 가봄으로써 더 선택에 도움을 주는 정보들을 얻게 됩니다. 에이전트는 매번 이 딜레마에 빠지게 되..

본 포스팅은 카이스트 산업 및 시스템 공학과 박찬영 교수님의 지식서비스를 위한 기계학습 강의를 중심으로 정리하였고 부가적으로 데이비드 포스터의 Generative Deep Learning 교재를 참고하였습니다. 그 외에도 다음 글들을 참고하였습니다. https://m.blog.naver.com/chrhdhkd/222013835684 https://wikidocs.net/149481 GAN에 대한 개념적인 설명은 앞선 포스팅(https://yscho.tistory.com/106)에 정리해놓았으니 참고 부탁드립니다. 본 포스팅에서는 GAN 성능을 평가할 수 있는 지표와, GAN을 더 개선한 다양한 모형들에 대해 추가로 간단하게 정리하고자 합니다. GAN에서 만들어진 어떠한 샘플들이 잘 만들어진 샘플들인지, ..

본 포스팅은 카이스트 산업 및 시스템 공학과 박찬영 교수님의 지식서비스를 위한 기계학습 강의를 중심으로 정리하였고 부가적으로 데이비드 포스터의 Generative Deep Learning 교재를 참고하였습니다. 그 외로 다음 포스팅들을 참고하였습니다. Arjovsky, M., Chintala, S., & Bottou, L. (2017, July). Wasserstein generative adversarial networks. In International conference on machine learning (pp. 214-223). PMLR. { Original WGAN paper } https://aigong.tistory.com/66 https://github.com/MagmaTart/Paper..

본 포스팅은 Ian Goodfellow et.al 의 Deep learning 교재와 카이스트 산업 및 시스템 공학과 박찬영 교수님의 지식서비스를 위한 기계학습 강의, NAVER 이활석님의 오토인코더의 모든 것 강의를 참고하여 정리하였습니다. 오토인코더의 모든 것 강의 2 https://www.youtube.com/watch?v=rNh2CrTFpm4 Variational Autoencoder는 기본적으로 "생성 모델"로 간주하게 됩니다. 본 포스팅은 autoencoder에 대한 기본 내용을 이해하는 전제하에 개념을 정리하고자 합니다. 우리가 어떠한 이미지 정보를 가지고 있다고 하면, 그 이미지에는 다양한 feature들, 특성들이 존재하게 됩니다. 예를 들면 머리 색깔, 눈의 크기 등과 같은 정보들이 들..

참고했던 블로그들 도움 주셔서 감사합니다..! https://sanghyu.tistory.com/87 https://eehoeskrap.tistory.com/582 https://programs.wiki/wiki/loss-is-always-nan-and-accuracy-is-always-a-fixed-number.html https://www.dlology.com/blog/how-to-deal-with-vanishingexploding-gradients-in-keras/ https://whiteglass.tistory.com/1 https://randomwalk.tistory.com/14 https://stackoverflow.com/questions/57582503/vgg19-weights-became..

본 포스팅은 Ian Goodfellow et.al 의 Deep learning 교재와 카이스트 산업 및 시스템 공학과 박찬영 교수님의 강의를 참고하여 제작되었음을 밝힙니다. 그 외 다양한 블로그 글들을 참고하였습니다. Reference, [1] Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep learning. MIT press. Chapter 8, Optimization for Training Deep Model https://www.deeplearningbook.org/ [2] 카이스트 산업 및 시스템 공학부 박찬영, "지식 서비스를 위한 기계학습" 강의 자료 [3] Onds 님의 블로그, https://ardino.tistory.com [4] Be..

본 글은 유원준 님의 Pytorch로 시작하는 딥러닝 입문 교재를 참고하였습니다. https://wikidocs.net/64515 자연어 처리 기능을 수행하기 위해 많은 함수를 제공하는 토치 텍스트 모듈에 대해 정리하도록 하겠습니다. 이번 포스팅에서는 '영어'와 관련한 분석을 수행할 때 사용되는 토치 텍스트를 공부하고 다음 포스팅에서는 '한글'을 분석할 때는 어떻게 사용되는 지를 정리하겠습니다. 토치 텍스트는 많은 기능들을 제공하는데 다음과 같은 기능들을 주로 제공합니다. 우선 실습에 사용할 데이터를 로드하겠습니다. 리뷰 데이터이며 리뷰가 긍정이냐 부정이냐를 담는 label이 존재합니다. 전체 샘플의 수는 50000개 이며, 이를 학습 데이터와 테스트 데이터 25000개씩 분할하겠습니다. 토치 텍스트에서..

본 글은 유원준 님의 Pytorch로 시작하는 딥러닝 입문 교재를 참고하였습니다. https://wikidocs.net/64515 우선 기본적인 개념을 익히기 전에, 본 포스팅에서는 구글 Co-lab을 사용하였습니다. 한국어 토큰화 처리 패키지를 사용하기 위한 다음의 설치 과정을 수행해줍니다. [1] 토큰화 우선 토큰화(Tokenization)란, 주어진 텍스트를 단어 또는 문자 단위로 자르는 것을 의미합니다. 영어의 예시를 먼저 살펴보면 다음과 같은 문장이 있다고 하면 이를 토큰 단위로 나누는 역할을 하는 것은 매우 많은데 대표적으로는 spaCy와 nltk 패키지가 있습니다. spacy.load를 통해 영어 토큰화하는 메서드를 로드한 다음 토큰 정보들을 담는 리스트를 리턴하는 함수를 정의해줍니다. 그리..