'ML & DL & RL' 카테고리의 글 목록 (3 Page)

Notice

Recent Posts

Recent Comments

Link

논문 리뷰 아카이브

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록ML & DL & RL (34)

No Limitation

[Pytorch] Torchtext 튜토리얼 - '영어'

본 글은 유원준 님의 Pytorch로 시작하는 딥러닝 입문 교재를 참고하였습니다. https://wikidocs.net/64515 자연어 처리 기능을 수행하기 위해 많은 함수를 제공하는 토치 텍스트 모듈에 대해 정리하도록 하겠습니다. 이번 포스팅에서는 '영어'와 관련한 분석을 수행할 때 사용되는 토치 텍스트를 공부하고 다음 포스팅에서는 '한글'을 분석할 때는 어떻게 사용되는 지를 정리하겠습니다. 토치 텍스트는 많은 기능들을 제공하는데 다음과 같은 기능들을 주로 제공합니다. 우선 실습에 사용할 데이터를 로드하겠습니다. 리뷰 데이터이며 리뷰가 긍정이냐 부정이냐를 담는 label이 존재합니다. 전체 샘플의 수는 50000개 이며, 이를 학습 데이터와 테스트 데이터 25000개씩 분할하겠습니다. 토치 텍스트에서..

ML & DL & RL 2022. 3. 4. 13:15

[Pytorch] 자연어 처리 intro - 토큰화와 정수 인코딩

본 글은 유원준 님의 Pytorch로 시작하는 딥러닝 입문 교재를 참고하였습니다. https://wikidocs.net/64515 우선 기본적인 개념을 익히기 전에, 본 포스팅에서는 구글 Co-lab을 사용하였습니다. 한국어 토큰화 처리 패키지를 사용하기 위한 다음의 설치 과정을 수행해줍니다. [1] 토큰화 우선 토큰화(Tokenization)란, 주어진 텍스트를 단어 또는 문자 단위로 자르는 것을 의미합니다. 영어의 예시를 먼저 살펴보면 다음과 같은 문장이 있다고 하면 이를 토큰 단위로 나누는 역할을 하는 것은 매우 많은데 대표적으로는 spaCy와 nltk 패키지가 있습니다. spacy.load를 통해 영어 토큰화하는 메서드를 로드한 다음 토큰 정보들을 담는 리스트를 리턴하는 함수를 정의해줍니다. 그리..

ML & DL & RL 2022. 3. 4. 12:31

[Pytorch] Convolution Neural Network로 MNIST 분류

본 포스팅은 유원준 님의 Pytorch로 시작하는 딥러닝 입문 교재를 참고했음을 밝힙니다 https://wikidocs.net/63565 본 포스팅은 CNN에 대한 이론적인 내용은 따로 다루지 않으며 Pytorch에서 구현하는 코드 위주와 관련된 설명임을 밝힙니다 이론과 관련한 부분은 본 교재 https://wikidocs.net/62306 01. 합성곱과 풀링(Convolution and Pooling) 합성곱 신경망(Convolutional Neural Network)은 이미지 처리에 탁월한 성능을 보이는 신경망입니다. 이번 챕터에서는 합성곱 신경망에 대해서 학습합니다. ... wikidocs.net 다음을 참고하기 바랍니다. 우선 CNN에 들어가는 입력 형태를 가정해보면, 배치 크기 x 채널 x 높..

ML & DL & RL 2022. 3. 1. 22:24

[Pytorch] 손글씨 분류 in ANN

본 포스팅은 유원준 님의 Pytorch로 시작하는 딥러닝 입문 교재를 참고로 했음을 밝힙니다. https://wikidocs.net/61046 다중 퍼셉트론을 사용하여 손글씨를 분류하는 모형을 짜보자 처음에는 sklearn 패키지에 있는 손글씨 데이터 load_digits()을 사용하여 글씨를 분류하는 작업을 수행해보자 다음과 같이 digits을 로드하고 나면 본 데이터 안에는 이미지를 나타내는 데이터와 레이블 정보가 들어간 데이터가 구성이 되어 있다. 예를 들어 첫 번째 샘플의 경우 0이 들어있고 다음과 같이 데이터가 들어가있음을 확인할 수 있다. 총 데이터는 1797개의 샘플로 구성이 되어 있으며 다음과 같이 이미지를 출력해서 확인해보면 다음과 같이 데이터들이 들어있음을 확인할 수 있다. digits..

ML & DL & RL 2022. 2. 27. 19:06

[Pytorch] XOR Perceptron 구현하기

참고 자료 : 유원준 님의 Pytorch로 시작하는 딥러닝 입문 https://wikidocs.net/61010 신경망의 기초 단위 퍼셉트론을 소개할 때 많이 나오는 XOR gate. 다른 AND, OR Gate와는 달리 선형 분류기로는 분류가 될 수 없는 구조가 XOR gate이다. 고로, 이는 단층 퍼셉트론으로는 분류가 불가능하며 다층 퍼셉트론을 통해 분류가 가능하게 된다. 그렇다면 이러한 논리를 Pytorch에서는 어떻게 구현하는 지 확인해보자. 우선, 단일 퍼셉트론이 왜 안되는지 직접 실행을 통해 확인해보자 초기 세팅과 데이터 준비 신경망 구축, nn.Linear + nn.Sigmoid의 단일 퍼셉트론으로 구축됨을 확인할 수 있다. Training 수행 0 0.7273974418640137 100..

ML & DL & RL 2022. 2. 21. 15:19

[Pytorch] MNIST 데이터 분류하기 - 소프트맥스 회귀로 분류

참고 자료 https://wikidocs.net/53560 유원준 님의 Pytorch로 시작하는 딥러닝 입문 책 자료를 참고하였습니다. 개인적으로 공부하면서 느끼지만 유원준 님께서 정리하신 본 교재는 무료기도 하고 초보자가 pytorch를 입문하는 것을 넘어 머신러닝 개념 자체를 쉽게 정리해주셔서 초보자 분들이 보시기에 좋은 것 같습니다. 추천드립니다 유명한 MNIST 예제를 풀어보는 방법을 구현하겠습니다. 우선 데이터가 어떻게 구성되는지부터 간단하게 소개하면 이 부분에 대한 설명을 해보면 우선 '3'이라는 손글씨는 다음과 같이 픽셀로 담기는데 28 x 28의 데이터로 구성이 된다. 이 데이터에서 한 행이 곧 28개의 픽셀이 담기고 이 28개의 행이 총 28개가 있어 한 관측치 당 28*28의 총 784..

ML & DL & RL 2022. 2. 11. 14:16

[Pytorch] 다중 클래스 분류 회귀

참고 자료 https://wikidocs.net/53560 유원준 님의 Pytorch로 시작하는 딥러닝 입문 책 자료를 참고하였습니다. Binary가 아닌 Multi class인 경우는 softmax 확률 값을 근간으로 확률이 가장 높은 값에 labeling이 된다. 이 때의 class label은 One-hot encoding을 통해 값이 저장됨을 알고 있다. 이 때의 손실 함수는 다음 수식처럼 Cross Entropy의 개념을 사용한다. 3개의 샘플에 대해 5개의 label이 존재한다는 문제를 가정해보자. 즉, 예를 들어 철수, 상우, 주성이 있으면 이 세 명이 각각 A, B, C, D, E 중 어떤 그룹에 속하냐 뭐 이런 문제를 가정할 수 있는 것이다. 다음과 같이 코드를 수행해보자 즉 아래의 hy..

ML & DL & RL 2022. 2. 4. 17:41

[Pytorch] 로지스틱 회귀분석

참고 자료 https://wikidocs.net/53560 유원준 님의 Pytorch로 시작하는 딥러닝 입문 책 자료를 참고하였습니다. Pytorch에서 로지스틱 회귀 분석을 구현해보자. Binary Classification을 예로 들어 살펴보자 주어진 데이터는 다음과 같다. 다음 데이터를 바탕으로 가중치와 편향 값을 초기화하면 다음과 같다. 이에 Hypothesis는 시그모이드 함수에 회귀식을 집어 넣는 식으로 구축이 가능하고 Loss는 Cross Entropy 값으로 구현된 수식을 집어 넣어 구현할 수 있다. 이로써 Logistic Regression의 Gradient Descent는 다음과 같이 구현할 수 있다. 그렇다면 동일한 기능을 nn.Module을 사용하여 구현해보자 다음과 같이 층을 쌓아..

ML & DL & RL 2022. 2. 4. 15:58

[Pytorch] Custom Dataset

참고 자료 https://wikidocs.net/53560 유원준 님의 Pytorch로 시작하는 딥러닝 입문 책 자료를 참고하였습니다. Pytorch에서는 데이터셋을 상속받아 직접 데이터셋을 지정하는 식으로 많이 사용한다고 한다. 일반적으로 데이터셋을 구축할 때는 다음 세가지를 정의한다고 한다. __init__(self) : 데이터셋의 전처리를 해주는 부분 __len__(self) : 데이터셋의 길이, 샘플 수 __getitem__(self,idx) : 데이터셋에서 특정 1개의 샘플 가져오기 앞서 구현하였던 다중 선형 회귀를 돌리는 데이터셋을 정의하는 커스텀 데이터셋을 다음과 같이 사용할 수 있다.

ML & DL & RL 2022. 2. 3. 19:32

[Pytorch] Mini Batch Size와 Data Loader

참고 자료 https://wikidocs.net/53560 유원준 님의 Pytorch로 시작하는 딥러닝 입문 책 자료를 참고하였습니다. 만약 데이터가 몇천만개나 억개가 넘어가는 굉장히 방대한 데이터의 경우면 이러한 데이터에 대해 일일이 Gradient Descent를 수행하는 것은 매우 연산이 많게 될 것이다. 이러하 경우 전체 데이터를 작은 단위로 나누어 학습을 하게 되는데 이 때 이 사이즈를 batch size라고 한다. 이러한 batch size=5라고 하면 전체 데이터를 5등분을 수행하게 각 batch 마다 Gradient Descent를 수행하게 된다. 이 Gradient Descent를 전체 데이터에 수행하면 1번의 epoch가 수행되게 된다. Batch Size = 1인 경우는, 전체 데이터..

ML & DL & RL 2022. 2. 3. 19:19

이전 Prev 1 2 3 4 Next 다음

목록ML & DL & RL (34)

No Limitation

티스토리툴바