분류 전체보기 37

[Advanced ML & DL Week5] Multivariate LSTM-FCNs for Time Series Classification

논문링크 : Multivariate LSTM-FCNs for Time Series Classification Multivariate LSTM-FCNs for Time Series Classification Over the past decade, multivariate time series classification has received great attention. We propose transforming the existing univariate time series classification models, the Long Short Term Memory Fully Convolutional Network (LSTM-FCN) and Attention L arxiv.org 팀 블로그 작성 글 링크 : ..

[Advanced ML & DL Week4] BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding

논문 링크 : BERT, Pre-training of Deep Bidirectional Transformers for Language Understanding 팀 블로그 작성 글 링크 : https://kubig-2022-2.tistory.com/86 [Advanced ML & DL Week4] BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding 작성자 : 14기 김태영 논문 링크 : BERT, Pre-training of Deep Bidirectional Transformers for Language Understanding 1. Introduction BERT가 등장하기 이전의 SOTA 모델로는 GPT-1이..

[Advanced ML & DL Week2] Zero-shot Learning Through Cross-Modal Transfer

논문링크 : Zero-shot Learning Through Cross-Modal Transfer 팀블로그 작성 글 링크 : https://kubig-2022-2.tistory.com/54 [Advanced ML & DL Week2] Zero-shot Learning Through Cross-Modal Transfer 작성자 : 14기 김태영 논문링크 : Zero-shot Learning Through Cross-Modal Transfer 1. Introduction 1) Zero-Shot Learning Zero-Shot Laerning이란 "unseen example에 대해서 문제를 잘 해결할 수 있도록 모델을 학습하는 것"을 의 kubig-2022-2.tistory.com

[Advanced ML & DL Week1] Simple and Scalable Predictive Uncertainty Estimation Using Deep Ensembles

논문 링크 : Simple and Scalable Predictive Uncertainty Estimation Using Deep Ensembles - DeepMind 팀블로그 작성 글 링크 : https://kubig-2022-2.tistory.com/30 [Advanced ML & DL Week1] Simple and Scalable Predictive Uncertainty Estimation Using Deep Ensembles 작성자 : 14기 김태영 논문 링크 : Simple and Scalable Predictive Uncertainty Estimation Using Deep Ensembles - DeepMind 1. Introduction and Basic 1) 신경망 모델의 한계점 다양한 ..

[D2L] 8. RNN

1. Statistical Basic 이전까지 내용에서는 우리가 사용하는 데이터가 어떤 한 분포를 따르고 이 분포에서 추출된 것으로 가정했었다. 하지만 상식적으로 이렇게 특정 분포를 띄는 데이터는 흔치 않다. 글의 문단의 단어들의 경우 분포를 따르지 않고 오히려 그 sequence를 가지고 있을 확률이 높다. 글 뿐만 아니라 비디오의 이미지 프레임, 대화의 음성과 같은 데이터는 모두 sequence를 가지고 있을 확률이 높다. 이 얘기를 한 이유는 이전의 CNN은 spatial information을 잘 다뤘다면 RNN(Recurrent Neural Network)은 sequential information을 잘 다루기 때문이다. RNN은 과거의 변수를 잘 저장하고 이를 최근의 input과 처리하여 o..

[D2L] 9. Modern RNN

RNN 계열에서 자주 쓰이는, 더 fancy한 모델에 대해 다뤄보겠다. 1. GRU(Gated Recurrent Unit) long products of matrices는 gradient vanishing, exploding 문제를 가진다. 이런 gradient anomaly가 현실에서 어떤 문제를 갖는지 그리고 이를 어떻게 해결해야 할지 살펴보자. 1) 초기의 값이 이후 미래 값의 예측에 있어 매우 중요한 경우 gradient anomlay는 큰 문제가 된다. 따라서 중요한 초기 정보를 저장할 수 있는 메커니즘인 memory cell 기능이 필수적이다. memory cell 기능이 없을 시 이후 연속해서 등장하는 모든 값에 악영향을 끼친다. 2) 몇몇 시점의 데이터가 학습에 적절하지 않을 수 있다. 이..

[D2L] 7.2 Batch Normalization

Batch noramlization은 이전 residual block과 함께 딥러닝 모델의 convergence를 가능하게 하고 많은 layer를 규치적으로 학습할 수 있게 한다. 다음과 같은 문제를 다룰 수 있는 technique이다. 1) 데이터 전처리 방식에 따라 모델의 결과는 큰 차이를 가진다. 정규화 사용여부 등이 있다. 2) MLP나 CNN에서의 중간 layer에서 variable들은 layer의 input 부터 output까지, 같은 layer 내의 다른 unit 등 매우 다양한 값을 가진다. 이런 넓은 분포의 variable들 모델의 convergence를 어렵게 한다. 3) 깊은 딥러닝 모델들은 복잡하고 오버피팅이 일어나기 쉽다. regularization이 중요한 이유이기도 하다. Ba..

카테고리 없음 2022.07.26

[D2L] 7.1 Modern CNN

이전 장에서 소개한 LeNet에 대해 간략히 소개하였는데 LeNet은 CV필드에서 활발하게 사용되지 못했다. LeNet은 작은 크기의 데이터셋에서는 좋은 성능을 보였으나 좀 더 현실적이고 큰 데이터셋에서는 성능이 좋지 않았기 때문이다. Neural Network에 관해서는 1990년대부터 활발히 연구되었지만 multi channel과 multi layer를 충분히 다룰 만한 computing resource가 없었고 parameter initialization, optimization, regularization 과 같은 스킬에 대한 연구는 당시 많이 이뤄지지 않았다. 그래서 이 때는 end to end(pixel to classification)이 아닌 적은 데이터로 feature extractor를 ..

[D2L] 6. CNN

1. Intro 이번 장부터 Convolution Neural Network에 대해 다루기 시작한다. 구체적인 방법론에 대해 배우기 전 그 기초 내용과 CNN의 intention에 대해 짚고 넘어가고자 한다. image 데이터는 two-dimensional grid of pixel로 표현된다.(색, 채널에 대해서는 이후에 언급) 각각의 pixel 하나 또는 여러개의 수치로 각각 표현되는데 이전까지는 image를 flattening하여 vaector로 다룸으로써 pixel간 spatial relation을 무시하였다. 다시 말해 fully connected MLP를 통해 일차원 벡터를 다뤘던 것이다. 이러한 이전까지 진행했던 방식을 다시 되짚어보았고 CNN은 연산의 효율성이 좋고 GPU 병렬 연산화가 쉽다..

[D2L] 11.1 Optimization and Deep Learning

[ 이론 ] optimization에 대해 이전 장에서도 사용은 하였지만 구체적으로 파헤쳐보지 않았다. 이후 CNN, RNN에 대해 더 공부해보기 전에 optimization algorithm들에 대해 자세히 알아보고 넘어갈려고 한다. optimization의 장점은 이전 장에서도 확인했지만 완벽하지 않고 여러 문제점을 가진다. 이번 장에서는 그 문제점으로는 어떤 것이 있는지 확인해보고자 한다. optimization에 대해 간단히 복습해보면 정의된 loss function의 loss를 minization 하는 과정에서 optimization이 사용된다. 하지만 여기서 분명히 해야 하는 것은 goal of optimization = minimize the objective = reduce training..