Advance Deep Learning/NLP 5

Word2Vec - CBOW & Skip-Gram

본 포스팅은 아래 두가지 자료를 기반으로 작성되었습니다. 위키독스 딥러닝을 이용한 자연어 처리 입문 딥 러닝을 이용한 자연어 처리 입문 많은 분들의 피드백으로 수년간 보완된 입문자를 위한 딥 러닝 자연어 처리 교재 E-book입니다. 오프라인 출판물 기준으로 코드 포함 **약 1,000 페이지 이상의 분량*… wikidocs.net 밑바닥부터 시작하는 딥러닝 2 밑바닥부터 시작하는 딥러닝 2 이 책은 『밑바닥부터 시작하는 딥러닝』에서 다루지 못했던 순환 신경망(RNN)을 자연어 처리와 시계열 데이터 처리에 사용하는 딥러닝 기술에 초점을 맞춰 살펴본다. 8장 구성으로 전체를 하나 www.hanbit.co.kr 1. 희소(Sparse) & 분산(Distributed) 표현 1-1. 희소 표현 (Sparse ..

BERT - pytorch 구현

본 포스팅은 아래 깃헙과 포스팅을 참고하여 작성되었습니다. https://github.com/codertimo/BERT-pytorch GitHub - codertimo/BERT-pytorch: Google AI 2018 BERT pytorch implementation Google AI 2018 BERT pytorch implementation. Contribute to codertimo/BERT-pytorch development by creating an account on GitHub. github.com https://needmorecaffeine.tistory.com/30 BERT - 이론 본 포스팅은 아래의 자료와 강의를 기반으로 작성되었습니다. BERT Paper 위키독스, 딥러닝을 이용한 ..

BERT - 이론

본 포스팅은 아래의 자료와 강의를 기반으로 작성되었습니다. BERT Paper 위키독스, 딥러닝을 이용한 자연어 처리 입문 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding We introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representations from Transformers. Unlike recent language representation models, BERT is designed to pre-train deep bidirectional representations f..

Attention is All You Need (Transformer)

해당 포스팅은 다음의 유튜브 강의와 논문을 기반으로 작성되었습니다. 고려대 산경공 DSBA 논문 리뷰 강의 Attention is All You Need 논문 위키독스, 딥러닝을 이용한 자연어처리 입문 Attention Is All You Need The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new arx..

GPT

본 포스팅은 아래 논문과 두 유튜브 강의를 기반으로 작성하였습니다. 논문 링크 강필성 교수님, 고려대 DSBA 연구실 강의 허민석, 밑바닥부터 알아보는 GPT-1 1. GPT Basic GPT는 Generative Pre-trained Transformer의 약자이다. 각각의 의미를 분해해보면 다음과 같다. 1-1. Generative Generative 모델, 즉 생성 모델은 주어진 학습 데이터를 학습하여 학습 데이터의 분포를 따라는 유사한 데이터를 생성하는 모델을 의미한다. 학습데이터와 유사한 샘플을 뽑아야 하기 때문에 생성 모델은 학습 데이터의 분포를 어느 정도는 알고 있어야 한다. 즉, 생성모델의 핵심은 학습 데이터의 분포를 학습하는 것이며 이것이 잘 이뤄지기 위해서는 충분한 양의 데이터가 확보되..