Transformer

Deep-Learning-Paper-Review-and-Practice/code_practices/Attention_is_All_You_Need_Tutorial_(German_English).ipynb at master · nd꼼꼼한 딥러닝 논문 리뷰와 코드 실습. Contribute to ndb796/Deep-Learning-Paper-Review-and-Practice development by creating an account on GitHub.github.com 나동빈님 코드실습을 기반으로 합니다. 데이터셋을 새롭게 바꾸느라 해당 부분은 직접 작성했고, 모델 부분은 나동빈님의 코드를 그대로 사용하였습니다. 대신 모델 세부 설명을 주석으로 자세히 추가했습니다.🫡코드 전문은 깃헙에 올렸습니다.◾P..
수식이 보이지 않을 때는 페이지를 새로고침해주세요🫡 0. Abstract --- ---[용어]--- --- 🔸LSTF : Long sequence time-series forecasting의 약자로 장기 시계열 예측을 지칭하는 줄임말로 자주 사용된다. --- --- --- --- --- [본문] 에너지 소비량 예측과 같은 현실 세계의 여러 문제들은 LSTF 문제에 해당한다. LSTF를 위해선 모델의 높은 예측 능력(예측 수용량)이 요구된다. 최근 연구들을 통해 Transformer의 예측 수용량(prediction capacity)이 증가하고 있으나 여전히 3가지 문제점이 존재한다. [ Three Problems of Transformer ] 1. quadratic time complexity 2. hi..
수식이 보이지 않을 때는 페이지를 새로고침해주세요🫡 0. Abstract --- ---[용어]--- --- 🔸sequence transduction model : 순서가 있는 데이터를 변형하는 모델로, 대체로 인코더와 디코더로 구성된다. 🔸encoder : 입력 시퀀스로부터 context vector(문맥 벡터)를 생성한다. context vector는 입력 시퀀스의 특징들을 압축한 대푯값(representation)이다. 🔸decoder : encoder의 context vector를 전달받아 출력 시퀀스를 생성한다. --- --- --- --- --- [본문] 그동안 sequence transduction(연속적인 데이터를 변환하는) 모델들은 대부분 인코더와 디코더를 포함하는 복잡한 순환 신경망 또는..
song9
'Transformer' 태그의 글 목록