스파스 트랜스포머: 스파스 트랜스포머를 사용한 긴 시퀀스 생성 페이퍼 리뷰
이 게시물의 개요 Transformer는 매우 강력한 시퀀스 모델이지만 시퀀스의 길이에 따라 시간과 메모리가 두 배 이상 소요된다는 단점이 있습니다. 이 기사에서는 변환기의 시간 복잡도를 $O(n \sqrt{n})$로 줄이는 어텐션 매트릭스의 희소 분해를 소개합니다. 또한 논문에서는 다음과 같은 내용을 소개하였다. 더 깊은 네트워크 훈련 모델의 구조그리고 기본값으로 재설정변경했다 어텐션 매트릭스를 다시 계산하여 메모리를 절약하십시오. 빠른주의는 훈련에 사용됩니다. … Read more