NLP-生成模型-2017-Transformer（一）：Encoder-Decoder模型【非序列化；并行计算】【O(n²·d)，n为序列长度，d为维度】【用正余弦函数进行“绝对位置函数式编码”】 - 悦读

NLP-生成模型-2017-Transformer（一）：Encoder-Decoder模型【非序列化；并行计算】【O(n²·d)，n为序列长度，d为维度】【用正余弦函数进行“绝对位置函数式编码”】

《原始论文：Attention Is All You Need》

一、Transformer 概述

在2017年《Attention Is All You Need》论文里第一次提出Transformer之前，常用的序列模型都是基于卷积神经网络或者循环神经网络，表现最好的模型也是基于encoder- decoder框架的基础加上attention机制。

2018年10月，Google发出一篇论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》, BERT模型横空出世, 并横扫NLP领域11项任务的最佳成绩!

而在BERT中发挥重要作用的结构就是Transformer, 之后又相继出现XLNet，RoBERT等模型击败了BERT，但是他们的核心没有变，仍然是：Transformer.

相比之前占领市场的LSTM和GRU模型，Transformer有两个显著的优势:

Transformer能够利用分布式GPU进行并行训练，提升模型训练效率.
在分析预测更长的文本时, 捕捉间隔较长的语义关联效果更好.

测评比较图:

悦读

道可道，非常道；名可名，非常名。无名，天地之始，有名，万物之母。故常无欲，以观其妙，常有欲，以观其徼。此两者，同出而异名，同谓之玄，玄之又玄，众妙之门。

【Python自然语言处理】使用逻辑回归（logistic）对电影评论情感分析实战（超详细附源码）

【计算机毕业设计】858数字乡村云平台

Linux搭建SVN环境

javaweb JAVA JSP校园二手交易平台源码（校园二手交易系统闲置物品交易系统二手物品

常用数学函数

Java中的服务端点认证与授权：JWT与Spring Security OAuth2

前端开发中常见的ES6技术细节分享一

自定义Vue组件，打包发布到npm

JAVA面向对象知识点总结

pta习题7-7 字符串替换

;