博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Transformer
阅读量:5355 次
发布时间:2019-06-15

本文共 629 字,大约阅读时间需要 2 分钟。

参考资料:

【ERT大火却不懂Transformer?读这一篇就够了】

https://zhuanlan.zhihu.com/p/54356280 (中文版)

http://jalammar.github.io/illustrated-transformer/  (谷歌AI博客 英文版)

  BERT使用问题集

【NLP】Transformer详解

https://zhuanlan.zhihu.com/p/44121378

 

【关于Multi-Head和Positional Encoding】

http://blog.leanote.com/post/lincent/Attention-is-all-you-need%EF%BC%882%EF%BC%89%E5%85%B3%E4%BA%8EMulti-Head%E5%92%8CPositional-Encoding-2

 

【Universal Transformers详解】:https://zhuanlan.zhihu.com/p/44655133、https://www.leiphone.com/news/201808/1nhPCi9jWWNGv6aw.html

【图灵完备】:https://www.zhihu.com/question/20115374/answer/288346717

转载于:https://www.cnblogs.com/ying-chease/p/10508944.html

你可能感兴趣的文章
如何在ubuntu下安装xampp
查看>>
Django rest framwork获取token值和前端token携带方法
查看>>
OCS 开放缓存服务
查看>>
生成条形码
查看>>
【转】Android总结篇系列:Activity生命周期
查看>>
原生js三种选项卡效果(点击)
查看>>
软件设计模式 B卷
查看>>
Java 微信支付分对接记录 (先享后付)
查看>>
ElasticSearch介绍 【未完成】
查看>>
SAP中自定义输出字段的ALV实例
查看>>
JavaScript 第七章总结
查看>>
BZOJ-2875 随机数生成器 矩阵乘法快速幂+快速乘
查看>>
General PE format layout
查看>>
ARM JTAG 20P to Cortex JTAG 10P
查看>>
12、scala隐式转换与隐式参数
查看>>
实验四+063+陈彧
查看>>
Kafka消费不到数据的特殊情况
查看>>
基于聚类的“图像分割”(python)
查看>>
QT QSettings 操作(导入导出、保存获取信息)*.ini文件详解
查看>>
Python:库文件
查看>>