google的transformer模型的解释时间:2023-03-09 20:25:08 参考这篇文章: https://blog.****.net/mijiaoxiaosan/article/details/73251443 看了下: 最核心的如下:其最重要的创新应该就是Self-Attention的使用级联的多头attention架构。 两点:multi-head attention 和 self-attention。