【深度学习】Attention is All You Need : Transformer模型

在transformer提出前,比如做机器翻译,常用的是seq2seq的模型。这类模型以RNN作为基本的结构,每一个时刻的输入依赖于上一个时刻的输出,难以并行化计算(当然也可以用CNN来做,如textCNN,CNN可以比较好的做到并行);此外,RNN容易忘记较早看到的信息,尽管有LSTM、GRU使用门的机制来缓解这个问题,但对于特别长的句子,仍旧是有问题的。Transformer的提出正是解决了上述两个问题。

Continue reading


『我爱机器学习』集成学习(四)LightGBM

本文介绍LightGBM,它是一款常用的GBDT工具包,由微软亚洲研究院(MSRA)进行开发,在Github上开源的三天内收获1000 star。其速度比XGBoost快,并且精度也相当的不错。

接下来看看其算法的内容。

注意其设计理念:

  1. 单个机器在不牺牲速度的情况下,尽可能多地用上更多的数据;
  2. 多机并行的时候,通信的代价尽可能地低,并且在计算上可以做到线性加速。

于是其使用分布式 GBDT,选择了基于 histogram 的决策树算法。

Continue reading