0%

本文主要介绍大名鼎鼎的“word2vec”。word2vec顾名思义,就是将词表示为一个向量,表示出的向量可以运用在各种各样的任务上。可以说,在BERT等模型诞生前,这个词向量的表示方法是最为流行的方法之一。

本文主要包括:

EM算法即期望最大化算法(Expectation-Maximum)算法,它用于含有因变量的概率模型参数的极大似然估计,或极大后验估计。很多机器学习算法采用它进行求解,如高斯混合模型、LDA主题模型的变分推断等。

阅读全文 »

本文是leetcode contest 106的题解,包括:

  • 921. Minimum Add to Make Parentheses Valid
  • 922. Sort Array By Parity II
  • 923. 3Sum With Multiplicity
  • 924. Minimize Malware Spread

好久没打比赛了,一个多小时AK。。

阅读全文 »

FM和FMM模型在数据量比较大并且特征稀疏的情况下,仍然有优秀的性能表现,在CTR/CVR任务上尤其突出。

近些年来,深度学习的方法也开始应用在广告计算领域,因此本文也会对FM和FFM的深度学习版本做一个介绍。

本文包括:

  • FM 模型
  • FFM 模型
  • Deep FM 模型
  • Deep FFM模型
阅读全文 »

本文介绍LightGBM,它是一款常用的GBDT工具包,由微软亚洲研究院(MSRA)进行开发,在Github上开源的三天内收获1000 star。其速度比XGBoost快,并且精度也相当的不错。

接下来看看其算法的内容。

注意其设计理念:

  1. 单个机器在不牺牲速度的情况下,尽可能多地用上更多的数据;
  2. 多机并行的时候,通信的代价尽可能地低,并且在计算上可以做到线性加速。

于是其使用分布式 GBDT,选择了基于 histogram 的决策树算法。

阅读全文 »