努力的人本身就有奇迹 | 快乐是我们共同的信仰

【深度学习】Word2Vec

本文主要介绍大名鼎鼎的“word2vec”。word2vec顾名思义,就是将词表示为一个向量,表示出的向量可以运用在各种各样的任务上。可以说,在BERT等模型诞生前,这个词向量的表示方法是最为流行的方法之一。

本文主要包括:

  • Onehot vs 分布式表示
  • CBOW和skip gram
  • Huffman改进
  • 负采样 read more...

leetcode contest 106 solution

本文是leetcode contest 106的题解,包括:

  • 921. Minimum Add to Make Parentheses Valid
  • 922. Sort Array By Parity II
  • 923. 3Sum With Multiplicity
  • 924. Minimize Malware Spread

好久没打比赛了,一个多小时AK。。

read more...

『我爱机器学习』最大熵原理与最大熵模型

俗话说,”不要把鸡蛋放在一个篮子里“,这样是为了降低风险。为什么能降低风险呢?背后的数学道理就是最大熵原理。

本文介绍内容有:

  • 最大熵原理

  • 最大熵模型

  • 和逻辑回归的关系

    • 为什么logistics regression用sigmoid函数
read more...

『我爱机器学习』FM、FFM与DeepFM

FM和FMM模型在数据量比较大并且特征稀疏的情况下,仍然有优秀的性能表现,在CTR/CVR任务上尤其突出。

近些年来,深度学习的方法也开始应用在广告计算领域,因此本文也会对FM和FFM的深度学习版本做一个介绍。

本文包括:

  • FM 模型
  • FFM 模型
  • Deep FM 模型
  • Deep FFM模型
read more...

『我爱机器学习』集成学习(四)LightGBM

本文介绍LightGBM,它是一款常用的GBDT工具包,由微软亚洲研究院(MSRA)进行开发,在Github上开源的三天内收获1000 star。其速度比XGBoost快,并且精度也相当的不错。

接下来看看其算法的内容。

注意其设计理念:

  1. 单个机器在不牺牲速度的情况下,尽可能多地用上更多的数据;
  2. 多机并行的时候,通信的代价尽可能地低,并且在计算上可以做到线性加速。

于是其使用分布式 GBDT,选择了基于 histogram 的决策树算法。 read more...

  • Copyrights © 2013-2021 hrwhisper

请我喝杯咖啡吧~

支付宝
微信