本文基于kaggle豆瓣影评数据集,演示如何利用pyspark的word2vec和LSH库实现相似影评的计算,同样的方式可以用于相似内容匹配,例如:在海量文章中检测存在抄袭的文章等类似需求。 继续阅读
分类目录归档:机器学习
强化学习Deep Q-Network自动玩flappy bird
这两天看到通过强化学习自动玩游戏的项目,感觉有趣而且技术难度也不高,所以我也实现了一下。
经过一个通宵的训练,模型已经把小鸟控制的很棒了(训练了5万次左右): 继续阅读
tensorflow-serving二次开发 – 增加模型流量监控
我们采用tensorflow-serving部署模型,利用文件同步机制分发model到tensorflow-serving目录下,由tensorflow-serving自动热加载最新N个版本模型,或者直接指定加载哪些版本。 继续阅读
tensorflow分布式训练 — tensorflow on spark使用方法
tensorflow(2.x版本)生产训练需要在大规模训练样本下完成,单机已经无法满足训练速度。
tensorflow on spark是yahoo开源的基于spark进行分布式tensorflow训练的开发框架,本文要求读者熟练tensorflow单机使用,最好读一下前一篇博客:《tensorflow2.0 – 端到端的wide&deep模型训练》。
tensorflow2.0 – 端到端的wide&deep模型训练
本文将基于泰坦尼克数据集,展现tensorflow2.0实现wide&deep模型训练的整个工程化流程,内容包括: 继续阅读
tensorflow – 透过数学理解model
本文通过一个tensorflow例子,通俗的说明神经网络是如何工作的,以便我们更自信的驾驭它。 继续阅读
推荐2本机器学习的好书
学机器学习,不可能一直停留在”API侠”层面,终究会开始探究原理的,而机器学习的原理就是数学。 继续阅读
端到端的tensorflow2.0工程示例
本文以泰坦尼克数据集为例,提供了一套端到端的完整tensorflow2.0工程示例: 继续阅读
动手实践xgboost+LR融合模型
关于机器学习,很多地方提到GBDT+LR这类炼金方法,常用于CTR预估的二分类问题。 继续阅读
tensorflow2.0 keras SavedModel模型特征预处理
神经网络和xgboost有一个很大的区别,就是xgboost树模型对每个特征的数值范围不敏感,因此基本不需要做特征预处理就可以达到不错的效果。
而神经网络对特征的数值范围敏感,如果不进行特征预处理,模型效果可能还不如xgboost。 继续阅读
2019谷歌开发者大会 – 收获
刚参加完这个大会,谷歌不仅技术创新牛,而且还非常大方,难怪长盛不衰了。 继续阅读
手写python神经网络
如果你已经读过了传统机器学习的书,相信你下一步就会对神经网络和深度学习产生兴趣,但却往往苦于不知道该从何入手。 继续阅读
《Python机器学习基础教程 》全书总结
我是如何接触到机器学习的呢?其实是出于对公司推荐系统的好奇,所以就学习了该项目的代码,因此我实际上从最初就了解到了机器学习对应用产生的巨大实际价值以及其核心原理。
正因为这样的经历,让我认识到机器学习这门技术是一定要去了解和掌握的,这是一个我从来未曾想象过的东西,它可以如何简单的付诸于实践,虽然其内核是无比复杂的数学理论。