Spark机器学习(12):神经网络算法

1. 神经网络基础知识1.1 神经元神经网络(Neural Net)是由大量的处理单元相互连接形成的网络。神经元是神经网络的最小单元,神经网络由若干个神经元组成。一个神经元的结构如下:上面的神经元x1,x2,x3和1是输入,hw,b(x)是输出。其中f(x)是激活函数,常用的激活函数有sigmoid
100次阅读

Spark机器学习(11):协同过滤算法

协同过滤(Collaborative Filtering,CF)算法是一种常用的推荐算法,它的思想就是找出相似的用户或产品,向用户推荐相似的物品,或者把物品推荐给相似的用户。怎样评价用户对商品的偏好?可以有很多方法,如用户对商品的打分、购买、页面停留时间、保存、转发等等。得到了用户对商品的偏好,就可
116次阅读

Spark机器学习(10):ALS交替最小二乘算法

1. Alternating Least SquareALS(Alternating Least Square),交替最小二乘法。在机器学习中,特指使用最小二乘法的一种协同推荐算法。如下图所示,u表示用户,v表示商品,用户给商品打分,但是并不是每一个用户都会给每一种商品打分。比如用户u6就
122次阅读

Spark机器学习(9):FPGrowth算法

关联规则挖掘最典型的例子是购物篮分析,通过分析可以知道哪些商品经常被一起购买,从而可以改进商品货架的布局。1. 基本概念首先,介绍一些基本概念。(1) 关联规则:用于表示数据内隐含的关联性,一般用X表示先决条件,Y表示关联结果。(2) 支持度(Support):所有项集中{X,Y}出现的可能性。(3
118次阅读

Spark机器学习(8):LDA主题模型算法

1. LDA基础知识LDA(Latent Dirichlet Allocation)是一种主题模型。LDA一个三层贝叶斯概率模型,包含词、主题和文档三层结构。LDA是一个生成模型,可以用来生成一篇文档,生成时,首先根据一定的概率选择一个主题,然后在根据概率选择主题里面的一个单词,这样反复进行,就可以
113次阅读

Spark机器学习(7):KMenas算法

KMenas算法比较简单,不详细介绍了,直接上代码。import org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.mllib.linalg
113次阅读

GC调优在Spark应用中的实践[转]

作者:仲浩   出处:《程序员》电子刊5月B 摘要:Spark立足内存计算,常常需要在内存中存放大量数据,因此也更依赖JVM的垃圾回收机制。与此同时,它也兼容批处理和流式处理,对于程序吞吐量和延迟都有较高要求,因此GC参数的调优在Spark应用实践中显得尤为重要。Spark是时下
52次阅读

Spark程序

Spark认识&环境搭建&运行第一个Spark程序2017-07-09 17:17 by 牛仔裤的夏天, 181 阅读, 0 评论, 收藏, 编辑摘要:Spark作为新一代大数据计算引擎,因为内存计算的特性,具有比hadoo
22次阅读

Spark机器学习(6):决策树算法

1. 决策树基本知识决策树就是通过一系列规则对数据进行分类的一种算法,可以分为分类树和回归树两类,分类树处理离散变量的,回归树是处理连续变量。样本一般都有很多个特征,有的特征对分类起很大的作用,有的特征对分类作用很小,甚至没有作用。如决定是否对一个人贷款是,这个人的信用记录、收入等就是主要的判断依据
144次阅读

Spark机器学习(5):SVM算法

1. SVM基本知识SVM(Support Vector Machine)是一个类分类器,能够将不同类的样本在样本空间中进行分隔,分隔使用的面叫做分隔超平面。比如对于二维样本,分布在二维平面上,此时超平面实际上是一条直线,直线上面是一类,下面是另一类。定义超平面为:f(x)=w0+wTx可以想象出,
117次阅读