《基于Spark的下一代机器学习:XGBoost、LightGBM、Spark NLP与Keras分布式深度学习实例》([美]布奇·昆托(Butch Quinto))-图书推荐
内容提要
本书先简单介绍了Spark和Spark MLlib,然后介绍标准Spark MLlib库之外的更强大的第三方机器学习算法和库。通过阅读本书,你将能够通过几十个实际的例子和深刻的解释,将所学到的知识应用到真实世界的用例。
目录
前言
致谢
关于作者
关于技术审校人员
第1章机器学习介绍 1
1.1人工智能和机器学习用例 2
1.1.1零售业 2
1.1.2交通运输 3
1.1.3金融服务 3
1.1.4医疗保健和生物技术 3
1.1.5制造业 3
1.1.6政府部门 4
1.2机器学习与数据 4
1.3机器学习方法 6
1.3.1有监督学习 6
1.3.2无监督学习 6
1.3.3半监督学习 6
1.3.4强化学习 6
1.4深度学习 7
1.5神经网络 7
1.6卷积神经网络 7
1.7特征工程 7
1.7.1特征选择 8
1.7.2特征重要性 9
1.7.3特征提取 9
1.7.4特征构建 9
1.8模型评估 10
1.8.1准确率 10
1.8.2精度 10
1.8.3召回率 11
1.8.4F1度量 11
1.8.5AUROC 11
1.9过拟合与欠拟合 12
1.10模型选择 12
1.11总结 12
1.12参考资料 13
第2章Spark和Spark MLlib
介绍 16
2.1概述 16
2.2架构 17
2.3执行Spark应用程序 19
2.3.1集群模式 19
2.3.2客户端模式 19
2.4spark-shell介绍 19
2.4.1SparkSession 20
2.4.2弹性分布式数据集 21
2.5Spark SQL、DataSet和DataFrame的 API 29
2.6Spark数据源 31
2.6.1CSV 31
2.6.2XML 31
2.6.3JSON 32
2.6.4关系数据库和MPP数据库 33
2.6.5Parquet 36
2.6.6HBase 36
2.6.7*** S3 41
2.6.8Solr 42
2.6.9Microsoft Excel 43
2.6.10SFTP 44
2.7Spark MLlib介绍 44
2.8ML管道 46
2.8.1管道 47
2.8.2转换器 47
2.8.3估计器 47
2.8.4ParamGridBuilder 47
2.8.5CrossValidator 47
2.8.6评估器 47
2.9特征提取、转换和选择 48
2.9.1StringIndexer 48
2.9.2Tokenizer 49
2.9.3VectorAssembler 50
2.9.4StandardScaler 51
2.9.5StopWordsRemover 52
2.9.6n-gram 52
2.9.7OneHotEncoderEstimator 53
2.9.8SQLTransformer 54
2.9.9词频–逆文档频率 55
2.9.10主成分分析 57
2.9.11ChiSqSelector 57
2.9.12Correlation 58
2.10评估指标 60
2.10.1AUROC 60
2.10.2F1度量 61
2.10.3均方根误差 61
2.11模型持久化 62
2.12Spark MLlib示例 62
2.13图处理 66
2.14**Spark MLlib:第三方机器学习集成 66
2.15利用Alluxio优化Spark和Spark MLlib 66
2.16为什么使用Alluxio 68
2.16.1显著提高大数据处理性能和可扩展性 68
2.16.2多个框架和应用程序可以以读写内存的速度共享数据 69
2.17在应用程序终止或失败时提供高可用性和持久性 71
2.18优化总体内存使用并*小化垃圾收集 74
2.19降低硬件要求 74
2.20Apache Spark和Alluxio 75
2.21总结 75
2.22参考资料 76
第3章有监督学习 79
3.1分类 79
3.1.1分类类型 79
3.1.2Spark MLlib分类算法 80
3.1.3第三方分类和回归算法 85
3.1.4使用逻辑回归算法的多类别分类 86
3.1.5使用随机森林算法进行流失预测 95
3.1.6使用XGBoost4J-Spark的**梯度提升算法 108
3.1.7LightGBM:来自微软的快速梯度提升算法 118
3.1.8使用朴素贝叶斯进行情感分析 127
3.2回归 133
3.2.1简单线性回归 134
3.2.2使用XGBoost4J-Spark进行多元回归分析 137
3.2.3使用LightGBM进行多元回归分析 143
3.3总结 148
3.4参考资料 149
第4章无监督学习 154
4.1k-means聚类算法 154
4.2使用隐含狄利克雷分布进行主题建模 162
4.2.1Stanford CoreNLP 163
4.2.2John Snow实验室的Spark NLP 164
4.2.3示例 170
4.3使用孤立森林进行异常检测 182
4.3.1参数 185
4.3.2示例 186
4.4使用主成分分析进行降维 188
4.5总结 197
4.6参考资料 197
第5章** 200
5.1**引擎的种类 201
5.1.1使用交替*小二乘法的协同过滤 201
5.1.2参数 203
5.1.3示例 203
5.2使用FP增长进行购物篮分析 209
5.2.1示例 210
5.2.2基于内容的过滤 217
5.3总结 218
5.4参考资料 218
第6章图分析 221
6.1图介绍 221
6.1.1无向图 221
6.1.2有向图 222
6.1.3有向多重图 222
6.1.4属性图 223
6.2图分析用例 223
6.2.1欺诈检测和反洗钱 224
6.2.2数据治理和法规遵从性 224
6.2.3风险管理 224
6.2.4运输 225
6.2.5社交网络 225
6.2.6网络基础设施管理 225
6.3GraphX简介 225
6.3.1Graph 225
6.3.2VertexRDD 226
6.3.3Edge 226
6.3.4EdgeRDD 226
6.3.5EdgeTriplet 226
6.3.6EdgeContext 226
6.3.7GraphX 示例 226
6.3.8图算法 229
6.3.9GraphFrames 232
6.4总结 235
6.5参考资料 236
第7章深度学习 238
7.1神经网络 239
7.2神经网络的简短历史 240
7.3卷积神经网络 242
7.4深度学习框架 247
7.4.1TensorFlow 247
7.4.2Theano 247
7.4.3PyTorch 247
7.4.4DeepLearning4J 247
7.4.5CNTK 248
7.4.6Keras 248
7.4.7使用Keras进行深度学习 248
7.5Spark分布式深度学习 258
7.5.1模型并行与数据并行 258
7.5.2Spark分布式深度学习框架 259
7.6Elephas:使用Keras和Spark进行分布式深度学习 261
7.7Dist-Keras 270
7.7.1使用基于Keras和Spark的Dist-Keras来识别MNIST中的手写数字 271
7.7.2猫和狗的图像分类 276
7.8总结 283
7.9参考资料 283
卖贝商城 推荐:《基于Spark的下一代机器学习:XGBoost、LightGBM、Spark NLP与Keras分布式深度学习实例》([美]布奇·昆托(Butch Quinto))