Spark核心原理与实战学习心得
Spark核心原理与实战学习心得,更多完整内容,一起来学习
Spark核心原理与实战学习心得,更多完整内容,一起来学习
Spark核心原理与实战学习心得
MLPipLine:如何通过SparkMLPipLine模式实现模型训练?
SparkConnecter:Cassandra
SparkConnecter:ElasticSearch
SparkConnecter:HDFS及HBase
SparkConnecter:MongoDB
SparkConnecter:MySQL及Kafka
SparkOnYARN:Client模式与Cluster模式
SparkOnYARN:FIFOScheduler、CapacityScheduler原理和使用
SparkOnYARN:YARNFairScheduler原理、使用及特点
SparkRDD实战:Action原理和实战、Spark广播变量原理和使用
SparkRDD实战:Transformation和Action概念、LazyLoad及SparkFunction的3种实现方式
SparkRDD实战:常用Transformation原理及实战
SparkRDD实战:如何利用外部数据集生成RDD?
SparkRDD原理:RDD抽象及相关概念
SparkRDD原理:RDD依赖关系、Stage、RDD持久化、SparkPreferredLocation及CheckPoint原理和使用
SparkSQL、DataFrame、DataSet原理和使用
SparkSQLJoin操作及SparkSQLFunction
SparkSQL调优和SparkStreaming调优
SparkSQL原理和执行过程
SparkStearming原理及实战:DStream操作、数据持久化及性能优化
SparkStearming原理及实战:创建一个SparkStreaming应用
SparkStructuredStearming原理及实战:StreamJoin操作、重复数据处理、多Watermark处理策略、StructuredStearming结果输出
SparkStructuredStearming原理及实战:StructuredStearming时间窗口操作、水位线和数据更新模式
SparkStructuredStearming原理及实战:StructuredStearming事件时间、延迟数据处理策略、容错语义和编程模型
SparkStructuredStearming原理及实战:StructuredStreaming概念、特点、数据模型和应用实战
Spark常用统计方法:基础统计、相关性分析、数据抽样
Spark的运行环境安装:Standalone入门实战
Spark的运行环境安装:YARN入门实战
Spark机器学习概述:机器学习应用场景、分类和常用算法
Spark流处理做作业入门Demo
Spark批处理做作业入门Demo
Spark数据倾斜问题处理
Spark文件读写原理
Spark原理及特点:Spark作业运行流程
Spark原理及特点:模块概述+特点
Spark原理及特点:运行模式+集群组角色
常用数据格式原理和使用:ORC、AVRO在Spark中的使用
常用数据格式原理和使用:TEXT、CSV、JSON、PARQUET在Spark中的使用
分类模型:概念与种类、线性回归及逻辑回归原理实现
分类模型:朴素贝叶斯原理实现、决策树原理实现及协同过滤原理
机器学习流程:模型训练、模型测试、模型部署与整合、模型监控与反馈及数据探索和可视化
机器学习流程:数据收集与存储、数据清理与转换
聚类模型:基于K-Means的聚类算法原理实现
内存调优:JVM内存调优、堆外内存设置及storageFraction设置
任务调优:Executor数量内存及CPU配置、设置合理的并行度、Task等待时长调优、Blacklisting调优
失败重试与黑名单机制、推测式执行、资源申请机制
数据调优:数据本地性、复用RDD、BroadCast、Kryo序列化和CheckPoint