
datebricks实战培训
Databricks 概述 Databricks 架构(Lakehouse、Delta Lake、Spark 集成) 平台核心组件(Workspace、Notebooks、Clusters、Jobs) 新式数据和AI平台架构 Databricks平台的功能 数据湖架构介绍 数据分析架构介绍 数据工程架构介绍 AI和大模型架构介绍 1、Lakehouse数据湖案例实操
Databricks 概述 Databricks 架构(Lakehouse、Delta Lake、Spark 集成) 平台核心组件(Workspace、Notebooks、Clusters、Jobs) 新式数据和AI平台架构 Databricks平台的功能 数据湖架构介绍 数据分析架构介绍 数据工程架构介绍 AI和大模型架构介绍 1、Lakehouse数据湖案例实操
课程介绍
— 数据集成
— Spark数据处理技术栈介绍
— Spark SQL 与 DataFrame 数据处理
— Workflow工作流设计
— 数据ACID处理
— 数据可视化展示
— 构建仪表盘(Dashboard)
2、AI/ML案例实操
— 数据挖掘实验室使用
— 准备数据集
— 数据特征工程构建
— 构建数据模型
— 数据模型训练
— 模型发布、版本管理和优化
Hadoop集群和Databricks的比较
数据迁移
— 数据存储格式比较
— HDFS数据迁移
— Hive数据迁移
— Data Catalog迁移
— 数据权限迁移
— Databricks
课程大纲
Databricks 概述
Databricks 架构(Lakehouse、Delta Lake、Spark 集成)
平台核心组件(Workspace、Notebooks、Clusters、Jobs)
新式数据和AI平台架构
Databricks平台的功能
数据湖架构介绍
数据分析架构介绍
数据工程架构介绍
AI和大模型架构介绍
1、Lakehouse数据湖案例实操
— 数据集成
— Spark数据处理技术栈介绍
— Spark SQL 与 DataFrame 数据处理
— Workflow工作流设计
— 数据ACID处理
— 数据可视化展示
— 构建仪表盘(Dashboard)
2、AI/ML案例实操
— 数据挖掘实验室使用
— 准备数据集
— 数据特征工程构建
— 构建数据模型
— 数据模型训练
— 模型发布、版本管理和优化
Hadoop集群和Databricks的比较
数据迁移
— 数据存储格式比较
— HDFS数据迁移
— Hive数据迁移
— Data Catalog迁移
— 数据权限迁移
— Databricks Delta Lake Migration Tool工具介绍
— DistCp数据迁移工具介绍
— 数据校验
计算任务迁移
— 数据工程处理流程迁移
- Hive任务迁移Databricks(Hive → Databricks SQL)
- 离线任务迁移Databricks介绍(Tez/mapreduce-> Spark RDD/DataFrame)
- 实时任务迁移Databricks介绍 (iceberg、hudi)