102046 大数据处理技术
课程代码:SUFE 102046
评论贡献者:Hao Shen
- 教材:林子雨 |《大数据技术原理与应用(第3版)》
- 作业 x N
- 实验 x N
课程信息
课程类别:专业选修课课
课程安排说明:机房上课
课程学分:2分
教学课时数:32课时
考核方式:
- 出勤及课堂研讨表现(20%)
- 作业与实验:完成各部分的作业和实验教学内容的操作训练(20%)
- 期末考试(60%)
本课程系统介绍目前最新的大数据原理与应用处理技术。重点讲授海量数据的分布式存储原理、方法和文件系统HDFS;海量数据的并行处理技术MapReduce及其编程模型与方法;建立在分布式存储和并行计算之上,存储海量数据的NoSQL数据库HBASE,多维分析大数据的数据仓库Hive,以及适合于大数据的数据挖掘模型和算法。了解国家的中长期科技发展战略,理解大数据技术对我国“新基建”和科技创新的重要性,建立大数据信息安全意识,熟练掌握理论与实际相结合的思想方法。
要求学生深入理解和掌握Hadoop大数据技术的基本概念、原理和构架、以及基于集群的大数据并行处理与编程技术方法、能够利用Hadoop技术解决实际的大数据处理应用问题,具有设计开发大数据处理算法和应用程序的基本能力。同时,了解大数据发展的最前沿技术,并深入认识和理解大数据的发展趋势和解决实际问题的能力,具备基本的大数据项目的设计、规划、组织与管理能力。
适合人群
个人觉得对大数据技术感兴趣的同学😃,数据科学专业同学的必备课!!
先修条件
- 能简单的使用Python和Java语言进行编程(不需要十分熟练)
- 有一定的数据库的知识(了解sql语法)
- !强烈建议 !最好能简单的使用Linux命令
课程评价
强推!强推!!强推!!! 👍
这门课程有一定的难度,整体课程理论和实验并行,任务量较大,主要是实验报告,基本每周一次。但是笔者想说,这门课是十分值得一听的,授课质量十分高,并且借助 dolphin-labs 平台,能很好的对课上学到的内容进行巩固和深入理解!
同时,另一个十分推荐的理由是,在 dolphin-labs 平台上,你能白嫖到超多的高质量课程,笔者可惜平台只在课程学习期间提供支持。
最后,本课程的教材 林子雨 |《大数据技术原理与应用(第3版)》 也是数据科学工科师工作面试的基本内容。
笔者觉得作业和实验内容有些多,工作量有点大。时间不充裕的小伙伴仔细斟酌后进行选择!!!
非官方资料推荐
后续课程推荐
- 并行化计算
文件列表
一键下载(CDN加速)
GitHub原始链接
- 102046_大数据处理技术
- info
- labs
- HBase的安装部署和使用.md
- HDFS API操作.md
- HDFS 的使用和管理.md
- HDFS命令操作.md
- Hadoop配置.md
- Hive数仓_使用桶表.md
- Hive数仓_导入导出表数据.md
- Hive数仓_操作分区表.md
- Hive的安装部署和管理.md
- MLlib 二分类问题.md
- MapReduce的个人理解.md
- Mapreduce实例_排序.md
- PySpark中的RDD创建.md
- PySpark中的RDD基本操作.md
- PySpark中的SQL.md
- Spark SQL编程开发.md
- Spark中Scala、Python和R的Shell操作.md
- Spark的Scala API的使用.md
- 熟悉常用的HBase操作.md
- Hadoop安装指南