├── README.md ├── ch01 └── ch01.pdf ├── ch02 └── ch02.pdf ├── ch03 └── ch03.pdf ├── ch04 └── ch04.pdf ├── ch05 └── ch05.pdf ├── ch06 └── ch06.pdf ├── ch07 └── ch07.pdf ├── ch08 └── ch08.pdf ├── ch09 └── ch09.pdf ├── homework └── 学生课堂作业.txt └── materials ├── outline.doc ├── schedule.doc └── slides ├── ch01.pptx ├── ch02.ppt ├── ch03.ppt ├── ch04.ppt ├── ch05.ppt ├── ch06.ppt ├── ch07.ppt ├── ch08.ppt └── ch09.ppt /README.md: -------------------------------------------------------------------------------- 1 | # course-Fundamentals-of-data-mining 2 | 2018-2019学年 数据挖掘基础课程资料 3 | 4 | -------------------------------------------------------------------------------- /ch01/ch01.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/edu2act/course-Fundamentals-of-data-mining/09560aaea3a55cbd1c0fd0ed3ac14068fab4ad04/ch01/ch01.pdf -------------------------------------------------------------------------------- /ch02/ch02.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/edu2act/course-Fundamentals-of-data-mining/09560aaea3a55cbd1c0fd0ed3ac14068fab4ad04/ch02/ch02.pdf -------------------------------------------------------------------------------- /ch03/ch03.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/edu2act/course-Fundamentals-of-data-mining/09560aaea3a55cbd1c0fd0ed3ac14068fab4ad04/ch03/ch03.pdf -------------------------------------------------------------------------------- /ch04/ch04.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/edu2act/course-Fundamentals-of-data-mining/09560aaea3a55cbd1c0fd0ed3ac14068fab4ad04/ch04/ch04.pdf -------------------------------------------------------------------------------- /ch05/ch05.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/edu2act/course-Fundamentals-of-data-mining/09560aaea3a55cbd1c0fd0ed3ac14068fab4ad04/ch05/ch05.pdf -------------------------------------------------------------------------------- /ch06/ch06.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/edu2act/course-Fundamentals-of-data-mining/09560aaea3a55cbd1c0fd0ed3ac14068fab4ad04/ch06/ch06.pdf -------------------------------------------------------------------------------- /ch07/ch07.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/edu2act/course-Fundamentals-of-data-mining/09560aaea3a55cbd1c0fd0ed3ac14068fab4ad04/ch07/ch07.pdf -------------------------------------------------------------------------------- /ch08/ch08.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/edu2act/course-Fundamentals-of-data-mining/09560aaea3a55cbd1c0fd0ed3ac14068fab4ad04/ch08/ch08.pdf -------------------------------------------------------------------------------- /ch09/ch09.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/edu2act/course-Fundamentals-of-data-mining/09560aaea3a55cbd1c0fd0ed3ac14068fab4ad04/ch09/ch09.pdf -------------------------------------------------------------------------------- /homework/学生课堂作业.txt: -------------------------------------------------------------------------------- 1 | 数据挖掘基础 2 | 第一节课作业: 3 | 1、天气预报如何实现的?大致的方案? 4 | 2、搜索搜狗实验室,学习其中一种数据集的结构,并做整理。基于这些数据,我们能做什么有用的功能。 5 | 3、以组为单位,选择一种算法进行深入了解,不用管公式及推导。这个算法有什么用?能干什么?Java/python怎么实现?尝试跑一个例子。 6 | 7 | 8 | 第二节课作业: 9 | 1、结合实训项目,或者结合某些实际应用,构想一套数据挖掘方案,包括:数据获取,数据清理,数据挖掘算法的选取,评价。希望最终挖掘的结论是什么?能应用到什么领域? 10 | 1)主题(数据挖掘任务) 11 | 2)数据收集(都有哪些具体收集渠道,收集的数据有哪些属性) 12 | 3)数据预处理(数据存在哪些问题,如何提高数据质量) 13 | 4)数据挖掘(建立模型) 14 | 5)模式评估(如何评价模型的优缺点) 15 | 6)知识表示(挖出来的结果怎么展示) 16 | 2、OLTP,OLAP的概念查询,及应用区别。最好能通过例子说明区别。 17 | 3、搜索常见的爬虫第三方库的应用: 18 | 了解第三方的爬虫软件的使用:八爪鱼软件尝试使用 19 | 了解第三方库的使用:WebCollector 20 | 4、根据作业1的要求,找到相关的离线数据及并下载了解数据集结构。形成文档。写Java的程序去读大文档。 21 | 课后阅读:http://ai.baidu.com/sdk 22 | 23 | 24 | 25 | 第三节课作业: 26 | 1、根据昨天你下载的数据集,详细列出,各个列,每个列的含义,每个的类型(名词性,多元性,数值型) 27 | 2、针对于某一个或两个数值类型的列,去计算max,min,sum,avg,count(分类),中位数,众数。分析并得出有用的结论。 28 | 3、使用可视化工具展示,作业2中你选定的某些有价值的列,直观的说明数据隐含的知识。可选工具:Excel、highcharts、echarts等 29 | 4、欧氏距离的定义及公式是什么?请根据欧氏距离公式计算出如下距离矩阵。两属性的距离矩阵。三属性的距离矩阵。 30 | A1 A2 A3 31 | a 30 103 31 32 | b 27 271 25 33 | c 18 156 17 34 | d 27 193 50 35 | 36 | 37 | a b c d 38 | a d(aa) d(ab) 39 | b 40 | c 41 | d 42 | 43 | 44 | 45 | 第四节课作业: 46 | 1、根据你们选择的数据集,结合你要分析和挖掘的目标,去筛选出数据的列,可能只要1列,或者两列,或者三列。考虑有效数据的比例(空值率,数值有效率)。 47 | 2、根据你们选择的数据集,找到数据当中“脏”的地方。数据中的问题。 48 | 3、找到数据中的异常点(离群点),并进行分析和处理。 49 | 4、搜索归一化的概念,找到归一化的公式 50 | 51 | A1 A2 A3 52 | a 30 103 0.1 53 | b 27 271 3.87 54 | c 18 156 2.7 55 | d 27 193 1.9 56 | 57 | A1 A2 A3 58 | a 59 | b 60 | c 61 | d 62 | 63 | 64 | 65 | 第五节课作业: 66 | 1、分析上次作业中你们数据集中的空值原因?如何做处理? 67 | 2、分析上次作业中的数据集,是否有以下几种数据问题? 68 | 重复记录 69 | 数据不完整记录 70 | 数据不一致记录 71 | 3、针对于作业2中的问题,设计解决办法。(可参考缺失值的处理办法) 72 | 4、请查询ETL的概念,及ETL的作用,常见的ETL工具。 73 | 74 | 75 | 76 | 第六次课作业: 77 | 1、对自己组的数据集进行数据立方体的设计,及展示。 78 | 2、什么叫做启发式方法?贪心算法? 79 | 3、信息熵的概念?计算公式? 80 | 4、对自己的数据集进行分析,根据自己的分析目标,列出自己数据集中可离散化的列。注意:离散化的本质是,把连续的数字列转为标记列;或概念层次:国家-州-城市-街道。 81 | 5、针对你自己的数据集,结合你们的挖掘目标,构造数据立方体,挖掘有用的结果。(Excel的数据透视表;数据库中的聚合函数) 82 | 6、结合作业5,尝试在自己选择的数据集中使用,上卷,下钻,切片,切块操作,并分析结果。 83 | 84 | 85 | 86 | 第七次课作业: 87 | 1、结合上次作业你们完成的数据立方体,形成可视化成果。 88 | 2、把作业1中的可视化结果,结合你们的实训项目。 89 | 3、搜索在线数据挖掘工具,并试用。 90 | https://tushuo.baidu.com/ 91 | http://www.esensoft.com:8110/bi/esmain/portal/loginportal.do?portalid=PCdemo 92 | https://www.tubiaoxiu.com/src/index.html#/app/charting_resource 93 | 4、数据挖掘算法(机器学习算法),监督式学习和非监督式学习的概念理解。 94 | 5、找机器学习挖掘的案例,包含Java实现代码,理解,课堂讲解。 95 | 注意:了解算法的本质,主要关注这个算法能做什么,怎么应用。 96 | kNN,朴素贝叶斯,SVM,线性回归(逻辑回归),决策树,关联规则….. 97 | 98 | 99 | 100 | 第八次课作业: 101 | 1、监督式学习:基本概念深入理解,用自己的话描述一个案例。 102 | 前提:有带标签的数据。什么标签?训练集,测试集? 103 | 模型学习:找一种分类算法讲解如何学习?朴素贝叶斯,kNN,SVM等 104 | 模型评价:欠拟合,过拟合? 105 | 106 | 2、无监督学习:基本概念深入学习,用自己的话描述一个案例。 107 | 前提:无标签的数据。是否需要划分训练集和测试集? 108 | 模型学习:找一种聚类算法讲解如何学习?k-means,层次聚类 109 | 模型评价:针对k-means方法,讲解如何评价无监督学习方法? 110 | 111 | 112 | 113 | 第九次课作业: 114 | 1、理解关联规则的基本概念,举3个关联规则的例子。 115 | 2、描述Apriori算法整体结构,什么叫做支持度,什么叫做可信度。 116 | 3、找一个关联规则的数据集,通过Apriori案例的搜索,找到一些关联规则。 117 | 118 | 119 | 120 | 第十次课作业: 121 | 1、Apriori的算法步骤: 122 | 1-1 找所有的候选k项集(频繁k项集是由频繁k-1项集组成的) 123 | 1-2 得到所有的候选k项集的支持度或可信度 124 | 1-3 根据最小支持度或可信度阈值进行频繁k项集筛选 125 | 2、构造频繁项集的TDB数据库,设置一个支持度阈值,通过ppt上第21页的例子,自己手动完成频繁多项集的筛选和检索。 126 | 3、找一个关联规则的数据集,通过Apriori案例的搜索,找到一些关联规则。根据我们上课的知识把实现代码读懂。 127 | 4、分类算法的基本流程是什么。决策树ID3算的流程,朴素贝叶斯的流程。 128 | 5、分类算法的评价指标是什么?精度率,回归率。 129 | 6、找一个分类的数据集,通过某种分类算法的Java实现进行分类。 130 | 131 | 132 | 133 | 第十一次课作业: 134 | 1、分类算法的基本流程是什么。什么叫做训练集(标签),测试集,验证集。 135 | 2、如何评价分类算法?混淆矩阵,TP,TN,FP,FN。精度,回归率。 136 | 3、决策树ID3的算法流程。 137 | 4、朴素贝叶斯的流程。 138 | 5、决策树ID3讲解过程中,两个案例,手工计算一下,尤其是信息增益的计算。 139 | 6、朴素贝叶斯的案例,手工计算一下,ppt上的那个例子。 140 | 141 | 142 | 143 | 144 | 第十二次课作业: 145 | 1、决策树ID3算法的Java实现。 146 | 2、朴素贝叶斯算法的Java实现。 147 | 3、基本概念学习:kNN算法流程;SVM;NN(ANN); 148 | 4、聚类算法的基本流程 149 | 5、k-means算法的基本流程 150 | 151 | 152 | 第十三次课作业: 153 | 1、聚类方法的基本概念:相似度如何计算,距离如何计算(数值属性、多元属性);如果一个类中有多个样本,如何计算类与类之间的距离。 154 | 2、k-means方法的流程;k-Medoids方法的流程。 155 | 3、如何评价聚类方法? 156 | 157 | 158 | 第十四次课作业: 159 | 1、k-means方法的流程;k-Medoids方法的流程。通过手动书写完成对应的聚类过程,自定义简单的聚类数据集。 160 | 2、找到k-means方法,k-means方法的Java案例及数据集并运行得到结果。 161 | 3、掌握两种孤立点识别的方法:基于统计学的,基于距离的。 162 | 4、总结数据挖掘基础这门课的知识及问题。 163 | 164 | -------------------------------------------------------------------------------- /materials/outline.doc: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/edu2act/course-Fundamentals-of-data-mining/09560aaea3a55cbd1c0fd0ed3ac14068fab4ad04/materials/outline.doc -------------------------------------------------------------------------------- /materials/schedule.doc: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/edu2act/course-Fundamentals-of-data-mining/09560aaea3a55cbd1c0fd0ed3ac14068fab4ad04/materials/schedule.doc -------------------------------------------------------------------------------- /materials/slides/ch01.pptx: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/edu2act/course-Fundamentals-of-data-mining/09560aaea3a55cbd1c0fd0ed3ac14068fab4ad04/materials/slides/ch01.pptx -------------------------------------------------------------------------------- /materials/slides/ch02.ppt: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/edu2act/course-Fundamentals-of-data-mining/09560aaea3a55cbd1c0fd0ed3ac14068fab4ad04/materials/slides/ch02.ppt -------------------------------------------------------------------------------- /materials/slides/ch03.ppt: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/edu2act/course-Fundamentals-of-data-mining/09560aaea3a55cbd1c0fd0ed3ac14068fab4ad04/materials/slides/ch03.ppt -------------------------------------------------------------------------------- /materials/slides/ch04.ppt: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/edu2act/course-Fundamentals-of-data-mining/09560aaea3a55cbd1c0fd0ed3ac14068fab4ad04/materials/slides/ch04.ppt -------------------------------------------------------------------------------- /materials/slides/ch05.ppt: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/edu2act/course-Fundamentals-of-data-mining/09560aaea3a55cbd1c0fd0ed3ac14068fab4ad04/materials/slides/ch05.ppt -------------------------------------------------------------------------------- /materials/slides/ch06.ppt: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/edu2act/course-Fundamentals-of-data-mining/09560aaea3a55cbd1c0fd0ed3ac14068fab4ad04/materials/slides/ch06.ppt -------------------------------------------------------------------------------- /materials/slides/ch07.ppt: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/edu2act/course-Fundamentals-of-data-mining/09560aaea3a55cbd1c0fd0ed3ac14068fab4ad04/materials/slides/ch07.ppt -------------------------------------------------------------------------------- /materials/slides/ch08.ppt: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/edu2act/course-Fundamentals-of-data-mining/09560aaea3a55cbd1c0fd0ed3ac14068fab4ad04/materials/slides/ch08.ppt -------------------------------------------------------------------------------- /materials/slides/ch09.ppt: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/edu2act/course-Fundamentals-of-data-mining/09560aaea3a55cbd1c0fd0ed3ac14068fab4ad04/materials/slides/ch09.ppt --------------------------------------------------------------------------------