大学堂论文网致力于各类论文代写、论文发表、论文修改、论文查重等论文服务!客服QQ:82274534

客服热线:14795812138
当前位置:主页 > 论文范文 > 工程论文 >

学生体质健康数据挖掘流程探析

来源:www.daxuelw.org  发布时间:2017-06-24  
0 引言。

  目前,我国全国各大普通高校均已开始实施教育部与国家体育总局共同发布的《学生体质健康标准》,并且陆续将计算机技术用于体质测试等日常工作的管理之中。在历年测试工作的推进下,高校已经积累了含学生基本信息与体质测试成绩等在内的大量数据。本文以数据挖掘关联分析中的 FP-Growth 算法为依据,分析学生体质健康测试的各项数据,目的在于对学生各项测试项目之间的隐藏关系予以挖掘,以提供更为丰富的隐藏且有用信息于高校体育决策者。为了提高算法的执行效率,本文以数据本身特点为依据,拟选取一种基于数组的 FP-Growth 算法进行研究。

  1 数据挖掘和关联规则。

  1. 1 数据挖掘的基本概念。

  在数据库中,数据挖掘又可被称为知识发现,即在各种不完全、随机且存在噪声的数据中对人们事先并不知道的隐藏性且具有潜在有用信息与知识的数据进行提取。其实,数据挖掘这一过程是比较完整的,它能够通过对数据的挖掘使人们做出决策或者丰富自身的知识。

  1. 2 关联规则与 FP-Growth 算法。

  1. 2. 1 关联规则。

  关联规则又称亲和力或关联分析,在数据挖掘中发挥着重要的作用。关联分析的目的为对数据之间的关系予以揭示,但是在各项数据中,这种关系的表现并不直接。已知项目I = { I1,I2,…,Im} 为全部项目集合,D={ t1,t2,…,tn} 为全部事务集合,其中,ti= { Ii1,Ii2,…,Iik} 且有 Iij∈I.类似 X?Y 的蕴含式为其关联规则,满足 X,Y?I,这是两个项目的集合,可称为项目集。关联规则中 X∪Y 的支持度(s) 表示的是数据库中包含有 X∪Y 的事务在全库事务中所占的比例,有 s =support(X?Y) = P(X∪Y) ,而其置信度(c) 则表示 X?Y 关联规则的强度,亦即包含 X∪Y 事务数量及包含 X 事务数量的比值,有 c=confidence(X?Y) = P(Y X) .

  1. 2. 2 FP-Growth 算法2000 年以 Han 为代表的研究人员提出了一种影响力较大的频繁模式挖掘算法,即频繁模式增长 FP-growth 算法。

  此种算法需要对数据库进行 2 次扫描,第 1 次扫描会得到 1-频繁项集,第 2 次扫描则需利用此集合对数据库中的非频繁项进行过滤,继而生成 FP-tree.在 FP-tree 中,全部的频繁项集都囊括在内,因此之后的频繁项集挖掘工作只需在 FP-tree上展开即可。在整个挖掘过程中,需要完成两阶段工作,第 1阶段中,需对数据库中的各项事务进行构造,使之成为一棵FP-tree,到了第 2 阶段,则需对 FP -tree 进行挖掘,亦即对 FP-tree 进行频繁模式与关联规则的挖掘。

  2 学生体质健康数据挖掘流程。

  本文选取陕西省西安交通大学、西北工业大学、西北大学、长安大学、西北农林科技大学、西安电子科技大学 6 所高校为例对学生体制健康数据挖掘进行分析。

  与传统的数据分析不同,大数据挖掘属于一种自动发现知识的过程,其数据是在不确定性目标下通过不同的数据源得到的,通过数据的预处理,采用机器学习及人工智能等方法挖掘并分析丰富的观测数据。学生体质健康数据的挖掘以下述问题的解决为目标: 在大数据下对各个用户群体的群体特征以及个人所具有的特点进行研究,以获取具有价值的知识,进而增加其商业价值。图 1 所示的数据挖掘流程包括 6 部分内容,分别为数据的收集、准备、转化、抽取、挖掘以及应用。

  2. 1 数据采集。

  在本系统中,可用于挖掘分析的数据分为静态数据与动态数据两种类型。静态数据具体是指各个高校教育处统一公布的学生基本信息,这部分数据比较容易收集; 动态数据则是历年学生的体质健康测试成绩,每年学生的体质测试完成之后,系统管理人员需将以 Excel 文件为主的历年上报数据导入到相应的数据库文件中,具体到各项数据,应包括学生的来源信息、体质健康测试成绩、体育课成绩以及参与锻炼情况等。其中,学号、姓名、学校等内容共同构成学生的来源信息,而身高体重等级、速度灵敏度(立定跳远成绩代表) 、耐力等级(1000m 成绩) 、肺活量体重等级等项目的成绩则构成其体质健康测试成绩。

  2. 2 数据预处理。

  由于用于数据挖掘的原始数据源来源于上述 6 所高校,因此,数据中存在大量不完整的、含噪声的和不一致的数据。

  因此,需要根据系统的数据挖掘引擎 FP-Growth 算法的要求,进行数据的预处理。

  (1) 数据集成。体质数据分析的数据主要包括测试项目信息、评价标准、学校信息、学生信息、体质测试成绩信息等的集成,转换为概括性的数据。同时,在此过程中还需要对数据的属性进行分类,以方便后续的挖掘分析操作。

  (2) 数据清理。数据清理主要牵涉各年度导入的学生体质测试成绩,以体质健康测试总成绩为例,将总成绩在[0,60]之间、[60,80]之间、[ 80,100]之间分别转换为"差"、"良"和"优".这里在数据预处理后的基础上将其分别记为i1,i2,i3,学生所在学校: 陕西省西安交通大学、西北工业大学、西北大学、长安大学、西北农林科技大学、西安电子科技大学分别标记为 i5,i6,i15,其余各个测试项目身高体重等级、速度灵敏度(立定跳远成绩) 、耐力等级(1000m 成绩) 、肺活量体重等级也依次类推。用 1 表示"是",0 表示"非",从而便于数组运算。由此假设给定一测试成绩为差、学生来源于西安交通大学,身高体重为差、1000m 立定跳远为良、跑步成绩为为良、 肺 活 量 为 优 的 学 生 记 录 表 示 为100100000000000100010010 001.按照这种方法,将处理后的数据读入数组。

  (3) 重复记录的处理。系统在进行数据挖掘之前,需要对两条或两条以上记录值完全相同的重复记录进行预处理,可以对其进行删除操作。

  2. 3 基于 FP-Growth 算法的体质健康数据关联规则挖掘的实现。

  后台数据库选择 SQLServer2008,在以上数据库预处理的前提下,数据库关联规则的挖掘工作可通过 FP-growth 算法来完成。此算法事先对最小支持度 Min-sup 和最小置信度Min-conf 进行了定义,在此定义之下,将需要挖掘的数据库导入到程序当中,由此得出各项频繁项集,具体遵循如下过程:

  (1) 构造 FP-tree首先,对预处理后的数据库进行第 1 遍扫描,得到频繁项1-项集 K1,在支持度递减规律下,对 K1 进行顺序排列,可得到 L1.继而对 FP-tree 的根节点"Null"进行创建。在数据库中,每项事务都需遵循以下步骤来完成: 以 L1 的顺序排列各项事务,并将它们的项按顺序添加至 FP-tree 中,其中,事务项与项的 cnt 值共同组成 FP-tree 的节点信息,若已有添加项,则有 cnt+1,不然,需进行新节点的创建,并将计数值设为1,以此递推,直到全部的事务均已添加完成才予以结束。

TAG标签: 代写工程论文  

联系方式

客服QQ:82274534
客服QQ:84468591
热线客服 :15012858052