“校园一卡通消费”数据聚类研究
摘要
关键词
大数据分析;一卡通消费;学生消费行为;聚类;
正文
课题:江西省大学生科研训练计划项目:“校园一卡通”消费信息数据挖掘应用与研究,项目编号:S202011319019
随着大数据技术的发展,将大数据挖掘技术与高校的教育行业相结合以提高学校智慧管理水平的方法日益受到关注与重视。在高校中,一卡通消费系统是学生常用的支付方式之一,它为校园生活提供了方便和便捷。高校管理工作中有一项重要工作为贫困资助,目前存在以下问题:1、资助可参考的依据不足;2、资助审核周期偏长;3、资助准确率有偏差。为了制定客观、科学的贫困资助管理系统,高校管理者和决策者对学生的一卡通消费数据进行深入分析和挖掘是至关重要的。目前国内同类系统有电子科技大学的贫困生辅助评判系统、华中师范大学的贫困生校园卡消费系统等。它们主要是利用校园卡消费数据做简单的统计分析方法,为传统贫困生鉴定方法的数据参考和支持,而不是使用数据挖掘技术,挖掘出消费数据的价值以及决策出每个学生的类别。
1.一卡通消费数据挖掘模型
本文采用K-means算法对贫困生一卡通消费数据进行聚类分析。该算法能够将贫困生的消费情况按照消费金额、频次等指标进行自动分类,将学生划分为低消费型、节约型、适当型和高消费型四种不同的消费群体。
应用Apriori关联算法挖掘贫困生一卡通消费数据中的关联规律。该算法可以分析贫困生的消费项目之间的关联关系,发现消费项目之间的频繁项集和关联规则。通过分析这些规律,可以了解贫困生常见的消费组合,发现可能存在的消费搭配和倾向,为高校制定相应的优惠政策和服务措施提供参考[1]。
1.1数据采集
本文研究数据为某高校学生的校园卡消费数据,包括食堂消费、超市消费及校园交通消费数据.为了保护学生个人隐私,这些数据均经过脱敏处理,其原始数据包含有2022-2023学年第2学期全校本科生和研究生的一万多条消费记录。消费记录字段如表1所示:
表1 消费记录字段
字段名 | 字段 | 备注 |
Fromaccount | 学生卡号 | 唯一(匿名化) |
Studentcode | 学生学号 | 唯一的 |
Deptcode | 学院代码 | 持卡人所在学院 |
Timestamp | 交易日期 | 如2014-10-01 09:50:36 |
Amount | 交易金额(单位元) | 消费的金额(如10.2) |
Codename | 商户系统名称 | 如润园食堂 |
Toaccount | 商户代码 | 唯一的标识 |
Accountname | 食品名称 | 如黄焖鸡 |
Pid | 身份代码 | 持卡人(研究生、本科生) |
Sex | 性别 | 持卡人性别(男、女) |
1.2数据挖掘
1.2.1特征分析
根据食堂的开放时间、每个时间段的消费人数进行统计,6.00-9.00为早餐时间,11.00-13.00为午餐时间,17.00-20.00为晚餐时间。为了合理的统计数据,分析在这个时间段里面每个学生的消费水平,通过日均消费次数,日均消费情况,月均消费次数,月均消费情况,分别对早餐、午餐、晚餐消费,月均卡内余额等数据进行特征分析。
1.2.2数据预处理
数据预处理是在进行数据分析之前对数据进行清洗、转换和整合等操作的过程。对于贫困生数据,数据预处理十分重要,因为这些数据可能存在噪声、缺失值、异常值等问题。通过对原始数据一些最大值和最小值进行删除,通过多重插补、删除或回归插补等方式进行处理缺失值。根据分析目标和数据属性,选择与贫困程度相关的特征变量。可以使用相关性分析、统计指标或机器学习方法进行特征选择,以减少数据维度并提高模型性能[2]。
1.2.3 K-means算法
使用K-means算法进行消费数据的聚类分析,通过初始化聚类中心,获取每个簇的质心,计算每个数据样本与聚类中心点的距离,将数据样本划分到不同簇中;重新计算聚类中心并重新划分数据样本,直到聚类中心不再改变,最终得到聚类结果。实验过程中,将k设置为2、3进行对比。通过分析观察k=2时候大部分结果集中在(消费次数5-6次消费金额在150-200)和(消费次数7-8次消费金额在200-250)之间。加上余额,K=3时候数据大部分集中在(消费次数等于5,消费金额在150)和(消费次数在6-7,消费金额在200),少部分集中在(消费次数等于8-9,消费金额在250-300)这个区间。通过比较k=2和k=3,得出学生消费次数在5-6,消费金额在150-200之间比较多,为挖掘贫困生提供依据。
图1 K=2 聚类结果 | 图2 K=3 聚类结果 |
1.2.4聚类分析
以k=4为例,对聚类结果的k表示低消费型、节约型、适当型、高消费型四个等级。这四个等级的聚类特征值如表2所示:
表2 k=4的聚类特征值
聚类特征 | 低消费型 | 节约型 | 适当型 | 高消费型 |
日均消费次数 | 5 | 6 | 7 | 9 |
日均消费情况/元 | 25 | 35 | 43 | 50 |
月均消费次数 | 125 | 160 | 190 | 220 |
月均消费情况/元 | 800 | 950 | 1100 | 1500 |
月均卡内余额/元 | 200 | 300 | 500 | 700 |
每周图书馆消费次数 | 70 | 50 | 40 | 25 |
每日餐饮消费次数 | 10 | 15 | 20 | 25 |
每日超市消费次数 | 12 | 20 | 25 | 30 |
1.2.5 Apriori关联分析
表3 Apriori关联分析置信表
通过分析,将交易总金额将其分为4个区间["120-190元","190-260元","260-330元","330元以上"]。卡内余额分为5个区间["230-330元","330- 430元","430-530元","530-630元","630-700元"]。交易次数分为4个区间["5-7次","7-9次","9-11次","11-13次"]。使用Apriori算法挖掘频繁项集,从频繁项集中挖掘关联规则。通过使用这种算法对待挖掘的数据进行关联规则挖掘,设置最小支持度的值为 0.1,可信度为 0.7,生成的规则如下:
1. 交易总金额在120-190元内,卡内余额在230-330元的支持度为0.63,可信度为0.96。
2. 交易总金额在190-260元内,卡内余额在330-430元的支持度为0.63,可信度为0.93。
3. 交易总金额在120-190元内,消费次数在5-7次,卡内余额在330-430元的支持度为0.19,可信度为0.9。
4. 交易总金额在190-260元内,消费次数在5-7次,卡内余额在330-430元的支持度为0.17,可信度为0.93。
通过使用关联规则的方法对数据进行分析,可以得出贫困学生的每日消费次数、消费金额,卡内余额之间的关系,通过这些关系可以得出学生的消费水平,通过观察消费在5-7次,交易金额在120-190,卡内余额230-330这一部分同学更倾向于贫困的评定,还有一小部分交易总金额在190-260的同学也可以通过学校学习等各个方面的表现进行选择,这些关系可以为学校贫困工作认定提供一些帮助。
1.3 实验结果分析
通过k-means算法聚类和Apriori算法对数据进行判定,可以将学生进行归纳,从学生的消费水平角度分析,可以总结出学生贫困的等级,为后面判断是否贫困提供依据。通过比较各组别的消费水平,可以初步判断是否存在贫困生。通常,低消费组的参与者更有可能是贫困生,因为他们的消费水平可能不足以满足基本生活需求。

图3 实验结果
通过k-means算法聚类分析,学生大部分分布在(消费9-11次,消费金额180-300元),普遍分布在(消费4-6次,消费金额120-190元和消费7-8次,消费金额在150-180元),少量分布在(消费12次以上,消费金额300元以上),结合Apriori算法求出来的关联置信度,可以划分如图一所示,消费4-6次,消费金额在120-190元划分为低消费型;消费次数在7-8次,消费金额在150-180元划分为节约型;消费次数在9-11次,交易金额在180-300元划分为适当型;消费次数在12次以上,交易金额在300元以上划分为高消费型。
1.4准确率计算
利用公式1-1对5000多个学生消费的一万多条数据进行训练,进行学生贫困判定结果分析,计算判定的准确率,结果如图4显示。
准确率计算公式:
(1-1)
图4 准确率
如图4,在学生数量达到1500以上,准确率维持在0.75以上,学生的数据达到5000的时候,准确率稳定在0.95左右,通过分析,学生贫困判定具有一定的可行性。
通过对学生消费情况和消费习惯分析,准确的判定出学生的贫困程度,初步的可以判定出是否为贫困,为高校选举贫困生提供依据。
2.总结与展望
对一卡通消费数据合理应用和管理,能够为学校提供更好的服务和支持,推动校园发展。同时,对于贫困生认定来说,一卡通消费数据的分析也提供了一种客观、有效的认定方式,有助于制定有针对性的帮扶措施。但是在技术上还可以许多提高和改善,包括智能化管理、个性化服务、消费行为指导、商业发展和数据隐私保护等方面。
参考文献:
[1] 陈建兵,李燕.利用校园一卡通数据优化高校贫困生认定系统.2012.12:57-58
[2] 龚黎旰,顾 坤,明心铭,徐 明,秦 斌.基于校园一卡通大数据的高校学生消费行为分析.
...