DOI: 10.11817/j.issn.1672-7207.2020.12.016
基于多特征权重模糊聚类的高考志愿推荐算法
余奎锋,段桂华,时翔
(中南大学 计算机学院,湖南 长沙,410083)
摘要:提出一种基于C均值模糊聚类的多特征权重模糊均值聚类算法(MFW-FCM)。该算法基于高校历年投档线对应省排名位次、高校社会影响力排名等影响高校投档线变化的因素,结合用户个性化特征权重选择,采用C均值模糊聚类,形成不同填报风险下的3类推荐结果,并输出各项填报信息。基于提出的算法,构建高考志愿推荐原型系统。研究结果表明:采用MFW-FCM能够更好地最大化地利用分数,满足用户个性化的志愿需求。
关键词:模糊聚类;高考志愿;多特征
中图分类号:TP393 文献标志码:A
文章编号:1672-7207(2020)12-3418-12
Recommendation algorithm of college entrance examination based on fuzzy clustering of multi-feature weights
YU Kuifeng, DUAN Guihua, SHI Xiang
(School of Computer Science and Engineering, Central South University, Changsha 410083, China)
Abstract: Based on C-means fuzzy clustering, a multi-feature weight fuzzy mean clustering algorithm(MFW-FCM) was proposed to identify the factor that affected the college entrance examination line. Combining both the factors that influenced the college entrance admission score such as the ranking of colleges and universities in the past years, the ranking of colleges' social influence and user-specified feature weights, C-means fuzzy clustering was applied to predict and put out three kinds of recommendation results with different levels of risks. Based on the proposed algorithm, a prototype of college entrance examination voluntary recommendation system was implemented and tested on the data of 2019 college entrance examination. The results show that the proposed method had the potential to maximize the utilization of the score to better meet personalized needs.
Key words: fuzzy clustering; college entrance exam; multi-feature
普通高校招生考试是与万千学子前途密切相关的重要考试,它的重要性不言而喻。如何最大化利用自己的分数进入理想的学校,是每个高考学子迫切想要解决的问题。自高考管理信息化建设以来,各专业领域专家一直致力于探索高考志愿填报的有效方法[1]。涉及高考科目、志愿填报[2]、考试内容等方面的研究成果很多,主要包含我国高考志愿填报的改革[3]、影响因素[4]、机遇与挑战、信息化应用[5-6]和算法应用[7]等。模糊聚类算法由于可以利用数学方法来量化样本间的模糊关系,能提高样本分布特征描述的准确性[8],因而应用于各个领域,其中,模糊C均值聚类算法FCM (fuzzy C-means)自提出后迅速成为数据挖掘研究的热点,并衍生出许多性能优异的改进算法[9-10]。FCM具有能自动对样本数据进行分类、聚类速度快等优点,被广泛运用于图像处理[11]、数据分析[12]、模式识别等领域。在高考志愿推荐方面,严卫[13]利用模糊聚类的方法对高考志愿推荐进行研究,考虑了升学因素、就业因素、名校因素和成本因素等,个性化选择它们的比例进行模糊聚类,得到高考志愿推荐结果。任建涛[14]提出利用模糊C-均值聚类的方法,再根据用户自己选择的推荐策略分配,给出最后的推荐结果。这些推荐算法考虑的因素比较片面,主要针对学校本身因素进行关联,忽略了学校历年投档线对应省排名位次、社会影响力排名等对志愿填报的影响,因而不够准确。目前,市面上的一些比较成熟的志愿填报辅助系统[15]主要根据分数和投档线对应省排名位次进行推荐,推荐结果多而繁杂,最终还需要用户自己筛选决定,缺乏智能化和个性化的特点。本文作者在模糊均值聚类算法基础上,提出一种应用于高考志愿推荐的多特征权重模糊聚类算法MFW-FCM(FCM with multiple feature weights)。该算法引入带权重的多重影响因素,通过建立基于院校所在地区、院校实力排名、院校影响力、院校投档线对应省排名等可能影响高校录取分数线的多参数模型,再根据用户自身的需求进行聚类,给出推荐结果。此外,基于多特征权重模糊聚类算法(MFW-FCM)建立了1个高考志愿推荐原型系统,辅助考生进行志愿填报。为了提供更加准确、清晰的推荐结果,本系统根据报考策略的风险性程度,将推荐结果分为3类即冲、稳、保,分别代表可能会被录取、被录取的概率很大和肯定能被录取。考生可以根据自身情况,调整这3类推荐结果,选择更加符合自身需求的高考志愿填报方案。
1 多特征权重模糊聚类算法设计
本文提出基于多特征权重模糊聚类算法(MFW-FCM)并结合位差法和模糊C均值聚类算法,引入院校历史分数线和投档线对应省排名、院校实力、院校社会影响力等对高校录取投档线有影响的参数,建立多参数函数。根据考生的高考分数或省排名,得到可能匹配学校的录取概率。基于FCM聚类算法,结合多参数函数、可能匹配学校的录取概率和用户的个性化选择,给出最后的推荐结果。MFW-FCM算法结构如图1所示,包括数据预处理、特征筛选和模糊聚类3步。
1) 数据预处理,即对高考数据进行查漏补缺,将整理后的数据存入数据库。
2) 特征筛选和离散度划分,即对筛选出来的结果进行评估分类。
3) 确定每个特征的权重之后进行模糊聚类,然后将结果排序,最后产生推荐的结果集。
1.1 数据预处理
MFW-FCM算法的数据来源于招生考试信息港、中国教育在线、新东方高考网、高考网、中国校友网等各大高考咨询网站,利用爬虫技术获得。数据包括省文理科一批、二批、三批招生的录取分数线、拟录取人数、各科录取分数线等基本录取信息、档分一分段统计表等。
首先对爬取的数据进行清洗和预处理,去掉冗余和填补缺失的数据。例如,有些院校存在部分年份录取分数线缺失的情况,采用以往与其最接近的几所高校在对应年份录取分数线的平均分进行填充。另外,有些学校存在改名或者院校合并的情况,如“***学院”改成“***大学”,在查询确认信息之后,将所有的记录改成现有的学校名称。根据中国大学本科毕业生就业质量排行榜[16]将高校的就业情况等级量化成评分,将校友会中国大学排名和评星[17]量化成院校综合实力,将最终形成的数据存放到全国各高校综合素质评分表中,如表1所示。
1.2 目标院校筛选与评估
首先根据用户的分科和省排名,搜索历年数据中投档线对应省排名至少有1年大于用户省排名即目标排名的学校,选取排名前50所高校进入之后的筛选流程。假设用户查询的条件为湖南省理科,高考省排名为5 000名,分数为600分,所得MFW-FCM算法得到的部分高校信息如表2所示。
表1 全国各高校素质评分(部分)
Table 1 Quality evaluation of colleges and universities in China (part)
表2 湖南省目标院校筛选结果(部分)
Table 2 Screening results of target universities of Hunan Province(part)
针对每一所候选高校,基于学校的相关信息进行评分,评分指标包括该校近n年的投档线对应省排名、录取分数线离散化程度、历年的高考人数与投档线对应省排名的离散化程度、历年的投档线对应省排名与省控线分数省排名的离散化程度以及该校的社会影响力评分等。根据这些评分指标,获得5个用于确定最终目标院校分类的高校评估指标,包括近n年内的投档线对应省排名大于目标排名的年份数占比p、投档线对应省排名与目标排名的距离离散度dt、投档线对应省排名与省控线分数省排名的均方差dc、投档线对应省排名与当年参加高考人数之间的均方差ds以及高校社会影响力评分df。
图1 算法结构
Fig. 1 Algorithm structure
1) 高校近n年内的投档线对应省排名大于目标排名的年份数占比p为
(1)
其中:y为大于目标分数的年份数量。例如,在湖南省2014—2018年这5年的投档线对应省排名中,中南大学分别为4 215,4 512,4 728,5 050和4 706,故中南大学5 a内大于目标排名的年份数占比p为20%;四川大学的投档线对应省排名分别为5 952,5 446,6 089,6 093,5 235,故四川大学5 a内大于目标排名的年份数占比p为100%。
2) 高校投档线对应省排名与目标排名的距离离散度dt为
(2)
其中:ri为高校第i年的理科投档线对应省排名;s为考生分数对应的省排名即目标排名。同样以中南大学为例,目标排名是5 000,则可以计算中南大学投档线对应省排名与目标排名之间的离散度dt为0.040 34。
3) 高校投档线对应省排名与省控线对应排名距离的均方差dc为
(3)
其中:ui为高校第i年理科的投档线对应省排名与该年省控线对应排名的差值;u为n年中所有投档线对应省排名与省控线排名差值的平均值。根据表3可以计算得到中南大学的投档线对应省排名与省控线排名距离的均方差dc为6 912.26。
4) 高校投档线对应省排名与当年参加高考人数距离的均方差ds为
(4)
其中:ci为高校第i年的理科投档线对应省排名在该年参加高考理科考生人数的占比;f为近n年内该校理科投档线对应省排名在参加高考理科考生人数的占比的平均值;ds为得到的投档线对应省排名与当年参加高考人数之间差值的均方差。湖南省2014—2018年高考总人数如表3所示,选取理科考生的人数进行计算,同样以中南大学为例,经计算ds为0.026。
表3 湖南省理工类第一批省控线和人数分布
Table 3 The first batch of the minimum admission control score lines and population distribution of science and engineering in Hunan Province
5) 高校社会影响力排名因素df为
(5)
其中:ti为该校第i年的影响力得分;maxFi表示第i年的所有院校影响力最高得分;minFi为第i年的所有院校影响力最低得分;n为记录的年份数量;df为该校的社会影响力得分。以中南大学为例,中南大学2015—2016,2016—2017,2017—2018,2018—2019年这4个阶段社会影响力得分分别为46.69[18],45.34[19],44.33[20]和46.19[21],可以算出中南大学的社会影响力得分df为0.471。
6) 将这5个指标综合进行评分,建立多元线性函数,用于评估目标分数被高校录取的概率a。
为了方便进行对比,需要将之前得到的所有高校的4项指标dt,dc,ds和df进行归一化处理。归一化方式为
(6)
以中南大学为例,这4项指标数据归一化结果分别为:dt*=0.040,dc*=0.410,ds*=0.044,df*=0.920。
以各项因素的重要性为基础,经过影响高校录取投档线的程度不同和多次实验结果对比,最终线性函数包含p,dt*,dc*,ds*和df*,各项系数设定为0.68,0.12,0.05,0.05和0.10。因为离散度越高,录取概率就越低,且院校影响力越大,录取的难度也会增大,所以,a的设置如下:
(7)
根据该公式,可得到目标分数被中南大学录取的概率a为0.336 5。
用同样的方式对50所候选高校进行计算,基于计算结果对高校进行分类:a<0.6的高校分为一类,作为“冲”的策略推荐;0.6≤a<0.8的高校分为一类,作为“稳”的策略推荐;a≥0.8为一类,作为“保”的策略推荐。
1.3 模糊聚类与结果输出
1.3.1 特征选择与权重的选择
根据目标院校筛选与评估分类结果,在每一类中进行模糊聚类。在模糊聚类中,选取学校的综合实力排名、学校就业率排名、学校所在地区排名、学校所拥有的国家资助排名等特征,由用户根据自身情况,将特征的重要性从高到低排序,以此对应着不同的权重,这4项指标的权重从高到低依次选取为2.0,1.5,1.0和0.5。通过将权重加入到各个分类的4项指标中,将对应的离散化程度增大,扩大学校之间的差异,提高C均值模糊聚类结果的准确性。
1.3.2 聚类数与模糊因子的确定
在FCM算法中,需要确定聚类数c和模糊因子m,其中,模糊因子m对于模糊C均值聚类的聚类结果影响很大[22]。聚类结果为各聚类中心、各点到聚类中心的距离矩阵以及隶属度矩阵。为了得到最贴近用户需求的聚类中心以及最佳隶属度,进行对比实验。由于在样本量不大时过多的聚类会失去意义,并且得不到足够多的聚类簇中样本数,因此,实验选取的聚类数c分别为2,3和4。文献[23]提出m的经验取值范围为1.1≤m≤5.0,按照聚类有效性问题研究的结果[24],m的取值范围可限制为1.5≤m≤2.5,经综合,在每种聚类数中选取m取值由1.1逐增至2.1,得到每次聚类结果的聚类中心以及隶属度,如图2~4所示。
图2 c=2时隶属度随m的变化
Fig. 2 Change of memberships with m when c=2
图3 c=3时隶属度随m的变化
Fig. 3 Change of memberships with m when c=3
图4 c=4时隶属度随m的变化
Fig. 4 Change of memberships with m when c=4
从图2~4可见:随着m增大,隶属度普遍呈减小趋势,但是在c=3时,减小趋势趋于缓和,并且这3种策略下的隶属度较接近,经综合,最终选取c=3,m=1.1,进行FCM模糊聚类。将2.2节中得到的“冲”“稳”“保”这3类高校分别进行模糊聚类,每一类高校将得到的3个聚类中心和对应的隶属度。在这3个聚类中心中,根据学校的综合实力排名、学校就业率排名、学校所在地区排名、学校所拥有的国家资助排名这4项指标,选取与用户需求最接近的1个。从图3可以看出:各推荐策略下模糊聚类的隶属度非常高,证明聚类簇中高校特性相似度高,能够得到十分接近于用户需求的结果。
1.3.3 聚类结果的输出
最后将“冲”“稳”“保”3个筛选后的聚类结果输出,然后在每个聚类结果之中,按照目标分数被高校录取的概率由小到大进行排序,得到所有候选高校的基本信息,与每一类的分类和排序后的结果组合起来,根据用户自己选择的“冲”“稳”“保”3个分类的选项个数,给出相应学校推荐的个数。最后输出学校的基本信息以及学校的推荐策略,方便用户进行选择。
2 原型系统的设计与实现
基于提出的多特征权重模糊聚类算法(MFW),本文结合用户需求,采用Django后端框架、Vue前端框架和MySQL数据库,构建1个基于多特征权重模糊聚类的高考志愿推荐系统CEVRS(college entrance voluntary recommendation system)。
CEVRS中设计了用户信息表、用户推荐表、省控线表、学校信息表、专业信息表、招生信息表、录取信息表、城市排名表、资金排名表、学校就业率表等。录取信息表中存放了从网络上爬取到的2005—2018年文理科各高校在各省的录取分数线,再根据历年的一分一档表形成录取名次信息存入数据库中。
系统的主要功能包括高考相关信息的咨询和高考志愿填报的推荐2个主体部分。
1) 高考信息咨询。高考信息咨询功能提供包括院校信息、专业信息、高校历年录取分数线和录取名次变化、高校各项排名等各项信息的查询。
2) 高考志愿填报。志愿推荐功能是系统最核心的功能,考生提供其高考分科以及高考排名和成绩,并给出想要的“冲”“稳”“保”这3种推荐的个数,选择地区、综合实力、就业率、国家资金这4个属性中重要性的先后顺序,然后根据所给信息,在后台经过搜索和计算,给出相应的3种推荐策略。
系统判断用户的登录状态,根据用户注册情况派发相应的模块功能。非注册用户只能查看高校信息,注册后会加入用户信息表中,已注册用户可以使用系统完整的功能,包括查看专业信息、高考志愿推荐等。
3 高考志愿推荐系统运行示例
3.1 高考信息查询功能
用户登录后可以在系统中查询高校信息、专业信息以及各省内高考信息。以湖南省为例,湖南省近年内省控线变化如图5所示。从图5可见:近年来各批次录取分数线的变化较大,但批次之间的差距变化并不大。
图5 湖南省本科一批二批省控线走势
Fig. 5 Trend of the minimum admission control score line of the first batch and the second batch of undergraduate in Hunan Province
3.2 高考志愿推荐功能验证
高考志愿推荐功能需要首先输入用户基本考试信息。假设湖南省某理科考生的高考成绩对应省排名位次为5 000名,使用本系统时,考生选择理科,再输入高考省排名5 000名,按照自身兴趣,选择报考学校的重要性排序为所在城市、综合实力、就业率和国家资金,再选择3种推荐策略各自的推荐个数分别为3,4和4,点击查询按钮即可得到推荐结果,推荐结果如图6所示,其中,图6(a)所示为推荐的院校、录取批次、填报策略以及推荐的程度,让学生根据自己的情况再进一步进行个性化填报选择。用户点击查看详情能够生成该校2014—2018年的录取排名走势和2005—2018年的录取分数线与对应批次省控线的对比走势。例如用户点击查询中南大学的详情,查询中南大学近年来录取分数线对应省排名变化(图6(b))以及录取分数线和对应的湖南省理科一批省控线变化示意图(图6(c)),可以看到,中南大学2014—2018年的录取投档分数线对应省排名在4 200~5 000,在湘理科投档线与理科一批录取分数线的距离逐年增大。
本系统在2019年高考结束后,共150名19届高考考生试用了本系统,并随机模拟了350名考生的高考分数,其中一本考生150名,二本考生150名和三本考生200名,对这500名考生的数据进行测试,每名考生“冲”“稳”“保”策略的推荐个数为3,3和4,院校录取分数小于考生分数则视为成功命中,推荐结果如表4所示。
表4 推荐结果准确率
Table 4 Accuracy of recommended results
从表4可见:推荐结果为“冲”“稳”“保”策略的准确率依次提升,且一本、二本、三本的相应准确率依次降低,这是因为三本的学校多,学校之间的差异性较小。在推荐结果中,“保”策略的推荐准确率可达100%,“冲”策略的推荐准确率最低为36.9%,最高为62.2%;“稳”策略的推荐准确率最低为66.2%,最高为89.3%。
3.3 同类推荐系统性能比较
为验证推荐模型的实际效果,选取市面上已有的能够提供不同风险推荐策略以及录取概率评估的高考志愿推荐系统进行对比实验,进行不同分数段的纵向对比测试和不同系统之间的横向对比测试。经过分析,选择完美志愿网[15]和优志愿[25]这2个拥有良好口碑和庞大用户群体的高考志愿推荐系统进行对比测试。
图6 推荐结果
Fig. 6 Recommended results
3.3.1 测试实验设计
1) 实验数据。实验对象统一设定为2019届考生,所在省份为湖南省。实验选取6项分数区间:652分以上;(600,652]分;(550,600]分;(500,550]分;(475,500]分和(450,475]分。在每项分数区间随机选取文理科排名及对应分数各50名输入到3个系统中,共600条测试样例,分别记录每个系统中各个排名的推荐结果,共获得推荐院校数量为49 143个。
2) 测试结果评估标准设计。测试收集的数据统一采用2019年各高校在湖南省的录取情况进行验证。3个系统都能提供3类报考风险下的志愿推荐,分别记录每个分数的各个风险推荐院校。因为平行志愿的填报方式中,每名考生最多只能填报10所高校,所以,当某项推荐分类下的推荐院校不足10个时全部记录,超过10个时只记录前10个。
实验定义2个推荐结果评估指标如下。
1) 某个分数段内各分类下推荐准确率为
(8)
其中:n为该分数段内测试排名个数;ei为第i个测试排名得到的该推荐分类下录取投档线排名大于目标分数对应排名的院校个数;qi为第i个测试排名得到的该分类下的所有推荐院校个数;h为该分数段的此分类下的院校推荐准确率。该指标用于评价推荐志愿推荐的准确性,尤其是用来评价“稳”类型以及“保”类型下的推荐准确率。
2) 某个分数段内“冲”类型院校推荐的分数最大化利用率。若推荐院校的实际录取投档线排名大于目标排名且误差不超过10%,则可视作该推荐院校满足分数最大化利用。
(9)
其中:n为该分数段内测试排名的个数;为第i个测试排名下“冲”类型推荐院校中满足院校实际录取分数线对应省排名大于测试分数对应省排名且不超过10%的推荐院校个数;si为第i个测试排名下的“冲”类型推荐院校个数;m为该分数段内“冲”类型推荐下的分数最大化利用率。本测试指标用以评估“冲”类型院校推荐结果中院校实际录取分数线与目标分数的差距足够小的院校比例。
表5 各系统录取推荐准确率统计表
Table 5 Accuracy statistics of admission recommendation by system
3.3.2 测试结果分析
统计本文设计的CEVRS、完美志愿网和优志愿网6个分数段下随机抽取测试分数的推荐结果,对于每项测试分数,3个系统都能给出“冲”“稳”“保”这3项不同风险的报考推荐。使用2019年各高校在湖南省实际录取投档线以及对应的省排名进行对比验证,统计各个分数段下,所有测试分数所对应的“冲”“稳”“保”这3类院校推荐中的推荐院校准确率及其平均值,结果如表5所示。表5中,最后1列为各个推荐系统中所有分数段中各项分类推荐的综合推荐准确率。选取3个推荐系统在6个分数段的推荐院校平均准确率绘制折线图,如图7所示。
图7 各系统平均准确率对比图
Fig. 7 Comparison of each system average accuracy rate
对表5和图7进行分析可以得到:
1) CEVRS的“冲”类型推荐结果准确率随着测试分数的降低而升高,“稳类型”推荐结果准确率随着测试分数的降低而降低。但在6个分数段中,推荐准确率基本超过其他2个系统的准确率,综合推荐准确率比其他2个系统的高。这是因为随着考生分数降低,同样的分数差距导致对应省排名的变化逐渐增大,并且考生能够选择的院校也变得越来越多,对应分数段院校的录取排名变化幅度也会越来越大,所以,在进行抽选实验时,就会导致“稳”类型推荐结果准确率下降。又因为考生分数越高,相应分数区间内的高校录取排名变化幅度越小,使得“冲”类型预测推荐更加困难,所以,分数越高,“冲”类型推荐结果准确率越低。
2) 完美志愿网在分数段652分以上以及(600,652]分这2个分数段中,“冲”类型推荐与“稳”类型推荐的推荐准确率较高,并且推荐分数最大化利用率同样较高。但根据实际推荐统计,在652分以上和(600,652]分这2个分数段的推荐结果中,“冲”类型与“稳”类型下的推荐院校个数非常少,多数不超过2个,甚至出现“冲”类型与“稳”类型推荐院校个数为0的情况。录取分数越高的学校,每年的录取分数对应排名越稳定,因此,完美志愿网在这2个高分段区间推荐效果较好。
优志愿网在652以上、(600,652]分和(550,600]分这3个分数段的预测推荐中,“冲”类型推荐结果与“稳”类型推荐结果准确率较低,尤其是“冲”类型的推荐结果准确率非常低。
CEVRS在652以上、(600,652]分和(550,600]分这3个分数区间的预测结果中,“稳”类型的推荐结果准确率非常高,尤其是在652分以上和(600,652]分这2个分数区间的“稳”类型推荐结果准确率能到达97.1%和90.9%。“冲”类型的推荐结果中准确率也能到达40%左右。
3) 完美志愿网在(475,500]分和(450,475]分这2个分数段中,“冲”类型推荐结果以及“稳”类型推荐结果准确率较低,尤其是“冲”类型准确率最低,只有40.8%。
优志愿网在(475,500]分和(450,475]分这2个分数段中,“冲”类型院校推荐与“稳”类型院校推荐准确率较高,但(450,475]分这个分数段中“保”类型推荐准确率只有67.8%。
CEVRS在(475,500]分和(450,475]分这2个分数区间中,“稳”类型志愿推荐结果中的准确率开始下降,总体稳定在60%左右。但“冲”类型志愿推荐结果的准确率较高,最高能够达到66.8%。
在获取推荐院校尤其是“冲”类型推荐院校时,考生们不仅关注推荐的准确率,而且更加关注分数的最大化利用率,因为考生们在“冲”的心理状态下,更加希望自己能够进入分数满足情况下的最好高校,因此,还需要对3项推荐系统的各分数段下推荐结果的分数最大化利用率进行统计。根据设定的计算指标,统计3个系统各个分数段的“冲”类型分数最大化利用率和所有分数段的分数最大化利用率的平均值,作为综合分数最大化利用率,统计结果如表6所示,根据统计结果绘制折线图,如图8所示。
表6 “冲”类型的分数最大化利用率统计
Table 6 The maximization score utilization statistics of "risky" type %
图8 各系统分数最大化利用率对比图
Fig. 8 Comparison of the maximized utilization ratio of various systems
对“冲”类型下的分数最大化利用率的统计结果进行对比分析,可得出如下结论:
1) 在3个推荐系统各个分数段下“冲”类型推荐结果中,分数最大化利用率随着分数降低而增大。但本系统在600分以下的所有分数段中,“冲”类型志愿推荐结果最大化利用率均比其他2个系统的高,且本系统的平均分数最大化利用率比其他2个系统的高。
2) CEVRS在(450,475]分的“冲”类型推荐院校中,“冲”类型志愿推荐结果的分数最大化利用率能到达60.1%,与“冲”类型推荐结果的准确率接近,也就是说,在该分数段内,“冲”志愿推荐结果中成功预测的院校基本能够实现分数利用最大化。
3) 优志愿网在652分以上时,“冲”类型推荐的最大化利用率较高,这是因为两者实际提供的“冲”类型院校推荐个数较少,且分数较稳定。本系统考虑了2014—2018年的所有数据,近3年高分段的院校位置趋于稳定,因此,导致高分段下“冲”类型推荐院校的分数最大化利用率降低。
因为存在时效性,本次测试只采用2019年的高考数据进行试验的对比验证,难免会造成误差,若后续能增加不同年份的预测对比,则将使预测结果更加准确。因为低分段中,1分之差会导致排名差距过大,难以确认每一个具体排名以及录取情况,所以,统计低分段预测结果时可能存在误差。
4 结论
1) 基于C均值模糊聚类(FCM),引入院校历史分数线和投档线省排名、院校实力、院校社会影响力等对高校录取投档线有影响的参数,提出了多特征权重模糊聚类算法(MFW-FCM)。根据用户对填报院校的个性化需求,提供“冲”“稳”“保”3种类型高考志愿推荐。
2) 基于提出的MFW-FCM算法,实现了高考志愿推荐原型系统。系统操作方便,实用性强,在2019年的考生中进行实际检测,推荐准确率高,可帮助考生最大化利用自己的分数,获得满意的志愿填报结果。
3) 系统推广应用后,随着用户数增加,后续可以考虑加入反馈机制,自适应地对模型进行优化,使推荐的个性化需求更加准确。
参考文献:
[1] 杨小玲. “多元化评价”对我国高考志愿填报机制的挑战-基于博弈论的分析[J]. 社会科学研究, 2012(4): 107-111.
YANG Xiaoling. The challenge of "diversified evaluation" to the mechanism of filling in and reporting for college entrance examination in China: based on the analysis of game theory[J]. Social ScienceResearch, 2012(4): 107-111.
[2] 张江琳. 浙江省高考志愿设置改革的探索与实践[J]. 教育研究, 2007, 28(10): 91-93.
ZHANG Jianglin. Exploration and practice on the reform of the setting of college entrance examination will-decision in Zhejiang Province[J]. Educational Research, 2007, 28(10): 91-93.
[3] 康乐, 哈巍. 高考志愿填报改革对录取匹配质量的影响[J]. 北京大学教育评论, 2016, 14(1): 105-125, 191.
KANG Le, HA Wei. The influence of the reform of college entrance examination application on the quality of admission matching[J]. Peking University Education Review, 2016, 14(1): 105-125, 191.
[4] 谷鹏磊. 高考志愿填报相关影响因素的调查报告[J]. 中国校外教育, 2019(1): 69.
GU Penglei. An investigation report on the related factors of college entrance examination application[J]. Out of School Education in China, 2019(1): 69.
[5] 沈小娟, 孙绍荣. 基于统计模型的高考志愿填报决策分析[J]. 统计与决策, 2014(21): 57-59.
SHEN Xiaojuan, SUN Shaorong. Analysis of the decision-making of college entrance examination application based on statistical model[J]. Statistics and Decision, 2014(21): 57-59.
[6] 肖灿, 张自力, 何小明, 等. 基于商务智能的高考志愿填报指导系统设计与实现[J]. 西南师范大学学报(自然科学版), 2012, 37(5): 89-97.
XIAO Can, ZHANG Zili, HE Xiaoming, et al. Business intelligence-based college preference chosen consulting systemm design and implementation[J]. Journal of Southwest China Normal University(Natural Science), 2012, 37(5): 89-97.
[7] 徐飞, 谢憬憬, 张连堂. ID3算法在高考志愿分析中的应用[J]. 河南大学学报(自然科学版), 2008, 38(2): 210-212.
XU Fei, XIE Jingjing, ZHANG Liantang. The application of ID3 algorithm in the analysis of college entrance examination volunteers[J]. Journal of Henan University(Natural Science), 2008, 38(2): 210-212.
[8] 刘永利, 王恒达, 刘静, 等. 特征加权的模糊C有序均值聚类算法[J]. 河南理工大学学报(自然科学版), 2019, 38(3): 123-130.
LIU Yongli, WANG Hengda, LIU Jing, et al. Feature weighted fuzzy C-ordered-means clustering algorithm[J]. Journal of Henan Polytechnic University, 2019, 38(3): 123-130.
[9] CHEN Baichao, QI Weiqiang, YUAN Jiaxin, et al. Recognition of high-voltage cable partial discharge signal based on adaptive fuzzy C-means clustering[J]. International Journal of Pattern Recognition and Artificial Intelligence, 2017, 31(6): 1759009.
[10] 杨欣欣, 黄少滨. 基于模糊C-means的多视角聚类算法[J]. 中南大学学报(自然科学版), 2015, 46(6): 2128-2133.
YANG Xinxin, HUANG Shaobin. Multi view clustering algorithm based on fuzzy C-means[J]. Journal of Central South University(Science and Technology), 2015, 46(6): 2128-2133.
[11] 秦胜伍, 陈骏骏, 陈剑平, 等. 基于粗糙集理论的岩体结构面模糊 C 均值聚类分析[J]. 中南大学学报(自然科学版), 2016, 47(9): 3125-3130.
QIN Shengwu, CHEN Junjun, CHEN Jianping, et al. Fuzzy C-means clustering analysis of rock structural plane based on rough set theory[J]. Journal of Central South University(Science and Technology), 2016, 47(9): 3125-3130.
[12] SHI Maolin, ZHANG Liyong, SUN Wei, et al. A fuzzy C-means algorithm guided by attribute correlations and its application in the big data analysis of tunnel boring machine[J]. Knowledge-Based Systems, 2019, 182: 104859.
[13] 严卫. 模糊聚类挖掘技术研究及其在高考志愿填报服务中的应用[D]. 长沙: 中南大学信息科学与工程学院, 2009: 1-63.
YAN Wei. Research on fuzzy clustering mining technology and its application in college entrance examination[D]. Changsha: Central South University. School of Information Science and Engineering, 2009: 1-63.
[14] 任建涛. 推荐算法在高考志愿填报中的应用研究[D]. 昆明: 云南财经大学统计与数学学院, 2018: 1-65.
REN Jiantao. Application of recommendation algorithm in college entrance examination[D]. Kunming: Yunnan University of Finance and Economics. School of Statistics and Mathematics, 2018: 1-65.
[15] 广州爱拼信息科技有限公司. 完美志愿网[EB/OL]. [2020-03-15]. http: //www.wmzy.com/.
Guangzhou Aipin Information Technology Co., Ltd. Perfect wish net[EB/OL]. [2020-03-15]. http: //www.wmzy.com/.
[16] 武书连. 2018中国大学本科毕业生就业质量排行榜[EB/OL]. [2018-03-31]. https: //www.sohu.com/a/226883459_597849.
WU Shulian. 2018 Chinese undergraduate employment quality ranking[EB/OL]. [2018-03-31]. https: //www.sohu.com/a/226883459_597849.
[17] 校友会网. 校友会2019中国大学排名1200强[EB/OL]. [2020-01-10]. http: //www.cuaa.net/paihang/news/news. jspinformation_id=135465.
Alumni Association Website. Cuaa.net top 1200 Chinese universities in 2019[EB/OL]. [2020-10-10]. http: //www.cuaa.net/paihang/news/news. jspinformation_id=135465.
[18] 王艺锭, 熊旭. 2015—2016中国高校社会影响力排行榜[EB/OL]. [2016-12-26]. http: //edu.people.com.cn/n1/2016/1226/c367001-28977664.html.
WANG Yiding, XU Xiong. Ranking of social influence of Chinese Universities in 2015—2016[EB/OL]. [2016-12-26]. http: //edu.people.com.cn/n1/2016/1226/c367001-28977664.html.
[19] 余骏洁. 中国高校社会影响力2017年度榜单发布[EB/OL]. [2017-12-17]. http: //edu.sina.com.cn/gaokao/2017-12-17/doc-ifyptkyk4968276.shtml.
YU Junjie. List of social influence of Chinese universities in 2017 released[EB/OL]. [2017-12-17]. http: //edu.sina.com.cn/gaokao/2017-12-17/doc-ifyptkyk4968276.shtml.
[20] 胡馨, 熊旭. 2017—2018中国高校社会影响力排行榜[EB/OL]. [2018-10-31]. http: //edu.people.com.cn/n1/2018/1031/c1006-30374230.html.
HU Xin, XIONG Xu. Ranking of social influence of Chinese Universities in 2017—2018[EB/OL]. [2018-10-31]. http: //edu.people.com.cn/n1/2018/1031/c1006-30374230. html.
[21] 孙竞, 熊旭. 2018—2019高校社会影响力排行榜完整榜单[EB/OL]. [2019-12-23] http: //edu.people.com.cn/n1/2019/1223/c1053-31519070. html.
SUN Jing, XIONG Xu. Ranking of social influence of Chinese Universities in 2017—2018 complete list[EB/OL]. [2019-12-23]. http: //edu.people.com.cn/n1/2019/1223/c1053-31519070.html.
[22] JIN Ri, WENG Guirong. Active contour model based on improved fuzzy c-means algorithm and adaptive functions[J]. Computers & Mathematics with Applications, 2019, 78(11): 3678-3691.
[23] BEZDEK J C. Pattern recognition with fuzzy objective function algorithms[M]. Boston,MA:Springer, 1981: 301-309.
[24] PAL N R, BEZDEK J C. On cluster validity for the fuzzy C-means model[J]. IEEE Transactions on Fuzzy Systems, 1995, 3(3): 370-379.
[25] 上海忆阁教育科技有限公司. 优志愿[EB/OL]. [2020-03-15] https: //www.youzy.cn/.
Shanghai Yige Education Technology Co., Ltd. Better Wish Net[EB/OL]. [2020-03-15]. https: //www.youzy.cn/.
(编辑 陈灿华)
收稿日期: 2020 -03 -08; 修回日期: 2020 -05 -22
基金项目(Foundation item):国家自然科学基金资助项目(61972421) (Project(61972421) supported by the National Natural Science Foundation of China)
通信作者:段桂华,博士,副教授,从事数据挖掘、网络安全研究;E-mail:duangh@csu.edu.cn