数据科学下“多元统计分析”课程改革

时间:2022-07-07 16:30:56

数据科学下“多元统计分析”课程改革

摘要:文章面向大数据时代统计学科发展的趋势,探讨了在数据科学视角下“多元统计分析”课程教学改革举措,提出与数据科学相互借鉴、相互渗透的顶层设计思路,以及融合统计模型与机器学习算法的教学内容组织,从而培养具有数据科学视野的复合型统计分析人才。

关键词:多元统计分析;数据科学;顶层设计;教学改革

“多元统计分析”课程具有较强的理论性及广泛的应用性,如何教好这门课,让学生了解多元统计的思想、掌握现代多元统计的方法,并在大数据、人工智能蓬勃发展的新时代熟练应用多元统计知识,是一个值得任课教师深思的课题。近年来,多位教师从教学理念、时代背景、目标导向等角度进行了有益的探讨。例如,以OBE理念为指导,从教学目标、教学设计与教学考核评价等方面改进“多元统计分析”课程教学[1]。瞄准计算机技术的发展,便于从课堂讲授内容、案例教学、编程实践训练、模型评价与优化等多个环节进行“多元统计分析”课程教学内容与教学方法的改革与实践[2]。针对“多元统计分析”课程实验教学的不足,淡化理论教学,注重案例教学并利用前沿的统计软件辅助“多元统计分析”课程的教学改革[3]。为突出实验教学的重要性,将实践教学融入理论教学,通过实验课程验证理论,通过综合性实验深化理论教学,运用设计性实验强化理论和实践的结合[4]。在课程资源建设方面,有研究提出以学生“学”为中心,以学习成果为导向,设计以学生为中心的课程教学方法,构建以学生为中心的课程学习资源和案例教学策略[5]。这些教学改革实践为本文工作提供了有益的参考。随着大数据、云计算、物联网以及人工智能等信息技术的迅猛发展,人类社会进入了“第四次工业革命”的新时代,笔者从事“多元统计分析”课程教学工作多年,深切感受到“多元统计分析”课程应拥抱新时代,与数据科学相互借鉴、相互渗透融合,并在教学理念、教学内容、教学手段上进行改革创新。

一、“多元统计分析”课程教学改革顶层设计思路

在数据科学迅猛发展的新时代,统计数据分析面临以下新问题。(1)数据规模。传统上,统计分析主要处理中小规模、中低维度的离线数据集,大数据处理主要面向大规模、高维度的数据集,且多为机器或程序自动生成的动态数据。(2)处理原则及方式。传统上,统计分析依赖于先验假设,倾向于建立精准的统计模型,并强调统计模型的合理性和拟合度。大数据处理则强调对流数据的实时处理,以及扩展性好、复杂度低的快速近似模型及算法,更看重模型的泛化能力和应用效果。另外,对高维数据,一般还需要进行特征工程及降维等预处理。国内“多元统计分析”课程比较注重教授数理统计的基础知识,突出统计建模的科学性和可解释性,然而,传统的统计理论与方法难以应对当今对海量数据的实时处理和可扩展需求。笔者提出“以时展为导向、以学生为本、以融合创新为抓手”的教学理念,以期对“多元统计分析”课程教学改革进行顶层设计。

(一)顺应时代需求

树立“以时展为导向、以学生为本、以融合创新为抓手”的教学理念,在课程介绍的时候引入大数据、数据科学、机器学习等概念,让学生一窥数据科学前沿及统计分析的定位。例如,在当今信息化时代,大多数学生对于统计学习、机器学习、人工智能等数据科学中相关部分知识特别感兴趣,可以因势利导地在教学过程中讲解多元统计方法与这些热点技术之间的联系与区别,让学生认识到人工智能是计算机科学的一个子领域,统计学习和机器学习都是人工智能的实现方法。

(二)引导学生主导学习

进一步丰富课程考核体系和评价标准,并鼓励学生积极主动地融入课堂,允许学生自由组成3~5人的小组,并以小组答辩的形式完成课程实验报告;引导学生参与教学内容相关的课外活动,进一步锻炼学生的学习、思考、动手、协作和表达能力。这些都将对学生就业和进一步专业学习深造带来正向影响。

二、融合统计模型与机器学习算法的教学内容组织

在“多元统计分析”课程教学改革中,许多研究人员提出了要加强统计方法应用的教学,强调要“学以致用”,并引入统计软件,以及编程语言等内容[3-4],但仍局限于这些统计软件或编程技术在传统多元统计模型与方法中的使用。笔者基于“以时展为导向”的理念,补充了机器学习相关模型与算法,让学生得以对某类问题的解决方法一窥全貌。例如,笔者在讲授“判别分析”单元时,会指出“判别分析”要解决的问题在信号分析课程中一般称为“模式识别”问题,在数据挖掘课程中一般称为“分类”问题,而在机器学习课程中一般称为“有监督学习”问题。针对不同的学科领域一般采用的处理方法有参数辨识方法、决策树方法、神经网络方法、贝叶斯网络方法、K近邻方法、支持向量机以及集成学习方法等。当然,限于学时,只能简单介绍一下这些方法的背景、特点、适用性、应用案例及性能以及可扩展性等。与此同时,推荐相关的课外学习资料,鼓励学有余力或感兴趣的学生课后深入探索。又比如,在讲授“系统聚类法”单元的时候,会指出“系统聚类法”是数据挖掘课程里“聚类”方法或者机器学习课程里“无监督学习”的其中一种,其他常用的聚类方法还有:K均值方法(基于划分的聚类方法之一)、密度相连方法(基于密度的聚类方法之一),而系统聚类法本身则是基于层次的聚类方法之一。通过补充数据科学相关课程的相关知识点,力图为学生勾画一幅多元统计分析经典方法及其相关方法的全景图,总结数据科学过程和最重要的机器学习算法,让学生可以全面了解数据科学应用过程以及数据科学的技术进展,并能针对具体问题选择正确的模型和方法。

三、丰富完善课程实验和课程考核体系

针对“多元统计分析”课程教学改革,许多学者虽讨论了如何强化实践教学环节、强调了案例教学[2-3,5]、引入数据科学方面的竞赛题目,完善教学考核评价体系等举措[1-2],但较少涉及学生团队精神及协作能力的培养,学生的实践也并未真正地走出课堂。本文基于“以生为本”的理念,在实践环节的设计和实施上充分考虑辩证思维、创新能力以及团队协作的锻炼,让学生体验主动学习的乐趣和效果。

(一)设计小组实验

大量实践表明,小组合作学习更能突出学生的主体地位,培养其主动参与的意识,在激发学生求知欲的同时,又为学生提供了一个较为轻松、自主的学习环境,提高了他们创造思维的能力。在“多元统计分析”课程作业设计中,首先,可有意识地弱化传统的理论推导和计算题,补充一些来自实际应用的、数据量比较大的数据分析题。这些题通常需要教师进行缺失值、离群点甚至标签错误之类的预处理。其次,针对一些探索性数据分析及必要的特征工程,在确定合适的模型及算法后再进行大量的模型验证和模型测试。最后,进行可视化工作,把模型结果和结论一目了然地展现出来。学生可以按兴趣匹配度和知识互补性自由组队并进行分工,但每队限制在3~5人。

(二)鼓励学生参与学科竞赛

近年来,国内涌现了大量优秀的数学建模、数据分析、大数据和智能计算竞赛平台,如中国工业与应用数学学会主办的全国大学生数学建模竞赛、中国计算机学会主办的大数据与智能计算竞赛、全国统计教学会主办的全国大学生统计建模大赛、阿里巴巴集团主办的天池大数据竞赛等。很多竞赛题目均来自企业界的实际问题。这些竞赛活动对学生了解企业需求与实际应用、增强业务理解与建模等综合能力的提高有极大地帮助。经过课堂小组实验锻炼,学生对这些竞赛的内容及形式不再陌生。

(三)引导学生投身“双创”

我国正处于经济转型关键时期,以创新谋发展是必由之路。政府也号召“大众创业、万众创新”,从早期的大学生挑战杯,到现在的互联网+大学生创新创业大赛,旨在深化高等教育综合改革,激发大学生的创造力,培养造就“大众创业、万众创新”的主力军;推动赛事成果转化,促进“互联网+”新业态形成,服务经济提质增效升级;以创新引领创业、创业带动就业,推动高校毕业生更高质量创业就业。笔者因势利导,引导学生利用所学的多元统计分析知识,结合国民经济特定行业特定领域的统计数据进行建模,以此为基础申报“双创”课题,投身到“大众创业、万众创新”的时代洪流当中。

四、结论

在大数据、人工智能时代,统计学科需要主动拥抱变化,与数据科学进行融合,并在教学内容、教学手段等方面进行相应的改革,从而培养具有数据科学视野的复合型统计分析人才。经过近几年的实践,学生在学科视野、知识面、专业技能、动手能力方面有了较大地提升,更踊跃地参加各种相关竞赛活动和课外实践活动,逐渐成长为社会亟须的毕业生。

作者:郑国庆 夏强 夏英俊 单位:华南农业大学