社会类论文范文10篇
时间:2024-05-04 16:21:00
导语:这里是公文云根据多年的文秘经验,为你推荐的十篇社会类论文范文,还可以咨询客服老师获取更多原创文章,欢迎参考。

社会科学类学术管理论文
【内容提要】哲学社会科学类学术期刊虽然在理论上存在文化产品和文化商品属性,但在市场经济的背景下必须着重深化对其知识属性和学术属性的认识。并且,市场经济越是发达,越要求有更高学术品位的哲学社会科学类期刊与之相适应,以进一步地推进哲学社会科学的繁荣,促进市场经济的发展。知识和学术属性是哲学社会科学类学术期刊的安身立命之本,这不仅是社会分工使然,更是社会进步的需要。
【摘要题】期刊工作
【关键词】哲学社会科学类学术期刊/知识属性/学术属性
【正文】
伴随中国出版业市场化步伐的加快,期刊必然面临生存与发展的抉择。在中国强大的期刊阵容中,哲学社会科学类学术期刊占有重要的份额。哲学社会科学类学术期刊是否也应进入市场?是否也应绝对“断”掉“皇粮”,在商海里“自谋生路”?类似问题一直为学术界、期刊界专家、同人所关注。从宏观上看,哲学社会科学类学术期刊属于出版物范畴,属于文化产品之列。但需要特别指出的是,作为出版物的哲学社会科学类学术期刊不仅具有产品属性、商品属性,而且其知识属性、学术属性更为重要。两者相权,后者才是哲学社会科学类学术期刊的本原属性。确切地说,哲学社会科学类学术期刊是特殊的产品、商品,其特殊性在于其知识属性、学术属性远远高于其产品和商品属性。哲学社会科学类学术期刊在市场经济大潮中的定位应首先是学术和知识,其次才是产品和商品;学术和知识属性才最能代表哲学社会科学类学术期刊质的规定性。
一
社会学类专业创业教育论文
一、大数据背景下社会学类专业创业教育内涵
(一)高校社会学类专业培养特征
社会学类专业以追求社会效益、实现社会公平为培养目标,重点培养学生掌握社会学的理论和社会调查技能,能够从事社会及区域规划、组织及行政管理,劳动管理与人力资源开发、市场调查与咨询、发展项目评估等科研、教学及实际工作。人才目标定位与大数据运用密切相关,由于社会学的发展与现代化进程密切相关,因而成为近年来各种新兴学科中发展最为迅速、最为活跃的一个领域。目前在西方发达国家里,社会学的发展已经成为仅次于经济学的一门重要的社会科学学科。随着我国改革的进一步深化、社会变迁的加速、人们生活方式的变化,各种新的现象、新的事物、新的矛盾、新的社会问题将出现,为专门解决社会问题的社会学创造了一个大好的发展机会。另一方面,随着我国的进一步开放,与社会学相关的产业也必然会进一步完备,从而使社会学的教、学、研、应用密切结合,迎接大数据时代的挑战。
(二)大学生创业教育内涵
“创业教育”是由英语中“enterpriseeduca-tion”翻译而来的,创业教育指通过开发和提高学生创业基本素质和创业能力的教育,使学生具备从事创业实践活动所必需的知识、能力及心理品质,是未来的人应掌握的“第三本教育护照”。现代意义的创业主要是指创业主体为了尽可能地满足自身需求,充分运用现有的知识、经验、信息与技能等,通过认真思索、勇于创新、大胆实践,创造新业绩的一种社会实践活动。创业素质的人才应具有的能力包括:创造力和创造精神、学习能力、技术能力、团队合作精神、解决问题能力、信息收集能力、敏锐的洞察力、研究和完成项目的能力、环境适应能力和献身精神等。大学生创业教育应将创业精神、创业意识、创业知识、创业能力、创业人格以及开创型个性人才培养作为教育课程的主要内容,根据教育对象分类实施。
二、大数据背景下地方高校社会学类专业创业教育的意义
人类社会伦理关系宿主论文
编者按:本文主要从引言;人类中心主义立场;非人类中心主义立场;环境整体主义观;结语进行论述。其中,主要包括:人类生活的环境是一个多向度、立体、完整的环境、环境伦理确有其特殊性,它在一定意义上也的确可以被看做是人与自然之间的伦理关系、环境伦理自身的性质完全可以解答环境伦理的依据问题、非人类中心主义环境伦理学的意识核心、非人类中心主义因缺乏对现实的细致关注而无力回应、“人与自然、人与社会、社会与自然”的存在构成了世界、整体主义的环境伦理学,是在方法论上超越以上几种思维方式、环境整体主义的价值观在很大程度上否定了已有的主体性、主张放弃首要次要之分等,具体请详见。
摘要:20世纪是人类科学取得巨大成就的时期,也是地球环境急剧恶化、环境危机全球化和日益严重的时期。本文通过环境整体主义道德哲学的核心意识结构阐释人类追求的最高价值即是生态系统的整体利益,它既涵盖了整体主义的和谐发展论,又包括完整的环境正义观。
关键词:环境伦理人类中心主义非人类中心主义环境整体主义
1引言
人类生活的环境是一个多向度、立体、完整的环境,人类的道德生活也同样是立体式的、多向度的。因此,基于这种现实基础的环境伦理学必然是能够接纳和包容、超越和整合以人本主义立场和非人本主义立场构建的环境伦理学。把是否有利于维持和保护生态系统的完整、和谐、稳定、平衡和持续存在作为衡量和评判人类社会发展和生存方式的根本尺度和验证标准。这种伦理学具有明显的后现代性和深刻的实践意义。
2人类中心主义立场
人类社会知识经济论文
1石器化社会
人类从动物界分化出来以后,逐渐直立行走,双手被解放出来。于是,人类从事大量的劳动,发明和制造简单的工具。石刀、石钻的出现标志着人类征服自然的开始。后来,发明了钻木取火和弓箭,制造并大量使用手工磨刻的石器,用于采摘野果和猎取野兽,以便维持自身的生存与繁衍。此时,原始人群居于洞穴。到了新石器时代,人类发明了耕作、播种和圈养牲畜,从而人类石器化社会过渡到游牧化社会。
2游牧化社会
随着牧群逐水草迁移,原始人走出洞穴,开始居无定所,过着以牧养牲畜为主的游牧生活,并形成游牧部落。在部落之间出现了以牲畜为主的交换。随后,在部落内部发生了牲畜私有和私人交换,公有制逐渐解体。后来耕作、播种技术飞跃发展,人们开始建造草屋,集体开拓耕地,出现了以耕作为主的居住在固定场所的农业部落。由于耕作技术的大发展和私有制的建立,农业部落逐渐转化为村社,形成了种族群体并从牧养牲畜转向发展农业。
3农业化社会
人类社会发展到农业化阶段,是以农业生产(农作物的栽培、育种、耕作、灌溉等)为主。土地是基本的生产资料,劳动对象主要是自然界有生命的植物,人们利用植物的固有功能生产自身所需的产品,后来,由于农业技术的改进,劳动生产率大大提高,出现了剩余的农业产品。于是,一些人以剩余的农业产品交换土地和雇佣出卖劳动力的农民或苦力,从而形成了奴隶主和奴隶阶层,以及后来的地主和雇农阶层。这些奴隶主和地主,作为上层统治阶级,阻碍了生产力的发展。然而,科学技术的洪流滚滚向前,历法的制定,极大地推动了农业的蓬勃发展。自然科学、社会科学、思维科学相继出现,形成了比较发达的知识系统,将经验、技艺、技术知识与直接劳动融为一体。但是,在农业化社会,“范围有限的知识并没有发展成为同劳动相分离的独立力量”。
发展人类健康长寿的社会要素研究论文
论文关键词:人类健康可持续发展;健康资源;健康需求;要素;功能;限制
论文摘要:健康是人类生存和发展的基础,健康发展是人类永恒的追求.人类社会的可持续发展,有赖于人类健康的可持续发展.人口、资源、环境、经济、社会诸要素与人类健康都有着十分密切的关系,人类健康的可持续发展取决于人地关系、区际关系、代际关系的和谐,它要求在满足当代人健康需求的同时不损害后代人满足其需求的能力,在满足本区域健康需求的同时不损害其他区域满足其需求的能力.健康需求是人类最基本的需求,包括确保身体状态完好的需求、确保精神状态完好的需求、确保社会状态完好的需求,但是,经济条件、技术状况、社会组织对健康需求的可满足性、健康资源的可获得性、健康服务的可进人性构成限制.
健康是人类生存和发展的基础,健康发展是人类永恒的追求.人类社会的可持续发展,有赖于人类健康的可持续发展;坚持以人为本,全面、协调、可持续的科学发展观,必须提高人的健康素质和生活质量;生命健康是推动整个社会走上生产发展、生活富裕、生态良好的文明发展道路的前提.因此,人类健康可持续发展是值得特别重视的崭新的研究领域.基于这样的认识,我们在分析人类健康与可持续发展关系的基础之上,提出了人类健康可持续发展的概念,并对该概念的内涵和特性作了初步的分析[Cil.这里,我们进一步对人类健康可持续发展系统的要素、功能、需求、限制等理论问题进行探讨,希望大家继续赐教.
1人类健康可持续发展系统的要素与功能
1.1人类健康可持续发展系统的要素
可持续发展系统是由人口、资源、环境、经济、社会等要素相互联系、相互影响、相互作用形成的自然一经济一社会复合系统,区域性是其本质特性Czl.人类健康可持续发展作为区域可持续发展系统的子系统,它侧重于人类自身的全面发展,更能体现出以人为本的科学发展观,健康是其要素系统中起关键作用的“序参数”.
人类社会自我控制机制论文
摘要:在人类的社会生活中存在着两个领域、两个系统;一个是人类的意志可以自觉地起作用的系统,可称为人为系统,另一个是不以人类的意志为转移的系统,可称为非人为系统,即社会自我控制系统。人类社会的自我控制系统的最重要的表现是人类积累剩余产品的机制。正确地处理这两个系统的关系,不但极大地影响着社会科学的发展,而且也极大地影响着社会主义的实践。研究这两个系统的关系,特别是揭示人类自我控制系统及其运行机制,是社会科学永恒性的任务。
关键词:人为系统非人为系统社会自我控制机制社会剩余产品的积累
在辩证唯物主义的认识论上有一个著名的命题,即自由是对必然的认识,后来又有人补充说,自由是对必然的认识和改造。虽然人们也承认人类对于必然的认识是一个无穷的过程,永无止境,但是似乎有一种定论,即凡是已被人类认识的东西,人们便获得了充分的自由。在这个范围内,人的意志便可以主宰一切,特别是在社会历史领域中,更加如此。因为社会历史发展的过程是由人参加的,是由无数个体的人的行为构成的,而每一个人的行为都是受其意志支配的。这样说来,既然人类的历史是由无数人的意志的复杂的结合而构成的,因而它也应该是完全以人的意志为转移的了。但事实并非这样。历史唯物主义告诉我们:“历史是这样创造的:最终的结果总是从许多单个的意志的相互冲突中产生出来的,而其中每一个意志,又是由于许多特殊的生活条件,才成为它所成为的那样。这样就有无数互相交错的力量,有无数个力的平行四边形,而由此就产生出一个总的结果,即历史事变,这个结果又可以看作一个作为整体的、不自觉地和不自主地起着作用的力量的产物。因为任何一个人的愿望都会受到任何另一个人的妨碍,而最后出现的结果就是谁都没有希望过的事物。所以以往的历史总是象一种自然过程一样地进行,而且实质上也是服从于同一运动规律的。”(1)这里所说的“作为整体的、不自觉地和不自主地起着作用的力量”便象一只无形的手,在指挥着、控制着人们的行为,规划着人类社会发展的轨道,推动着人类社会发展的总进程。因此可以说,人类历史的发展既是以人们的意志为转移的,又是不以人们的意志为转移的。就其具体过程来说,由于每一个历史事件都是人们行为的结果,因此,是以人们的意志为转移的。但是就整个进程和趋势来说,又是不以人们的意志为转移的。因为人们的意志相互作用的总的结果是谁也没有想到也无法事先知道的。也就是说,人类在推动历史车轮的前进,但总的方向和轨道是朝着什么样的目标前进,则是人类无能为力的。人类可以认识它(相对地)却不能改变它。这样,在人类的社会生活中便形成了两个领域、两个系统:一个是人类的意志可以自觉地起作用的系统,可以简称为人为系统,另一个是“作为整体的、不自觉地和不自主地起着作用的力量”的领域,或称为非人为的系统,这就是人类社会自动控制的系统。
人类社会的自动控制系统表现在社会生活中的许多方面,但是其最重要、最基本的方面就是人类社会剩余产品的积累机制。这种机制最典型地表现出过程的不以人的意志为转移的客观性质。剩余产品的积累是人类社会文明的基础。没有剩余产品的积累就不可能有扩大再生产,就不可能有生产劳动和社会管理的分化,就不可能有脑力劳动和体力劳动的分化,也就不可能有科学、文化、教育、艺术等等的产生和发展。而当人类的社会生产从原来的没有生产剩余产品能力的状态中刚刚显示出具有生产少许剩余产品的能力时,人类社会便自动地、自发地形成了积累剩余产品的机制。对于这样一种机制,过去人们往往只知其然而不知其所以然。为此,我们需要对这种机制的形成进行一次简要的历史考察,以便更深刻地了解人类自动控制系统作用的性质和过程。
我们知道,人类生存的物质基础是各种生活资料的生产和再生产。但是自从人类产生到现在的一、二百万年的时间内,人类在任何一个时期所产生的物质资料都不足以充分满足人类全体成员的需求。因为人类的需求是一个变量,它具有不同的层次而且是随着人类社会生产的发展而不断增长的。到现在为止,其增长的速度仍比社会生产的发展要快些。因此,对以往的每个时代来说,即使把每年所生产的全部物质资料都让人们消费光,也无法充分满足人们的需求。而如果这样做的话,则人类将永远不可能有扩大的再生产,甚至简单的再生产也很难维持。那么人类社会便会永远停止在最原始、最落后的水平上,即接近于动物的水平上,不但物质生活不会进步,而且也不会有人类的文化、科学、艺术、教育等事业。而且人类社会若不能向前发展,也就有可能在长期停滞中灭亡。那么人类社会怎样才能不断地向前发展呢?对于人类来说,能够保证它不断向前发展的唯一的物质前提就是剩余产品的积累。只有社会积累了一定数量的剩余产品,社会的再生产才能不断扩大,也才有可能使一部分人相对地从生产中分离出来,从事文化、艺术、科学、教育等事业,使人类的精神生活也不断向前发展。
人类是如何积累剩余产品的呢?在人类从地球上产生之后的漫长岁月里,社会生产力的水平是极低的。人们通过狩猎和采摘野生的植物果实,只能维持一种半饥半饱的生活,而没有如何剩余而言。在这种情况下便没有剩余产品积累的问题,因而就不能提供推动人类社会发展的物质前提,使人类社会长期处于蒙昧和野蛮的时期。随着人类社会分工的发展,特别是经历了三次大的社会分工之后,人类便逐渐产生了生产剩余产品的能力。但是有了生产剩余产品的能力,并不能直接引出剩余产品的积累,事实上这两者之间的联系更经历了一个十分复杂的过程。这是因为,当社会开始具有生产剩余产品的能力的同时,人类的需求也同步地发展起来。在这种情况下,生产剩余产品能力所提供的余地,很快就会被填平,而很难显示出(甚至不可能显示出)剩余产品和必要产品的区别。因而一开始,剩余产品的积累就意味着压缩必要的消费水平。要求每一个社会成员自愿地、自觉地做到这一点是不可能的。因为它超越了人们认识的可能性。谁都不可能认识到自己忍受消费被减少的痛苦去为社会积累剩余产品,从而推动社会进步的必要性。即使有一位先知向人们讲清其中的道理,并取得了人们的同意,事情也无法操作。因为剩余产品的积累除了具有扩大再生产和交换的意义之外,更重要的是要养活一部分脱离生产劳动的人,使他们能享有比劳动者优厚的生活去从事为人类社会进步所需要的其他领域的活动。那么对于哪些人有资格充当这种角色,人们是不可能达成一致意见的。既然希望人们自觉、自愿地去为积累剩余产品而压缩自己的必要消费是不可能的,这就决定了剩余产品的积累一开始就是违反人们意愿的,因而是必须靠强制来实现的。这样,社会就需要有一种控制机制,使得既能实现剩余产品的强制性扣除,又能使社会生产持续不断地进行下去。然而原始的氏族社会是没有也不可能有这种控制机制的。因此,这种控制机制生长的过程也必定是原始氏族社会的解体和灭亡的过程。这样一种控制机制至少要包括以下的内容:
人类社会发展经验概括论文
编者按:本文主要从从乌托邦主义、技术决定论到公众规划理论:人本思想贯穿始终并不断深化;从“田园城市”到“全球城市”:要素关注日益广泛和全面;从终极蓝图到有机更新和精明增长:逐步形成协调与可持续理念;从学习借鉴到批评提升:走中国特色的科学发展之路进行论述。其中,主要包括:城乡规划工作与社会经济发展密切相关,被认为是城市建设与发展的龙头、当时的城市规划和建筑中,突出的特征是追求人的尺度、早期的城市规划师们洞察了无序城市化的弊端、系统方法、理性决策和控制论被引入到城市规划中来、世界政治经济及国际关系变化起伏、城市应当被当做一个大舞台,认识这个舞台有助于我们认识创造这个舞台的整个社会等,具体请详见。
[摘要]本文从不同角度讨论了在城市规划领域人们对社会发展的认识从局部到全面、从孤立到协调、从“终极蓝图”到可持续发展的演进脉络,以期说明科学发展观是在汲取世界各国发展经验教训、借鉴国外发展理论有益成果的基础上提出来的,是对人类社会发展经验的深刻总结和高度概括。
[关键词]西方城市规划理论;科学发展观;学习借鉴;批评提升
城乡规划工作与社会经济发展密切相关,被认为是城市建设与发展的龙头。现代城乡规划的起源触发于工业革命后城乡发展过程中面临的多种社会问题,其理论在波澜壮阔的近现代社会实践中不断修正、调整、创新,始终围绕着经济社会以及人的发展。城市规划理论本身发展变化的过程从一个侧面反映了近现代各时期人们对发展的观点态度。考察规划理论的发展历程,我们可以清晰地看到人们对社会发展的认识从肤浅渐入深刻、从单一趋于综合、从武断走向科学的一条线索。
一、从乌托邦主义、技术决定论到公众规划理论:人本思想贯穿始终并不断深化
大约公元前1000年,对自由生活的向往造就了古希腊人独立意识、决断性格及闲暇、优雅的生活态度。当时的城市规划和建筑中,突出的特征是追求人的尺度、人的感受以及同自然环境的协调。这可以说是后来整个人本主义的思想历史的发源。17世纪开始的工业革命席卷欧美,随着大量劳动力涌入,城市规模迅速扩张,功能日趋复杂,布局更为混乱。加之严重的工业污染,突出的贫民窟现象,混乱的社会秩序造成城市生活质量日趋下降,居民的生存环境急剧恶化。由此引发的各种社会问题催生了现代城市规划。人认识到这样无序的城市建设所带来的灾难性结果,并试图提出一个合理的城市模型以解决这一系列问题,改善居民生活状况。可以说自城市规划理论发展之初,对人的关怀就成为其紧扣的核心与主题。
虚拟世界对人类社会发展的影响论文
摘要:虚拟世界的出现引发了人类社会的深刻变革,同时对人类社会发展提出了新课题,得到了世界各国政府的高度重视。虚拟世界的兴起,使人与世界的关系已从一定程度上超越了传统意义上主—客二元对立的模式,代之以主一主平等交流的格局,构建起一个主体间相互促进、相互生成的和谐景观,最终让人物化或者让物人化。
关键词:物化人化虚拟世界双重影响
一、消极影响
1.物化
这里是指代人的物化,指操作者利用数字化技术,对物理世界进行模拟、仿真、变形、缩微或扩张后,产生出一个凝聚着人的意识因素的虚拟世界。尼葛洛·庞蒂忠告我们:“每一种技术或科学的馈赠都有其黑暗面。”虚拟世界的出现一方面极大地推动了社会经济、政治和文化发展,并有助于社会主义和谐社会的构建;另一方面,它在上述领域也产生了某些负面影响,对人类社会发展提出了新课题,并为实现社会经济、政治和文化等的持续发展带来了新的挑战,造成了人的物化。
比如在现实生活中的网络隐私,也是虚拟空间中不可忽视的重要问题,隐私是人的一种生存特性,同时也是人的一项重要权利。隐私蕴涵并体现了人的个性、人格、尊严、自由和价值维度。隐私是人独有的生存特性。隐私是个人的私生活,而且是重要独享的私生活。只要人有羞耻心、自尊心,只要人有一定的独立性、个性,人就会维护自己的隐私,因此,拥有隐私也是人与动物的又一区别。私人生活空间是隐私寓居之所,也是隐私存在的条件和领域,隐私是存在于私人生活空间隐秘的私人事务、私人活动和私人信息。私人生活空间无论对于民主、自由与价值追求还是对于法制的构建都是必要的。关注隐私问题、重视隐私权的保护体现了社会文明进步的要求。隐私受到窥视和侵害,私人生活空间受到骚扰和挤压,人的尊严和权利就得不到保障。我国社会长期重整体轻个人,抹杀了个人作为社会存在的个性。隐私观念和隐私权意识是淡薄的,甚至在某种程度上是缺失的。随着社会发展和文明的进步,人的主体意识增强,人们对于私人生活空间范围内个人自由的追求越来越强烈,隐私问题日益得到社会关注。维护隐私权是人维护个人自由、尊严和价值的需要,也是对人的深层关注,是人类走向文明的表现。但是人们在这样的一个过程中,却自己物化了自己,让自己活在一个单向度的社会。
科学论文首条推特积累速度与用户类型
1引言
较快的数据积累速度,与广泛性、多样性和开放性一同,被认为是Altmetrics最主要的特征[1,2]。相比于出版延迟等因素所导致的传统引用数据的时间滞后性[3-5],Altmetrics数据可以在科学后的较短时间内实现快速积累,以此为论文影响力计量提供早期评价指标[6]。从科学论文在线发表的时刻开始,文献管理工具或社交媒体平台上围绕论文所开展的学术交流活动和用户传播行为就有可能被追踪记录下来,构成早期的Altmetrics数据。这些非正式的数字学术足迹,一般不需要经过同行评议、学术出版等流程,因此能在论文在线可见后极短时间内出现并且被捕捉[7,8]。例如论文在发表后不久,便会在Mendeley上积累起大量的读者数据,而引用数据则一般需要经过几年的积累才初具规模[9,10]。反之,快速积累的社交媒体数据,也增强了论文在网络环境中的可见度,为论文带来更多点击与访问[11]。在诸多Altmetrics数据来源中,推特(Twitter)数据不仅是论文覆盖率最高的数据来源之一[12,13],而且表现出最快的积累速度[14,15]。推特数据的快速积累具体表现为:当科学论文可在线获取的短短几小时甚至几分钟内,就已经被推特用户提及,从而积累起推特数据[16,17]。受到预印本的影响,论文甚至会在正式发表之前就已经受到推特关注[18]。因此,对于大部分仅拥有推特数据的科学论文而言,它们的首条推特是Altmetrics数据从无到有的分界线,意味着它们首次在社交媒体平台为用户可见,是社交媒体传播的起点。以往关于科学论文推特传播问题的研究,大部分关注的是论文推特提及次数与未来引用次数的相关关系[19-21],或是总推特提及次数随时间推移的积累模式与速度[22]。但对于科学论文推特传播的起点,即来自何地的哪类用户在何时实现了科学论文的首次推特传播,还缺乏具体定量分析。在传统文献计量学领域,科学论文获得首次引用的积累速度与模式已受到学者关注[23,24]。本文则着眼于科学论文获得的首条推特,对WebofScience的论文中拥有推特数据进行了大规模分析,以回答以下研究问题:第一,科学论文首条推特的积累速度如何?对于不同学科领域的论文而言,发表后一般需要经历多长时间才能获得首条推特?第二,科学论文的首条推特是由哪些类型的推特用户的?首条推特和后来的其他推特是否有不同的推特用户构成比例?第三,科学论文首条推特的用户来自哪些国家/地区?来自论文作者国家/地区的推特用户是否会最先关于这些论文的推特?
2数据来源与研究方法
要对科学论文的首条推特进行分析,首先需要确定论文具体的正式发表日期和所有推特的时间。文献计量学分析中常用的宏观时间尺度,如年、月等,并不适用于分析在微观时间尺度(日、小时等)内能够实现快速积累的推特数据,更无法用于识别科学论文的首条推特。因此,本文使用Crossref记录的精确到日的DOI号创建日期代表论文正式发表日期,论文所有推特的日期与用户信息则通过DOI号从Altmet-ric.com提供的数据集中匹配获取。2.1Crossref记录的DOI创建日期Crossref(www.crossref.org)是一个正式成立于2000年1月的国际学术出版商联盟,目前已成为开放科学(OpenScience)的重要数据整合者和提供者。截至2018年9月,Crossref已收录了逾1亿条学术文献记录[25]。Crossref最主要的产品之一,是其为成员提供的数据对象标识符(DOI)注册与储存服务。本文使用Crossref记录的科学论文DOI号的创建日期,作为科学论文正式发表日期的。由于DOI创建日期精确到了具体日期的层次,本文得以实现在微观时间尺度(日)上,对科学论文获得首条推特的耗时进行度量。Altmetric.com从2011年10月开始追踪记录论文的推特传播数据,因此本文选取发表于该时间点之后的论文作为研究对象。自2012年1月1日至2016年12月31日的五年时间里,共有6,859,973篇WebofScience论文(仅考虑Article和Review两种文献类型)拥有被Crossref记录的DOI号。通过对DOI号的匹配,本文从Crossref采集了这些论文的DOI创建日期,以代表论文正式发表日期。2.2Altmetric.com记录的科学论文的推特数据本文基于所选取的6,859,973篇论文的DOI号,通过Altmetric.com提供的数据集搜索匹配了它们的推特传播数据。截至2017年10月,共有2,221,737篇论文(占32.4%)积累了推特数据。根据Altmetric.com记录的所有推特的时间,每篇论文的首条推特,以及与之相关的推特日期、推特用户地理位置、用户类型等数据,同时被提取出来以进行分析。有预印本的论文相比于其他论文而言,具有在电子出版环境下优先可见的优势,有可能更早被推特用户提及,因此,33,879篇有预印本的论文(占1.5%,即Altmetric.com记录有ArXivID的论文)被剔除。对于其余的2,187,858篇论文,本文比较了所有论文的DOI创建时间与Altmetric.com记录的首条推特时间。正常情况下,推特提及应该发生在之后,但有149,212篇论文的首条推特时间早于DOI创建时间,除预印本的影响外,可能的原因还包括:第一,部分情况下,Crossref记录的DOI创建日期与出版商正式在线的日期之间存在细微偏差,论文上线日期可能实际上早于记录中的DOI创建日期。当这类论文在上线后迅速获得推特提及,其首条推特时间便有可能早于记录中的DOI创建日期;第二,由于出版商合并等客观原因,Crossref记录的DOI号可能根据要求更新创建日期,导致已经发表了一段时期的论文获得一个新的DOI创建日期,从而使得以往已经积累的推特的时间早于新的DOI创建日期。为保证分析的准确性,这些首条推特日期先于DOI创建日期的论文也被剔除。最终,2,038,646篇WebofScience论文及其首条推特数据被选取为本文的研究对象。所有6,859,973篇论文以及2,038,646篇拥有首条推特的样本论文的发表年份分布状况如图1所示。2012—2016年这五年间,总数呈增长趋势,且获得首条推特(即至少拥有一条推特数据)的论文的数量也逐年增加。发表于2015、2016年拥有推特数据的论文的比例相较于前几年也有明显提升,2015年和2016年分别有34.6%和34.1%的论文积累了推特数据。2.3CWTS学科分类体系为比较不同学科领域科学论文在获得首条推特时表现的差异性,本文使用CWTS学科分类体系对2,038,646篇样本论文进行了领域分类。CWTS学科分类体系是由Waltman和VanEck提出的基于引文关系的单篇论文学科分类体系[26]。相比于WebofScience使用的基于期刊的学科分类体系,基于单篇论文的CWTS学科分类体系能对论文的所属学科和具体研究方向进行更详细的分类,并且解决了发表于多学科期刊上的论文无法进行有效分类的问题[27]。在科研评价的实践中,CWTS学科分类体系已被应用于“莱顿世界大学排名”(LeidenRanking,http://www.leidenranking.com/)。CWTS学科分类体系基于引文关系,对WebofScience数据库收录的三种可引用类型的文献:研究论文(Article)、综述(Review)、信函(Letter)进行了聚类,这些单篇论文形成了4047个有着各自具体研究主题的子类,即图2中的4047个圆点。这些细分子类又聚集成高层的五大学科类型,分别是人文与社会科学、生物医学与健康科学、物理学与工程学、生命与地质科学、数学与计算机科学。五个学科类型的布局如图2所示。
3结果分析
3.1具有推特数据的论文的学科分布当一篇论文收获了首条推特,也就意味着该论文积累了至少一条推特数据。图3展示了6,859,973篇论文形成的4047个子领域中,2,038,646篇具有推特数据的样本论文的分布状况。每个圆点代表一个子领域,圆点的大小由该领域内总论文数量决定。圆点颜色取决于各个子领域中至少有一条推特数据的论文的比例(Proportionofpaperswithatleastonetweet,PP(Tw≥1))。当子领域内拥有推特数据的论文的比例较高(即PP(Tw≥1)数值更接近于1)时,圆点偏向红色;当该比例较低(即PP(Tw≥1)数值更接近于0)时,圆点偏向蓝色。比照图2的CWTS分类体系可以看出,人文与社会科学、生物医学与健康科学、生命与地质科学的论文推特数据的覆盖率更高,这些学科领域的论文更容易受到推特关注。而在物理学与工程学和数学与计算机科学这两个领域,具有推特数据的论文比例较低。从各个学科论文的具体推特数据覆盖比例来看(见表1),生物医学与健康科学为44.8%,位列所有学科第一位;人文与社会科学位列第二,比例为42.2%;其后是生命与地质科学领域,该领域有31.7%的论文受到了推特关注;物理学与工程学、数学与计算机科学的比例非常低,分别为13.4%和6.9%,出自这两个学科领域的论文在推特平台上的受关注度相对较低。3.2首条推特的积累速度通过计算论文正式发表日期(DOI号创建日期)与首条推特日期之间的天数差值,可以得知每篇论文收获首条推特的耗时(天),即在后的第几天,论文获得了首条推特。图4分别展示了五个学科领域内,历经不同天数获得首条推特的论文的比例。首条推特的耗时被分为六个时间阶段:0—1天(当天和接下来的第一天)、2—6天(后的第二天至第一周内)、7—30天(的第一周后和第一个月内)、31—180天(的第一月后和半年内)、181—364天(的半年后和一年内)、365天—(的一年后)。五个领域具有推特数据的论文中,都有过半的论文在发表后一个月内积累了首条推特,超过80%的论文在一年之内被推特提及。但获得首条推特的耗时,有着较明显的学科差异。物理学与工程学领域的论文尽管推特覆盖率不高,但总体收获首条推特的速度更快,该领域论文的首条推特有43.5%是在后的前两天获得,约80%发生在后的第一个月内。生命与地质科学、生物医学与健康科学的论文在各时期获得首条推特的比例,仅次于物理学与工程学领域。相比之下,人文与社会科学和数学与计算机科学领域里,在发表较长一段时间后才获得首条推特的论文比例更高。尤其是数学与计算机科学的论文,逾40%是在发表一个月之后才获得首条推特,12.3%是在发表一年后才积累了首条推特。表2展示了五个学科领域内,论文获得首条推特的平均耗时。其中物理学与工程学领域的论文平均经历了最短的时间获得了首条推特(约52天),随后是生物医学与健康科学、生命与地质科学领域的论文,平均耗时约66天获得首条推特。人文与社会科学和数学与计算机科学领域的论文获得首条推特的耗时较长,分别为95天和134天。数学与计算机科学领域不仅只有很小比例的论文被推特提及,而且论文一般是在发表较长一段时间后,才被推特用户关注。3.3首条推特的推特用户类型分布Altmetric.com主要根据推特用户的个人简介关键词、有链接关系的期刊的类型和关注者列表这三项个人用户信息,将过科学论文相关推特内容的推特术期刊和学术出版商存在频繁链接关系的用户;实践工作者(Practitioner):临床医师或者从事临床医学研究的研究者;科研人员(Researcher):熟悉科学文献的用户;社会公众(Memberofthepublic):与科学文献没有链接关系并且不属于以上任何一种类型的用户。本文选取的2,038,646篇样本论文的首条推特,是由180,114个不同的推特账号的,其中169,312个推特用户(占94.0%)拥有Altmetric.com识别并匹配的身份类型。此外,为比较论文获得的首条推特和后来其他推特的用户构成,本文采集了这2,038,646篇样本论文的全部推特数据以及用户类型数据。2,038,646篇论文获得的全部推特由1,550,615个不同的推特账号,其中1,438,031个推特用户(92.7%)拥有Altmetric.com识别的身份类型。图5比较了CWTS五大学科领域内,首条推特和后来其他推特的四种类型的用户构成比例。对于各个学科的论文而言,科学传播者在首条推特中所占的比例要明显高于在后来其他推特中所占的比例。科学传播者是与学术期刊、学术出版商频繁关联的一类推特用户。期刊与出版商的工作促成了科学论文的在线发表,科学传播者往往能第一时间接收到论文出版信息,并将其到推特平台,从而提高了论文的可见度。实践工作者主要是从事临床科学的用户,他们更加关注自身所处领域的论文,在生物医学和健康科学中所占的比例明显更高。科研人员是最熟悉科学论文的人,他们在推特传播中的作用仅次于社会公众(即Altmetric.com无法根据用户资料明确划分身份类型的高于在后来其他推特中所占的比例,其他领域的情况则相反。无论是首条推特还是其他推特,物理学与工程学领域的论文拥有最高比例的科研人员参与论文的推特传播,该领域论文的首条推特有大约32%是由科研人员的,这一比例显著高于其他学科领域。表3列举了五大学科领域内,四类推特用户论文首条推特的平均耗时(天)。物理学与工程学领域的论文获得首条推特的平均耗时最短,不论首条推特是由哪类用户的。数学与计算机科学领域的论文获得首条推特的平均耗时相对最长,除了科学传播者贡献的首条推特(平均58天),要快于对人文与社会科学领域论文的首条推特(平均83天)。总体来看,除人文与社会科学领域外,科学传播者论文首条推特的平均耗时是最短的。在生物医学与健康科学、物理学与工程学、生命与地质科学领域,科研人员首条推特的速度仅次于科学传播者。而在人文与社会科学和数学与计算机科学领域,实践工作者却展现出较快的首条推特速度。3.4首条推特的推特用户国家/地区分布样本论文获得的2,038,646条首条推特中,1,002,728条(占49.2%)具有Altmetric.com识别的用户地理位置信息。这些了论文首条推特的用户的国家和地区分布状况如图6所示。美国与英国是最大的两个首条推特用户来源国。第一时间科学论文相关内容的推特用户绝大部分来自北美、西欧和澳洲,相比之下,来自南美、非洲、东欧和亚洲的用户较少。本文从WebofScience中采集了首条推特用户地理位置可被识别的论文的作者机构数据,以统计这些论文是由来自哪些国家/地区的作者发表的。当来自多个国家/地区的作者合作发表一篇论文时,每个国家/地区都计作发表了一篇论文。发表了具有推特数据的论文最多的20个国家/地区及其论文积累的首条推特的数量(括号中)如图7所示。这些国家/地区的论文所收获的首条推特的用户来源,则通过堆积百分比条形图来表示。每一个子块代表来自某一国家/地区了首条推特的用户的比例,越靠近左侧,就表示来自这个国家/地区的推特用户比例越高。来自论文作者本国/地区的推特用户用红色子块突出显示。由美国、英国和西班牙这三个国家作者发表的论文,吸引了最高比例的来自本国的用户第一时间在推特平台相关内容。由于来自美国和英国科学论文首条推特的用户绝对数量最多,对于其他大部分国家/地区发表的论文,来自这两个国家的推特用户同样占据了最高比例,紧随其后的,是来自本国的推特用户最早相应论文的推特内容。然而对于意大利、中国、韩国和中国台湾而言,其论文首条推特的用户来源构成则较为特殊。来自西班牙的推特用户在美国和英国之后,是意大利发表的科学论文收获的首条推特的第三大来源。而中国、韩国和中国台湾这三个亚洲国家和地区,尽管拥有推特数据的论文总数量较高,但首条推特用户来自本国/地区的比例则较低,分别仅有1.2%、1.4%和0.8%的首条推特是由本国/地区用户的,远远低于其他国家/地区的这一比例。由图6可知,来自这三个国家/地区了科学论文首条推特的用户的数量较少,因而可能导致了相比于其他更为活跃首条推特的国家而言,来自本国/地区的用户比例较低。图8详细列举了积累了首条推特的论文数量最多的20个国家/地区所获得的来自这20个国家/地区的用户贡献的首条推特的比例。美国与英国是最主要的了首条推特的用户来源国,分别对各个国家/地区论文首条推特的贡献比例几乎都占据了20%以上。除西班牙、意大利、中国、韩国和中国台湾以外,其他国家/地区来自当地的推特用户对本国/地区的首条推特贡献率紧随美国和英国之后,比例处于6.4%(丹麦)至21.2%(澳大利亚)之间。
学术论文社交媒体可见性分析
1引言
互联网的发展催生社交媒体的繁荣,越来越多的学者在社交媒体上进行学术信息交流,学术论文、著作等出版物也得以在社交媒体中广泛传播。学术出版物的社交媒体可见性有助于学术成果的传播同时增强公众感知[1],也有利于学者提升学术声誉和获取信任[2]。同时,社交媒体拓展了传统基于被引量的学术影响力评价体系[3],使得科研产出的社会影响力也受到学者关注。当前,学术成果的社会影响力主要通过其社交媒体可见性进行衡量,各类基于社交媒体的Altmetrics指标,本质都是探究观测对象是否被社交媒体提及或分享,即科研产出是否在社交媒体中可见。学术论文作为科学研究成果的主要载体,其影响力是衡量学者及科研机构影响力的关键。学术论文的社交媒体可见性反映前沿知识从学界向更广受众的传播和扩散,体现了在学术界以外更为广泛的传播力和影响力,预测学术论文的社交媒体可见性有助于理解其在社交媒体中的传播力和客观探讨学术论文的社会影响力。学术论文在社交媒体中的传播是科学的社会传播途径之一,相关研究大多集中于探讨传播模式和传播路径[4],也有学者探究学术论文传播平台的差异以及社交媒体用户分享论文的动机[5]。然而,鲜有学者对学术论文在社交媒体中是否可见及其影响因素进行研究。学术论文作为一种信息,其传播受到本身的多维特征影响[6]。基于此,本文以预测学术论文在社交媒体中的可见性为目标,从论文、作者与期刊三个方面探究学术论文社交媒体可见性的影响因素,并以糖尿病相关论文为例,采用多种机器学习算法预测其在推特中的可见性,对比分析不同算法的性能差异和各影响因素的贡献大小。
2相关研究
2.1学术文献的社交媒体传播模式。学界使用社交媒体人数的增加,加速了学术论文的传播,使得学者、论文、出版物的社交媒体可见性得以增强[7-8]。学术论文在社交媒体中的传播模式以及传播所带来的社会关注度的提升成为学者们的研究热点。不同类型社交媒体平台的功能与受众存在明显差异,较多研究针对单一平台传播特征进行探讨,或对比不同平台的传播差异。推特(Twitter)与脸书(Facebook)作为面向公众的社交媒体平台的典型代表,是主要的关注对象。Alperin等以推特中得到广泛传播的学术论文为研究对象,通过探究其转发者粉丝网络的构成,发现大多数学术论文主要在单连接的社区中传播,并且向公众的传播较为有限[4]。Zhang等则发现论文相关推文(Tweet)的时机和推特帐户类型会影响其在社交媒体上的受关注程度[5]。以学者为主要用户的学术型社交网络如Mendeley、ResearchGate等同样备受关注。相关研究主要集中于探究平台中被广泛传播的论文的特征、传播效果[9]以及传播受众类型[10]等。另外,学术论文在不同类型社交媒体平台中的传播差异也是学者们关注的热点。Holmberg和Vainio就以推特和Mendeley为例,探究了影响学术论文在不同社交媒体中引起在线关注的原因,发现Mendeley上的关注是由于学术界的读者而引起的,而推特上受到关注的原因则与更广泛的社会受众有关[11]。综上所述,鲜有学者关注学术论文在社交媒体上是否可见这一问题,亟需探究具有怎样特征的学术论文能够在社交媒体中可见。2.2面向影响力预测的学术论文特征。针对文献被引量预测的研究对学术论文的特征选择与描述的关注较多。Tahamtan等从198篇相关文献中识别出28个与引用频次相关的学术论文特征,并将其分为论文相关、作者相关与期刊相关三个维度[12]。Xie等则从论文相关、作者相关、参考文献相关以及引文相关四个维度构建学术论文特征描述框架,该框架共包含66种可能与引文数量相关的特征,其中46个特征被证实与论文被引量具有显著相关性[13]。尽管学者针对学术论文特征类别的划分方式不同,但总的来看可分为论文、作者以及期刊等三个方面。论文相关特征的研究关注点大多是与论文知识内容无关的“外部特征”,如文章长度[14]、关键词个数[15]、文章的类型[16]、文章的语言、出版时长、参考文献数量[13]、资助基金[17]以及开放获取情况[18]。也有部分学者考察了能够表征文章知识内容的特征,诸如论文质量、创新性、研究主题[19-20]等。然而,如何科学合理地量化相应特征仍是亟需解决的问题。其次,作者数量、作者基于引文的学术影响力(如h指数)、作者发文量以及作者所属机构等作者相关特征[21]也得到学者广泛关注。随着国际合作论文的日益频繁,学术论文是否存在跨国合作、作者的国别数量是否与论文影响力、质量相关也成为学者们关注的焦点[22]。学术论文期刊的级别一定程度上能够反映论文的质量,期刊相关特征也成为相关研究讨论的重点。其中,期刊影响因子[23]、出版语言[24]、出版形式[25]等特征与论文被引量之间的关系得到众多学者的关注。此外,一些Altmetrics指标,如提及数、读者数、下载数等,也被用作学术论文特征[26-27]。2.3数据驱动的学术论文影响力预测。学术论文的影响力包括学术影响力与社会影响力两方面。针对论文学术影响力的预测较多,相关研究主要利用论文的多维度特征建立模型预测论文的被引频次[28-29]。例如,Yu等使用论文的外部特征、作者、出版物以及引文的特征,基于逐步回归分析预测论文的被引量[30]。Cao等提出了一种利用论文出版后短期(3年)的被引量预测其未来被引量的方法[31]。Singh研究了论文早期引用者的影响力对论文长期的被引频次的影响[32]。也有学者将论文所在学术网络的相关信息用于预测其未来的被引频次。例如,Sarigöl等利用科学家的合著网络和作者集中度的方法来预测高被引论文[33];Pobiedina等使用引文网络的频繁图形模式挖掘提高了论文被引频次预测的准确率[34]。常用的预测论文被引频次方法包括经典的机器学习方法、时间序列模型、复杂网络的链路预测等方法。用于预测被引频次的机器学习方法包括逻辑回归、朴素贝叶斯、支持向量机、随机森林[35]和人工神经网络[28]等分类算法模型,以及分位数回归[36]、半连续回归[37]、梯度提升回归树[38]等回归模型。而时间序列模型的方法侧重于对论文被引频次累积过程的分布进行建模[39-40],并基于不同的分布模型确定论文未来的被引频次。复杂网络的链路预测方法则是利用论文的引文网络,常采用基于节点的相似性和基于最大似然估计的方法预测论文之间的引用关系[41-42],从而达到预测论文被引频次的目的。学术论文的社会影响力比其学术影响力更加难以衡量。目前,学者对于如何客观评价学术论文的社会影响力仍缺乏统一认识,针对论文社会影响力预测的研究较少,相关方法也存在不足。考虑到论文的学术影响力和社会影响力都受到论文本身特征的影响,本研究借鉴论文学术影响力预测的相关方法,来预测学术论文社交媒体可见性。
3论文社交媒体可见性预测方法
3.1学术论文特征框架构建。基于以往针对学术论文特征的研究,本文从论文、作者和期刊三个方面构建学术论文多维特征框架,选择了26个具有代表性的特征用于后续的机器学习算法模型。(1)论文特征论文相关特征主要包括研究内容、形式结构和学术影响力三方面的多个特征。在研究内容方面,使用主题类别和WebofScience类别两个特征来揭示论文的内容。论文形式结构的特征是指与内容无关的外部特征,包括论文的语言、文章类型、开放获取状态、论文长度(页数)、关键词数量、资助基金、出版时间等属性。论文的学术影响力特征是之后一段时间内,所获得的使用次数和被引频次等。论文相关特征如表1所示。为确定论文的主题类别,本研究将论文题录数据中每一篇论文的标题、摘要、关键词等文本进行连接,形成语料库,对语料库进行清洗并转化为文档-词频矩阵,在此基础上设置不同的主题数分别训练LDA(LatentDirichletAllocation)主题模型,并计算模型的困惑度,根据最小困惑度原则确定最佳主题数,通过最佳主题模型确定每一篇学术论文的所属主题。(2)作者特征论文作者及科研机构的学术水平和影响力也对其传播有一定影响,权威机构和专家学者的研究成果更容易获得媒体的报道和公众的关注,也更容易在社交媒体上可见。本文从学术论文作者影响力和作者合作程度两个方面确定了12个作者相关特征。其中,作者影响力方面的特征包括作者发文量、被引量及H指数[43]等指标。考虑到全部作者对论文均有贡献,而第一作者和通讯作者通常更加重要。因此,本研究分别从第一作者、通讯作者和全部作者(团队)的角度计算了以上作者影响力指标,合计9个特征。作者合作程度方面的特征包括作者数量、作者机构数量和国别数量,这些特征反映了学术论文的国际合作程度和论文被主动传播的机会。作者相关的特征如表2所示。若论文的题录信息中未注明通讯作者,视第一作者为通讯作者,以避免相应特征出现缺失值。此外,针对同名作者,本文以文献[44]中的方法为基础,根据作者的orcid、姓名、地址等信息按图1中规则进行作者消歧。首先对比两个作者的orcid,若不一致,则判定为不同作者;若作者的orcid信息缺失,则对比两位作者的标准姓名缩写[45](缩写形式为姓在前、名在后,且只缩写名而不缩写姓)。若标准姓名缩写不一致,则判定为不同作者;否则,继续对比两位作者的完整姓名,若出现不一致,则判定为不同作者;否则继续计算作者通讯地址的相似度,若两位作者的地址相似度大于0.8或两个地址存在包含关系,则认为通讯地址一致,判定为同一个作者。为检验作者消歧方法的有效性,本文通过解析WOS数据集中的作者字段,得到全部作者记录,从中随机抽取274组共1004条同名作者,分别检索每位作者对应的原论文并通过文章详情页进入相应作者的WOS个人主页,通过对比每组同名作者的主页链接及内容是否完全一致,对作者身份进行人工判别。同时,根据图1中的消歧方法编写Python程序进行自动消歧试验,对比人工判别和机器判别的结果后发现,本文提出的作者消歧方法的准确率达到98.3%。(3)期刊特征期刊是学术时的重要载体,期刊的影响力也在一定程度上反映了学术论文的研究质量和学术价值。高影响力的期刊往往对论文的质量和创新性要求更高,也更加受学者关注。因此,发表在高影响力期刊上的论文可能更容易被关注和传播,期刊的影响力对学术论文的社交媒体可见性也存在影响。为客观表征期刊影响力,本文选取了JournalCitationReports中3个较为重要的指标,分别是总被引量、影响因子和特征因子分值,它们从三个方面反映了期刊的特征。其中,总被引量这一绝对统计量反映期刊在当年总体规模上的影响力。影响因子则消除了不同期刊发文量的差异,是反映期刊学术影响力的相对统计量。而特征因子分值还考虑了引文所在期刊的质量,并排除了自引。通过对三个指标的各年数据进行平均,可以消除同一期刊的影响力在时间维度上的差异,使不同期刊的影响力对比更为客观。基于这3个JCR指标分别计算年平均值形成的期刊相关特征如表3所示。3.2基于分类的论文社交媒体可见性预测模型。(1)分类模型整体流程社交媒体可见性主要用于表征学术论文是否能够在社交媒体上被提及与传播,本研究将学术论文的社交媒体可见性预测问题转为二分类问题,分类模型的整体流程如图2所示。首先,基于学术论文的特征框架从原始数据集中提取论文的多维特征,并将论文在推特上的总提及量作为其社交媒体可见性的评估指标,由此得到每一篇论文的类别标签。若论文的推特总提及量大于0,说明是社交媒体可见的,标记为正类,若推特总提及量等于0或论文在altmetric.com平台无任何记录,则标记为负类。其次,将论文样本集划分为训练集和测试集,选择适当的分类算法在训练集上拟合模型,在测试集上对各模型的性能进行评估及对比。最后,使用性能最佳的预测模型,对新论文的类别标签进行预测,对以达到利用论文、期刊和作者等多维特征预测学术论文社交媒体可见性的目的。(2)特征编码与标准化特征编码。对于论文相关特征中的主题类别、WebofScience类别、语言、文章类型、开放获取状态等5个离散特征,使用基于Python的机器学习工具scikit-learn进行one-hot编码,将其全部转化为向量形式,便于参与机器学习模型的计算。特征标准化。使用z-score标准化将全部特征保持在同一尺度上,并使得转换后的数据符合标准正态分布。计算公式如下:𝑧−𝑠𝑐𝑜𝑟𝑒=𝑥−𝜇𝜎(1)其中,𝜇为特定特征列的样本均值,𝜎为对应特征列的样本标准差。(3)分类算法选择与训练结合学术论文数据集的特征和二分类任务的特点,本研究选择了逻辑回归、支持向量机、朴素贝叶斯、LightGBM、AdaBoost、随机森林以及人工神经网络等7种不同的机器学习算法分别实现分类模型。将经过预处理的学术论文数据集随机划分为80%的训练集和和20%测试集,并在训练集上采用k折交叉验证的方法调整超参数。已有研究表明,10折交叉验证提供了在偏差与方差之间的最佳平衡[46],因此实验中k设置为10。各机器学习模型训练完成后,分别调用模型对测试集中的学术论文样本的社交媒体可见性进行预测,并将预测结果与其真实的类标签对比,以评估各个分类器的性能。选择常见的二分类模型性能评估指标对预测模型进行评估,包括模型的准确率(Accuracy),模型的精确率(Precision)和召回率(Recall)以及F1-得分(F1-score)。
相关期刊
精品范文
1社会关系