从对教育的评价到促进教育的评价教育评价国际研究进展综述|研究进展综述

来源:县域时间:2019-10-30 07:55:40 点击：

从对教育的评价到促进教育的评价教育评价国际研究进展综述

从对教育的评价到促进教育的评价教育评价国际研究进展综述当前的教育变革正在催生教育评价领域的巨大变革，即从对教育的评价（Assessment of Education）到促进教育的评价（Assessment for Education）。这一变革归根结底是由对教育评价的本质认识的转变造成的，即从认为教育评价是对学生所具备的相对“客观的”知识技能的评价，转变为教育评价是对学生获得能力或者生产知识的相对“主观的”认知过程的评价。本文在梳理国际教育评价领域的相关文献的基础上，从教育评价的理念、目的、内容、工具、要素、环境、方式和专业指南八个方面对教育评价研究与实践上的转变展开具体的论述，并据此对我国教育评价领域的研究与实践提出借鉴和启示。

一、教育评价的理念：从知识论到认知论，从反映论到建构论教育评价理念的转变首先是从知识论到认知论的理论转变。即从认为教育评价是评价学生所具备的内化的知识技能，转向认为教育评价是评价学生获得能力或者生产知识的认知过程。教育评价领域的研究者更倾向于认为评价是知识建构的认知过程，是激发个体能力和潜能的过程[1]。评价的结构是一个协同系统，通过收集相关的证据来支持对个体获得能力过程的各种推论。通过判断和解释，将这些证据和推论用于了解和改进教与学的过程和结果——即评价基于对学习者掌握某种能力的过程进行规范的记录，对学习者所取得的某项成就的过程进行建模，从而明晰和改进教与学的过程。基于此，教育评价研究正在探索如何通过自适应测验（computerized adaptive testing，简称CAT）、诊断性考试和计算机模拟化的测验环境等智慧评测促进智慧学习，为智慧学习提供所需要的智慧评测工具，构建智慧学习空间和智慧学习生态[2]。从而，实现基于目标教学、资源型自我导向教学和个性化的学习服务等。

教育评价理念的转变还体现在从反映论到建构论的理论转变。即从认为教育评价力求客观反映学生已有的知识技能，转向认为教育评价是利益相关者主观地经协商共同建构共识的过程。一直以来，人们对教育评价的认识就是测验、观察或测量一组个体的行为反应样本，以此作为样本去推论个体所具备的知识技能的水平。在这种情况下，测验是人工情境，与学习过程是分离的、割裂的，需要打断正常的教学活动。评价任务是为诱发学习者某些特定的行为而开发的，其本质是刺激-反应模式，这是反映论倾向的。而基于建构论倾向的教育评价与反映论倾向的教育评价的区别主要体现在以下几个方面：一是在评价的价值判断上，从虚假的“价值中立”或者“价值无涉”，转变为尊重价值多元。反映论倾向评价的价值观建立在客观主义的主客体认识论基础上，认为评价者通过观察或测量可以认识或反映所研究的对象，他们之间的关系是主客体的二元关系。评价者与评价对象之间要保持一定的距离，才能不受任何价值观的左右。而建构论倾向评价是充分听取多方利益相关主体的意见，通过协商，缩小差距，达成共识。二是在评价标准的制定上，从常模参照到标准参照。常模参照评价是根据个体在群体中的相对位置来报告评价的结果；
而标准参照则是指基于某种特定的标准来评价个体的学习状态，同时建构论倾向的评价强调这一标准是评价者和评价对象共同建构的。三是从评价方法上，反映论倾向的评价强调量化研究，通过测验将学生的既定能力反映出来；
而建构论倾向的评价强调质性研究，通过形成性评价及时反馈信息，促进学生的学习。

二、教育评价的目的：从遴选到问责，从鉴别到诊断从评价的目的来看，从遴选精英和教育问责向个性化诊断转变，以实现个体的不断进步。20世纪，教育评价的主要目的是遴选、鉴定和问责。教育评价的历史，是随着人们对教育功能认识的变化而不断演变的。起初，教育评价主要发挥的是遴选功能，这与教育的阶层再生产功能是一致的—— 社会需要精英，教育评价的目的就是选拔精英。即通过评价将具有某项能力或知识的个体从众多候选人中选拔出来，对其进行某种资格认证，或是使其能够升入更高一级的学校接受教育，或是使其从事能够胜任的工作。20世纪末 ,以信息革命为代表的科技革命推动世界经济由物质经济转向信息经济,对智力资源（人才和知识）的占有比对工业经济中稀缺资源（土地和石油）的占有更为重要,科技、知识和其载体——人力资源在社会经济发展和全球竞争中的作用日益突出。相应的，教育评价的功能也就开始泛化，开始关注劳动力素质和普通学生的状况，关注作为全社会和民族共同事业的教育。教育评价从单一的遴选功能发展到对教育质量和公平的监控，通过大规模的教育评价全面把握区域教育质量情况，以此进行教育问责。

进入互联网和大数据时代，技术的进步大大推动了评价的诊断、规范和指导功能的实现。评价的诊断性功能主要是基于布卢姆的认知目标分类理论，在教育质量监测方面如 PROMSE、TIMSS等通过评价检讨教材，检讨教法等。在日常教学实施过程中，评价的诊断性功能主要体现在开展形成性评价，从知其然到知其所以然，进而改善提高教学。以评价及时准确地获取个体学习活动的相关信息，对其进行诊断，提供个性化的学习体验，及时避免教育活动分析不足甚至有失偏颇导致的非个性化问题，使教育呈现出精耕细作的趋势。

信息化和互联网为教育的精耕细作提供了新的技术手段，使教与学的方式发生剧变。这方面最典型的例子就是影子教育（Shadow education），这种基于学习者个性化教育的需求，使得市场化私人课外辅导应运而生。同时，以KNEWTON和可汗公开课为代表的互联网课程，可以记录学生的学习过程，基于每次小测验的结果再给予相应的补充教学。

三、教育评价的内容：从知识到认知，从Rs到Cs 从评价内容来看，教育评价的转向首先体现在从评价知识转向评价认知过程。20世纪，教育评价领域占据主导地位的是对学生已经获得的知识和能力的测试。因此，教育评价领域主要致力于研究测验和评价的准确性，通俗地讲就是回答如何测得准的问题。教育不是要培养具备知识的人，而是要培养会使用知识、解释知识和生产知识的人。教育的目标是要鼓励和培养学生学会学习和可持续地学习。因此，教育要弱化知识的传授，而强调让学生学会学习，即在学习过程中，学生运用自身具备的知识或能力去解决日常生活中的新问题，形成对知识新的理解和认识，甚至创造或产生新的知识。对于评价领域来说，如何通过评价促进个体批判性和创造性思维、逻辑性推理、相关性解释，以及获取和创建知识，解决实际问题等，在21世纪将变得越来越重要。同时，教育评价不仅要关注认知领域的评价，还要借鉴现代社会和心理科学的研究成果，在评价中充分地考虑到情感、环境和社会性过程对人类表现的影响。

教育评价的转向在评价内容上还体现在从评价已知转向评价未来生存的能力。进入21世纪，在面向未来的教育质量观指导下，教育评价的研究上升到提升国家未来竞争力，进行人力资源储备的高度，主要致力于构建、遴选和促进个体适应未来社会生活核心素养的培养。有研究指出，除了Rs，即读（Reading）写（writing）和算术（arithmetic）等通常所说的基本的技能（Skill）外，Cs日益成为教育过程中关注的重要综合能力或素养（Competence），大有取代Rs之势。这包括创造力与创新素养（Creativity and innovation）、概念化和问题解决素养（Conceptualization and problem solving）、沟通和合作素养（Communication and collaboration），以及计算机素养（Computer literacy）等[3]。21世纪能力评价与教育科研项目（P21）从未来社会对人的要求出发，将21世纪要求具备的能力分为如下四个领域：思考方式（创新能力、批判性思维能力、自主学习能力）、工作方式（沟通能力、团队合作能力）、工作手段（信息素养、ICT素养）、生活方式（公民意识、生涯规划能力、个人及社会责任意识）。同时，随着人工智能领域研究的日新月异，某些能力的重要性也将发生变化，我们现在所看重的学生的各种能力很可能在未来变得微不足道，而在当前教育中还没有关注到或者了解甚微的能力在未来的需求将会大大加强。这包括人的能动性、个体倾向性、文化认同感等。

四、教育评价的工具：从标准化到情境化，从纸笔化到数字化教育评价工具的研究进展首先体现在从标准化测验到对生活情境的再现或模拟的情境化评价。20世纪是标准化测验盛行的世纪，客观题尤其是标准化的选择题在效率和效能方面展现出了巨大的优势。目前评价主要聚焦具体的技能，要求学生按照特定的步骤得到唯一正确的答案。有研究者也在反思标准化测验的问题，认为标准化测验被过度使用，整个过程中缺乏质疑和探究，标准化测验限定了学生学习的课程范围，在日益消磨知识工作的热情和激情等[4]。在这一背景下，情境化的评价，尤其是表现性评价（或真实性评价）受到关注。表现性评价是测量学习者运用先前所获得的知识解决新异问题或完成特定任务能力的一种系统性的评价。具体来说就是运用真实的生活或模拟的情境引发学习者做出反应，由高水平评价者按照一定标准予以观察和评判，由此考察学生在现实生活中分析和解决复杂问题的能力[5]。

教育评价工具的研究进展还体现在从纸笔化测验到数字化评价。传统的测验环境通常是受测者坐在课桌前，被要求“看自己的卷子”。在计算机和互联网构建的数字化时代，大型数字化和虚拟的教育评价项目对教育评价工具进行了新的诠释，充分展示了其巨大的优势。知名教育评价中心，如美国的评价、标准和学生测验研究国家中心CRESST就将游戏和虚拟(Games& simulations)与出版物并列作为其两大类产品之一。在这方面成功的大型项目包括《河城（River City）》和《城市科学(Urban Science)》等。《河城（River City）》游戏是在一个多用户的虚拟环境中，让中学生团队合作解决19世纪城市的疾病问题[6]。游戏者使用小组讨论的方式来彼此交流各自的发现，他们也和游戏中的人物沟通，这些聊天日志可以通过数据挖掘作为合作的知识、技能和特质的证据，同时项目使用自然语言加工技术实现自动化评分。

《城市科学（Urban Science）》是一项以认知游戏为背景的研究，让学习者模仿城市规划师的实习经验。研究者使用个体学习者之间、学习者和导师之间的交互文本记录来识别学习者在规划方面的技能、知识、身份、价值观和对证据的理解等[7]。Bagley & Shaffer（2010）还用这些文本记录分析了个体学习者和导师之间的对话，比较了虚拟聊天和面对面聊天环境下的结果，发现这两种环境下的对话、结果和投入都是相似的[8]。这一研究也支持了数字化虚拟环境下测量个体的21世纪素养，例如合作问题解决能力的可行性。

五、教育评价的要素：从题目到证据教育评价研究与实践的一大进展是评价不再局限于正式的测验题目，广泛多样的各类记录都被视为评价证据。在题目范式下，在问题形式上，标准化测验中的题目是评价互动和数据收集的具体片段，通常题目是以一个问题，或者一组问题，以及答案选项的形式出现；
在结果的输出上，通常标准化测验中的题目都是有固定答案的题目；
在提供的信息上，为了追求题目的纯洁性，假设结构的不相关性，会把很多有意义的数据都扔掉，提供的是聚焦的信息；
在对评价结果的解释上，测验结果是做出正确反应的平均数，以判定整体的良好性。这种评价设计的通常模式是：（1）确定领域；

（2）在领域中，举出一些想法和活动的例子；
（3）把这些想法和活动变成问题；
（4）对他们的正确与否进行评分。

在这种情况下，单个题目的作用和所寻求的整体的推论之间的关系不大。与之相对应，基于广泛证据的评价范式下，在问题形式上，评价是让学习者在特定情境下完成需要复杂表现的活动，包括论文写作、配置计算机和诊断患者等；
在结果的输出上，数字化革命背景下，可以从一系列活动的工作产品中提取出证据，即活动的特征。在设计评价的时候，不再在题目的水平上思考问题，不是考虑评价想要报告什么而是要考虑想要学生在现实世界中，依据一定的指导能够完成什么样的活动；
在提供的信息上，将活动本身就界定为一种多维的概念，认为数据从头到尾都是有意义的证据，提供的是多维度的信息；
在对评价结果的解释上，采用以特征为中心的反应评分观点，我们所关心的是评价个体某个具体的属性，而不是整体的良好性，例如某个具体策略的使用，某个想法或行动的呈现，或者把人与他相似的个体分为一类，不是依据正确性，而是依据与诊断或教学相关的工作特征。

数字化技术为基于证据的评价提供了支持。首先，数字化技术实现了证据的发现和识别，它可以捕捉到学生互动的信息流和路径，这样的数据提供了对学生完成产品全过程的洞见。例如，学生行动序列的日志文件为思考学生表现的特征提供了可能性。Rupp等人（2012）分析了带有时间戳的日志文件[7]，让学生在模拟环境下配置计算机网络设备，他们确定的特征包括命令使用的数量，整个过程花费的时间，以及日志中记录的学生在设备间切换的次数，将这些证据组合作为对效率的测量。除了他们表现的正确性外，这样的组合可以对学生的表现特征进行推论，也可以基于此对学生进行分类。同时，数字化技术还可以实现证据的积累。贝叶斯网络提供了一种灵活的对复杂活动的潜在变量建模的方法。

用统计技术可以解决从多维的活动中积累证据的问题，从而把活动、数据和推论联结起来。以证据为中心的设计（ECD）原则和逻辑基础对于自动化课堂评价非常有用。ECD强调评价论证的逻辑形式，建议在评价的设计和研发过程中，谨慎的考虑推论的链条，并要求评价要素输送的细节化。在ECD 中，概念化的评价框架首先考虑要对学生做出什么样的推论，然后考虑能够观察到的可以提供这些信息的行为，以及允许观察这些行为的活动。最后决定如何识别经验中的重要元素和如何将他们组合到一起。在开放的活动呈现系统背后使用一个灵活的评分系统，评价活动的用户流量和证据的识别这两个目标都能够实现[9]。

六、教育评价的环境：从封闭到互动，从强迫到吸引在传统的测验中，测验的环境是已经客观存在的；
而对于虚拟的数字化环境下的评价活动，每一个元素的创设都需要精心考虑。

教育评价研究的一个重要领域就是创设使人的行为与在现实生活中的行为保持一致的评价环境[10]。构建评价环境时要考虑评价活动的目的和不同的反馈目标怎样引发不同的或者多样性的学习者之间的互动形式。开放的模拟情境可以允许涉及全方位的知识、技能和特质，这包括：发现问题情境相关的线索，形成问题，改正错误，理解环境的反馈并做出回应，以及其他复杂的情绪和信息加工技能。例如，美国印第安纳大学开发的一款影响力巨大的教育网络游戏《亚特兰蒂斯探秘Quest Atlantis》，该游戏包含的关键元素有：一个以拯救失落的亚特兰蒂斯文明的活动背景，一个连接学习者、指导者和NPC（非玩家控制角色）的活动网络环境，一个关注活动教学、鼓励学生参与学习活动和社会活动，培养学生社会责任感的系统，以及一个成熟的评价激励机制，对做出贡献的游戏者给予特权和积分奖励，并为每个游戏者提供保存个人作品，显示其进步情况的个人主页。因此，该游戏并不是简单的去人工设计一项特定的任务，去满足一个特定的标准，而是去开发社交技术结构让个体去反思和改进自身以及所处的社会。因此，除了注重游戏中涉及的科学内容标准，设计者还特别强调环境意识和社会责任感 [11]。

理想的评价系统在情境创设上应该吸引学生，邀请学生来参加，而不是强迫学生参加，要通过创建积极的和有吸引力的学习和评价环境，使学生愿意和最大限度地投入到活动中。能够让人沉浸其中的情境特征包括以下元素：挑战、控制和想象。研究表明当认知的挑战恰好与学生的认知能力发展相匹配的时候，学生最有可能投入或者沉浸其中[12]。游戏设计者在游戏者能力和挑战等级的匹配之间做了非常优秀的工作，而且数字化的环境通过适应性的系统大体上可以促进这种匹配。同时，数字化环境考虑到了活动的规则和限制与参与者的自由之间的平衡[13]。最后，数字化的体验可以创设激发人兴趣的幻境，《亚特兰蒂斯探秘Quest Atlantis》游戏在这方面就表现突出，游戏的虚拟空间由统一世界、文化世界、生态世界和健康世界组成。每个世界分为3个村庄，如动物栖息地、水质量等[11]。

研究表明，当学生在教学活动中与数字化的环境互动时，从互动中捕捉到的信息可以用来更新学生掌握水平的模型。

在数字化评价系统中，精心设计的反馈不但不会影响评价的信度和效度，还会促进更好的学习[14]，可以称之为促进学习的评价系统。

七、教育评价的方式：从测验到活动，从有形到无形教育评价除了测验题目的评价外，基于活动范式的评价正在兴起。从活动理论的视角来看，在教育生态系统中，教育评价包括评价对象、评价工具、评价内容和评价结果。评价对象是学生、同学和老师；
评价工具包括课本、计算器、网络资源、游戏中的人物等；
评价内容是解决一个问题；
评价结果包括成绩和动机的测量。该生态系统还包括规则、组织和任务分工[15]。规则是活动的准则，例如是否允许与他人合作；
组织指的是一起投入实践的一组人，可以是一个班，或者一个线上论坛等。任务分工的定义是在活动中每个人做什么，包括是否每个人都得到了分工。除此之外还要考虑到学生是否熟悉所使用的工具，或者学生在活动中有多少选择。

评价正在逐步融入到学习的过程之中。

同时，大规模的标准化测验作为正式的评价越来越普及，然而这种正式评价通常都是在固定的时间和统一要求的环境下开展的，并不能满足课堂上的评价需求。教师越来越需要非正式的评价，在课堂上，教师可以随时随地运用评价手段获得学生学习进度的相关信息，把握学生完成学习任务的情况，由此根据评价结果给出有针对性的反馈与指导。在未来技术的大力支持下，教育评价要研制为专门教与学的过程服务的评价系统[16]。该系统可以记录学生在多个时间点上的学习情况，提供反映教、学、评价过程的各种水平的数据，包括来自学校内部和学校外部的，可以收集和管理教学和评价过程中的各类基本和细节的数据，从而监测和反映学生的学习情况。这些数据可以是定量的也可以是定性的，并可以从多个角度来证明学生的学习情况。

以往开展的教育评价主要是由专业人员进行评价和解读的一项专业活动，我们称之为专家评价。如今随着计算机技术的发展和普及，个体的学习过程可以被直接记录下来，评价随时随地都可以进行，学习者可以通过评价数据来及时调整自身的学习策略、学习进度和学习内容等，同时，评价数据也可以用于生活、工作、商业等各个领域的活动，正如有研究者所说未来社会任何个人，即使作为评价领域的外行也可以随时随处开展评价，评价将成为一种文化[17]。

八、教育评价专业指南：从经验到规范正如医学专业具有一套专业指南，教育评价领域随着行业的日益兴盛，特别需要一个评价专业指南，严格规定一切专业活动，规范专业人员的操守。从而在评价政策的制定，评价活动的开展和评价数据的使用等方面，建立起一套专业标准。首先最重要的就是“不造成伤害为第一（first do no harm）”，与评价相关的不同层面的人员都应该恪守这一信条，包括政策制定者、教育行政人员、教育评价研究人员，以及教育评价设备的制造者等等。2014年美国教育研究学会（AERA）、美国心理学会（APA）和国家教育测量咨询委员会（NCME）联合颁布了《教育和心理测量标准（2014版）（Standards for Educational and Psychological Testing 2014）》[18]，正是研究者在这个方向上的努力。

综合教育评价领域的文献可以发现，教育评价还具有以下特点：（1）为公平和实用性而设计；
（2）为积极的影响而设计；
（3）为参与而设计；
（4）整合来自多个来源的信息；
（5）尊重隐私等[19]。

九、国际经验对我国开展教育评价研究与实践的启示综观国际教育评价研究与实践，可以发现关于核心素养发展的评价，嵌于学习进程中的评价，基于证据的评价，计算机技术支持下的评价，大数据时代的评价等进展，昭示着教育评价领域在继标准化测验后又闪现出了新的研究热点，这对于我国教育评价领域的发展既是机遇也是挑战。我国的教育评价工作及其研究，在以下几个方面需要有所作为。

（一）从提升国家未来竞争力进行人才储备的高度，开展教育评价21世纪，国际经合组织、欧盟、联合国教科文组织等国际组织以及美国、英国、日本等发达国家都从国家人才储备战略的高度，开展了核心素养指标框架的研究，确定并遴选了一系列指标作为教育改革与评价的参照标准。各国际组织和主要发达国家达成共识，强调教育要为个体未来的成功生活和社会的良好运行做准备。《新媒体联盟地平线报告》中多次提到教育评价要跟上步伐，更好地为教育服务，是当今教育变革的主要挑战之一。可见，教育评价的内容要指向学生适应未来社会发展的核心素养，指向学生的终身学习，让学生有能力成功应对互联网时代和未来的人工智能时代。要以更长远的眼光和面向未来的视角，开展当下的教育评价。

同时，教育评价也不应仅仅是学生评价，而应对整个社会全面建立起人才培养的教育支撑体系的状况开展系统的评价。

（二）以评促育，通过评价思路的转变推动教育教学的变革以评促育，以评价重点的转变引导教育的目标从知识的灌输向思维品质的训练和核心素养的培养过渡。在这一过程中，要秉持实证的科学态度，基于认知心理学的理论和实证研究结果开展科学和有效的评价。一方面，在正式的学生评价中，包括大规模教育质量监测和高利害性考试等，都应聚焦学生的认知过程。在评价指标框架的构建、题目的设计、评分标准的设定等环节都要考虑到对学生认知过程和非认知品质的评价。另一方面，在非正式的日常教学学生评价中，也要聚焦学生的认知过程。在教学目标和评价目标的设计，学生课堂表现的评定中，都应将观察与评价的重点从知识内容的掌握转变到学生的认知过程和知识生成的过程中。同时还要关注到学生的情感、社会性和个人的能动性方面培养。

（三）整合多学科力量，开展大数据时代的教育评价研究大数据时代的教育评价正在开启教育评价的新模式。这一模式从认知心理学的理论出发，运用先进的统计分析技术建模，充分利用计算机技术记录学生的学习过程，以此作为证据开展心理与教育测量方面的分析，进而把分析结果反馈给学科专家和有经验的教育管理者，由专家基于个人的领域经验和数据结果，以及各种证据提供的信息，进行综合判断，制定提升学习者学习的策略方案，从而在学生的学习过程中，通过嵌入式评价，为学生提供个性化的学习指导。因此，教育评价研究需要学科专家、心理与教育测量专家、认知心理学专家、计算机专家、统计学家、有经验的教育管理者等多领域的专家的协同创新，充分发挥各学科领域专家的优势和特长，在评价的各个环节精耕细作。

（四）参照国际标准，制定我国教育评价专业指南随着我国“管、办、评分离”政策的相继出台，第三方教育评价成为新兴市场，但同时也呈现出鱼龙混杂的态势。

很多发达国家在这方面积累了丰富的经验，教育评价领域市场更为成熟。这种背景下，尤其应该汲取各国经验，参照国际标准，制定教育评价专业指南，建立第三方教育评价机构的准入和监管机制，以及进行教育评价人员的专业资格认证。

从而规范教育评价专业活动，科学地开展教育评价，最大限度地避免教育评价过程中的不专业行为对被评价者造成的负面影响，给社会安定带来的不稳定因素。为我国教育评价专业的繁荣打下坚实的基础。

综上所述，当前教育领域迎来了巨大的挑战和机遇，新的教育要求与之相适应的评价。教育评价要实现从对教育的评价到促进教育的评价的转变，应该通过一系列概念、方法和技术上的转变，实现教育评价的多元化发展，使其更好地为教与学服务。通过评价明晰和促进教与学，是新的教育背景下评价研究与实践的使命所在。

参考文献：
[1] Armour-Thomas E., Gordon E. W.. Toward an understanding ofassessment as a dynamic component of pedagogy[M]. The GordonCommission, Princeton NJ, 2013. [2] Chang,H.H..Making computerized adaptive testingdiagnostictoolsfor schools[C]//R.W.Lissitz &H.Jiao(Eds.).Computers and theirimpact on state assessment: Recent history and predictions forthe future.Charlotte,NC: Information Age,2012:195-226. [3] Bereiter C.,Scardamalia M..What Will It Mean To Be An EducatedPerson in Mid-21stCentury?[J/OL].http://www.gordoncommission.org/rsc/ pdf/bereiter_scardamalia_educated_personmid21st_cen tury.pdf. [4] Noddings N..Care and coercion in school reform[J]. Journal ofEducational Change, 2001, 2(1): 35-43. [5] Kaestle C..Testing policy in the United States:A historical perspective[J/OL]. http://www.gordoncommission. org/rsc/pdf/kaestle_testing_policy_us_historical_pe rspective. pdf. [6] Dede, C.,Nelson,B.,Ketelhut,D. J.,Clarke,J.,& Bowman, C.. Design-based research strageties for studying situated learning in a multi-user virtual environment[R].ICLS Proceedings of the 6th internationalconference on learning sciences,2004. [7] Rupp A,Levy R,Dicerbo K E,etal. Putting ECD into practice:Theinterplay of theory and data in evidence models within a digitallearning environment[J]. JEDM-Journal of Educational Data Mining,2012, 4(1): 49-110. [8] Bagley E A S. Stop talking and type: mentoringin a virtual and face-to-face environmental education environment[D].Wisconsin:University of Wisconsin--Madison, 2011. [9] Mislevy R.J..Postmodern Test Theory[J].Teachers College Record,2014,116(11):n11. [10] Behrens J.T.,DiCerbo K.E..Technological Implications for AssessmentEcosystems:Opportunities for Digital Technology to AdvanceAssessment[R/OL].2012. http://www.gordoncommission.org/rsc/pdf/behrens_dic erbo_technological_implications_assessment.pdf. [11] Barab S.,Dodge T.,Thomas M. K.,etal.Our designs and the socialagendas they carry[J].The Journal of the Learning Sciences,2007,16(2): 263-305.[12] Gee J. P..What Video Games Have to Teach Us About Learningand Literacy[M].New York: Palgrave/Macmillan,2003. [13] Chin J.,Dukes R.,Gamson W..Assessment in simulation and gaming:A review of the last 40 years[J]. Simulation & Gaming, 2009, 40(4): 553-568. [14] Shute V. J.,Hansen E. G., Almond R. G.. You can´t fatten A hogby weighing It-Or can you? evaluating an assessment for learningsystem calledACED[J]. International Journal of ArtificialIntelligence in Education,2008, 18(4): 289-316. [15] Frezzo D. C.,Behrens J.T.,Mislevy R.J..Design patterns for learningand assessment: Facilitating the introduction of a complexsimulation-based learning environment into a community ofinstructors[J].Journal of Science Education and Technology,2010,19(2): 105-114. [16] Gordon Commission.To assess, to teach, to learn: a vision for thefuture of assessment[J/OL]. http://www. gordoncommission. org/rsc/pdfs/gordon_commission_technical_report. pdf. [17] Torre,C.A.,Sampson M.R..Toward a Culture of Educational Assessmentin Daily Life[R/OL].http://www.gordoncommission.org/rsc/pdf/ torre_sampson_toward_culture_educational_assessment .pdf. [18] American Educational Research Association (AERA), AmericanPsychological Association (APA), National Council on Measurementin Education (NCME). Standards for Educational and PsychologicalTesting

上一篇：一个猎人不要同时追两只兔子以疑促思到底该怎么疑:猎人去森林打猎
下一篇：[血脂、体质量指数与受体双阴性乳腺癌预后关系] 乳腺癌受体阳性好吗

扩展阅读文章

推荐阅读文章