【数字化学生评论框架方法】学生框架

来源:情人节时间:2019-11-28 07:50:46 点击：

数字化学生评论框架方法

数字化学生评论框架方法一、研究背景 20世纪90年代中期，北京四中着手研究学生个体质量综合评价方案，按照传统的学生评价思想和常规的操作方式设计出了一套评价指标体系，但经试验后发现了诸多问题。例如，学生评价结果的序列与实际情况明显不符，评价结果与评价对象的对应性不甚理想，缺乏有效的参考价值，操作比较复杂，等等。1998年，北京四中对原来的方案进行了修订，但结果仍不理想。在深入思考和讨论的基础上，大家一致认为，传统的学生评价理念和方法无法解决目前学生评价中存在的诸多问题，有必要建立新的评价理念和评价模式，因而最终彻底颠覆了原来的方案，提出了一种全新的评价理论和操作方法，最终形成了数字化教育评价理论（简称SJP）。

经过几年的研究和实践，我们认为SJP完全可以成为一个完整的新型教育评价理论被确立。数字化学生评价（简称SXP）是SJP的一个重要方面。本文对SXP的基本思想和理论框架以及在学生评价中的操作方法做一个全面阐述。

二、SXP的理论框架 SXP的理论基础是现代教育理论、教育测评理论和科学测量理论。根据现代教育理论和人的发展规律确定评价的指导思想；
根据教育测评理论制定有效的评价指标体系，减少无效评价指标和无效数据；
根据科学测量理论建立评价操作方法和数据处理方法，提高评价数据和结果的可靠性，减少评价误差，降低操作难度。SXP的指导思想是，发挥评价的教育功能，引导学生自我认知、自我教育，促进学生自主、和谐发展；
评价过程遵循科学性、导向性、发展性和便捷性的原则，力求内容全面、客观、科学、规范，以满足传统的测评方式无法实现的要求；
促进教职工深入思考和研究人的发展规律，树立正确的人才观和发展观，构建适合学生主动发展的教学环境和学校文化氛围。

（一）SXP的评价原则发展性原则：运用评价手段促进学生自主、全面、健康、和谐发展。导向性原则：发挥评价的导向功能，使学生明确学校所倡导的发展方向。激励性原则：引导学生确立发展目标，自觉构建与之相适应的知识与能力结构（这需要建立反馈查询系统，指导学生正确分析反馈，培养学生自我反思和自我调节的能力）。教育性原则：
学生评价不是一次性测评的单一目的行为，评价要充分体现教育功能。结合评价，教师要加强与学生的思想沟通和感情交流，对学生的发展实施有效引导。科学性原则：依据科学测量的基本理论，对评价信息进行科学的分析和处理，使评价的结果尽可能真实刻画评价对象，为学生自主和谐发展提供准确可靠的参考。简捷性原则：操作便捷，减轻教师的工作负担（这样才能使学生评价的工作成为常态的或常规的工作，使评价工作成为一个不间断的过程，这也是获得真实可靠的评价信息的前提）；
评价结果的呈现方式直观形象。

（二）SXP的评价价值目标1.展现学生的能力结构。承认人的能动性、主动性和差异性，评价结果要充分体现学生的个性差异（差异无优劣）。因此，SXP的价值指向不是为了对学生进行排序和选拔。2.实现学生的自我认知和自我教育。通过评价信息的反馈（学生进行信息查询），促进学生不断进行反思和矫正，实现学生的自我教育和主动构建；
在倡导自主发展的同时，为学生提供必要的、阶段性的、动态的评价反馈信息。3.发现学生的能力倾向，发掘学生的潜能。

建立科学的评价指标体系，实现有效评价，使评价结果能够反映出个体差异。评价指标应体现出独立性、基础性、可观察性和导向性。研究制定评价指标体系的过程就是深入研究人的发展规律和学生培养方向的过程。学校根据办学目标和学生发展目标，建立校本评价指标体系。校本评价指标体系的建立要力求符合本校学生群体的特征，实现学校的培养目标，促进学校办学特色的形成。4.促进教育者（教师、家长）教育观念的改变。在评价中，引导教师努力构建以学生为主体的生动活泼的学习场景，使学生的各项才能在不断展现中得以提高，促使教师和家长树立正确的人才观、发展观。

（三）SXP的基本原理1.教育评价存在误差。教育评价本质上是对人的能力发展水平的测量，因此也必然存在着测量误差。教育评价需要建立误差概念，需要运用误差理论来处理测量结果。因此，SXP是科学测量理论和方法在教育测评中的运用。

2.评价是认识过程。对人的认识是一个较长的过程，是一个由模糊到清晰、由片面到全面、由肤浅到深刻的相对长期的过程。因此，教育评价不是一次性的测量行为，不可能通过一次评价就能全面了解评价对象，准确刻画评价对象的个性特征。从这一点上讲，教育评价又与科学测量不完全相同。

3.评价即是教育。人是一个主动系统，会对外界刺激产生反应，会根据外界反馈信息不断自我调整。学生评价结果会影响和改变学生的行为，甚至可能会决定学生的发展方向，这正是教育者应当充分利用的手段和功能。因此，学生评价不仅仅是认识、甄别和测量学生发展状况的过程，同时还是不断改变学生状况的过程，也就是影响和教育的过程。因此，学生评价作为教育的手段应当贯穿于教育过程的始终，成为教育过程的组成部分，成为持续的和持久的教育行为。

4.人的综合能力具有结构。一般来讲，学校学习、社会生活和职业活动所需要的各种基本能力一般人人都具备，但各有短长和优劣，或者说不同人的强项表现在不同方面。这就是知识与能力的结构（也可以理解为“智能结构”）。知识与能力结构上的差异是人的特征的重要体现，亦即人格。

未来的工作和社会发展需要各种人才。因此，教育要培养具有不同特点的人，学生评价应当能够充分反映学生的特点，即各种能力的发展状况以及能力结构。所以，评价结果应当是一个多维的整体。

5.比较即评价（或评价即比较）。评价对象与其所处的群体相互联系。平时教师在谈论学生时，常常可以列举出一些学生或描述出某学生的表现，也就是对学生的印象，这些常常是那些表现突出而给教师留下较深刻印象的学生。教师能够列举出学生，感觉到某学生的表现突出，实际上就已经将该学生与其他学生进行了比较。这就是评价。因此，比较就是评价，或者说评价就是比较。差异只有通过比较才能被认识。通过比较体现出差异的评价是有效的评价。教师随后需要做的工作，就是将学生表现突出的方面进行分类：属于评价指标体系的进行标记纪录，不符合指标体系的采用个性化描述（用文字、图像、影像等手段），假如教师认为有必要的话。

6.评价需要实证。只有观察到的行为才能被确认，或者说能够表现出来的能力才是有效的和可评价的。这是确保评价信息可靠性的基本前提。某人的某种能力如果不能表现出来就不能被认识，因而也不能被评价；
某人从未表现出某种能力（迄今为止）就可能实际上不具备这种能力。有被观察到并被记录的评价信息才是有效的和可靠的。

7.真实的结果来自可靠的数据。评价结果的客观准确来自于评价信息的可靠性。从科学测量的角度讲，教育评价或测量的对象是人的能力及发展水平，这是一个非常特殊的测量对象，其特点是边界和层次模糊。我们往往无法清晰地划分不同能力之间的界限，因为不同能力之间常具有相互依存和相互交融的特征，例如，理解能力和语言表述能力并非完全独立存在，即一个人常常无法清晰准确地表达出自己不理解的事物。同时，能力的等级层次也常是模糊的。因此，面对模糊的测量对象，就单次测量来讲，精确的测量常常是无法实现的。因此，评价者在实际观察到的前提下获得的单次可靠的（可能并非是精细的）评价记录，是确保评价最终结果真实的前提。

8.数据（评价信息）量决定真实性（可信度）。可信（公认的或能与评价对象相对应）的评价结果由“可靠数据”累计生成，而并非取决于一次评价数据的“精确性”。用正确的测量方法进行等精度测量所得到的每个测量结果均存在误差，每个测量结果对最终的结果都有贡献，误差的分布特征决定了最终的结果是最可信的。因此，可信的评价结果是由多位评价者依据相同的标准、运用相同的手段在较长时间内各自独立地对评价对象进行可靠观察的基础上经过多次评价（或测量并记录信息标记）形成的。同时，数据量也直接影响了评价层次的丰富程度与精细程度，决定了与评价对象客观情况的接近程度。

9.评价数据（信息）的真实可靠与评价结果的利害相关。

低利害（或低风险）环境有利于获得更加真实的评价信息。

由于教育评价的对象是人，而人又是一个主动系统，会自觉或不自觉地对外界刺激作出反应。因此，在高利害评价的情景中（纸笔形式的选拔测试或面对面的面试、访谈），被评价者往往会由于本能造成“应试”状态下的行为“失真”（可能是有意的，也可能是无意的）。我们在非“应试”状态或低利害的环境中采集到的被评价者的信息将更加真实可靠。

10.培养目标决定评价指标要素。学校要面向未来，根据发展定位来制定学生质量标准，根据学生质量标准制定评价指标体系。评价指标体系是一所学校教育理念与价值追求的最直接的体现。因此，评价目标体系中既应当有“普适”的内容，还应当有校本的内容，而后者更加重要。校本评价指标是一所学校办学目标和培养目标的重要而直接的体现。根据上述理论前提，SXP在操作上采取了以下一些措施，以确保评价结果的客观真实性。多位评价者提供的单次评价信息产生的单次评价结果，其真实性决定于每个数据信息的可靠性（即每个评价者在可靠观察基础上做出的标记记录）；
阶段性和终结性评价结果的可信度来自于可靠的评价信息量（在较长时间或全过程内由多位教师在观察基础上提供的标记记录）。SXP采取尽可能减少评价等级的方式来确保评价原始信息的可靠性以及操作的简捷性。此外，SXP变一次性评价为多次（多个周期）评价，以确保有足够的评价信息（相当于测量的数据量）。随着评价信息的积累，评价结果不断变化，评价结果与评价对象的实际情况逐渐接近，即对评价对象的刻画逐渐精细和逼真。一个阶段的评价结束后，全部信息采集完毕，生成最终的评价结果，这个结果也是相对最精确可靠的。对于每位教师来讲，记录等第标记本质上是一种基于观察法之上的定性评价（比较）。SXP系统将多位教师的定性评价转化为定量评价，最终以数字化评语的方式呈现出评价结果。综上所述，减少评价等级（根据评价对象的特征并为了降低操作难度），增加评价次数（多次评价和尽可能多的教师参与评价），降低某一单次数据信息对评价结果的影响，根据全过程中多次评价的数据信息寻求最可信值。

也就是说，任何教师的任何一个记录标记都会影响到评价结果，但任何一个教师的任何一个标记都不会对评价结果起到决定性的作用，这就大大降低了由于偶然因素产生的“不良数据”所引起的偏差。SXP最终依据大量数据生成客观、直观的评价结果――数字化评语。这就是SXP简化操作过程同时提高评价结果客观可信程度的基本思想。实际上，SXP是将一件复杂的工作拆分成多个简单的工作分配给多位老师共同完成。这样做的目的是使每位教师工作的复杂程度都降低，同时提高每位教师工作结果的可靠性。

三、对SXP的初步检验 SXP的理论和评价指标体系建立后，需要进行实践检验。

严格地讲，对于一个评价理论的检验需要较长的时间和较大的样本量。就时间来讲，可能需要几年甚至几十年；
就样本量来讲，可能需要数万个甚至数十万个。因此这里所说的检验，只是检验这一新的理论和评价操作方法的可行性。从 1999年开始，我们对SXP进行了试评和初步试验，主要就四个方面的问题进行试验研究：一是标记能否有足够的覆盖率？二是评价结果能否充分体现差异？三是评价结果能否与对象相对应？四是评价结果能否体现倾向性。

（一）等第标记的覆盖率正常情况下，评价结果应当呈现正态分布，也就是说，在一个正常的群体中，就某项能力指标来讲，绝大多数应当处于群体的平均水平，能力较强的和能力较弱的人应当是少数。因此，在SXP中，教师只需要用等第标记将“极端情况”记录下来即可，而且每位教师应当在彼此独立的情况下对学生进行评价操作。我们向教师建议，等第标记控制在学生人数的10%～20%。令人担心的是，评价标记是否有足够的覆盖率？会不会出现大部分学生的记录完全为空白？1999年，我们在当时的高一和高二两个年级各选一个班进行试验，共100名学生。7周后完成了第一次评价数据的采集。单次评价数据结果表明，标记的覆盖率为 99%（共有12～14项评价指标）。分析标记的分布情况后得知，学生在不同的学科和不同的能力指标上都有所表现而被教师观察到。这说明学生的能力特征的确是存在差异的，与教师平时从教学和与学生的交往中得到的感性认识是相符的。而且重要的是，就评价结果分析来讲，尽管教师的评价是独立完成的，但某位教师对其他教师的评价结果也有较高的认同度。经过试验和研究思考后，我们认为评价指标的数量可以进一步减少，一般以6～8项为宜，最多控制在10项以内。总体标记的覆盖率在60%以上即属于正常情况。此外，要提倡教师对学生进行个性化描述，记录一些典型的、具体的案例；
要鼓励学生进行自我描述；
要建立合理的学生互评方式，目的是通过学生之间的互评，鼓励学生相互学习，相互借鉴。

（二）评价结果的差异性由于每一项指标只覆盖10%～ 20%的学生，会不会造成大量学生的评价结果雷同？试验结果显示，100名学生没有出现完全相同的评价结果，这是由于学生在不同的学科、不同的场景和不同的能力评价指标上得到标记记录，因此，学生最终的评价结果即数字化评语的形状各异。从理论上讲，如果按九名学科教师评价六项指标计算（下同），那么一名学生所得到的评价结果的种类将达到354个。这说明SXP可以充分展现人的多样性特征。评价的层次是否丰富也是需要检验的问题。根据SXP可知，评价层次的丰富程度与参与评价的教师数量和评价的次数有关。总体上讲，评价数据积累越多，评价结果的层次就越丰富。根据SXP计算，在三年完成（18次，按每学期采集三次数据计）数据采集后，每项指标的评价等级应当是532。事实上，这一评价等级的丰富程度远远超过了现行的任何一种形式的纸笔测试，重要的是每个数据标记的来源都是基于观察得到的结果，其可靠性不容置疑！这就确保了最终评价结果的真实性。

（三）评价结果能否与评价对象相对应我们目前尚缺乏大数据量的统计分析，事实上，这样的分析可能要在相当一段时间的试验之后才有可能进行。但是我们已经发现了一些有利的案例。根据平时的教育经验，我们进一步判断该学生可能具有的特点：成绩良好（可能处于中等，不是优秀），可能是班级活动或其他社会活动的积极参与者，可能人缘好、乐于帮助朋友、活泼好动，但在学习方面缺少踏实、认真和刻苦，等等。可以看到，数字化评语为我们所描述了生活中一个活生生的学生。我们向班主任询问这样的学生是否真实存在。我们的期望目标是班主任列出5名学生，如果这个学生能名列其中，我们就认为评价结果与学生实际具有较好的对应性。结果令我们十分欣慰，因为班主任在分析评语的信息后，提出的第一个学生就是该学生。当然，是否具有对应性还取决于教师对学生的了解程度，这也相当于是对教师了解学生程度的检验。

（四）评价结果能否体现学生发展的倾向性这实际上也是一个评价结果与学生情况能否对应的问题。在看到了这则文章后，我们查询了1999年10月所采集的学生评价数据（由于此段时间SXP系统和评价指标不断调整，故在随后的一段时间里暂停了数据采集工作）。此次评价数据显示：该学生在11项评价指标当中，语文学科有2个标记（刻苦认真和写作能力）、计算机学科有3个标记（学科兴趣、交流合作、刻苦认真）、生物学科有6项标记（交流合作、刻苦认真、学科兴趣、学习技能、学习能力、自控能力）、化学学科的全部指标均有标记记录（就意味着高于群体均值）；
其他学科的评价记录为零（低于群体均值）。显然，该生的主要兴趣倾向在化学、计算机、生物等学科，而《化学在线》恰恰是化学与计算机两学科的综合产物。该生后来进入大学学习生化专业。

四、与SXP有关问题的讨论（一）有效评价指标和无效评价指标教育测量理论认为，如果把甄别作为评价的目的，那么评价就应当体现差异，不能体现差异的评价是无效的。以考试命题为例：在区分性或选拔性考试中，每一考题应当尽量体现区分的作用与功能，即使一部分学生能够得分，一部分学生不能得分或者不能得满分。当然，一道好的考题应当具有良好的区分度，即该试题的得分情况应当与学生群体的总分分布呈正相关，即高分组的大部分考生能够得到此题的分数，低分组的大部分学生此题没有得分或没有得满分。具有良好区分度（相关系数通常应达到0.3以上）的试题是“好题”或有效的试题，否则是不良试题或无效试题。区分度为负值的试题是典型的“坏题”。如果一道试题使所有的学生都得满分或都得零分，这样的试题的区分度就是零，是无效试题。SXP是将体现差异作为主要目的的评价，但并不把这种差异用于排序和选拔。

学生评价指标相当于试题。如果一项评价指标不能构成学生的差异，则这项评价指标就是无效指标。这样的指标对评价没有任何意义，反而会增加评价操作的复杂程度和工作量。

有些评价指标看似非常必要和非常重要，但实际上对评价来说毫无意义。一个评价操作系统应当对有效指标进行评价，尽量减少无效评价指标。所谓的有效指标应当具有如下特征。基本性。这些能力是最基本的，具有学科共性。例如，交流、合作、表达、质疑等，具有明显学科特点的能力指标，建议采用个性化描述。独立性。评价指标之间不应有相关性，或者说，具有相关性的评价指标应当尽量合并，这样可以减少评价指标的数量，简化操作过程。例如，理解能力、分析能力、思维能力、（语言和文字）表述能力等，尽管它们之间是有一定区别的，但是具有一定的相关性（边界的模糊性），为了简化指标体系可以将其合并。如有必要，特殊情况可以采用个性化描述。可观察性。理解能力、分析能力、思维能力其实都是通过表述能力反映出来的。在一般情况下，一个人能够表述清楚的问题，一定是经过了思考、理解和分析并且已经搞清楚的。至于思维混乱但却善于清晰表达的情况，一般来讲是比较特殊和少见的，特殊情况可以采用个性化描述的方式进行评价。区分功能。尽管评价不是为了排序和选拔，但是指标要具有区分功能。不能显示区分功能的指标无法体现人的特征。例如，爱党爱国、诚实守信、遵纪守法等，对于这些指标，在评价时不易区分。更重要的是，对于人的道德，我们不要根据一件事情或一次性行为就轻率作出结论性评价。举例来讲，我们发现某人某次没有遵守交通规则，就由此得出结论认为此人不遵纪守法或法制观念淡薄，这显然是不适宜的，即使是学生在课堂上违反了纪律，不同的教师也有不同的判断，况且人的道德表现千差万别，交通法规和国家法律也不是一个层面上的法规，没有遵守交通法规和违反国家法律绝不属于同一性质的问题。因此，对于一些涉及道德品质方面的评价指标，在设立和评价时要格外审慎。

导向性。评价指标体系不可能包罗万象，有限的指标一方面要体现在学生发展最重要的能力品质上，另一方面，要充分体现出学校倡导的学生发展方向。例如，鼓励学术交流、团结合作、独立思考、乐善好施等。评价指标体系应当包括学生在某一阶段应当得到发展的最重要的能力品质；
评价指标体系应当符合学生的年龄特征和群体特征；
评价指标体系应当符合学校的发展目标和学生培养目标，应当成为学校办学特色的重要体现。个性化描述。正因为评价指标不可能涵盖与人发展有关的所有方面，因此，学校要鼓励教师对学生进行个性化描述。个性化描述一般不必长篇大论，可以用精炼的文字记录具体事例（不必评论，因为评论会给以后的读者造成思维定势）。事例信息积累较多后，一个人的特征就会被刻画出来。至于根据这些事例如何评价学生，实际上是解读者需要考虑的问题。

（二）传统评价方式中存在的问题传统的评价方式，如考试、测评、问卷调查、访谈等，受试者均处在一种应试的心理状态下。在这种情况下，我们所获得的结果往往有较大的局限性。例如，传统的测试手段存在时空的局限性，因为人的某种能力不一定能在我们规定的时间和场合表现出来，这使得我们测试学生能力的愿望常常难以实现；
传统的测试手段形式过于单一，仅仅依靠笔试或问答方式获取信息对某些能力的评价是无效的，例如，交流合作的能力、规划资源的能力等；
测试的目标也存在较大的局限性，对某些重要的能力指标或品质要素的评价，人们至今尚未引起足够的重视，尚缺乏理论上的研究和实践上的探索，尚缺乏可行的评价操作方案，如发现和提出问题的能力、挑战精神、顽强精神、对外界环境的适应能力等；
受试者复杂的心理活动会给测试结果带来偶然误差，特别是在一些高利害的、高风险的测试过程中，受试者的情绪、顾虑、心情、身体状况等，对测试的结果影响较大，受试者的应试防护心理会给测试结果带来系统误差，因为受试者在某些情况下会故意提供假象，例如，对一些敏感问题进行问卷调查，是否署名会对调查结果产生明显影响。评语也是一种评价的方式，但是传统的程式化的、充满原则性语言的、千篇一律的评语，往往无法生动的刻画一个人的个性特征，也难以充分发挥应有的功能：激励、导向、矫正、自我认知和自我教育等。需要指出的是，目前学生评价中还普遍存在着一些其他问题，例如，评价指标过分求全，其中存在着大量的无效指标；
评价结果维度过少，因为为了进行区分和选拔，人们就必须以一维排序的形式来呈现评价结果，这样的结果不能体现人的个性特征；
获取评价信息的方式过于单一，通常情况下使用纸笔测验或问卷调查、访谈等形式；
就评价结果来讲，定性与定量评价的结果尚无有效而科学的整合；
从评价的理念上讲，过度期望单次评价结果的精确性，而忽视了评价作为教育活动而具有的丰富功能；
还普遍存在着操作过于繁杂等问题。

（三）低利害或低风险有利于获得真实的信息一般来讲，人在意识到自己处于被考察的状态中，其表现会有别于完全自然放松的状态中的行为。此外，被考察者还常常出于本能有意掩饰一些信息或有意暴露一些信息。例如，我们利用问卷调查来了解一个人对一个敏感问题的看法，而这些看法将与他或她未来的命运相关，则问卷署名或不署名会产生截然不同的回答。这时，问卷调查结果中将存在明显的“系统误差”，这种系统误差就是由调查结果的利害所致。通常，一个人的道德修养水平是难以通过问卷调查或考试来评价的，而平时人的无意识行为往往是其内心的真实写照。所以，思想品德课的考试成绩常常与人的思想品德修养完全不相关 ――一个是认知层面的问题，一个是情感心理层面的问题。

学生在非应试状态下的表露往往比应试状态下的表露要更加真实，例如，教师与学生之间平等的讨论问题时的表现，参加各种活动时自然的行为表现等。这些行为表现常常不是学生故意表现出来的，而是无意识的、不自觉的，而且这些行为是能够被观察到的。教师在经过一段时间的授课之后，一个班级中总有一些学生最先给教师留下较为深刻的印象，教师在谈论这些学生的情况时，总能感觉出他或她在某个方面更加突出，这实际上就是评价。当教师认为某个学生在某个方面突出时，他实际上已经完成了将这个学生这方面的能力同群体的比较，而这种比较也是教师在无意识的情况下完成的。对教师来讲，这种感觉是客观真实的，不带有偏见的。

比较就是评价，能够进行比较就是能够进行评价。SXP正是基于这一点，将教师的“模糊的”、“定性的”感觉记录下来，并成功地实现了量的转化。从这一点上讲，SXP获取评价信息的方式，决定了SXP的评价结果更具客观真实性。

（四）关于学生之间的互评目前，在学生评价中提倡相互评价。这种形式的评价具有一定的积极意义，其积极意义表现在获取评价信息的途径增多，实际上是增加了评价者观察的角度。如果没有不良因素影响的话，互评会使得评价更趋于客观，也有利于发挥评价的教育功能。这需要学校对评价活动有科学的管理和正确的导向。如果导向正确，管理得当，互评会对学生起到很好的教育作用，因为它可以促进学生进行自我比照和反思，促进学生相互学习，相互借鉴，通过评价促进学生之间的相互交往，取得“见贤思齐”之功效。

鉴于教师很难了解学生生活的各个方面，或者难以深入了解学生的社会生活和家庭生活，我们可以在学生社会生活和人际交往方面的评价采用互评的形式。例如，可以结合有关的学校教育和家庭教育活动，在引导学生确立理想和未来发展目标的同时，让学生为自己制定个性化的评价指标体系。制定个性化评价指标体系的过程本身就是很好的自我认知和自我教育的过程。但是，涉及道德层面的互评指标，需要审慎研究制定。道德评价目标可以让学生自己设计，这很可能会成为使学生建立道德自觉约束意识的有效途径。学生的互评应当尽可能降低评价的利害与风险。一般来讲，如果评价者与被评价者之间存在着利益关系或利益冲突，评价结果就可能“失真”。典型的行为是“贿选”和“嫉妒”。前者是因为有利益关系，后者是因为有利益冲突。因此，学生之间的互评，作为一种鼓励和促进交流的教育活动是好的，如果作为一种甄选的手段或依据，则往往会产生不良后果。因此，组织学生之间的互评，一定要事先做好思想教育工作。学生互评的结果只能作为参考，不能作为结论，甚至不能纳入最终评价结果。因为学生互评与教师评价不同，它们不属于“等精度测量”，甚至不属于同类的测量，结果不应当合并（即使是降低权重），这就如同我们不能将长度和温度相加一样。

组织学生进行互评的目的在于实现学生的自我教育，互评结果仅可作为教师评价的参照。

（五）“安全优势”与其他传统形式的评价相比，SXP 具有独特的“安全优势”。由于SXP理论上的完善和在技术上采取了一系列措施，SXP在评价过程中所受的外界干扰较少，作弊行为几乎不能对最终评价结果产生影响。SXP的安全优势主要表现在以下几个方面。评价结果随时产生，不断变化，最终结果产生的时间长（最终结果需要经过三年才能形成，评价是一个漫长的过程，而不是一次性的行为）；
评价原始信息由系统定期自动封存，且封存后任何人无法改动。

正是由于评价的最终结果是由一系列的阶段性评价结果逐渐生成的，因此，最终结果一旦出现异常就会被立即发现，进行分析和纠正。教师各自独立完成评价，教师之间由于相互影响而产生的“系统误差”可以有效降低。如前所述，SXP 所作的评价记录相当于“等精度测量”。任何一个测量数据都会对评价结果产生影响，但任何一个测量数据都不具有决定性的作用。教师由于特殊原因缺少部分数据，对最终的结果也不会造成决定性的影响。如果教师就某一项指标给全体学生记录标记，则产生的结果是无效评价，对最终结果不产生影响。每个新的评价周期（6～8周）开始后，教师都尽量做到“复位清零”，将全体学生放在原来的起点上进行观察和记录，这样可以避免由于思维定势造成的评价误差。这是在对教师进行培训时要特别强调的问题。目前的考试方式是评价学生学业和能力水平的重要手段，SXP是针对传统考试评价方式存在的缺陷所作的补充。考虑到教师对学生的评价常常容易受考试分数的影响，所以SXP封存数据的时间与考试时间有意错开并适当提前，在考试之前封存数据。在实际操作中，我们要提倡教师随时记录数据。不同身份的人具有不同的权限。每位评价者提供的评价信息都是严格保密的，或是具有一定的保密级别，其他人只能在一定权限范围内查询评价结果，而且，被评价者永远无法知道每个老师的评价记录，他或她所查到的已经是经过整合处理后的结果。因此，评价者可以在完全不受外界因素干扰的情况下独立完成评价。SXP具有自动识别不良信息，进行分析和提醒的功能。

SXP一旦发现有异常数据，如某学生某项评价的数据异常高或低或整个一个群体的数据异常，将提醒管理者对此数据进行人工分析。（六）“最小不确定度”――SXP作为选拔考试补充手段的可能性以SXP的结果作为现有的考试选拔方式的一种补充，这在目前还仅仅是一种设想，但这个设想在理论上是完全可行的。学生的考试卷面分数中存在着误差，这一点毋庸置疑。产生误差的原因，有来自于学生方面的，如考试时的状态失常，身体不佳，或由于其他的偶然因素造成，也有阅卷误差，如教师的评判差异。既然误差不可避免，那么每一学科的误差最小就是1分。如果考试是6个学科，每个学科的分数中都存在至少1分的误差，按照科学测量的误差理论，6个学科的总分中的误差范围就是6分，如果按照科学测量结果的表达方式，学生的成绩应当表示为X±6。也就是说，在6分之差的范围内，不能显示学生能力水平的差异。

打个比喻，由于阅卷造成的6分之差，实际上与掷骰子所造成的差异相比，其性质是完全等同的。“最小不确定度”是指假设每个学科存在着至少1分的误差，根据误差理论最终产生的最小误差范围（实际上等于考试科目数）。根据误差理论，我们有充分的理由认为，614分的学生与620分的学生的实际上是没有差别的（至少是没有明显的差异，而高考差 1分就可能决定是否被录取）。这就为我们提出了一种选拔录取的可能的方式：在6分的范围之内，根据大学专业对能力特点的要求，参考SXP所提供的学生能力结构特征，来选择更加适合大学某专业发展的学生。也就是说，在以考试总

上一篇：经济法教学 [组合式教学在经济法教学中的应用]
下一篇：市场配置资源效率【教育资源配置公平与效率分析】

扩展阅读文章

推荐阅读文章