考试“指挥棒”变了，会带来哪些影响

■本报记者姜澎

考试，尤其是重要考试，一向被认为是教学评价或人才选拔的工具。中共中央、国务院日前印发的《深化新时代教育评价改革总体方案》提出，要改进结果评价，强化过程评价，探索增值评价，健全综合评价。

和“以分数论英雄”的传统评价不同，所谓“增值评价”，即是以学生的进步幅度来评价学校。

上海市教育考试院近日举办的主题为“新时代考试制度改革与评价”的2020学术研讨会上透露了一组数据：根据上海2014年至2016年的三年中考成绩以及对应的2017年至2019年的高考成绩，进行大数据分析后发现，不同的学校对学生的增值作用不尽相同。

数据显示，单以学生入学时的高利害考试平均分来看高中三年的教育增值会发现，排名前15的学校几乎都是大众心目中的名校；而如果考虑招生政策对生源结构的影响，排名前15名的学校就会有巨大的改变。简言之，这些学校并没有特殊招生政策的支持，所招学生的中考分数更低，但是通过三年高中教育，增值更多。

研讨会上，学者热议的一大话题即是：当下的教育评价，如何从传统的选拔性的评价“进阶”为增值评价，继而对教育起到更大的推动作用？

一味以“提分”为目标，学校和学生将陷入高度同质化

教育评价本身就是一门科学，尤其是高利害的考试，如果评价功能发挥出色，就能起到真正的 “指挥棒”作用——引导教育不断改进，为学生、学校和教育本身增值。

“教育增值，需要通过教育评价的改革来实现。”上海市教育考试院院长郑方贤直言，教育评价要实现增值评价的目标，才能为推动学校发展以及教育质量提升提供可能性。

因为，评价方式本身就体现了价值判断。当高利害考试的评价标准是诸如考试分数、“清北率”这样的目标时，那么评价就会注重分数的提升；要实现真正的教育增值，则需要对评价标准和内容进行重新设置。否则，学校的发展动力很容易变成“收割”高分学生，发展目标则倾向于通过教育为学生 “提分”，而不是更全面地为学生、学校乃至整个教育“增值”。一旦如此，那将会陷入一个循环——好学校招好学生、取得好的升学成绩，并获得更多资源支持以及更多好生源——最终的结果，就是学校和学生的高度同质化发展。

改变这一现状，真正破除教育评价的 “唯分数、唯升学、唯文凭、唯论文、唯帽子”，也正是高考改革启动的初衷，也是新高考承担的期待。不过，郑方贤也坦言，“就目前的考试来说，如何将综合素质培养以及学生在学校期间的成长过程纳入教育评价，并在增值评价中体现，仍然是巨大的挑战。”

教育评价与教学过程不一致，会增加学生负担

研讨会上，不止一位专家提出要推动教育评价的教育增值作用，必须要加大教育评价与教学过程的一致性研究。

“如果教育评价与平时的课程教学实施缺乏一致性，那就会使学生涌向培训机构，通过课外培训来完成学业与教育评价的对接。”在市教委副主任倪闽景看来，教育评价如果以分数为标准，但课程实施又是以增值为指向，那学生必然会通过培训机构来补齐缺失的一部分，“这不仅增加学生的学业负担，对于教育本身来说，也不可能发生增值”。

以高中课程为例，不同学科的教学和考试难度，如何结合学生课程学习的负担进行合理设置，需要教育评估机构在学校课程教育基础上进行研究。“这对教育主管部门及教育评价机构来说都是巨大的挑战。”湖南师范大学测评研究中心主任杨志明说，一些发达国家的经历就为我们提供了经验和教训。

比如，美国高中的STEM课程，每一门课程的难度设置都很高，甚至直接与大学课程对接，如果学生全部都学，那么负担势必非常重，因此这些课程是选择性的。但也正是因此，人性中趋易避难的特点被放大，这从长远来看，势必会导致人才培养的不均衡，国家人才储备受到影响。统计数据显示，美国相对较好的高中只有71%的学校开全了STEM课程，而只有16%的高中生数学和科学达到了良好水平。

还有学者提出，如果教育评价指向增值，那么在课程实施的过程中，以现在的教学体系，如何避免优等生的“天花板困境”和一般学生的“刷题提分”，就是一个值得研究的问题。

在当下的教学体系中该如何为优秀的学生提供更多上升空间？据悉，一些发达国家的中学尝试了大学先修课程来解决优秀学生在学校提升空间不足的难题。但对于学业水平一般的学生，要避免他们“刷题提分”，同时又要让那些创新人才能脱颖而出，则是目前教育界面临的难题。

更科学的教育评价，需应对技术与人才的双重挑战

部分学者认为，要真正实现增值评价，那么诸如目前的中考、高考等高利害考试就不应该仅仅关注结果，而是应该更关注过程。而新高考方案实施至今，学生成长和发展的过程性评价如何更好地体现，从实践看，目前既面临技术层面的挑战，也遭遇人才层面的挑战。

“教育评价的科学性远超我们想象，绝对不是出一套考卷、根据考分排名这么简单。”杨志明直言，相对于技术发展来说，教育评价与新技术的融合仍显落后。

“一些海外测评机构对考试的科学研究以及技术支持已非常深入。比如，人工智能现在可以批改作文、测评口语，即便是主观题的分步计分，也能够通过数学模型来推动人工智能参与测评。”杨志明说，现代教育评价需要大量的科学和技术的支持，而非仅凭经验的工作。再比如，部分人推崇建立题库。但是，一个千道题的题库，最多20个人参加考试就可以“掏空”，更不用说题库中题目的难度设置、根据答题人的水平不断调整推送等，都需要专业支持。

除了技术，人才也是教育评价探索教育增值必须要解决的问题。科学的教育评价必须要有命题研发团队、测评分析团队、信息技术团队、管理服务团队等。“即便是师范类高校，目前也没有专门的测评人才的培养，大多数相关人才的培养都‘藏’在教育学专业或者是心理学专业的心理测量方向。”杨志明说，即便是这些人才，离真正的教育测评专业人才也有较远的距离。

研讨会上不少学者建议，要加强教育评价行业标准、学术标准和管理标准的建设，要加快专业队伍的建设，探索将学生的学习成果分为认知、非认知的，心理、行为等类型并纳入增值评价体系。未来这些评价体系甚至将影响到教育资源的分配，从而进一步改善教育生态。