[关键词]公众满意度导向;地方政府;绩效评价
一、地方政府绩效评价理论与实践
20世纪90年代以来,在新公共管理思潮的浪潮之下,迫于选民的压力,以及政府扩张和政策失灵的窘况不断加剧,为激活政府行为、提升效能、降低成本,自20世纪60年代开端的政府绩效评估在西方逐渐成为考评政府的有效手段,甚至决定选票的流向。作为一种管理工具,经过近半个世纪的探索,政府绩效评价理论日臻完善,技术方法也相当成熟。
绩效评价本质上是将以往的权力委托制改变为目标管理和业绩评价制,这种转变体现民主化和信息化的要求。1992年,奥斯本和盖布勒出版的《改革政府——企业精神如何改革公营部门》,被视为将60年代后期以来西方关于公共管理的典范革命推向高潮,作者认为解决“积重难返”的政府各种问题的惟一途径在于重构价值,“重新定位政府职能,按企业家精神重塑一个企业化政府”,政府绩效评估就是谋求有使命感的政府,企业是天生的利润计算者,像经营企业一样经营政府的过程毫无疑问即是一个绩效评价和改善的过程。在这一点上,詹姆斯.Q.威尔逊的观点更加明晰,他认为政府绩效评估意味着建立一种“以取得结果而不是以投入要素作为判断政府公共部门的标准”的制度[1]。当然,在“美国政府真的可以像麦当劳一样经营吗”的诘问中,对于政府绩效评价的复杂性,理论界展开了更深层次的讨论,因为本质上,政府“不是挣钱的,而是花钱的”,肩负着更多社会目标,维护和体现社会公正,而社会目标,如社会公正却很难像利润一样去计量,不过,对于绩效评估的功能,理论界已形成共识:是实现责任政府的有效途经和基本保证。
在评估导向和指标构建上,基于不同的社会背景或者是研究者的立足点差异,西方国家虽普遍遵循所谓“SMART技术原则”,但指标导向仍差异明显:库普尔认为,基于“经济学的效率假设”、“成本—收益分析方式”、“投入和产出模式”确定绩效标准,政府绩效评估就是“以顾客满意为基础”来定义市场责任机制,简言之,评估把公民视为消费者,强调政府成本和服务价值,而斯蒂格里茨从经济学的视角分析政府及政策失效的源头在于信息不完全、官员动机以及难以预期的私人部门对政府计划的反应,基于政治权力自动扩张效应,政府投入愈多、管理愈多、效率损失愈大,因此,政府绩效评价的导向是向政府部门引入市场机制。进入新世纪后,在科学发展观、以人为本的理念下,国内亦有学者提出以提高生活质量为目标构建中国政府绩效评估体系。[2]
与此同时,政府绩效评估的实践风起云涌。20世纪60年代,美国会计总署率先建立以经济性(Economy)、效率性(Efficiency)和效果性(Effectiveness)为主体的“3E”评估方法,之后又加入公平性(Equity)指标层,形成所谓“4E”绩效评估方法。在此基础上,美国Oregon州政府引入了“标杆管理法”,形成包括经济、教育、环境、市民参与、社会支持、公共安全、社区发展七个领域共158个具体指标。1992年,美国哈佛商学院两位教授创立了平衡计分卡(BSC),形成BSC评价体系,著名绩效研究机构Compel研究所建立了包括财政管理、人事管理、信息管理、领导目标管理和基础设施管理五方面内容的评价体系,并运用于全美50个州的绩效评价中。英国地方自治绩效委员会构建了包括居民应对、住宅供给、环境等17个领域280多个指标的地方自治绩效评价体系,日本于2002年实施《政府政策评估法》,东京市政府建立了包括福址、安全等11个领域99个指标的市政府政策评价体系,其他发达国家的情况大同小异。
我国地方政府绩效评估工作起步较晚。总体来看,基于理念、体制与技术等各种主客观原因,我国地方政府绩效评价仍处于导入期,理论研究先天不足,而实际操作处于半手工状态,与美、日等西方国家比较滞后20年。
纵观地方政府绩效评价理论研究与实际应用,有几个特点十分明显:
首先,政府绩效评价在西方盛行有着深刻的现实背景和内在逻辑。上世纪60年代后,源自30年代的凯恩斯主义、以标榜挽救“市场失灵”的“有效政府”宣告失败。面对社会动荡、环境污染、种族歧视等一系列社会经济问题,“政府在干什么?”成为公众和学界共同追问的焦点。罗尔斯的社会正义理论、布坎南的公共选择理论以及哈耶克的新自由主义应运而生,在这些颠覆传统的理论大旗下,评价政府无疑成为了解和约束“政府在干什么”的有效路径。事实上,20世纪的后20年,不论是80年代奥斯本和盖布勒的重塑一个“企业化的政府”,还是90年代新公共运动下的政府“退出制高点”,均基于一个共同的逻辑,评价政府绩效与其说是抑制“政府失灵”的现实手段,不如说是为选票提供标杆,构成现代民主化的内在要件。
其次,通过立法及成立专门机构来保证绩效评估的合法性和可操作性。如1990年美国总统签署了《设立顾客服务标准》的第12862号行政命令,联邦政府成立了国家绩效评估委员会(NPR),同年,国会通过了《政府绩效与成果法案》,并授权联邦管理与预算局全权负责联邦各部门绩效评估的管理监督工作,进一步将联邦政府绩效评价分为项目、部门和跨部门绩效评估三个层面。正如美国绩效评估专家BarryWhite所言:“政府绩效与结果法案的最重要贡献是为当代联邦绩效评估建立了永久性法律框架。”[3]在英国,1992年制订了业绩信息公示制度(PerformanceInformation),政府内阁像宪法一样确认了六个基本行为准则作为各地评价公共服务的行动方针,日本也于2000年建立了中央部级政策评价义务制度。
最后,西方国家政府绩效评价指标体系中基本上不直接涉及到公众满意度指标,原因在于在现代西方民主下,政府由选民投票产生,几乎每一项公共政策必须体现民意导向,民意投票贯穿了政策产生、执行和结果的全过程,这样,政府绩效评价的逻辑源头即是建立于民意导向下,政府及决策既要对过程负责,更要对结果负责,但说到底是对选民负责。很显然,将西方“技术导向”的评价体系移植到性质、组织及职能有异的中国地方政府绩效评价中不仅仅是技术性的完善与改良。
二、体现成本导向和公众满意度导向的地方政府绩效评价指标体系
作为绩效管理中最基本的功能活动,绩效评价(Performanceevaluation)是指一个组织试图达成某种目标,如何达成以及是否达成目标的系统化过程。按照弗莱恩(NormanFlynn,1977)观点,绩效评价的意义在于强化责任落实、体现结果导向、反映利害关系人的期望等。对于评价的指标体系构建,在芬维克(Fenwick,1995)3E以及福林(Flynn,1997)增加至4E的基础上,卡特(Neilcater,1995)等人通过个案研究,提出了好的绩效评价指标的标准是:界定清楚且具有一致性,不可依赖外人及环境因素;评价与需求和目标关联,涵盖管理行为的所有方面(广博性)和集中有限数量的指标量;使用的信息正确与广泛以及评价符合组织文化。同时,为了避免组织以个性为由,超越或者漠视评价,卡特等人从技术的角度提出了设计指标的比较标准:包括对照目标、比较相同组织的历史记录以及进行单位间和外部比较。但即使如此,公共管理部门的复杂性决定了取得一致性评价指标的难度。对于影响指标设计时应该考虑的因素,卡特认为必须包括所有权、交易状态、竞争程度、政治责任、服务异质化和复杂化程度、自等等。
具体而言,地方政府绩效评价以地方政府应实现职能为参照标准,对照目标职能来评估已实现职能的量度,在性质上和企业绩效评价并无差别。同国家职能比较,中国地方政府职能具有双重性、差异性、局部性、服务性和规范性等特性,这些特性中的一致属性构成评价地方政府绩效的基础,没有任何地方政府可以超然其外,但与此同时,在共性基础上衍生的各地方政府的职能差异客观存在,甚至完全不同,导致评价指标和标准的不一致性,比方说,不同的发展阶段,地方政府的作为和职能的重点不同,评价绩效的要求亦不一样。
在地方政府绩效评价中,指标体系成为政府行为的标杆器,或者说政府系统的两条铁轨,其重要性、指向性不言而喻。我们以为,指标体系构建必须体现四大原则:
首先,职能对应原则。自20世纪80年代以后,中国地方政府职能在改革开放的背景下发生重大改变,传统的以对经济的直接微观管理转变为间接宏观调控,弱化经济职能,提升地方政府在基础设施建设、社会公正维护、环境保护方面的作用与功能,简单来说,从政府与公民关系的角度,地方政府的职能包括基本建设职能、保障社会职能和促进社会发展职能三个方面。相应地,评价地方绩效的指标设计必须体现政府实现职能的这些过程和效果,或者说,经济发展、社会公正、科技教育、人民生活以及为持续发展创造条件的环境保护等构成评价地方政府绩效的基本层面。事实上,在这一层面上,西方发达国家的评价指标设计大都如此,并且更多地强调指标属性的多样性和微观性。我国已有的研究和局部尝试中,亦把上述政府职能的实现作为主要的指标层。
其次,成本导向原则。政府绩效评价源于政府扩张、政策走向、预算居高不下,评价的直接目的在于抑制行政成本,提升政府效率,需要首先回答的问题是“某组织在既定的时间内,究竟花费了多少钱?是不是按法定的程序花费金钱”。[4]因此,建立成本型政府为现代政府治理的新理念,因为公营部门的花费来自于税收等强制性、管制性收入,公众有权追究花费的过程和结果。具体到我国地方政府的运作成本,包括决策成本、管理成本和监督成本高昂成为不争的事实。据一项研究表明,在目前的中国经济水平下,地方政府财政支出已占本地GDP的21%—22%,人均财政支出的省(级)均值在过去十年中上升了3.7倍,全部预算支出的3/4由地方政府所花掉,2005年,地方政府拥有4000亿预算外资金,相当于1992—1993间全国总财力规模。[5]这一事实本质上和现代政府是节约成本的政府以及创造节约交易成本的社会条件背道而驰,因此,不论从历史上看,还是从现实角度来分析,为改变“科层制官僚机构相伴生的行政权力和公共预算最大化倾向”[6],地方政府绩效评价指标体系中,控制成本成为不可或缺的指标层,也唯有如此,才可能将“产出型”的政府改变为“效率型”政府,有效抑制机构的膨胀和寻租及腐败现象的发生、重大决策的失误以及花样翻新的形象工程。当然,由于地方政府肩负着保障社会公正、保护生态环境等一系列社会性职能,绩效评价中的成本指标如何界定、具体指标如何选择面临着一系列技术层面的困难。
再次,公众满意原则。按照政治学逻辑,现代民主下,公共权力源于公民授权,公共管理的行使及公共政策的形成必须以多数人为依归。这样,西方国家地方政府绩效评价系统中隐含着一个预设的前提:公众满意是政府施政的归缩点,不论是评价绩效的指标层,或者具体指标,均必须以民意作为导向,满足民意需求。如美国从1990年8月到1991年3月,八个月间,民意机构就海湾战争调查了800个问题[7];而从1996年至2000年,台湾地区大众传播媒体总共报道了549则政策民调结果,涉及体制运作、经济发展、民权民生等几乎所有的公共事务领域[8]。我国的政治制度迥然不同,地方政府首长并非直选产生,民调监督公共政策的条件远不完善,但党和政府执政为民的信念和要求始终未变,在这么一个框架体系和约束条件下,以西方国家地方政府绩效评价指标体系缺失或弱化公众满意度指标为由来排除我国地方政府绩效评价指标体系中公众满意度导向,建立“纯技术及符合国际惯例的客观评价”显然不合时宜,理据不足。事实上,在经济发展、社会进步的背面,公平距离拉大,环境污染趋重,社会诚信缺失等既存的困惑,使人们对政府及政策的需求从期望物质生活的改善转变为幸福生活指数提高,或者说,从客观满意上升到主观满意的高度,形成所谓“感性满意度”和“理性满意度”之分,[9]以此为导向,政府绩效评价亦不能再局限于具体的统计指标合成,尤其是GDP及衍生的经济指标的合成,更何况党和政府的性质决定了政府绩效必须体现人民满意。
最后,符合规范原则。要将我国地方政府绩效评价系统从必要变成可能可行,除需取得一系列环境支持条件(如通过立法授权的评估机构、民意调查的配套因素)外,便是指标体系本身符合规范,具体来说包括:指标层和具体指标相对成熟和稳定,并且全国统一;方便操作,客观类指标应能取之于官方统计源,满意度指标调查简单易行,力求节约资源;不同的地方政府绩效具有可比较性,包括纵向比较;第三方操作原则,等等。
在上述原则导向下,指标领域层和具体指标的选择变得十分重要。对于指标领域层来说,选择标准既要能反映或体现政府绩效,又可折射不同领域层的异质性特征;对于具体指标确定,则可参考国内外的已有研究成果,采用专家咨询法确定初步方案,进而对这种主观性较强的方案进行隶属度分析、相关分析和辩别力分析,增强其科学性、合理性和可操作性。
2004年,人事部课题组在总结国内外相关研究及实际操作经验的基础上,结合当时的情况,了我国政府绩效评价指标体系,成为目前官方“标准”,这一体系包括经济、社会、人口与环境等3类影响指标(二级指标),经济调节、市场监管、社会管理、公共服务与国有资产管理等5类职能指标,人力资源状况、廉洁状况和行政效率等3类潜力指标。[10]与此同时,根据Compel等人的绩效理论,地方政府绩效指地方政府在一定时期内行使其职能、实现其意志过程中体现的管治能力及相应取得的效果(效应),部分学者将行政管理、经济发展、社会稳定、教育科技、生活质量和生态环境6个方面作为领域层(二级指标或指标层)。[11]
应该说,这些探讨性研究,无论是思路方法还是指标结构及组成均有较强代表性和说服力,但显而易见,存在可以商榷的地方:一是政府职能定位并不清晰,“政府该干什么”存在困惑;二是在指标导向上将目前中国地方政府管治基础与西方国家的情况等同起来,基于各种可以理解的原因,评价指标体系缺失公众满意度导向;三是指标领域层异质性并不明显,内涵产生重叠或因果关系,如经济发展与教育科技、生活质量三个领域层的关系即是如此;四是一些具体指标,如决策民主性、执法公正性等难以度量,甚至无法观察,而大专生占公务员比例在各地方更趋于常数,物价指数则非地方政府可作为。
正是基于上述思路,我们以为,“经济发展、社会公正、生态环境、政府成本”四个客观类指标领域层和“公众满意度”(主观类)指标领域层能较好地构成我国地方政府绩效评价指标体系中的领域层,原因在于:
首先,在理论与逻辑上,将地方政府绩效评价置于公众满意度导向之下,并强化政府节约行政成本与社会交易成本的服务职责,体现了民主化以及建立服务型政府的历史趋势和必然逻辑。事实上,政府成本、公众满意等因素构成现代政府的内核要素,应该成为指标领域层,而不仅仅是某个具体指标。同时,现代市场经济是过程公正、结果有异的经济文化,政府的职能除促进社会经济发展外,主要就是弥补“市场失灵”,维护社会公正、保护生态环境,具体来说,所谓公正,就是界定与保护产权、促成机会均等、维护基本人权。按此思路,教育尤其是地方政府所承担的基础教育是社会公正的体现,而社会稳定的基础亦在于社会公正,科技更多服务于经济发展,生活质量是经济发展和社会公正共同作用的结果,并且没有什么比公众自身更能对生活质量作出评价,同时,评估指标应该引导及推动地方政府的职能转变,而不是以目前行为职能作为标准。
其次,从实证调查的结果来检验,我们针对专家、地方官员和公众三类对象设计调查问卷,成功访问了342人,统计结果表明,对于两种方案(6个领域指标方案与我们提出的包括公众满意度的5个领域指标方案),在无提示的情况下,对5个领域指标方案的平均认同率为53%,在对指标内涵作出解释的情况下,平均认同率达67%(专家69%,官员58%,公众74%),大大高于另一种方案(平均27%,另有6%样本说不清),[12]因此,有理由相信,“促进经济发展、维护社会公正、保护生态环境、节约政府成本、实现公众满意”的地方政府绩效评价指标领域层不失是一个较好的方案。
三、建立中国地方政府绩效评价指数模型
既然地方政府具有职能及规则典范上的一致性,同时又可以界定和取得其绩效评价的指标及量值,那么,在官僚层级的地方政府系统中,为引导地方政府作为、考核地方政府业绩、推动地方政府职能转换,建立中国地方政府绩效评价指数模型由必要变成可能。但政府管治和服务毕竟比企业复杂得多,评价模型建立所涉及的因素和条件远比诸如企业竞争力评价模型、城市竞争力评价模型中的变量复杂,国内地方政府如青岛、江门等地级市尝试导入类似ISO9000质量认证制度,但公开的资料中,鲜见有地方政府绩效评价指数结果。
不过,作为网络服务型的大型国有企业,2002年,信息产业部颁布了《电信服务质量用户满意度指数CTCSI测评制度》[13],建立由7个潜变量构成的结构方程模型(由观测变量对应及决定的潜变量,观测变量通过公众满意度问卷调查取得基础数据,依据既定统计模型,建立基础数据、观测变量与潜变量之间的关系)。虽然这种做法和模型难以直接延伸到地方政府绩效评价指数模型中,但其思路、方法与手段等经验却具有现实的借鉴意义。2006年,我们亦针对广东某县及属镇进行探讨性研究,技术层面上,从我们已展开的广东县级政府绩效评价指数研究的个案来看,建立中国地方政府绩效评价指数模型的主要问题在于:
1.评价指数模型确定。某个地方政府绩效体现于一定时期内政府行为所带来的具体指标值的变化量之和,针对增量并非存量,因此,指数增量法是建立模型的较好的方法,它能有效地将不同性质、不同量纲的指标统一换算为同度量的指标。
我们假设voi为第i项指标评价的初期值;vii为该项指标评价的末期值,那么,第i项指标的绩效增量值yi为:
yi=voi/vii×100(正向指标)或yi=vii/voi×100(负向指标)
设Zij就就为第j领域层(j=经济发展、社会公正、环境保护、政府成本、公众满意)第i项指标的权重值,Yij为第j领域层第i项指标的指数值,Wj为地方政府在第j领域层的绩效分值,则有:
再设Q为地方政府绩效的综合评价值,Zi第j领域层的权重值,则有:
这种评价模型是将公众满意作为第5个领域层,相对简单方便,并部分实现了公众主观评价与客观事实评价的主客观统一。如果进一步将公正满意度评价置于前述4个领域层具体指标之中,每一个具体指标均由公众再作主观评价,模型将变得相对复杂,特别是满意度调查的问卷量将加大,实施操作变得困难,加上基于各种原因,普通公众对每一个具体指标很难有独立的判断,调查结果失真度增加,因此,评价初期可以选择上述相对简单可行的方案。
2.具体指标及指标数量确定。在经济发展、社会公正、保护环境、政府成本和公众满意五个指标领域层下,选择什么样的具体指标以及多少个指标是指数模型的内在要求,为此,根据国内外已有的研究成果,利用原点市场研究有限公司的专业网络及统计资源,我们分三步达成目标:首先由课题组提出初选方案,通过问卷调查的方式(上文提及342位专家,官员和公众)确定第一轮评价指标组成体系,之后在全国范围内,以电邮、寄卷的方式,利用原点专家库,针对行政管理专家、经济学家和政府官员进行第二轮问卷调查,最后在第二轮问卷调查的统计结果基础上,对评价指标进行案头分析(包括隶属度分析、相关分析等)加以确认。确定的结果是40个具体指标,其中经济发展9个、社会公正10个、保护环境6个、政府成本5个和公众满意10个。[14]
3.指标领域层权重、指标权重系数及评分标准确定。权重系数、评价标准直接影响评价结果的导向性和合理性。在具体指标选择确认的同时,依据相同的抽样框和访问对象,我们在调查问卷中设计相应的问题,根据答卷的统计结果,采用上述类似的分析方法确定五个领域层的权重系数(依次为28%、27%、15%、12%和18%),之后对领域层下的40个具体指标的权重系数进行确认(数量从略)。只是各具体指标的评分标准,我们以被评价对象的总体平均值为参考标准,适当考虑各具体指标值的变化规律特点,以10分制度进行度量。
4.满意度调查方案及实施执行。按照满意度调查问卷内容与绩效评价指标尽可能对应与互补的原则,设计10个主体问题,涉及收入变化、工作就业、医疗保障、社会治安、政府效率与态度等方面,由公众进行主观评价、电话访问(电脑辅助电话访问系统CATI),十分制度量。我们充分注意到以下技术问题:公众接受政府服务往往具有局部性等特点,问卷提问可回答性;抽样的科学性和代表性;有效样本量的足够性(确保95%置信度3%以下误差);访问质量控制与答卷复查;调查操作实施的连续性和一致性,等等。
5.指数的应用。构建导向正确、体系完整、操作方便的地方政府绩效评价指数的意义不言而喻,尤其处于体制转换的现阶段,破除GDP崇拜、有效保护环境、抑制权力寻租、降低行政成本、强化服务理念、监测政策效果等,客观上要求有一套评价地方政府作为和官员业绩的可度量和比照的标准,评价指数既可以比照不同地方绩效差异,又可以纵向比照不同时期绩效的变动趋势,对中央政府监测和评价地方政府业绩及分析其中原因,具有重要的参考作用,更重要的是,导入公众满意度的绩效指数,反映了我国社会经济转型及执政为民的内在规律,同时为民意调查应用于公共政策评价和公共管理评价之中提供行之有效的方法论。
注释
[1]参见朱火弟.蒲勇健.政府绩效评估研究[J].改革,2003(6):18.
[2]孙荣等.以提高生活质量为目标构建我国政府绩效评估体系[J].中国行政管理,2006(9).
[3]BarryWhite.Performance-IformedManagingandBudgetingforFederalAgencies:AnUpdate.CouncilforExcellenceinGovernment,2003.
[4]张成福.公共管理学[M].北京:中国人民大学出版社,2001(1):273.
[5]平新桥.中国地方政府支出规模的膨胀趋势[N].经济学消息报,2006-12-15.
[6]方克定.西方国家行政改革述评[M].北京:国家行政学院出版社,1998,10.
[7]KarlynBowman,"KnowingthePublicMind"TheWilsonQuarterly,Vol.25,No.4,Autumn2001.
[8]余致力.民意与公共政策[M].台北:台湾五南图书出版股份有限公司,2002,88.
[9]郑方辉.广东居民收入与满意度关系的定量分析[M].北京:中国经济出版社,2006.240.
[10]中国政府绩效评估面世33指标评政府绩效[N].中国青年报,2004-8-5.
[11]范柏乃,朱华.我国地方政府绩效评价体系的构建和实际测度[J].政治学研究,2003,87-88.
[12][14]参见原点市场研究报告[N].omr-.
[13]海南人民政府网,政府信息目录,编号B06000-2006-002.
参考文献:
[1]张成福等.公共管理学[M].北京:中国人民大学出版社,2001(1).
[2]张国庆主编.行政管理学概论[M].北京:北京大学出版社,2006(2).
[3]朱火弟、蒲勇健.政府绩效评估研究[J].改革,2003.
[4]范柏乃、朱华.我国地方政府绩效评价体系的构建和实际测度[J].政治学研究,2003.
[5]倪星等.试论政府绩效评估的价值标准与指标体系[J].科技进步与对策,2004.
[6]弗兰克·费希尔.公共政策评估[M].北京:中国人民大学出版社,2003(1).
陕键词]模糊综合评判法;高等教育专项资金;绩效评价体系;案例研究
[中图分类号]6475[文献标识码]B
随着我国财政预算绩效管理工作的不断推进,为了加强支出管理,强化支出责任,高等教育专项资金绩效评价被提上了重要的议事日程。本文以提高资金使用绩效为出发点,综合运用文献调研等研究方法对高等教育专项资金绩效评价指标体系及其权重进行了研究,在此基础上构建了基于模糊综合评判法的综合评价体系,最后以河北省某高校结构工程省级重点学科建设专项资金为对象,对构建的评价体系的科学性和可操作性进行了验证分析,以期对推动我国高等教育专项资金绩效评价的有效开展有所裨益。
一、高等教育专项资金绩效评价指标体系的构建
(一)遵循的基本原则
1.全面性原则。评价指标的选择应充分体现高等教育专项资金绩效综合评价的特点,选取的评价指标要力求全面,不遗漏与评价目标相关的任何重要方面。
2.相关性和重要性相结合原则。为了客观公正地对高等教育专项资金绩效进行评价,选取的评价指应与评价目标存在直接联系,同时基于评价活动本身成本效益的考虑,在选择评价指标时应根据评价指标在整个评价工作中的地位和作用,将那些重要的、具有代表性的、最能反映评价要求的指标纳入评价指标体系,避免冗余。
3.定性指标与定量指标相结合原则。高等教育专项资金的绩效同时受多种因素的影响,这些因素有的可进行定量分析,有的则不能进行定量分析。在构建评价指标体系时,对于能够进行定量分析的因素,则选择适当的定量指标;对于不能进行定量分析,则选择适当的定性指标,按照定量指标与定性指标相结合的原则构建评价指标体系。
4.投入指标、过程指标和产出指标相结合原则。高等教育专项资金绩效水平的高低,既受投入条件制约,又受日常管理过程影响,最终体现在资金的产出数量、产出质量和产出效益上。根据这一逻辑,本研究选择按投入指标、过程指标和产出指标为整体架构构建高等教育专项资金绩效评价指标体系。
5.科学性和可操作性相结合原则。绩效评价指标体系既要符合科学合理、客观公正评价的需要,同时还要兼顾可操作性,在具体评价指标的选取上,立足我国高校资金运行管理的基本状况,确保能够方便地获取评价需要的基础资料和数据,确保评价工作顺利有效实施。
(二)指标体系及权重的确定
1.指标体系的确定。高等教育专项资金绩效评价指标体系确定综合运用文献调研、实地访谈和德尔菲法等三种方法,根据指标遴选的基本原则,分别从投入、过程和产出三个方面入手进行了指标体系的构建。在具体操作上,首先通过文献调研和实地访谈掌握了大量的基础资料和实际情况,在此基础上根据德尔菲法的基本原理,选择了八位专家通过电子邮件方式进行了三轮调查征询。在征询过程中,对于已列入征询而多数专家认为不重要的指标,在下一轮征询中直接删减对于前一轮征询过程中多数专家补充的指标,则和其他指标一起进入再一轮征询,经过三轮征询,专家意见基本趋于一致,形成最终的综合评价指标体系及评价标准。
2.指标权重的确定。指标权重采用专家会议法和层次分析法相结合的方法。在具体操作上,根据多数专家的意见,借助层次分析软件yaahpv6.0构造了判断矩阵,通过该软件计算出了各指标权重,并对判断矩阵的逻辑性进行了一致性检验。最终确定的评价指标递阶层次结构及指标权重详见表1(评价标准略)。
二、基于模糊综合评判法的高等教育专项资金绩效评价体系构建
高等教育专项资金使用具有多投入、多产出的特点,而且投入与产出之间具有明显的模糊性,对应关系不明显。基于这一特点,本文遵循模糊综合评判的思路,构建了基于模糊综合评判法的综合评价体系。具体过程如下:
(一)确定因素集
根据评价指标递阶层次结构,将高等教育专项资金绩效评价指标根据其内在联系划分为三个层级的因素集,分别用Bi、Cij、Dijk表示,其中i、j、k分别表示一级指标、二级指标和三级指标的序数。
(三)确定模糊关系矩阵,进行综合评判
由于影响高等教育专项资金绩效的因素较多,因此高等教育专项资金绩效评价采用三级综合评判模型。
1.进行一级模糊综合评判。一级模糊综合评判需要构造一级单因素模糊关系矩阵。首先需要设计《高等教育专项资金绩效评价表》;其次将被评价专项资金有关的背景资料和基础数据资料提交评价专家,评价专家在了解专项资金基本情况及进行必要现场考察的基础上,对第三层级因素集中的每一个主要观测点在优秀、良好、一般和较差四个等级中进行判定;第三是分别汇总评价专家就某一主要观测点评定为优秀、良好、一般和较差的次数,用这些次数分别除以评价专家的人数,计算出隶属度;最后根据不同主要观测点的隶属度构建出一级模糊关系矩阵。
三、基于模糊综合评判法的高等教育专项资金绩效评价案例研究
本案例研究以河北省某高校结构工程省级重点学科建设专项资金为对象进行,运用又建立的评价体系对该专项资金绩效进行模糊综合评价,在此基础上对综合评价体系的科学性和可操作性进行验证。
(一)专项资金概况
河北省某高校结构工程省级重点学科建设专项资金总计80万元,其中40万元用于设备采购,10万元用于人才培养和引进,15万元用于对各类科研及相关工作的支持(包括科研项目、专利申请、专著出版、科研等),15万元用于学术交流。项目建设期,共发表学术论文40篇,其中三大检索论文10篇;完成科研项目14项;利用专项资金加强科技平台建设,同时配合使用中央财政和学校自筹资金购置科研仪器和设备,新增实验室面积约4000平方米,达到投入使用条件引进正高级工程师2名,在读博士2名,新增副教授3名,河北省“三三三人才工程”人选3名。
(二)评价过程和结果
通过实地调研和问卷调查等方式获取了该专项资金的相关资料和数据,选取12位专家进行现场调研和评分,对该专项资金绩效进行模糊综合评价。具体评价过程如下:
关键词:教学评价;形成性评价;终结性评价;软件工程
1背景
课程评价[1-2]是高等教育教学过程中的一个重要环节,也是评价人才培养质量的重要手段。课程评价对学生学习行为、学习过程和学习成就是否达到既定的课程学习目标进行测评与考量,监督学生的学习情况,是学生学习效果最直接的反映[3-7];同时,课程评价还具有反馈学习情况和帮助学生调整学习进程的作用。目前,我国多数高校采用的课程评价方式仍然侧重于终结性评价(summativeassessment),即教育活动发生后,从外部进行的关于教育效果的判断,是合规律性的表现,讲求客观性、中立性和结果性[8-10],但是终结性评价容易出现学生忽略平时的学习而期末集中突击的现象,严重影响高等教育的教学质量。形成性评价(formativeassessment)对教育过程中存在的问题,从内部提供反馈信息,以提高正在进行的教育活动质量,是合目的性的表现,具有很大的相对性、价值性和过程性[8-13]。软件需求分析与建模课程是软件工程专业的必修课,在整个软件工程专业课程体系中处于核心地位,对软件工程专业的学生来说,不仅是专业技能培养的基础,还体现着创造性思维的培养过程[14-15]。在软件工程专业课程教学中,如何使学生既能掌握专业的知识和能力,又能具备解决实际问题的能力?我们通过探索与实践,改进传统的教学评价方法,设计基于形成性评价的模式和实施方案并将其应用于软件工程专业的课程教学中。
2传统终结性教学评价方式的弊端
传统的教学评价一般采取终结性评价方式,学生学习效果主要通过期末考试体现,期末成绩在总评成绩中所占比例很高,一般约为60%~80%,主要考核学生对知识的记忆和理解能力,但是这种评价方式过多地引导学生关注考试分数,而不注重学习过程,忽视对学生思维能力、想象能力和创新能力的培养,不仅影响学生的培养质量,还不利于课程的建设和发展。
由于课程期末成绩基本上决定了学生能否通过该门课程,因此学生对其特别重视,但是学生平常普遍缺乏良好的学习习惯,不注意知识点的积累,得过且过,到了期末考试则临时抱佛脚,突击应付考试。这种情况下,学生虽然能通过课程考核,但是对课程知识点的掌握非常松散和浅显,经常过了一段时间就忘记。即使教师很认真地教学,也仍有一部分学生存在这些不好的学习习惯。为了保证通过率,有些老师不得不降低考试要求,这在一定程度上也限制了教学效果与质量。
3基于形成性评价的教学评价方式
针对传统教学评价方式的现状和弊端,我们建议引入形成性评价,加强对学生平时学习的引导,帮助他们养成良好的学习习惯;同时,要对评价方式进行改革,增加平时学习情况考核与管理的评价比重,降低期末考试的评价比重,用评价方案引导学生重视平时学习,积累知识点,从而提高他们的学习效果。对课程实施形成性评价,即对学生的学习过程进行多方面、多种形式的考核,弱化终结性的期末考试,突出学生在学习过程中的主体性,使学生更加关注学习过程,调动学生的学习积极性,让学生从被动地“要我学”变成主动地“我要学”,促进教学质量的提高。
美国著名评价专家斯克里文(MichaelScriven)最早提出形成性评价。1967年,斯克里文指出评价可以发挥两种功能:一方面,它在方案持续改进过程中具有重要的作用;另一方面,评价过程可以帮助管理者分析方案效果,也就是评判已实施的课程方案是否取得充分显著的进展,以证明学校系统各种支出的合理性[8-11]。这也是形成性评价和终结性评价两种评价类型首次被提出。
美国评价专家布卢姆(BenjaminBloom)指出,传统测验主要是对学生进行评判和分类,而形成性评价可以在教学过程中的任一阶段给学生提供反馈并予以纠正[16],这里的形成性评价指的是教师和学生在学习过程中采用简短测验所作的评价。尽管这种简短测验不仅可以评分,还可以作为评判和分类的依据,但是如果将它与评分过程分离开来,主要用作教学辅助与支持,那么它就是一种更为有效的形成性评价[8]。
形成性评价在教学过程中即时、动态且多次对学生实施评价,注重及时反馈,以强化和改进学生的学习。反馈是形成性评价的重要特点,也是形成性评价发挥作用的重要机制。形成性评价依据评价目标收集有关信息,是分析目标达成程度的一种手段;形成性评价强调评价最重要的目的不是证明,而是改进;同时,形成性评价关注过程,本质特点是教师在学习评价活动中收集信息,用于诊断、分析和改进教师的教学过程与学生的学习过程。
4形成性评价的实践研究
形成性评价方案的核心在于阶段性和多元化,如何定义阶段性和多元化是形成性评价成败的关键。所谓阶段性,就是根据课程知识体系结构,制订详细的课程教学计划并定义多个评价里程碑,评价学生的学习情况;多元化是指针对不同时间段内的知识构成,采用单元测验、理论研究、技术运用、实践应用、论文写作、综合实验等多种评价形式,同时还要考虑学生的学习参与度、平时作业、实践能力等因素。
针对软件工程专业课程中的软件需求分析与建模课程,我们提出基于形成性评价的教学评价模式和实施方案并开展基于形成性评价的实践研究;通过形成性评价的理念与方法,丰富和扩展教W评价的手段和方法,也令对学生学习过程的全面、自主性监控和教学调整成为可能。
4.1形成性评价方案设计与实施
软件需求分析与建模是软件工程本科生的专业课,课程内容包括需求工程、需求获取、软件建模等基本概念与理论知识以及面向对象需求分析与建模等,重点内容是面向对象需求分析与建模的方法和应用,采用课堂讲授、上机实验和综合实践相结合的授课方式。通过学习该课程,学生不仅能够掌握面向对象的需求分析与建模的基本理论与方法,通过上机实验和综合实践,还能具备运用UML建模工具对小型软件系统进行需求分析与建模的实际应用能力,为后续毕业设计及大中型应用软件的开发奠定基础。
该课程共48学时,其中理论授课32学时,上机实践16学时。根据课程内容,形成性评价实施时将课程分为5个阶段和3个评价里程碑,见表1。其中,评价里程碑1和2采用随堂测验方式评价相应阶段所学内容,以填空题、判断题、分析题、设计题和案例题的形式考查学生对概念的掌握与辨析能力以及对具体案例与综合案例的分析与设计能力;评价完成后,教师根据评价结果针对性地回顾和复习学生学习的薄弱环节并及时调整后续教学内容、方式和时间安排。评价里程碑3采用综合实践方式,教师给出一个“企业进、存、销管理系统”的具体案例,要求学生用4课时的时间完成该项目的需求获取、分析与建模,根据学生的实践表现、实验报告提交时间与质量、总结性陈述质量等进行评分;该阶段性考核以综合实践方式帮助学生回顾、复习和巩固本课程所学的全部知识,并考查学生对这些知识的综合运用能力。
根据软件需求分析与建模课程具有理论与实践相结合的特点,教师须将学生平时学习参与度、平时作业、阶段性考核、实践能力等作为形成性评价项目,和代表终结性评价的期末考试成绩一起,共同组成课程总评成绩,具体评价项目和成绩占比见表2。
针对软件工程专业的其他专业课程,教师可以根据课程内容适当调整评价项目和成绩占比,一般情况下,期末考试成绩占比可以从传统的70%左右降低到50%或更低。
4.2形成性评价实施效果
我们将以终结性评价为主的传统教学评价方法和形成性评价方案应用在上海应用技术大学计算机科学与信息工程学院软件工程专业2012级和2013级2个自然班,并进行对照比较,分别于2014―2015第2学期和2015―2016第2学期在软件需求分析与建模课程教学中实施。对比学生的平时成绩、期末成绩和总评成绩来判断教学效果,分析形成性评价对教学效果的影响,对比形成性评价过程中的随堂测试和期末考试以及传统终结性评价中期末考试不同题型的得分情况,分析形成性评价过程对教学效果的影响。
4.2.1形成性评价对教学效果的影响
首先从教学效果来比较两种评价方法,两个班级平时成绩、期末成绩和总评成绩平均值见表3,其中,2013级的平时成绩即形成性评价结果,期末成绩即终结性评价结果。从表中数据可以看出,2013级的总评成绩比2012级高5.4分,2013级终结性评价结果明显好于2012级,高10分;2013级的形成性评价和终结性评价结果非常接近,而2012级的平时成绩明显高于终结性评价。从以上数据和分析可以推断,基于形成性评价方案的教学效果明显优于传统方法,并且形成性评价和终结性评价结果基本一致,能相互印证,可见其客观性和公平性更好,而基于终结性评价方案的平时成绩给分偏高,评价相对随意。
两个班级总评成绩的分数段统计数据见表4。
从表中数据可以看出,基于形成性评价方案的教学不但提高了学生的整体成绩,而且缩小了学生之间的成绩差距,使得绝大多数学生可以理解和掌握课程的知识和实践方法。2012级的优良率(80~100分)和不及格率分别为18.9%和2.8%,2013级的优良率(80~100分)提高到75.8%,不及格率降为0。
4.2.2形成性评价过程对教学效果的影响
形成性评价过程中的两次随堂测试和期末考试以及传统终结性评价中期末考试不同题型的得分情况,见表5。从表5数据可以看出,相比传统终结性评价,形成性评价明显提高了填空题、分析题和设计题的得分率,判断题的得分率也从阶段性考核到期末考试逐渐提高;由此可见,通过形成性评价,学生对基本概念和理论的知识掌握和辨析能力、分析问题和解决问题的能力明显提高。案例题得分率从阶段性考核到期末考试逐渐降低,主要原因是随着所学理论和方法的增加,案例题的复杂度逐渐提高。从上述分析可以看出,形成性评价过程能有效促进学生平时的学习,及时向教师反馈教学状况,令教师尽早发现并纠正问题,为后续教学发挥导向作用,从而使学生能更全面和深入地掌握课程内容,在综合评价中获得更好的成绩,提高教学效果和质量。
5结语
针对软件工程本科专业课程,我们建立了基于形成性评价方案的教学评价模式,将学生出勤情况、课堂表现、作业情况、阶段性考核、实践能力等平时学习情况量化,作为学生的平时成绩折合到课程总评成绩,有效促进了学生平时的学习。实践研究表明,应用形成性评价模式后的教学效果明显优于传统的终结性评价方法,并且形成性评价结果和终结性评价结果相互印证,评价结果更能体现全面性、客观性和公平性。形成性评价以考促学、以考促教,可以实现学生知识、能力和素质的全面协调发展,不仅能提高学生的综合素质和创新能力,还能明显提高软件工程专业本科生学科专业课的教学效果和教学质量。
参考文献:
[1].课程评价的现状、问题与展望[J].课程・教材・教法,2007,27(1):3-12.
[2]方勤华.近年来我国课程评价研究的现状及其发展趋势[J].河南大学学报(社会科学版),2008,48(6):142-147.
[3]秦炜炜,焦建利.国家精品课程评价研究之内容分析[J].中国电化教育,2009(9):63-67.
[4]谢浩,陈丽.现代远程教育中形成性评价的现状及对策研究[J].现代远程教育研究,2010(4):49-53.
[5]刘桂芝,李婧.完善本科生课程评价体系激发师生联动发展[J].中国高等教育,2012(增刊3):52-54.
[6]肖凤翔,马良军.高等职业院校实践性课程评价[J].高等工程教育研究,2013(1):159-164.
[7]张文强.建立教师课堂教学评价体系促进学生发展[J].中国高等教育,2013(10):37-39.
[8]林静.形成性评价在高校课程评价中的应用[J].现代教育管理,2011(9):66-68.
[9]赵德成.教学中的形成性评价:是什么及如何推进[J].教育科学研究,2013(3):47-51.
[10]周世权,朱旗,李华飞,等.工程训练课程教学质量评价体系的研究[J].实验室研究与探索,2014,33(7):152-156.
[11]BlackP,DylanW.Developingthetheoryofformativeassessmenteducationalassessment[J].EvaluationandAccountability,2009,21(1):5-31.
[12]冯翠典,高凌飚.从“形成性评价”到“为了学习的考评”[J].教育学报,2010,6(4):49-54.
[13]韩东升,余萍,贾惠彬,等.基于形成性评价的通信电子电路教学研究[J].实验技术与管理,2016,33(2):162-165.
[14]陈云芳,孙力娟.软件工程专业课程体系研究[J].高等工程教育研究,2009(2):140-144.