专题序言
如何评估国际组织的绩效直接关系到全球治理的权威和效能。本期学科动态以全球治理中的绩效评估为主题,探讨了评估国际组织绩效的文本分析方法,探讨了评估体系的制度设计如何影响绩效评估的客观性,展示了不同国家在推动改革过程中如何利用绩效评估结果。本期学科动态旨在通过多篇近期文献阐释绩效评估的意义,检视现有评估方法的优劣,为构建更科学的国际组织绩效评估体系提供借鉴。绩效评估体系的完善不仅有助于提高国际组织的运行效率,也将推动全球治理体系朝着更加公正合理有效的方向发展。
联合国体系下的国际组织每年会发布大约750篇评估报告以分析各个组织的项目、方案、机构和活动的表现。本文利用深度学习,提出了一种全新基于文本的绩效评价指标。在提出指标的基础上,作者建立了一个新的数据集,数据集包括系统下9个国际组织实施的1082项评估活动的绩效指标。
评价公共组织绩效最简单的方法就是考察其完成预定目标的能力。既有研究大多根据一系列关键指标来衡量组织绩效,但由于并非所有组织的目标实现都可以在指标层面得到反映。因此有学者已经开始对更广泛的数据来源进行分析,研究机构设计、人员配置和管理流程以及理事机构决议的相应指标。在开发性金融和发展援助领域,对绩效和有效性的评价指标已经有了大量进展,但在公共卫生,人道主义援助和社会政策等领域,仍然难以形成一致性的评价体系。
对国际组织的评估可以从组织外部展开,考察项目资助的审查机制、资金来源等问题,但考虑到既有国际组织的资助者大多是西方国家,外部资助本身存在“偏好性”,且资金相关报告往往难以获取,因此作者从联合国评估小组(UNEvaluation Group)的评价报告入手,对包括劳工组织、开发计划署、粮农组织在内的9个组织的数据进行了抓取和整理,建立了IOEval数据集,包括报告级别的各个变量。
为实现对项目的绩效考核,作者主张对报告的本文进行分析,报告文本包含的语句越积极(消极),既评估整体越积极(消极)。在具体操作上,作者使用基于深度学习的BERT语言模型,将每个句子分别被标记为积极、负面和描述性评价,进行深度学习,取三个标签的最大概率值。随后作者对数据进行了验证。内容验证结果表明,语言模型以非常高的准确性对语句内容进行了分类;聚合分析基于外部绩效进行比较,作者模型结果和IEG(世界银行独立评估小组)的评级数据相比较,将2012-2021年的世行报告编成数据集,输入语言模型并进行分布分析,统计结果显示二者可以相互匹配。
作者还对数据集进行了构建效用验证(Construct Validation)。构建效用主要是利用IOEval数据集中的评估条目进行理论假设的验证。作者在本部分对“项目目标的可实现性越强,项目绩效越高”进行了验证。项目良好的预期表现可以帮助项目获得更多的资金和支持,进而在下一阶段的目标中更容易成功,换言之每个更早阶段的成功,将帮助国际组织在下一阶段取得成功。通过固定效应分析,作者发现,国际组织项目的计划和结果存在差异,有更多可实现短期目标的项目,往往可以实现成功。
本文结合了三种验证策略检查了作者提出的国际组织活动绩效标准的有效性,开发了一种基于文本的绩效评估方法,同时开源的语言模型为数据集的扩展提供了可能性。新的数据集和模型增强了研究国际组织绩效的能力和路径,帮助将国际组织绩效从发展援助拓展到其他领域;新数据库还可以帮助研究国际组织绩效造成的影响与后果,同时帮助政策制定者评估各个组织之间的绩效差异。
本文来自知之小站
PDF报告已分享至知识星球,微信扫码加入立享3万+精选资料,年更新1万+精选报告
(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)