登陆注册
11785400000043

第43章 写作测评(1)

对学生获得的知识进行测量和评价是教学研究的一个重要内容。作文评价是作文教学的一个重要环节,是作文指导的继续。中国是一个文章大国,从读文章、写文章的大量实践中去领悟和运用写作的法则,是经验型的,这也是传统写作教学所走的路,然而,这也给写作教学测量带来了困难。中文的写作特别地具有东方文化的特点:综合性和模糊性。有些观念,可以意会,而运用之妙存乎一心,难以准确测量。我们既不能削足适履,生硬地与西方模式“接轨”,又要对这些传统经验进行科学研究,发现合理的因素。如果说“测验”和“考试”一般只是对学生的知识水平的数量化,那么,“测评”中的“评”就包含了“评价”,即进行价值判断,体现了定量和定性分析的整合,是教育测量的高级层次。

写作测评是测验与评定的总称。有关测验的定义,尚无统一规定。

我们认为,测验就是根据客观的标准化了的程序来测量个体的某种心理与行为,以判定个别差异的工具。因此,写作测验就是编制相关的各类题目,借以测定和区分学生写作能力的一种手段。写作评定是根据写作活动产品或根据教师平时对学生的了解,来对作文判定分数或等级。对写作评定的数量描述作出价值判断(如该生成绩优或劣),则相当于教育测量学中的“评价”。

一、写作测评的历史

教育测验与心理测验所要测量的内容不尽相同,但是所依据的基本原理和方法是一致的。因此,教育测验深受先行发展的心理测验的影响。

语文测验则以教育测验的基本理论为指导,语文测验又反过来丰富教育测验理论,推动整个教育测验科学的发展。

(一)20世纪前的写作测评

19世纪末20世纪初,欧美国家在教育科学化运动的推动下,针对论文式测验取样片面、评分不客观、主观随意性大等缺点,对考试进行了客观化的研究,渐渐形成教育测验运动。1864年,费希尔(G.Fisher)设计了一个《量表集》,内容包括:作文、书法、拼写、文法、历史、绘画、自然、算术等学科的学生作业,按1(5等级评定成绩。1895(1905年,美国的莱斯(J.M.Rice)主张用划一的测验考查来比较各校学生的成绩,于是编制了《算术测验》、《拼写测验》和《语言测验》。其中《拼写测验》要求学生默写50个生字;《语言测验》选编了给学生朗读的文章,要求学生根据原文大意写一篇文章,然后依据写就的文章的语句及篇章结构来确定分数。

莱斯曾用这些测验测量过数万名学生。当然,这还不是严格意义上的学科研究,评分中尚存在较大的主观成分,但还是开了写作测评研究的先河。

在各个学科的测评中,写作测试是最困难的,也是一个世界性难题。

因为它所测评的学生的精神产品——文章。通过文章来测量学生的写作水平有关极大的主观随意性。特别是在大规模考试(如高考)中,对这类随意的控制是很困难的。人们逐渐认识到了主观性试题的评分误差,注意到了写作测评中的问题。

1904年,桑代克发表了《心理与社会测量导论》(又译《精神与社会测量导论》)一书,提出“凡是存在的东西都是有数量的,凡是有数量的东西都是可以测量的”着名论断,系统地介绍了统计方法及编制测验的原理。

1905年,比纳和西蒙发表了世界上第一个智力测验《比纳(西蒙量表》,为标准化测验开辟了新的道路。1909年,桑代克根据卡特尔的等距离原理编制了书法量表,这是世界上第一个用科学方法编制的语文测验工具。

这一成果引起了人们对编制作品量表的兴趣,并提供了可资借鉴的方法与技术,以后作品量表(包括写作量表)的编制和应用方法均与该量表类似。不久,桑代克还编制了《拼字测验》、《作文量表》、《图画量表》等标准测量工具,推动了包括语文测验在内的整个教育测验的发展。1919年以后,教育测验趋多,语文测验有希利格斯的《作文量表》,白根汉的《拼法量表》,爱里斯的《书法量表》等等。

(二)20世纪后的写作测评

Hillegas(1912)编制了世界上第一个正式作文量表,即《儿童英语作文品质评定量表》,为后来研究者提供了参照作文量表的样式,开作文标准化测验之先河。此后不久,Trabue和Thordike于1914年分别编制了对Hillegas量表的补充版,适用对象均为4(12年级。同年,Ballon为了克服Hillegas量表只适用于一种文体之弊端,编制了包括记叙、说明、描写和议论四种文体的《哈佛(牛顿量表》(Harvard‐Newton),其样篇选自1-8年级,每种文体各有6个样篇,分数采用百分制。其他量表还有,《霍德森英语作文量表》(Huddson English Composition Scale,适用对象为4-12年级),vanWagenen编制的《英语作文量表》,《惠林写作测评量表》(The Willing Scalefor Measuring Written Composition)和《普莱塞英语作文诊断测验》(Pressey Diagnostic Testsin English Composition)。

其中,惠林量表是当时美国通用的作文量表。该量表有8个样篇,适用于4(8年级,成绩评定分故事(内容)分数和形式分数两项,其计分原理依据正态分布,取代表正态分布中的两个端点及其中间距离相等的六点,这较Ballon的量表又前进了一步。惠林作文量表的另一特点是,为保证测评结果可靠性,提供了许多作文题目和收集作文的方法,可使用这些作文题控制写作情况。

20世纪20年代,Lewis编制了《英语特殊文体作文测评量表》,该量表主要用于五种应用文的测评:订购货物的函件,应征职位的函件,叙述性社交函件,议论性社交函件,便条。量表可以测评说明、叙述、描写等三种文体,评分时对照相应文体样篇就可分别计算出三部分成绩,其比例规定如下:

(1)“思想内容”(Thoughtcontext)分,占4/7。

(2)“文体结构”(Structure)分,占2/7。

(3)“文字技巧”(Machincs)分,占1/7。

该量表具有诊断性,设计者为了提高作文的评定信度,在量表中附有练习文章,供教师把练习文章对照量表样篇评分,看自己评分是否合乎量表拟定的标准分值,以此帮助教师更好地使用作文量表,准确地把握评分。

20世纪初,我国在测验方面开始引进国外的理论和方法、技术。到了20-30年代,很多学者着手编制测验,其间美国教育测量专家麦柯尔曾来华指导。1922年后,教育测验运动在中国推广开来,有关语文的测验主要有俞子夷的《小学国文毛笔书法测验》,这是我国最早的标准化测验,还有艾伟、王金桂合编的《小学国语默读测验》,艾伟、杨清的《小学国语默读诊断测验》,陈鹤琴的《中小学默读测验》和《文法测验》,另外,还有俞子夷的《小学缀法测验量表》、周学章的《作文测验衡》、廖世承的《中学文法测验》和《语文常识测验》等。在30-40年代,测验在我国曾风行一时,相对而言,对语文测验贡献最大的当推陈鹤琴,其编制的测验涉及默读、默字、识字、作文、文法和书法各领域。

20世纪60年代以后,西方国家的一些大学和研究机构编制出版了一些作文量表,引起了教育界的重视。这不仅提供了一个测评工具,而且还可用于对教师的作文评分进行培训,如1960年美国芝加哥英语教师联合分会编制了《高中学生作文评价量表》(A Scale for Evaluation of High School Student Essays)。该量表收集了28篇作文以解释对15岁学生作文评定的各项标准,用以评定中等教育毕业证书考试所设想的写作水平。这些作文样篇从A到E级程序排列,对练习作业的评定工作,第一等的成绩有一个样组,以便保持评定标准的一致性。

近年来,美国常用的标准化作文测评量表有美国教育测验服务社编制的《STEP短文测验》和《戴里奇服务社作文量表》(Diede rich EST Composition Scale)。《STEP短文测验》要求学生在30分钟内根据特定题目写文章,评分时把每个学生的作文与已有同样题目的样篇比较,给予7级分数中的某一级。总分中“思想和内容”占50%,“文章风格”占30%,“文字技巧”占20%。

二、写作测评的基本要求

在编制一个教育测验时,必须进行标准化,写作测评也不例外。在标准化过程中,为了提高测评的有效性和可靠性,就不能忽视对信度、效度等的检定。

(一)写作测评的效度

效度是指测评能够真正测到其所要测量的东西的程度,即所要测量的某种行为特征的正确性。越是正确地抓住目标,这个测验的效度就越高,也表明所测量的结果越能代表所要测量行为的真正特征。写作测评效度,要求能测出和评出作文能力,而不是识字或阅读能力。它有内容效度、效标放度和结构效度之分。内容效度要求测验和评定项目囊括所有重要的内容。效标效度,要求测评结果与某一客观的能真正反映学生作文能力的成绩一致,它通常求得两者相关系数来说明。结构效度,要求测评结果能说明预想(理论)的写作能力结构。在统计学上,因素分析法能对它进行圆满的解释。因素分析即把一些具有错综复杂关系的因素归结为数量较少的几个综合因素(公因素),并用这少数几个因素解释能力结构。效度系数,一般要求在0.60以上。

为了提高效度。写作测评应仔细分析作文教学目标,研究作文能力结构;采用多种题型,扩大取样覆盖面;试题要求必须明确,评定标准必须清楚。

(二)写作测评的信度

信度是指测验的可靠程度,表现为测验结果的一致性、再现性和稳定性。写作测评的信度要求同一测验在不同时间施用,所得结果一致。同一作文,不同的人评定或同一人在不同时间里评定,所得结果尽可能相近。

考验写作测评信度的方法有再评法、多评法、重测法和分半法等。再评法是指两位教师同时评分,或一位教师两次评分,求得相关。多评法是指请多位教师独立对一批作文评分,求得肯德尔和谐系数。作文测评的信度系数,若达0.70以上,说明测评结论可靠。重测法,就是把一个测验在适当的时间间隔里施行二次,求得分数相关。分半法就是把测验分成性质相同的两半(如按奇偶题分),求得两部分成绩相关。

信度与效度有一定的关系,可靠的不一定有效,但有效的一定可靠。

信度只表示测验本身的可靠程度,而效度则涉及到测验所要测量的是否有效。为保证信度,应采取系列措施,如试场和阅卷场所要保持安静;所有的应试者应具有均等的条件;训练评阅教师统一执行评定标准等等。

(三)写作测评的区分度

区分度为试题能够区分出学生高低水平的程度。写作测评要求能鉴别出学生的作文能力,拉开分数距离。考验区分度可采用两端分组法,即计算高低两组受试者通过该题的比率,也可以求得各项目与测验总分的相关,求得内部一致性。当测验项目少,各项目占分比重大时,应对项目与总分相关的重叠部分进行矫正。区分度系数一般要求在0.30以上。

区分度与难度有密切的联系,难度为0.50左右,区分度最大;当难度为0.1时,则没有区分度。

(四)写作测评的实用性

实用性要求测评所需的时间、人力为客观条件所允许。一个完善的方案,如果难以实施和推行,那么就没有实用价值。因此,无论是写作测验,还是评定、解释分数等,都应简便,不易过分繁杂,耗费太多的时间和精力。写作量表为了便于分数解释,应提供常模资料,如年级常模、年龄常模、百分位常模以及Z分数和T分数常模等。这样,学生的任何一个分数或等级,只要与常模比较,就可推知学生在某一集体中的位置。

一个好的测验,其测验的内容和困难度要适合于所测的对象,并且具有较高的信度和效度,但在编制一个新的测验时,往往没有直接决定效度的外部基准效标,因此,最初应把注意力放在信度上。下面这些条件,可以提高写作测验的信度:

(1)问题项目数多,可以提高信度。

(2)由同质的项目所构成的测验(Homo geneous test),比异质项目所构成的测验信度高。

(3)项目的辨别力大,信度也高。

(4)由困难度适中的项目(通过率平均在50%左右)所构成的测验信度高;而由特别容易的项目和特别困难的项目所构成的测验信度低。

(5)对各种能力程度不同的人的测验结果,信度高;而对能力同等的人的测验结果,信度低。

(6)取分越客观,信度就越高。

(7)二者择一的回答(即正误选择或是否选择),不如多肢选择回答(多重答案选择法)信度高。

(8)意思不清、容易误解的问题,回答的指示不明确的问题,信度低;反之,信度高。

同类推荐
  • 迷思为何存在

    迷思为何存在

    如同人类生存的压力可能是自然生态恶化的原因,但不能成为人类任意破坏生态环境的借口一样,激烈的商业竞争可能是新闻一时无顾伦理的原因,但不应该成为新闻伦理道德肆意缺失的借口。
  • 辅导员手记

    辅导员手记

    中共北京市委教育工作委员会、首都大学生思想政治教育研究中心组编的《首都大学生思想政治教育研究丛书:辅导员手记》没有华丽的词藻,有的只是辅导员工作和成长的真实记录;没有高深的理论,有的只是辅导员工作和成长的思考体会;没有超凡的创造,有的只是辅导员工作和成长的创新经验。在这本书里,您将看到他们的无私付出和积极心态,触摸到他们的工作激情和创新动力,体会到他们日常面临的各种挑战和令人称赞的智慧才华,感受到他们促进学生成长发展的“正能量”,从而进一步准确把握当代北京高校辅导员的工作、思想和心理状态,深刻理解他们肩负的使命和责任,并油然而生崇高的敬意!
  • 学校不大教的55门必修课

    学校不大教的55门必修课

    本书分为三部分,包括:自我开发的能力、习惯和性格决定一生、社会交往和生存能力,旨在为父母提供一些观念和方法,让孩子学习社会生存的能力。
  • 今生经视,相伴相知

    今生经视,相伴相知

    本书撷取的主要是该频道人物专访栏目《程程访问》的部分精彩篇章。程程是浙江观众十分熟悉和喜爱的一位资深主持,年轻时就是许多人追逐的偶像,现在是这档知名栏目的主访人。她访问的对象大多是某一时期与热点事件紧密相关的国内精英人物,涵盖政治、经济、文化、演艺、学术各行各界。程程的人物访问,既知性又个性。有人称她的访谈在温婉细腻中不乏深沉透彻,在蜻蜓点水处不失机敏话锋。而且在处理人物信息时重视挖掘事件人物的内心故事、切身感受,善于以事件人物的人格魅力、精神力量来温暖、烛照、激励更多人的心灵。这也使开播仅一年的《程程访问》,在观众中迅速赢得很大的影响和很好的口碑,成为一档很有市场号召力的名牌栏目。
  • 90年代以来中国电视新闻场域的变化及其影响

    90年代以来中国电视新闻场域的变化及其影响

    中国电视新闻的改革无疑是一个重要的课题。近年来,也出现了了一些从不同角度进行的研究,但罗列现象的较多、深中肯綮的少见,运用前沿理论进行分析阐释的寥寥可数。本书另辟蹊径,将法国当代社会学家皮埃尔·布尔迪厄的场域理论比较成功地运用于当代中国的电视新闻研究,在理论和方法上都有最要创新,达到了同类研究中国内的高水平。作者的观察和批评比较尖锐,分析也相当具有新意,是一本住学术上有重要创见的优秀著作。
热门推荐
  • 我的手上有各种剧本

    我的手上有各种剧本

    普通女大学生一不小心穿越到农家,以为拿的是种田剧本,结果好不容易说服自己既来之,则安之,结果成神?修仙?宫斗宅斗?朝堂江湖?这也算了,魔法世界是肿么回事???剧本太多了,阔怕。没错,就是那个传说中被用烂的恶俗的空间玉坠干的事PS:女主可以调节转盘在几个地方游走,空间作为媒介可以使一个世界的东西在另一个世界使用,但是只能按照那个世界的规则做事。女主的目标,攒人品,做天道认同的事,成神。(拥有空间,所以女主会有所感应自己应该做的事)男主这种生物,谈恋爱不会成为主旋律。(女主人前举止得体,人后逗比,和她特别较好才能发现这一属性。)(前期女主有些傻,后期慢慢成长。但是绝对不小白,该有的智商还是在线,不过未经打磨的女主还是会犯一些蠢)(性格不能保证一成不变,万一哪天女主升华了呢)
  • 火影之鸣人再战

    火影之鸣人再战

    我用青春的笔,勾画着陪伴我十五年的热血动漫。用来纪念我和火影走过的那些年、热血、拼搏。
  • 混沌神界

    混沌神界

    一枪风云起,洪荒万兽皆来贺;鲲鹏青云上,九霄龙吟烁古今!混沌神枪破万法,自古多少红颜泪;受苍天诅咒的少年,逆天而上,搅起风云万丈,豪情壮志,唯有兄弟千古!
  • 天下城之四女子

    天下城之四女子

    在电闪雷鸣的晚上,天空四道美丽的光飞向这片大地,而隐居在云霄山上的苏姑婆婆见此情况也来到了这个地方,就在无声无息的深夜抱走了她们,同时也教给她们不同的本领,让她们长大后携手除恶惩奸。想看四位美女是怎样闯荡江湖的吗?想看看她们的结局会是如何?想看看她们美丽的爱情故事吗?请听我慢慢道来。
  • 魂士传奇

    魂士传奇

    柳天衣,东正帝国柳家第四子,五岁领悟魂力,七岁觉醒魂刃,十七岁成就九级魂士,荣列帝国客卿之位。同年与东正帝国三公主订婚,一时间名动天下,次年,柳天衣决意前往禁地断魂山,一月之余,断魂山钟鸣四起。柳天衣,触犯圣子天威,故废其修为,施与九重封印,永世不得再踏上断魂山。一夜之间,柳家分崩离析,族人纷纷逃离帝都,柳天衣沦为活死人,直至三年后苏醒。本书每天两更,中午一更、晚上一更,希望喜欢的朋友多多支持!
  • 万界代购系统

    万界代购系统

    【2016星创奖都市职场获奖作品】新书《我有无数打脸订单》已经发布,保证精彩好看!一次意外,陆元得到了万界代购系统。各种代购订单源源不断。化妆品,粮食,军火,要多少有多少。未来科技,外星物品,应有尽有。一个苦逼代购得到万界代购系统后,当上总经理,出任CEO,迎娶白富美,走向人生巅峰的故事。打脸盟:984479960
  • 梦魇诅咒

    梦魇诅咒

    【噩梦集】本文更新不稳定!!!是由噩梦(不全是)改编而成!!!【男主暂定定,后期不确定有没有~】她和他,生命中注定的遇见还是擦肩而过?梦魇缠身,是诅咒还是召唤?她(他)会选择沦陷还是步步为营?她和他是否会成为对方救赎?
  • TFBOYS的花之密语

    TFBOYS的花之密语

    八人因为一次偶遇以花作为约定。卻忘记不了彼此,又因为某种原因穿越了。这本小说,我原本打算写完恋爱星才写。刚上Facebook的时候,发现上面有个群说TF的壞话。借这本小说来说明TF和EXO,也可以當朋友不是竞争对手!!他们可以互相讨论来增进友情,我只希望黑粉,别再互相说TF和EXO他们。
  • 默默地路过你的全世界

    默默地路过你的全世界

    心花为他开,却又为他凋谢,默默的路过他的全世界。
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!