4.匹配题。匹配题可以说是选择题的一种变式。匹配题一般包括多个反应项和多个刺激项,用反应项来匹配刺激项。匹配题有完全匹配和不完全匹配两种形式。
优点:匹配题容易编制,而且可以在短时间内测量大量相关联的材料,覆盖面较广。缺点:它一般只能测量简单记忆的事实材料或概念关系,并且要求编制的选项必须是同质的。
☆◆对编制匹配题的一些建议:①刺激项目和反应项目应该分成两列,通常反应项安排在右边;②配对数目不可过多或过少,较好使用不完全匹配,使反应项数目多于刺激项数目,并且较好不限制每个反应项被选择的次数,这样可以降低猜测的概率;③匹配题的反应项与刺激项,其性质必须相近;④应对匹配方法、匹配的依据加以明确的规定和说明,同时说明反应项可以被选择的次数;⑤同一组的反应项与刺激项较好印在同一页纸上,以免造成答题时间的浪费;⑥反应项与刺激项应以不同形式的序号加以标识,以免混淆。
5.填充题。☆◆编制填充题时应注意:①较好采用问句形式;②使用直接问句的形式,可避免产生对题意的误解;③如果是填空形式,填充处不可太多。过多空白会使题意不明确;④每题较好只有一个答案,答案较好简短而具体,有利于评分。
6.操作性测量形式。在很多情况下,操作的方法和过程是重要的测量目标,而这是纸笔测验无法测量的,这时可以采用操作性测量形式◎。操作性测试题通常分为着重过程和着重结果两种形式。
操作性测试有多种不同的分类方法,按测试情境的真实性程度可分:①纸笔的操作性测试:虽用纸笔但偏重于模拟情境下知识的应用,如编制某项操作计划、步骤、注意事项等,如公文筐测验;②模拟操作测试:强调正确的程序,被试需要在模拟情境下完成与真实活动相同的动作,如驾驶员的考核等;③工作样本操作测试:其真实性较高,但是是在有控制的条件下去完成的。如司机在标准场地内的考核。
设计操作性测试题的主要原则有:①明确所要测量的目标,并将其操作化。即要进行工作分析,辩认出操作中较重要的因素,找出具有代表性的工作样本。②要建立作业标准,规定通过此项作业的较低标准。③选择合适的真实性程度。通常情况下,真实性程度越高,模拟的代价越大。④指示语简单明确,让被试知道要干什么和在什么条件下去做。⑤有明确的计分方法。
◎作品量表:一般包括一系列按顺序排列的不同作业程度、水平、质量的标准样本,评分时参照这些标准样本对被试结果进行评分。
7.面试。缺点:①面试的考核缺乏心理测量学的严格性,易受考官的个人偏见或歧视的影响;②由于面试既要看应试者对问题回答的内容、质量,还要看整个面试过程中的行为表现,如情绪紧张度、应变能力等,更加大了面试记分的难度。面试效果的好坏往往取决于面试考官。面试应注意:①面试考官必须对面试主题有充分的了解,对于所要求的反应有清晰的认识;②用于描述或评定被试反应的词语,必须具体化,避免模糊不清的陈述。
第三节题目的编排
◇题目选择和编排过程包括定性的逻辑分析和根据预测的结果进行的定量分析。
一、题目的选择
1.◇对题目进行初步选择的主要依据是:题目本身的性质、对预期测量目标的可测量程度。
2.☆题目选择的步骤包括:⑴检查题目是否符合细目表中某一单元格内的要求。⑵根据细目表对各部分所要求的比例选择适当数量的测试题,使测量工具尽量覆盖整个细目表的内容。⑶检查题目是否叙述明确清楚,是否提供了额外线索。⑷检查题目十分适合将要施测的对象和施测的条件。⑸检查题目的难度是否恰当。一般来说,难度为0.50较为合适。⑹检查所选择的题目是否彼此独立,没有重叠,即回答某一问题所需的知识与能否回答其他问题无关。
二、题目的编排
◇题目编排的原则包括:⑴将测量相同因素的测试题排列在一起。⑵尽可能地将同一类型的测试题组合在一起。⑶难度测验的题目应按由易到难排列。这样可以鼓舞被试的士气,避免某些被试一开始就因较多题目回答不出而失去信心。⑷对于人格测验,应尽量避免将测量同一特质的题目编排在一起,防止被试猜测出题目所要测查的因素。
三、测试题的预测试和分析
◎预备测试题:测试题编排完成并不意味着这项测量工具的编制就此完成。前面对题目的选取只是依靠编写者的主观经验,题目的效果如何还需要进行定量的客观分析。这时的测试题还只能叫做预备测试题,还需要获取被试对这些题目的反应的材料,为进一步筛选题目和为编排测量工具提供客观依据。
◎预测试:必须将预备测试题对一定规模的小样本被试进行施测,获得数据以进行校验、修订。这一过程称为测试题的预测试。
◎题目分析:测验数据收集上来之后,应该利用这些数据对题目进行分析,删除不好的题目或对题目进行修改,这个过程称为题目分析。具体内容包括对题目的项目分析和对测验信度、效度指标的检查。
对测试题的预测试应注意以下问题:⑴预测试对象必须和将来正式测试的对象相似;⑵预测试的实施过程与情境应力求与将来正式测量工具实施时的情境相似;⑶预测试的时限可稍宽些,较好使每个被试都能将题目答完,以便搜集充分的反应资料,使统计分析的结果更为可靠;⑷在预测试过程中,应将被试的各种反映情况随时加以记录。如,记录在不同时限内一般被试所完成的题目数、题意不清之处、被试的态度等,以便在在修改测验时作为参考。
预测试完成后,可以根据预测结果进行题目分析,对每个题目的具体分析称为项目分析,主要是指根据题目的难度、区分度、备选答案的合适度等数量指标来对题目进行分析。
第五章人事测量的实施与计分
第一节实施测量操作的要领与误差控制
人事测量实施的较基本要求是,使所有的应试者都在相同的条件下表现出自己的真正行为。
一、测量的操作程序
1.标准化指示语。在施测过程中应该使用统一的指示语。◎指示语是在测量实施时说明测量进行方式以及如何回答问题的指导性语言。指示语通常有两种:一种是对被试的,另一种是给主试的。前者应该力求清晰和简单,向被试说明应该做什么,即如何对题目作出反应。
2.测验时限。大多数典型作为测验是不受时间限制的,如人格测验。大多数测验既要考虑反应得速度,也要考察解决有较大难度题目的能力,在能力和成就测验中所使用的时限,以大约90%的被试能在规定时间内完成测验为标准。
3.测验的环境条件。
二、主试的职责
1.◎主试:也称考官或主考人,是控制测试进程的主要人员。主试的经验如何往往会对测验的结果产生影响。
◇☆主试应做以下工作:⑴测验前的准备工作。①预告测验;②熟悉测验指示语;③准备测验材料;④熟悉测验的具体程序;⑤确保
满意合适的测验环境。⑵测验中主试的职责。测验中主试的职责是按照指示语的要求实施测验,在被试询问指示语意义时,作进一步澄清,但注意不要作任何暗示。在测验时,主试还要注意不要讲与测验无关的话,并能够对测验中的特殊情况作出灵活的解决。⑶建立协调关系。协调关系指的是主试和被试之间一种友好的、合作的、能促使被试较大限度地做好测验的一种关系。建立协调关系就是要求促使被试尽可能地对测验感兴趣,遵从指示语,认真合作地进行应试。主试都应该采取热情、友好并且客观的态度,这是建立协调关系的前提。
三、测量实施过程中可能导致误差的各种影响因素:
1.主试对测量结果的影响。☆测量结果往往会受到主试的各方面因素的影响:⑴主试的人格特点。主试的不同特点对测验的实施及测验的评分等各环节都有影响。⑵主试的期望。罗森塔尔效应:在有些情况下,实验者所获得的资料及实验结果会受其本身期望的影响,这种现象称为罗森塔尔效应,又称做实验者期望误差。
2.☆被试特点对测量结果的影响:⑴测验的技巧与练习因素。◎练习效应:有不少研究发现,应试者参加相同或重复的测验,会由于练习效应而使测验成绩提高。⑵焦虑和动机因素。①应试动机;②测验焦虑。◎焦虑是一种不愉快的、表现为焦急、恐惧和紧张的情绪体验,它主要是由于对可能出现的结果的担心或对应付这一结果的能力的担心而造成。大多数人都在测验前和测验中感到焦虑,故又称测验焦虑或考试焦虑。⑶反应定势。◎反应定势也成为反应的方式或反应风格,简单地说,就是每个人回答问题的习惯方式。☆影响测量结果的反应定势主要有以下几种:①求“快”与求“精确”的反应定势。②偏好正面叙述的反应定势,又成为肯定反应定势,克伦巴赫发现。③偏好特殊位置的反应定势。吉尔福特认为,被试如果完全不知道选择题的正确答案,则不会以完全随机的方式来决定该选择哪一个选项,而有偏好某一个位置的选项的倾向,而有些测验编制者也存在偏好某个位置的反应定势,这些现象称为位置定势。④偏好较长选项的反应定势。⑤猜测的反应定势。
四、猜测的校正
1.★猜测修正的公式:S=R-W/(n-1),其中,S是正确分数;R为被试答对的题目数;W为被试答错的题目数;n为选项数目。
2.☆猜测修正的优缺点。优点:⑴修正公式可避免减低测验的信度。⑵修正公式可以反映被试真正的能力和水平。⑶使用修正公式对那些不能答完全部试题的被试来说比较公平。
缺点:⑴公式假设不成立,因为被试答错试题,并非完全瞎猜。⑵猜测修正无实质作用。⑶未采用猜测修正对信度并无重大影响。⑷完全不许猜测与实际生活不符。
第二节实施测量计分的要领与误差控制
检验客观与否,可以以两个或两个以上受过训练的合格评分者所评结果之间的一致性作为指标。一般情况下,受过训练的评分者之间的平均一致性达到90%以上,我们就认为计分是客观的。
一、计分的一般程序
1.◆☆计分的基本步骤:⑴记录反应。及时和清楚地记录被试的反应。⑵检索标准答案。标准答案有时又称计分键。⑶反应和标准答案的比较。
2.◇问答题的主要缺点是评分不够客观,也就是说问答题的计分经常受到评分者的情感、态度的影响。问答题中常见的误差有:宽容定势和晕轮效应。
3.◎宽容定势:指主试的计分过于宽松,即使没有回答出题目所要求的答案,评分者也给予较高的分数。
4.◎晕轮效应:指给予被试某道题较高分数仅仅是由于被试在另外一些试题上获得了高分,也就是说对被试的一般印象影响到具体某个问题的评价。
5.◎整体计分:就是评分者根据总体印象给答案评一个总分。整体计分在实际中应用较为普遍。
6.◎分析计分:是给问答题的不同部分分派不同的权数,按照各部分的要求对答案中所包括的信息和技能评分,较后将各部分的权数和得分组合起来得到该问答题的分数。
比较整体计分和分析计分?(回答上面的名词,再加以说明)
7.◇客观题的一个主要优点就是计分简单、客观。
8.不同的反应依据主试认为的重要性不同也可以给予不同的权数,我们还可以根据被试回答问题时的确定程度给予不同的权数,这叫做“信心权数”◎。
第六章人事测量结果的解释
人事测量的解释不同于测量实施本身,它们是测量中两个不同的、相对独立的成分。测量的解释是一个相当复杂的系统程序。
第一节解释的概念:为什么测量的实施与解释相分离
1.◎原始分数:是通过将应试者的反应与标准答案相比较而直接获得的,其本身并不具有多大的实用意义,而只是一个理论上的过渡值。
2.人事测量的目的在于评价和比较应试者各方面的素质和特点。
3.标准分:原始分数通过与常模的比较,可以转换成等值的导出分数,叫做标准分。
4.常模参照解释:由测量的原始分数通过与常模的对照得到可供比较的导出分数的过程,就是测验分数的解释形式之一,称为测量分数的常模参照解释。
5.效标参照解释:测量分数的另一种解释方式是参照效标的分数解释,即效标参照解释,它是依据外在效标作为标准来对应试者的分数进行解释。
6.☆常模参照解释与效标参照解释的区别在于:常模参照解释是将应试者的成绩与同类群体的其他人(常模样本)的成绩进行比较,而效标参照解释是将应试者成绩与外在效标(如二级技工的标准)进行比较。
第二节常模与基于常模的解释
一、如何选择常模样本
1.确定常模样本的过程包括:确定一般总体、确定目标总体、确定常模样本这三个步骤。
测验性质的不同,文化教育水平不同,性别的不同,都可能影响常模。
2.◆☆在确定和选择常模样本时应注意以下要求:⑴常模样本的构成必须明确。一个测验可能有许多常模样本。在选取常模样本时,首先要保证常模样本的所有成员是同质◇的,可以相互比较。另外,要在测验手册中对常模样本进行明确的说明,包括常模样本的构成和特性等。⑵常模样本必须是所测群体的代表性样本。⑶样本大小要适当。◆☆常模样本大小(即取样大小)由以下三方面决定:①常模样本大小决定于总体的规模。总体规模小,如只有几十个人,则常模样本应包括所有总体成员。如果总体数目大,相应的样本也应较大,一般较低不应少于30个或100个。②常模样本大小决定于总体性质。总体性质越复杂,越需要较大数量的样本。③常模样本大小决定于施测结果。◇样本大小适当的关键是样本要有代表性。⑷注意常模的时效性。常模必须定期修订。
3.◎取样是指从目标人群中选择有代表性的样本的过程。从统计角度看,取样的方法有随机抽样和非随机抽样两种。
4.☆在确定常模时,常用的取样方法有:⑴简单随机抽样;⑵系统抽样。具体方法:假设总体数目为N,若要选择K分之一的被试作为样本,则可以把所有的人N分为N/K组,每个组选一个人,则刚好组成1/K的样本。或者把所有的人从1到N按序编号,把所有编号是K的倍数的人抽取出来,即可组成所需样本。需注意的是:在进行系统抽样时,分组和从组中抽取,或者是编号,都必须是随机的。⑶分组抽样;在总体数目较大,无法编号,并且总体成员又具有多样性的情况下,可以先将群体分为一定的小组,再从小组内随机抽样。⑷分层抽样。在确定常模样本时,较常用的是分层抽样方法。它是先将目标群体的某一种变量(如年龄)分成若干层次,如R个层次,再从各层次中随机抽取若干个案。各层次的个案总和即为样本个案数目。分层抽样分为两种方法:①分层比例抽样法:如果各层抽取的个案数目ni是根据各层的个案数目Ni占总体数目N的比例而决定的。ni=Ni/N×n.②分层非比例抽样:有些层次的重要性大于其他层次,这时应该采用非比例抽样方法。
二、常模的类型及解释
1.◇常用的常摸有发展常模、百分位常模和标准分数常模。
2.百分位常模包括百分等级、四分位数和十分位数。百分等级的计算关键在于确定在常模样本中分数低于某一特别分数的人数比例,这可以分为两种情况:一种情况是对没有分组资料的数据分布求百分等级,公式为:PR=100-100×(R-0.5)/N,其中R为排名顺序,N为总人数。另一种情况是对有分组资料的数据求百分等级。公式:PR=100/N[(x-l)fp/h+cf],其中,x为任意原始分数;l为该原始分数所在组的精确下限;fp为该分数所在组的次数;cf为l以下的累积次数;h为组距。
在分数量表上,相对于某一百分等级的分数点叫百分点或百分位数。
3.◇常见的标准分数有:z分数、Z分数、离差智商(IQ)、T分数、标准九分等。由原始分数转换的标准分数,又分为线性转换和非线性转换两种。
4.z分数为较典型的线性转换的标准分数,它是指以标准差为单位所表示的原始分数与平均数的差距。
5.◎正态化的标准分数:当原始分数不呈正态分布时,也可以进行面积转化,而使分数转成为正态分布。由这种方式所得到的分数就叫正态化的标准分数。为了使分数正态化,必须有某种依据能假定所测特性的分数事实上应该是呈正态分布的。
◎正态化过程:先将原始分数转化为百分等级,再将百分等级转化为正态分布上相应的离均值,并可以表示为任何平均数和标准差。
6.T分数:一词较早是由麦柯尔1939年提出以纪念推孟和桑代克的,不过当时仅用于12岁儿童的团体,是根据某一特殊常模样本而不是在一般意义上定义的。现在有人用T分数来表示任何正态化与非正态化的转化标准系统,只要其平均数为50,标准差为10即可。
7.标准九分:是另一较知名的标准分数系统,其量表是一个9
三、常模的表示方法
1.常摸表示的方法主要有两种:转化表和剖析图。较简单而且较基本的表示常模的方法就是转化表,也叫◎常模表,它由原始分数表、相对应的导出分数表和对常模样本的具体描述等三个要素组成。☆根据转化表进行解释时,须注意:常模转化表总是特异性的,即一个转化表总是来自特定的常模样本的,这种转化表只能表示被试在常模样本内的相对等级,若要依此作出某种结论或预测,需要进一步的信度和效度的依据。
2.◎剖析图是测验分数的转换关系用图形表示出来的一种模式图。使用剖析图作解释,要求各个分测验所使用的常模样本必须相同,否则各分测分数之间无法比较。☆要注意的一个问题是:使用剖析图容易夸大各个分测验间分数的差异。为避免这个问题,有些剖析图注明了多少距离代表两分数间差异显著,使用者可以依此很快地确定某对分数间是否存在差异。另一种方法是将被试分数用一段范围表示,假如范围不重叠,表明分数间有显著差异存在。
第三节效标与基于效标的解释
◇效标参照测验关心的是应试者是否达到了某种标准或效标。参照效标的分数解释分为内容参照分数的解释及结果参照分数的解释两种类型。
一、内容参照分数的解释
1.内容参照分数的测量目的是确定应试者对某个确定材料内容或技能的掌握和熟悉程度的分数。
☆编制内容参照测量表的关键是预先制定一个判断应试者是否已掌握某种内容或技能的熟练程度的标准。这种标准可以通过掌握分数和正确百分数来表示。掌握分数,较简单的掌握分数的标准是定一个判别应试者是否通过或掌握的较低分数正确百分数,表明被试在测验中答对题目的比例。
二、结果参照分数的解释
◎结果参照分数:是将效标材料直接结合到测验结果的解释过程而进行评价的分数。预测性测验往往适合用结果参照分数进行解释。
第七章人事测量的关键技术:信度
第一节人事测量的可靠性—信度
一、信度的定义
1.◇信度主要是指测量结果的可靠性或一致性。
2.系统误差:量具本身有误差,这种误差是必然的,但却是有规律的。随机误差:每一次测量都可能有操作上的差异,或者由于不可预见的外界因素的影响,从而造成误差,这些误差也是难免的,但却是毫无规律的。
二、信度的作用
1.◎信度系数:信度高低的指标通常以相关系数表示,称为信度系数。信度系数一般是同一样本所得的两组资料的相关,在理论上表示为实得分数与真实分数相关的平方。rxx=rxr2=ST2/SX2,其中rxr=ST/SX有时也称为信度指数,它是真实分数标准差与实得分数标准差的比率。信度系数的分布是从0.00~1.00的正数范围。
2.◇一般来说,当rxx<0.70时,不能用测验对个人作评价,也不能在团体间作比较;当rxx>0.70时,可用于团体间比较;rxx>0.85时,可用于鉴别个人。rxx指信度。
第二节如何评估人事测量的信度
一、重测信度
1.◎重测信度又称为稳定性系数,它的计量方法是采用重测法:用同一测验,在不同时间对同一群体施测两次,这两次测量分数的相关系数即为重测系数。
重测信度所考察的误差来源是时间的变化所带来的随机影响。在评估重测信度时,必须注意重测间隔的时间。对于人格测验,重测间隔在两周到6个月之间比较合适。
☆在进行重测信度的评估时,还应注意以下两个重要问题:⑴重测信度一般只反映由随机因素导致的变化,而不反映被试行为的长久变化。⑵不同的行为受随机误差影响不同。
二、复本信度
1.◎复本信度又称等值性系数,它是以两个测验复本来测量同一群体,然后求得应试者在这两个测验上得分的相关系数。复本信度的高低反映了这两个测验复本在内容上的等值性程度。两个等值的测验互为复本。
2.◇计算复本信度的主要目的在于考察两个测验复本的题目取样或内容取样是否等值。复本信度也考虑两个复本实施的时间间隔。
3.☆复本信度的主要优点在于:⑴能够避免重测信度的一些问题,如记忆效果、练习效应等;⑵适用于进行长期追踪研究或调查某些干涉变量对测验成绩影响;⑶减少了辅导或作弊的可能性。☆复本信度的局限性在于:⑴如果测量的行为易受练习的影响,则复本信度只能减少而不能消除这种影响;⑵有些测验的性质会由于重复而发生改变;⑶有些测验很难找到合适的复本。
三、内部一致性信度
1.◎内部一致性信度系数主要反映的是测验内部题目之间的关系,考察测验的各个题目是否测量了相同的内容或特质。内部一致性信度又分为分半信度和同质性信度。
2.分半信度系数是通过将测验分成两半,计算这两半测验之间的相关性而获得的信度系数。测验愈长,信度系数愈高。同质性信度是指测验内部的各题目在多大程度上考察了同一内容。同质性信度低时,即使各个测试题看起来似乎是测量同一特质,但测验实际上是异质的,即测验测量了不止一种特质。同质性分析与项目分析中的内部一致性分析相类似。
四、评分者信度
1.◎评分者信度:是指不同评分者对同样对象进行评定时的一致性。较简单的估计方法就是随机抽取若干份答卷,由两个独立的评分者打分,再求每份答卷两个评判分数的相关系数。这种相关系数的计算可以用积差相关方法,也可以采用斯皮尔曼等级相关方法。
2.如果评分者在三人以上,而且又采用等级记分时,就需要用肯德尔和谐系数来求评分者信度。
3.信度估计方法及其与测验复本和施测次数的关系:
所需次数
所需复本数
分半信度,同质性信度
复本信度(连续施测)
重测信度
重测复本信度
4.各种信度系数相应的误差来源(这里都是随机误差):
信度系数类型
误差方差来源
重测信度
复本信度(连续施测)
重测复本信度
分半信度
同质性信度
评分者信度
时间取样
内容取样
时间取样和内容取样
内容取样
内容的异质性
评分者间差异
第三节影响信度的因素
对测验的信度造成影响的因素主要有:样本团体的性质、测验的长度、测验难度。
一、样本团体的性质对信度的影响主要有以下三个方面:⑴样本团体的分数分布。分数分布越广,信度系数就相对越高,分数分布越窄,信度系数就会越低。⑵样本团体的异质性。信度系数还会受到样本团体异质性的影响。一般来说,取样团体的异质性越大,信度系数就相对越高。⑶不同团体间能力水平的差异。
二、测验长度对信度的影响:信度还会受测验长度的影响。一般来说,测验越长,信度值越高。一方面,测验越长,题目取样或内容取样就越充分,结果就越可靠。另一方面,较长的测验也不容易受到猜测的影响。
三、测验的难度。只有当测验的难度水平能够使测验分数分布范围较大时,测验的信度才会比较理想。测验的长度和难度会共同起作用。
第八章人事测量的关键技术:效度
第一节人事测量的有效性
一、◇测量的效度就是指测量的有效性,即能测量到所要测量的目标的程度。
二、◎效度的理论定义:从测量理论角度讲,效度可以定义为:与测量目标有关的真实分数方差与总分方差的比率。“有关真实分数方差”是由测验所要测量的目标变量所产生的方差。效度的定义用公式可以表示为:rXY=SV2/SX2,其中rXY为测验效度;SV2为有效方差;SX2为总方差。
二、★☆信度和效度的关系:信度主要是指测量结果的可靠性或一致性。效度指测量的有效性,即能测量到所要测量的目标的程度。差别在于:考虑的误差不同。①信度考虑的是随机误差的影响;②效度的误差则还包括对测验目的来说无关的变量所引起的系统误差。误差方差低(即信度高)并不保证效度就一定高;但效度高的话,信度必然要高。信度是效度的必要条件。
三、效度的性质。效度是连续性的,效度高低只是程度上的差别,它不是“全有”或“全无”的变量。我们应避免评价某一测验的结果为“有效”或“无效”,而应区分效度较高或较低。
第二节如何评估人事测量的效度
根据评估效度方法的不同,效度可以分为内容效度、构想效度和效标关联效度这三类。
一、内容效度
1.◎内容效度:是检查测验内容是否是所欲测量的行为领域的代表性取样的指标。例如,成就测验往往采用内容效度的评估方法。
2.☆内容效度分析时要注意两方面的问题:⑴应避免将测验取样的行为领域过于泛化。⑵要注意测验分数种无关因素的影响。
3.内容效度的确定一般没有可用的数量化指标,只能靠推理和判断来进行评估。◇◆较好的内容效度依赖于两个条件:⑴测验内容范围明确。⑵测验内容的取样有代表性。
4.内容效度较适合于评估教育和职业成就测验。◇效标参照测验应用的基本条件是具备足够的内容效度。
二、效标关联效度
1.◎效标关联效度:又称为效标效度,反映的是测验分数与外在标准(效标)的相关程度,即测验分数对个体的效标行为表现进行预测的有效性程度。
2.◇效标是考察测验效用的外在参照标准。
3.◎预测效度的效标资料往往是测量结束后隔一段时间才获得,它反映的是由测验分数对任一段时间间隔后被试行为表现的预测程度。预测效度适用于那些对人员进行选拔、分类和安置的人事测验,这些测验需要对应试者将来的工作绩效进行可靠的预测。
4.◇同时效度的效标材料可以和测验分数差不多同时搜集。
5.要测量效标,就必须把效标行为转化为某种可以操作的测量指标,以便进行比较。这种操作的测量指标就称为效标测量◎。效标的概念可以细分为观念效标(即效标的实质概念内容)和效标测量(效标的具体度量方法)。
6.◇效标污染是指由于评定者知道测验分数而影响个人的效标成绩的情形。
7.常用的效标包括:学术成就、特殊训练成绩、实际工作表现、团体对照、等级评定、先前有效的测验。
8.评定可以作为任何测验的效标,尤其适合人格测验。
三、构想效度
◎构想效度:是指测验能够测量到理论上的构想或特质的程度。所谓构想通常指一些抽象的、假设性的概念或特质,如智力、创造力、言语流畅性、焦虑等。