第一章字词特征
字词特征
第一节字特征间相关关系—词汇命名和单字词
心理语言学常模
一、引言
在命名任务中,词的许多特征都会影响被试的作业行为。有学者将这些特征划分为表层(如第一个音素)、词汇层(如词长、词频和形音一致性)和语义层(如意象性和具体性)三个层次。对正字法透明度高的语言来说,词汇层的特征比语义层的特征在词命名任务中起着更重要的作用。例如,有学者对意大利语名词的研究表明,词频、词长和家族大小等词汇层特征对命名反应速度有显著的预测作用,意象性和具体性等语义层特征对命名反应速度却没有显著的预测作用。然而,对英语等正字法透明度相对较低的语言的研究表明,表层、词汇层和语义层的特征都可以预测对词的命名反应速度。还有研究表明,语义特征仅对低频词和不规则词的加工有显著的预测作用。
就现代汉语书面语来说,词频/字频、读音规则性、笔画数和部件数等表层特征和词汇特征对词的命名有重要影响。词的首音位、习得年龄、同音词密度、语音频率等其他特征对词加工也有重要作用。例如,在命名任务和词汇判断任务中,意象性和具体性等语义特征对字加工都有显著性影响。不过,和英语词相比,意象性等语义特征对字加工的影响作用似乎更为显著。
把实验测量与常模分析结合起来,考察汉语母语者单字词命名作业受词汇层特征的影响性,是迄今为止首*收集汉语常见单字词常模数据的研究。大规模常模数据对以字词为对象的汉语心理语言学研究有重要意义。关于常模数据之间的关系及其对词命名影响的研究发现也将为语言间词加工的共性与个性等理论问题提供启示。
二、数据采集
以往相关研究多以单音节词为对象。汉语单字词和字母语言中的单音节词相当。现代汉语研究语料库系统包含约46000个词。从其中约5300个单字词中选取了2423个单字词(977个名词、1133个动词和313个形容词)作为研究对象。汉语中存在词类界限模糊现象。拟考察的这些单字词中,有604个词属于两个词类范畴,351个词属于三个词类范畴。对这些词类模糊词,根据它们在现代汉语研究语料库系统中的频率选取其主要所属词类。
基于前人研究,确定15个特征方面进行常模研究。
声母。汉语典型的单音节包含声母、韵母和声调。声母通常是辅音,但在某些情况下,因为没有辅音所以第一个音位就是元音。韵母至少包含一个核元音,中间或结尾可以有也可以没有鼻音。声调标在声母或韵母上。根据发音部位对韵母进行分析,将声母分为双唇音、唇齿音、齿音、齿槽音、卷舌音、舌腭音和软腭音。当音节是零声母时,将该元音归为第八类。
规则性。大约80%的字包含形旁和声旁,这些字称为形声字。基于声旁读音与整字读音的关系,字可分为规则型(如“清”的读音与其声旁“青”一致)、不规则型(如“猜”的读音与其声旁“青”不同)和黏着型(如“峰”的声符“夆”既没有读音也没有意义提示)3个类别。其余约20%的字大部分是独体字(如“虫”)。每个字根据声符对整字的作用分为规则字、不规则字或其他字(黏着型或独立体)。
词频、累积频率、构词数。多数字既可用作单字词,又可充当双字词或多字词的成分字,因此,字有两种频率:作为单字词的频率(词频)和出现在所有词中的总频率(累积频率)。累积频率与该字参与构成的双字词或多字词的多少(构词数)紧密相关。词频是基于现代汉语研究语料库系统确定的,累积频率是基于容量约为6.6亿字的现代汉语平衡语料库确定的。
同音词密度、读音频率。汉语中有很多单字词是同音字,*大的同音字家族(如读音为yi4的字)有205个成员。同音词数定义为同音词密度。读音频率是指有相同读音的所有字的总频率。参考《现代汉语频率词典》(北京语言学院出版社,1986年)确定字的同音词密度和读音频率。
含义数。根据《汉字信息字典》(科学出版社,1988年),约53%的字有1个含义,21%的字有2个含义,19%的字至少有3个含义,剩余7%的字没有明确含义。基于其含义数将字分为6个类别:0(无意义)、1(1个含义)、2(2个含义)、3(3—4个含义)、4(5—8个含义)和5(至少有9个含义)。
笔画数、部件数。笔画是字*基本的组成部分,笔画数可以少至1画,多至36画。由笔画组成的部件参与构成不同的字。这两个变量用来考察字的视觉复杂性。
学习年龄。字的学习年龄是指学习者首次接触它时的年龄,这取决于它首次出现在标准教科书的时间。
习得年龄、熟悉性、具体性、意象性。习得年龄是指学习者学习该字的意义和读音的时间。熟悉性、具体性和意象性是字词常模研究中的经典特征。这4个特征都将通过主观评定方式获取相应分数。
480名汉语母语者被试(122名男性;平均年龄为20.3岁,年龄范围在18—23岁之间)参与评定。另有39名被试(19名男性;平均年龄为19.5岁,年龄范围在17—25岁之间)参加命名作业。被试为北京师范大学的本科生或研究生,他们视力正常或矫正视力正常,无认知运动障碍。任务结束后获得相应的酬金。
习得年龄、熟悉性、具体性、意象性评定方法参考论文“Word naming times and psycholinguistic norms for Italian nouns”(意大利语名词的心理语言学常模和词汇命名反应时)。评定之前,将选取的2423个单字词随机分成3组,每组约800个词,打印在9张A4纸上。每位被试评定1组字的1个特征。全部被试随机分为12组,完成评定。
在命名任务中,被试逐个进入实验室接受测量。被试端坐显示器前,眼睛距离显示器中央约60cm。显示器中央首先呈现注视点500ms,然后,空屏120ms,接着在黑色背景上呈现白色的目标字。被试需要在2000ms内大声读出目标字。一旦麦克风捕捉到被试发出的声音,目标字消失,1000ms后进入下一个试次。从目标字出现到消失之间的时间间隔记为反应时。注视点和目标字均以28号宋体呈现。用于呈现刺激和记录数据的工具是DMDX。每位被试命名随机呈现的2423个单字词。在正式实验前,被试先进行少量练习以熟悉操作流程。实验过程包含几次短暂的休息,以避免被试疲劳。实验持续约90min。
两位主试线下统计被试命名作业的错误率。删除命名错误和限时内没有做出命名反应试次的分数记录,数据删除比例为7.9%。4位被试由于命名错误率高于0.20或者命名反应时长于700ms,其数据不参与统计分析;33个词因为命名错误率高于0.50,相应测量数据也不参与统计分析。
频率分数的分布倾向于遵循齐普夫定律,通常服从偏态分布。为了使数据符合正态分布,因此对词频、累积频率和读音频率进行对数转换。此外,进行回归分析之前也对构词数、学习年龄和同音词密度分数进行对数转换。
三、数据分析和解释
(一)字特征相关性和字命名反应时
数值型分数的描述性结果如表1-1所示,不同特征分数之间的皮尔逊相关(Pearson correlation)系数和字命名反应时的调和平均数如表1-2所示。
显然,命名反应时的调和平均数与词频、累积频率、构词数、学习年龄、习得年龄和熟悉性显著相关,说明命名反应时较短的词往往词频高,熟悉性高,构词数多,学习年龄早和习得年龄早;词频和累积频率都和构词数、学习年龄、习得年龄、含义数和熟悉性显著相关,说明频率与字的其他词汇特征正相关;和预期一致,具体性和意象性显著相关;习得年龄与所有其他特征显著相关,尤其是与学习年龄和笔画数正相关,与累积频率、词频、构词数、熟悉性和意象性负相关,这表明越是早期习得的词倾向于在教科书中出现得越早,笔画数越少,构词数越多,频率越高,熟悉性越高,意象性也越高。
(二)多元回归分析
采用多元回归分析法考察上述特征在被试命名作业中的重要性。结果如表1-3所示。分析过程中,第一步将首*音节纳入分析。结果和预期一致,首*音节能显著预测词的命名反应时,能解释命名反应时5.8%的变化。第二步采用逐步分析法考察其他14个词汇特征和语义特征的作用。14个特征中有10个特征可以显著预测词命名反应时的变化,它们对命名反应时变化的解释力排序是:习得年龄、累积频率、规则性、熟悉性、具体性、笔画数、构词数、读音频率、意象性和部件数。这10个特征总计可以解释命名反应时55.8%的变化,其中,习得年龄的解释力*强(44.8%)。第三步将累积频率与习得年龄的交互作用加入回归方程。结果表明,该交互作用可以显著预测命名反应时的变化,说明词的命名反应时受到该交互作用显著影响。
展开