近代,《中华大字典》收录汉字48000多个,《汉语大字典》更要多得多,它是当今世界上收录汉字最多的一部字典。
还有两部书,虽然不算什么鸿篇巨著,但在社会上流通很广,影响极大。一部是《标准电码本》,一本是学生用的《新华字典》,所收录的汉字均在一万以下。
汉字是个大字符集,这个集合还在不断扩充。汉字虽多,但常用字并不多。北京748工程标准汉字组查阅现代文章七千多篇,总量多达2162万字,其中共发现不同的汉字6300多个。在这2162万字的文章中,有99%是用2400字写成的,而剩余的3900字,其出现率仅为1%。所以,语言学家、社会学家等认为,一般人只要掌握2400个常用汉字,阅读、写作便不会有多大问题了。
用手工统计古文字数误差很大,因此现在一般都用电子计算机。据报道,先秦时期的法家名著《韩非子》,用字达2680个;号称封建社会百科全书的《红楼梦》,使用不同汉字达4462个;《毛泽东选集》一至四卷用字3002个。由于古书一般都有不同版本,所以这些统计数字仅有参考意义,最多看看前两位有效数字,后两位数字是没有多少作用的。
在2400多个常用汉字中,有42个汉字使用频率最高,据说,它们居然占到一般报刊用字的四分之一左右。这42个汉字是:的、一、是、在、了、不、和、有、大、这、主、中、人、上、为、们、地、个、用、工、时、要、动、国、产、以、我、到、他、会、作、来、分、生、对、于、学、下、级、就、义、年。其中,稳坐第一把交椅的是“的”字,其频率竞高达4%。
“睡狮醒来”,中国社会在近百年中发生了翻天覆地的变化,而以往的几千年,几乎是停滞不前的。政治、经济是如此,文化又岂能例外。拿上面的统计材料来说,如果统计母体改为古文,甚至是1911-1949年(辛亥革命至中国内地解放)的文言、白话混用时代,那么结果便会截然不同了。譬如说,“的”在古文中,一般是指射箭的靶子,而在目前那种广泛使用的“告诉你,我的儿”那种所有格的用法几乎是看不到的。众所周知,“她”这个汉字是由五四时期的著名作家刘大白先生所创用,目前已被大用特用。《康熙字典》中虽然也可查到这个“她”字,但其解释绝对不是目前女性第三人称,即相当于英语中的She或Her。另外,被旧时文人挂在嘴边的四个字“之、乎、者、也”(等于小孩子讲ABC)在这42个“最常用汉字”中竟然全都“名落孙山”!
……
展开