汉字是语素文字,总数非常庞大。汉字总共有多少字?到目前为止,恐怕没人能够答得上来精确的数字。
关于汉字的数量,根据古代的字书和词书的记载,可以看出其发展情况。
秦代的《仓颉》、《博学》、《爰历》三篇共有3300字,汉代扬雄作《训纂篇》,有5340字,到许慎作《说文解字》就有9353字了,晋宋以后,文字又日渐增繁。据唐代封演《闻见记·文字篇》所记晋吕忱作《字林》,有12824字,后魏杨承庆作《字统》,有13734字,梁顾野王作《玉篇》有16917字。唐代孙强增字本《玉篇》有22561字。到宋代司马光修《类篇》多至31319字,到清代《康熙字典》就有47000多字了。1915年欧阳博存等的《中华大字典》,有48000多字。1959年日本诸桥辙次的《大汉和辞典》,收字49964个。1971年张其昀主编的《中文大辞典》,有49888字。
随着时代的推移,字典中所收的字数越来越多。1990年徐仲舒主编的《汉语大字典》,收字数为54678个。1994年冷玉龙等的《中华字海》,收字数更是惊人,多达85000字。
如果学习和使用汉字真的需要掌握七八万个汉字的音形义的话,那汉字将是世界上没人能够也没人愿意学习和使用的文字了。幸好《中华字海》一类字书里收录的汉字绝大部分是“死字”,也就是历史上存在过而今天的书面语里已经废置不用的字。
有人统计过十三经(《易经》、《尚书》、《左传》、《公羊传》、《论语》、《孟子》等13部典籍),全部字数为589283个字,其中不相同的单字数为6544个字。因此,实际上人们在日常使用的汉字不过六七千而已。
---汉语简介
汉语,Hanyu,Chinese Language (朱德熙)
世界主要语言之一。属汉藏语系,是这个语系里最主要的语言。除了中国大陆和台湾省以外,汉语还分布在新加坡、马来西亚等地。以汉语为母语的人大约有 9.4亿。汉语是联合国的工作语言之一。
汉语的标准语是近几百年来以北方官话为基础逐渐形成的。它的标准音是北京音。汉语的标准语在中国大陆称为普通话,在台湾称为国语,在新加坡、马来西亚称为华语。
语音 汉语的音节可以分析成声母、韵母、声调3部分。打头的音是声母,其余的部分是韵母,声调是整个音节的音高。把声调也看成音节的组成部分,是因为汉语的声调是辨义的。例如“汤、糖、躺、烫” 4个字的声母都是 [tʻ],韵母都是[aŋ](方括弧里是国际音标,表格里的国际音标省去括弧),只是因为声调不同,意义就不一样,在语言里分别代表 4个不同的语素(最小的有意义的语言单位),在书面上写成 4个不同的字。
声母都是辅音。最复杂的韵母由介音、主要元音和韵尾 3部分组成。韵尾有的是辅音,有的是元音。北京音的辅音声母有22个。介音有
、、[y]3个。辅音韵尾有[n]和[ŋ],元音韵尾有和。在组成音节的声母、介音、主要元音和韵尾 4部分里,只有主要元音不能没有,其余 3部分都不是必须出现的。这种情形可以从表 1音节的成分举的例字里看出来。北京话的声母见表 2北京话声母,北京话的韵母见表 3北京话韵母。
以上说的是每个字单说时的声调。连读的时候,某些声调会发生变化。例如两个上声字相连,前一个会从原来的 214调变成35调,变得跟阳平调一样。此外,有些字连读时读得很短,并且失去了原来的声调。这种字调叫轻声,例如“石头”的“头”,“我们”的“们”。
传统的注音方法是反切。反切用两个字来注一个字的音。前一个字(反切上字)定被反切字的声母,后一个字(反切下字)定被反切字的韵母和声调。例如:“耐,奴代切”,“奴”跟“耐”的声母相同,“代”跟“耐”的韵母和声调相同,所以就用这两个字来注“耐”字的音。由于语音的演变,古代字书上的反切跟今音有的相合,例如上边举的“耐,奴代切”([n(ú+t)ài=nài])。有的不合。例如:“东,德红切”,“东”与反切下字“红”的声调不同。“蓬,薄红切”,“蓬”与反切上字“薄”的声母不同,与反切下字“红”的韵母也不同。
1918年由当时的教育部颁布的国语注音字母是利用汉字字形制定的一套拼音字母。这套字母把主要元音与韵尾合在一起用一个符号表示(例如:ㄠ=[au],ㄢ=[an],ㄤ=[aŋ]),体现了传统的声母韵母两分的精神。注音字母广泛流传,影响很大。台湾省一直沿用至今。
声调是一个音节发音时音高的高低升降的型式。北京话的声调有阴平、阳平、上声、去声 4种型式。如果把音高分成五度,北京的阴平是从五度到五度的平调,阳平是从三度到五度的升调,上声是从二度下降到一度再升到四度的曲折调,去声是从五度到一度的降调。关于北京话的声调见表(表4北京话声调)。
1958年公布的汉语拼音方案采用拉丁字母(表2北京话声母、表3北京话韵母)。自1978年开始,中国人名地名一律改用汉语拼音字母拼写,取代了威妥玛式等各种旧拼法。
语法 汉语的语素绝大部分是单音节的(手│洗│民│失)。语素和语素可以组合成词(马+路→马路│开+关→开关)。有的语素本身就是词(手、洗),有的语素本身不是词,只能跟别的语素一起组成复合词(民→人民│失→丧失)。现代汉语里双音节词占的比重最大。大部分双音词都是按照上面提到的复合方式造成的。
把汉语跟印欧语系的语言相比较,可以看出汉语语法上的一些重要的特点。汉语和印欧语的一个明显的区别是没有形态变化。这主要指以下两种情形。第一,印欧语的动词和形容词后头可以加上一些只改变词根的语法性质(转化成名词)而不改变其词汇意义的后缀,例如英语的-ness、-ation、-ment之类。汉语没有此类后缀。第二,印欧语的动词有限定式和非限定式(不定式,分词,动名词)的区别。汉语没有这种分别。这种差异使得汉语语法在以下两个重要方面跟印欧语语法大异其趣。
首先,在印欧语里,词类的功能比较单纯。例如名词只能充任主语和宾语,形容词只能充任定语和表语,定式动词只能充任谓语里的主要动词。在汉语里,由于动词和形容词不变形,无论在什么句法位置上出现,形式都一样。这就造成了词类多功能的现象。例如形容词既可以充任谓语(这儿干净)、定语(干净衣服)和补语(洗干净),又可以充任主语(干净最要紧)和宾语(他不爱干净)。
词类多功能的必然的结果是相同的词类序列有时代表不同的句法结构。例如“出租汽车”可以理解为一个名词性词组(=出租的汽车),也可以理解为“动词+宾语”的结构。由于这种现象的存在,汉语语法著作比起印欧语语法著作来,更着重句法结构关系的分析。
由于汉语词类多功能,划分词类时,手续要复杂一些。过去有人认为汉语没有词类。这种说法是不对的。
其次,印欧语的句子和分句里必须有定式动词,而词组(短语)里要是有动词的话,只能是非限定形式,不能是限定形式。因此,句子和分句是一套构造原则,词组是另一套构造原则。汉语的动词没有限定式和非限定式的对立,动词不管用在哪里,形式都一样,因此句子的构造原则跟词组的构造原则是一致的;句子不过是独立的词组而已。正是因为这一点,有的汉语语法著作采用一种以词组为基点的语法体系,即在词组的基础上描写句法,而不是像印欧语法那样以句子为描写的基点。
汉语句法结构的特点还表现在主谓结构和动补结构(或称述补结构)上。汉语的主谓结构跟印欧语的句子或分句不同,构造比较松散。这表现在主语后头可以有停顿(因此书面上往往用逗号点断),或者加上语气词(这个人呐,很会说话)。特别值得注意的是口语里常常没有主语。
主谓结构的另一个特点是可以充当谓语。例如:
中国地方真大。
这个人我从前见过他。
这两句的谓语“地方真大”和“我从前见过他”本身都是主谓结构。这种句式不但现代汉语里有,古汉语里也有,《孟子·离娄下》:“匡章通国皆称不孝焉”;《史记·蒙恬列传》:“蒙恬者其先齐人也”,应该看成是汉语的基本句式的一种。
动补结构是现代汉语里非常重要的一种句法构造。印欧语里没有跟它相对应的格式。简单的动补结构是由两个动词或者一个动词一个形容词组成的(听懂│切碎│染红│洗干净)。这种结构后头可以带动词后缀“了”和“过”,语法功能相当于一个动词。值得注意的是动词和补语的组合极其自由。例如“洗干净”是常说的,因为“洗”能导致的最自然的结果是“干净”。可是除了“洗干净”之外,也能说“洗脏了│洗破了│洗丢了”,甚至还可以说“把我洗胡涂了│把他洗哭了”。
从词序方面看,汉语一个重要的特点是所有的修饰语都必须放在被修饰成分的前边,所以修饰语不宜太长、太复杂。把外文翻译成中文的时候,原文后置的修饰语都得提到前边去。如果修饰成分比较多,句子就不太容易组织。这种时候,往往得把原来的长句拆成几个短句,使修饰语适当分散或者转成谓语。
文字 从目前我们能看到的最早的成批的文字资料──商代甲骨文字算起,汉字已有3000年的历史。由于甲骨文字已经是相当成熟的文字体系,我们可以推断汉字的发生一定远在3000年以前。汉字的发展可以划分为两个大阶段。从甲骨文字到小篆是一个阶段;从秦汉时代的隶书以下是另一个阶段。前者属于古文字的范畴,后者属于近代文字的范畴。大体说来,从隶书到今天使用的现代汉字形体上没有太大的变化。
从汉字跟汉语的关系看,汉字是一种语素文字。从汉字本身的构造看,汉字是由表意、表音的偏旁(形旁、声旁)和既不表意也不表音的记号组成的文字体系。
文字是记录语言的。就汉字跟它所要记录的对象汉语之间的关系来看,汉字代表的是汉语里的语素。例如[tàn kāu]的[kāu]、[kāu iàu]的[kāu]和[tʻiàu kāu]的[kāu]读音相同,意思不一样,是3个不同的语素,分别由 3个不同的汉字“糕、膏、高”(蛋糕、膏药、跳高)来表示。从这个角度看,汉字可以说是一种语素文字。
汉字起源于图画。在汉字产生的早期阶段,象形字的字形跟它所代表的语素的意义直接发生联系。虽然每个字也都有自己固定的读音,但是字形本身不是表音的符号,跟拼音文字的字母的性质不同。象形字的读音是它所代表的语素转嫁给它的。随着字形的演变,象形字变得越来越不象形。结果是字形跟它所代表的语素在意义上也失去了原有的联系。这个时候,字形本身既不表音,也不表义,变成了抽象的记号。如果汉语里所有的语素都是由这种既不表音也不表义的记号代表的,那么汉字可以说是一种纯记号文字。不过事实并非如此。汉字有独体字与合体字的区别。只有独体字才是纯粹的记号文字。合体字是由独体字组合造成的。从构造上说,合体字比独体字高一个层次。因为组成合体字的独体字本身虽然也是记号,可是当它作为合体字的组成成分时,它是以有音有义的“字”的身份参加的。合体字可以分成以下3类:
①形声字。形声字由表示意义的形旁和表示读音的声旁两部分组成。拿构造最简单的形声字来说,形旁和声旁都是由独体字充当的。作为形声字的组成部分,这些独体字都是有音有义的字。不过形旁只取其义,不取其音,例如“鸠”字的偏旁“鸟”;声旁则只取其音,不取其义,例如“鸠”字的偏旁“九”。
由于字义和字音的演变,有些形声字的形旁或声旁现在已失去了表意或表音的功能。例如“球”本来是一种玉的名称,所以以“玉”为形旁。现在“球”字不再指玉,这个形旁就没有作用了。再如“海”字本来以“每”为声旁。由于字音的变化,现在“海”和“每”的读音相去甚远,声旁“每”也就不起作用了。有的时候,形旁和声旁都丧失了原来的功能,例如“给、等、短”。这一类字已经不能再作为形声字看待了。
形声字和非形声字之间并没有明确的界限。造字之初,形声字和它的声旁的读音本来就不一定密合。发展到现代汉字,出入就更大了。有人拿7500多个现代合体汉字进行统计。就普通话读音来说,合体字跟声旁完全同音(声母、韵母、声调全同)的不到 5%。声母、韵母相同而声调不同的约占10%。只有韵母一项相同的约占20%。如果我们只把前两类看作形声字,那么形声字大概只占通行汉字的15%。如果把以上三类全看作形声字,形声字大概会占通行汉字35%的样子。要是把标准再放宽或者完全根据来历确定形声字,那么通行汉字中形声字的百分比还要高得多。
②合体会意字。古人说“止戈为武”,“人言为信”。对于“武”、“信”两个字来说,这种解释是错误的。不过汉字体系里确实有按照这种方式造成的字,例如“不正为歪”,“不好为孬”。这一类字的特点是会合偏旁的字义来表现整个合体字的意义。这种字为数很少,只有个别的例子。
以上两类合体字里的偏旁有的有表意作用,有的有表音作用。下边一类的情形不同。
③合体记号字。这一类合体字的偏旁既不表意,也不表音。这主要有两种情形。一是由于字音和字义的变化,原来的声旁和形旁已经不再表音、表意了。例如上文举过的“给、等、 短”一类字。 另一种情形可以举“章”字为例。 按照汉代许慎《说文解字》的分析,“章”字从“音”从“十”。 可是现在一般人说“立早章” (以区别于“弓长张”)的时候,是把它分析成“立”和“早”两部分。其实从古文字看,“章”本来是一个独体象形字,跟“音、十、立、早”都没有关系。
汉字用来记录汉语已经有3000年以上的历史,一直沿用到今天,没有中断过。在如此长的历史时期里,汉字不仅为人们的现实生活服务,而且记录下极其丰富的文化资料;甚至跨越国界,被日本、朝鲜、越南等邻国借去记录非汉语语言。
另一方面,长期以来也不断有人批评汉字的缺点,主要是说汉字难认、难写、难于机械化(印刷排版、打字等)。因此在扫盲、儿童识字教育、文化传播等方面,都不如拼音文字效率高。
跟拼音文字比较起来,汉字有它的短处,但是也有它的长处。汉字最大的长处就是能够超越空间和时间的限制。古今汉语字音的差别很大。但由于2000年来字形相当稳定,没有太大变化,字义的变化比较小,所以先秦两汉的古书今天一般人还能部分看懂。如果古书是用拼音文字写的,现代人就根本无法理解了。有些方言语音差别也很大,彼此不能交谈,可是写成汉字,就能互相了解,道理也是一样的。
近年来,有的心理学家通过实验,指出儿童学习汉字似乎比学习拼音文字还容易些,至少不比学拼音文字难。这方面的研究刚刚开始,目前还难以得出明确的结论。不过有一点是清楚的。讨论这个问题,必须把认汉字、写汉字和用汉字三者区别开,不能混为一谈。三者之中,认最容易、写就比较难。例如繁体字“龜”和“龍”特点鲜明,很容易认识,要记住怎么写就难多了。用汉字比起认和写都要难得多。所谓会用,就是要学会区别同音字,知道哪种场合下用哪个。例如“唯、惟、维” 3个字同音。“维持”“维护”只能写“维”,不能写“惟”,而“思维”也可以写成“思惟”。“惟独”、“惟恐”可以写“惟”,也可以写“唯”;可是“唯心论”、“唯物论”又只能写“唯”,不能写“惟”。
50年代开始进行简化汉字的工作。1986年重新公布的《简化字总表》规定了2200多个简化汉字(包括用简化偏旁类推的字)。这项工作目前已告一段落,今后在一个时期内将保持稳定,不继续简化。因为不断简化会破坏文字的稳定性,而且简化一批字以后,原来的繁体字并不能废除。结果是汉字的总数有增无减,反而加重了学习和使用的人的负担。
关于文字拼音化问题,长期以来一直有争论。从理论上说,任何自然语言都可以用拼音文字记录。但是由于汉语方言分歧,在推广普通话的工作没有取得广泛、切实的成效以前,改用拼音文字会给方言区的人带来很大的困难。此外,由于汉字历史悠久,大量的文献都是用汉字记录的。一旦改弦易辙,势必在文献的广泛利用上造成一定困难,在社会心理和民族感情上也可能引起波动。
方言 中国幅员辽阔,人口众多,方言情况复杂。下边把汉语方言粗分为官话和非官话两大类来说明。官话分布在长江以北地区和长江南岸九江与镇江之间沿江地带以及湖北、四川、云南、贵州4省,包括北方官话、江淮官话、西南官话几个方言区。官话区域的面积占全国3/4,人口占全国2/3。官话方言内部的一致程度比较高。从哈尔滨到昆明,相距3000公里,两地的人通话没有多大困难。非官话方言主要分布在中国东南部,包括吴方言(江苏南部,浙江大部)、赣方言(江西大部)、湘方言(湖南大部,广西壮族自治区北部)、粤方言(广东大部,广西壮族自治区东南部)、闽方言(福建,台湾,广东的潮州、汕头、海南地区)、客家方言(广东省东部和北部,福建西部,江西南部,台湾)。非官话区域比官话区域面积小,可是方言差别大,彼此一般不能通话,甚至在同一个方言区内部(例如浙南吴方言与苏南吴方言之间、福州话和厦门话之间),交谈都有困难。
汉语方言之间语音上的差别最大,词汇次之,语法方面的差别最小。语音的差别在声母的繁简、辅音韵尾的多寡以及调类的区分上表现得特别明显。例如吴方言塞音声母有浊塞音[b、d、g]、不送气清塞音[p、t、k]和送气清塞音[pʻ、tʻ、kʻ ]3套,官话方言只有后2套。广州话辅音韵尾有[m、 n、ŋ、p、t、k]6个,苏州话只有[n、 ŋ、?]3个,北京话只有[n、ŋ]2个。广州话有阴平、阳平、阴上、阳上、阴去、阳去、上阴入、中阴入、阳入9个调类。北京话有阴平、阳平、上声、去声4个调类。烟台话平声不分阴阳,所以只有平声、上声、去声 3个调类,是声调系统最简单的方言之一。
由于现代方言的调类与古调类之间有相当整齐的对应关系,所以通常就用平、上、去、入等古调类的名称来标记现代方言调类。要注意的是方言的调类名称相同,并不表示调值相同。例如北京话的阳平是升调(35),天津话的阳平是高平调(55),而汉口话的阳平则是曲折调(214) 。
上文说汉语方言语音的差别大,词汇和语法的差别小。这是从大体上说的。从细处看,词汇和语法上相异之处也并不少。拿词汇来说,政治、文化、科学方面的词是全国性的,可是日常生活里用的词有许多是地方性的,因方言而异。拿语法来说,方言之间在词法方面的差异比较明显。例如人称代词和指示代词的形式、形容词的后缀、动词和形容词的重叠式、象声词的构造以及名词后缀“子”和“儿”的表示方式(例如“儿”杭州话用成音节的语素表示,而广州话和温岭话用变调表示)等等在不同方言里有时有相当大的差别。
方言之间句法上的差别可以举“把”字句和反复问句为例。“把”字句是官话区方言里十分重要的一种句式,可是粤方言和吴方言都没有这种句式。例如北京话用“把”字的句子(把衣服洗干净),广州话往往要用“动词+宾语”的说法(洗干净件衫)。在大部分官话方言里,反复问句的形式是“ V不V”(V代表动词,例如:去不去│认得不认得)。可是在某些江淮官话和西南官话(例如昆明话)以及一部分吴方言(例如苏州话)里,反复问句的形式是“可 V”(可去│可认得)。
历史 方言反映历史。汉语方言之间语音的差别大,语法和词汇的差别相对说来比较小。同样,古汉语和现代汉语之间也是语音的差别大 , 语法和词汇的差别小。从总体上看,从上古音(先秦时代)到中古音(隋唐时代)再演变到现代北京音,经历了逐渐趋向简化的过程。在先秦时代,塞音声母和塞擦音声母都有浊音、不送气清音和送气清音三套。鼻音声母也分清浊两套。很可能还有[kl-、 pl-、gl-、bl-、sn-、st-、sk-]等形式的复辅音。所有的音节都以辅音收尾,没有开音节。辅音韵尾除了见于现代方言(例如广州话)的[m、 n、ŋ、p、t、k]之外,还有[b、d、g]。到了隋唐时代,复辅音声母和清鼻音声母早已消失,辅音韵尾也只剩下了[m、 n、ŋ、 p、t、k]。只是塞擦音和擦音却按发音部位的不同分化为舌头、舌面和卷舌三套。在现代北京音里浊塞音和浊塞擦音都清化了,辅音韵尾只有[n]和[ŋ]两个。
声调的演变是另一种情形。隋唐时期只有平、上、去、入 4个调类。在现代方言里,同一个古调类有时以声母的清浊为条件分化成阴阳两类。因此有些方言调类的数目比隋唐时期多,许多非官话区的方言就是如此。
隋唐以来,在调类的分合上发生过两件大事。一是在许多方言里,古全浊声母上声字跟古去声字合为一类。二是官话方言的入声韵尾消失以后,入声字分别归入平、上、去三声。北京话就是如此。
分析谐声字和经典的注音,可以发现上古汉语有过以变调和/或变化声母的清浊作为转变词性(包括分别自动词和使动词)的手段的痕迹。在句法方面,先秦汉语的一个明显的特点是否定句和疑问句里的代词宾语要提到动词的前边去(吾谁欺│不我欺)。
宋元时期汉语语法发生了一些重要的变化。例如动词词尾“了” 和“着 ”的产生、动补结构的产生等等。“了”和“着”原来都是动词,后来意义逐渐虚化,终于演变为词尾。动补结构〔包括不带“得”的(染红)和带“得”的(染得红)两类〕也是在这个时期才定型的。
词汇演变的主要趋势是双音节词的不断增长。本来在先秦汉语里占优势的单音节词逐渐双音节化。这种趋势近百年来尤为明显。据统计,在 180万字的现代文资料里,一共出现了3万多个不同的词,其中70%以上是双音节词。
书面语和口语
书面语和口语的差别一直相当大。在“五四”时期白话文运动以前,书面语和口语的区别实际上是古今语的区别。以唐宋时代为例,当时人口里说的是白话。笔下写的是文言,即以先秦诸子和《左传》、《史记》等广泛传诵的名篇为范本的古文文体。这种情形往上大概可以推到两汉时期。往下一直延续到20世纪初叶。孙中山1925年立的遗嘱就还是用文言写的。不过2000 年来作为书面语的文言本身也在变化。仿古终归难以乱真,后世人模仿古语不可能不受当时口语的影响。有人指出韩愈的文章里就有明显的不合先秦语法的地方。清代桐城派古文家模仿先秦文和唐宋古文家的文章,结果当然更为驳杂。清末梁启超用一种浅显的文言文写政论文章。由于通俗易懂,风行一时,为报章杂志所广泛采用。目前台湾、香港以及海外中文报刊多数仍旧沿用这种文体。
“五四”运动时期开展的文学革命提出了反对文言文、提倡白话文的主张。这场运动席卷全国,影响深远。短短几年之间,白话文学就站稳了脚跟。不过这种白话文学作品的语言并不是真正的口语,而是拿北方官话做底子,又受到明清白话小说相当大的影响,还带着不同程度的方言成分以及不少新兴词汇和欧化句法的混合的文体。鲁迅的作品可以作为这种文体的典型的代表。
以上说的是文学作品 。至于新闻报道、 政府文告、公文、商业合同、甚至私人信件,往往还是用的文言。这一方面是传统习惯使然,另一方面也是因为文言文有简括的优点。这种情形,就全国范围来说,一直延续到40年代末。1949年中华人民共和国建立以后,文言文才完全让位给白话文。除了打电报和有意拟古以外,没有人再写文言了。
上文指出,现代书面汉语是包含许多不同层次的语言成分的混合体。无论从句法上或词汇上看都是如此。拿句法来说,书面语句式除了跟口语相同的那一部分之外,有的是从文言来的,后来渐渐融化在书面语里,成为书面语句式的一部分。例如“进行、加以、予以、给予”是书面语用得十分频繁的几个动词。这些动词原来的意义已经虚化,主要的功能是放在双音动词前边以适应句法和节奏上的要求。这种句法构造来源于文言。“进行”的前身是“行”(另行议处),“加以”的前身是“加”(严加管束),“予以”和“给予”的前身是“予”(不予追究)。在文言句法里,“行、加、予”前边必须跟一个单音副词配合,造成双音节构造,后边的动词也必须是双音节的。在现代书面语里,这几个动词都双音节化了,后边还是要求跟双音节的动词,语法上的制约是一脉相承的。
现代书面语开始形成的时候,曾经从旧白话小说的语言里继承了一些句式。这个阶段现在已经结束。我们能看到的只是一些遗迹。例如“在+处所词”的构造可以放在动词前头(“在台上坐着”),也可以放在动词后头(“坐在台上”)。在北京话里,前置的“在”用“跟”、用[āi] 或是 [tǎi],后置的“在”用[·tə],都不用“在”。用“在”的说法是从旧白话小说里继承下来的。
有些书面语句式是受外国语(英语、日语、俄语等)的直接或间接(通过翻译作品)的影响产生的。在这方面可以举一个影响全部书面语句式的重要语法现象作为例证。上文曾经提到,汉语里主语和谓语关系松散。句子的主语往往可以不说出来。有些句子甚至根本没有主语。现代口语和古汉语都是如此。可是现代书面语要求句子在形式上都要有主语。如果没有,就会感到结构不完整,逻辑上不周密。这显然是受了印欧语的影响。
书面语在词汇方面的特点是双音词的比重大。书面语双音词除了从文言里继承下来的一部分以外,大都是19世纪末叶以来 100多年间新出现的。其中一部分是从日文转借过来的,另一部分是新造的。新创造的词大都是利用原有的语素 (书面上就是汉字) 造成的复合词。这种构词方式是能产的,生命力很强。
汉语研究 在中国传统的语言学领域里,音韵学、文字学、训诂学都有辉煌的成就。最古的按字义编排的字典《尔雅》是战国时代编的。东汉许慎的《说文解字》是最早的按汉字偏旁编排的字典,同时也是第一部对汉字的结构作出全面、系统的分析的著作。在古代的韵书里,隋代陆法言的《切韵》(601)地位特别重要。无论是研究现代方言,还是上推《切韵》以前的音韵系统,都是重要的资料。9世纪开始出现的韵图(《韵镜》、《七音略》、《切韵指掌图》等)是一种表示整个音韵系统及声韵调三者配合关系的表格。从现代语言学的角度看,描写汉语的音韵系统,这种性质的表格是不可缺少的。古音的研究在清代有飞跃的进步。段玉裁首先指出谐声字系统跟《诗经》用韵基本上相符。清代学者根据这两种材料给上古音韵母分部,取得了显著成绩。到了王念孙、江有诰,这项工作几乎已经达到了顶点,可以补充修改之处已经不多。在训诂学方面,清代学者也有重大贡献。段玉裁《说文解字注》和王念孙《广雅疏证》可以说是这方面的代表作品。
语法学方面,中国学者向来着重虚词的研究。清代王引之的《经传释词》是最有影响的著作。马建忠(1845~1900)的《马氏文通》出版于 1898年。这是第一部系统地研究汉语语法的书。
20世纪上半叶,古音研究取得了重要进展。主要的成绩是对中古音和上古音的构拟。这方面工作的开创者是瑞典学者高本汉。其后李方桂在上古音研究上也作出了重要贡献。
《马氏文通》研究的对象是古汉语。现代汉语语法的研究是从 20世纪开始的。吕叔湘 《中国文法要略》(1942~1944)和王力《中国现代语法》(1943)两部书反映了前半个世纪汉语语法研究达到的水平。丁声树等《现代汉语语法讲话》(1952)虽然是通俗性著作,但是在近年来的语法研究上有一定的影响。60年代以来,汉语语法研究进步很快。赵元任《中国话的文法》(1968)是这个时期比较重要的著作。
在历史语法学方面,吕叔湘《汉语语法论文集》(1955;增订本,1984)里的一部分论文开创了近代汉语语法的研究。王力的《汉语史稿》中卷(1958)和日本太田辰夫《中国语历史文法》(1958)也是这方面有影响的著作。
赵元任《现代吴语的研究》(1928)是第一部用现代语言学方法调查方言的报告。这部书对以后的方言调查工作有重要影响。1956~1957年起在全国范围内进行了一次方言调查。1979年创办了专门性的方言刊物《方言》,对方言调查和方言研究起了推动的作用。
20世纪考古方面的重大发现──商代甲骨文字和战国、秦、汉简帛的出土,为古文字研究提供了大量珍贵的资料,促进了这一门学科的发展。
参考书目
李荣:《语音常识》,文化教育出版社,北京,1955。
朱德熙:《语法答问》,商务印书馆,北京,1985。
Yuen Ren Chao, A Grammar Spoken Chinese,University of California Press, 1968.
裘锡圭:《文字学概要》,商务印书馆,北京,1987。
中国社会科学院、澳大利亚人文科学院合编:《中国语言地图集》,第一册,朗文出版(远东)有限公司,香港,1988。
Fang-Kuei Li, Archaic Chinese, in The Origins of Chinese Civilization,University of CaliforniaPress, 1983.
---汉字简介
汉字是汉语书写的最基本单元,其使用最晚始于商代,历经甲骨文、大篆、小篆、隶书、楷书(草书、行书)诸般书体变化。秦始皇统一中国,李斯整理小篆,“书同文”的历史从此开始。尽管汉语方言发音差异很大,但是书写系统的统一减少了方言差异造成的交流障碍。
东汉许慎在《说文解字》中将汉字构造规律概括为“六书”:象形、指事、会意、形声、转注、假借。其中,象形、指事、会意、形声四项为造字原理,是“造字法”;而转注、假借则为用字规律,是“用字法”。
三千余年来,汉字的书写方式变化不大,使得后人得以阅读古文而不生窒碍。但近代西方文明进入东亚之后,整个汉字文化圈的各个国家纷纷掀起了学习西方的思潮,其中,放弃使用汉字是这场运动的一个重要方面。这些运动的立论以为:跟西方拼音文字相比,汉字是繁琐笨拙的。许多使用汉字国家即进行了不同程度的汉字简化,甚至还有完全拼音化的尝试。日文假名的拉丁转写方案以及汉语多种拼音方案的出现都是基于这种思想。中国大陆将汉字笔划参考行书草书加以省简,于1956年1月28日审订通过《简化字总表》,在中国及新加坡使用至今。台湾则一直使用繁体中文。
目前在使用汉语的地区,大都使用两种规范汉字,分别是繁体中文(繁体字)和简体中文(简体字)。
------------------
汉字,是记录汉语的文字系统,并仍然或曾经在日语和朝鲜语、越南语中使用。汉字是世界上最古老的文字之一,拥有4500年以上的历史。狭义地说,它是汉族的文字;广义地言,它是汉字文化圈共同的文字。
汉字是承载文化的重要工具,目前留有大量用汉字书写的典籍。不同的方言都使用汉字作为共同书写体系,因而汉字在历史上对中华文明的传播起到了重要作用,并成为东南亚文化圈形成的内在纽带。在汉字发展过程中,留下了大量诗词、对联等文化,并形成了独特的汉字书法艺术。
一个汉字一般具有多种含义,也具有很强的组词能力,且很多汉字可独立成词。这导致了汉字极高的“使用效率”,2000左右常用字即可覆盖98%以上的书面表达方式。加之汉字表意文字的特性,汉字的阅读效率很高。汉字具备比字母文字更高的信息密度,因此,平均起来,同样内容的中文表达比其他任何字母语言的文字都短。
目前的汉字体系分为繁体字和简体字,前者用于台湾、香港、澳门和北美的华人圈中,后者用于中国大陆和新加坡以及东南亚的华人社区。通常说来,两种汉字书写系统虽然有差异,常用汉字的个体差异不到25%。
由于汉字书写复杂,“汉字落后论”的说法存在了很长时间,认为汉字是教育及信息化瓶颈,并有“汉字拉丁化”甚至废除汉字的推动行为。现在一般认为汉字也有突出优点,初始学习难度虽大,但掌握常用字后不存在类似海量英文单词的继续学习问题,且其表意特性也能充分调动人脑的学习能力。在计算机输入问题基本解决后,“汉字落后论”及“汉字拉丁化”已实际上逐渐被大多数人抛弃。
目前汉字系统已经基本稳定,但汉字的规范化、生僻字的自然消亡仍在继续进行。
关于汉字编码
为进行信息交换,各汉字使用地区都制订了一系列汉字字符集标准。
① GB2313字符集,收入汉字6763个,符号715个,总计7478个字符,这是大陆普遍使用的简体字符集。楷体-GB2313、仿宋-GB2313、华文行楷等市面上绝大多数字体支持显示这个字符集,亦是大多数输入法所采用的字符集。市面上绝大多数所谓的繁体字体,其实采用的是GB-2313字符集简体字的编码,用字体显示为繁体字,而不是直接用GBK字符集中繁体字的编码,错误百出。
② BIG-5字符集,收入13060个繁体汉字,808个符号,总计13868个字符,目前普遍使用于台湾、香港等地区。台湾教育部标准宋体楷体等港台大多数字体支持这个字符集的显示。
③ GBK字符集,又称大字符集(GB=GuóBiāo国标,K=扩展),包含以上两种字符集汉字,收入21003个汉字,882个符号,共计21885个字符,包括了中日韩(CJK)统一汉字20902个、扩展A集(CJK Ext-A) 中的汉字52个。Windows 95\98简体中文版就带有这个GBK.txt文件。宋体、隶书、黑体、幼圆、华文中宋、华文细黑、华文楷体、标楷体(DFKai-SB)、Arial Unicode MS、MingLiU、PMingLiU等字体支持显示这个字符集。微软拼音输入法2003、全拼、紫光拼音等输入法,能够录入如镕镕炁夬喆嚞姤赟赟?龑昳堃慜靕臹等GBK简繁体汉字。
BIG-5 (繁体中文)与GB-2313 (简体中文),编码不相兼容,字符在不同的操作系统中便产生乱码。文本文字的简体与繁体(文字及编码)之间的转换,可用BabelPad、TextPro或Convertz之类的转码软件来解决。若是程序,Windows XP操作系统,可用Microsoft AppLocale Utility 1.0解决;Windows 2000的操作系统,大概只有用:中文之星、四通利方、南极星、金山快译之类的转码软件方能解决了。
④ GB18030字符集,包含GBK字符集、CJK Ext-A 全部6582个汉字,共计27533个汉字。宋体-18030、方正楷体(FZKai-Z03)、书同文楷体(MS Song)宋体(ht_cjk+)、香港华康标准宋体(DFSongStd)、华康香港标准楷体、CERG Chinese Font、韩国New Gulim,以及微软Windows Vista操作系统提供的宋黑楷仿宋等字体亦支持这个字符集的显示。Windows 98支持这个字符集,以下的字符集则不支持。手写输入法逍遥笔4.0版支持GB18030字符集及方正超大字符集汉字的录入。
⑤ 方正超大字符集,包含GB18030字符集、CJK Ext-B中的36862个汉字,共计64395个汉字。宋体-方正超大字符集支持这个字符集的显示。Microsoft Office XP或2003简体中文版就自带有这个字体。Windows 2000的操作系统需安装超大字符集支持包“Surrogate更新”。
⑥ ISO/IEC 10646 / Unicode字符集,这是全球可以共享的编码字符集,两者相互兼融,涵盖了世界上主要语文的字符,其中包括简繁体汉字,计有:CJK统一汉字20902个,CJK Ext-A 6582个,Ext-B 42711个,共计70195个汉字。SimSun-ExtB(宋体)、MingLiU-ExtB(细明体)能显示全部Ext-B汉字。至今尚无单独一款字体能够显示全部70195个汉字,但可用海峰五笔、新概念五笔、仓颉输入法世纪版、新版的微软新注音、仓颉输入法 6.0 版(单码功能)等输入法录入。Ext-C还有2万多个汉字。详情请参阅香港中文大学网站、马来西亚仓颉之友网站、福建陈清钰个人网站。
⑦ 汉字构形数据库2.3版,内含楷书字形60082个、小篆11100个、楚系简帛文字2627个、金文3459个、甲骨文177个、异体字12768组。可以安装该程序,亦可以解压后使用其中的字体文件,对于整理某些古代文献十分有用。
如果超出了输入法所支持的字符集,就不能录入计算机。如果没有相应字体的支持,则显示为黑框、方框或空白。如果操作系统或应用软件不支持该字符集,则显示为问号(一个或两个)。在网页上亦存在同样的情况。
关于Unicode
由于各国国家标准字集所收的汉字字数、常用字的差异,虽然象中国两岸GB/BIG5字集常用字基本类似,转换后阅读并不成问题,但是这种编码转换的混乱关系,对文字交流始终是一种障碍。因此相关国家的标准化组织和文字工作者经过共同努力,终于在93年完成了包含中日韩(CJK)汉字的Unicode 汉字标准ISO 10646.1。 Unicode是完全双字节表示的多国文字编码体系,编码空间0x0000-0xFFFF。 ISO 10646.1汉字标准使用编码0x4E00-9FA5,共包含20902个汉字。其中: 大陆(S)提出的汉字17124个,台湾(T)提出的汉字17258个; S与T的并集,即中国(C)提出的汉字为20158个。 日本(J)提出的汉字为12157个,中国未提出的690个(Ja); 韩国(K)提出的汉字为7477个,其中中国未提出的90个(Ka); Ja与Ka并集共744字。 支持Unicode编码的相关电脑系统软件,如Unix, Win95已有推出,但是由于Unicode的ASCII码是用双字节编码(即一般电脑系统中的单字节ASCII码前加 0x00),同时其汉字编码与各国的现有编码也不兼容,造成现有的软件和数据不能直接使用,所以目前完全使用Unicode软件系统的用户并不多,大多数只将它此作为一个国际语言编码标准来使用。
---成语简介
成语,chengyu,idioms(周祖谟)
语言词汇中的一部分定型的词组或短句。汉语成语有固定的结构形式和固定的说法,表示一定的意义,在语句中是作为一个整体来应用的。例如:
言简意赅 勇往直前 相反相成 实事求是
诲人不倦 经年累月 千钧一发 缘木求鱼
削足适履 七手八脚 细大不捐 坐井观天
成语有很大一部分是从古代相承沿用下来的,在用词方面往往不同于现代汉语。其中有古书上的成句,也有从古人文章中压缩而成的词组,还有来自人民口里常说的习用语。有些意义从字面上可以理解,有些从字面上就不易理解,特别是典故性的。如“汗牛充栋”、“虎踞龙蟠”、“东山再起”、“草木皆兵”之类,在汉语成语里占有一定的比例。汉语历史悠久,成语特别多,这也是汉语的一个特点。
成语是一种现成的话,跟习用语、谚语相近,但是也略有区别。最主要的一点是习用语和谚语是口语性质的,成语大都出自书面,属于文语性质的。其次在语言形式上,成语几乎都是约定俗成的四字结构,字面不能随意更换,而习用语和谚语总是松散一些,可多可少,不限于四个字。例如“快刀斩乱麻”、“九牛二虎之力”、“驴唇不对马嘴”、“前怕狼,后怕虎”,这是常说的习用语;“百闻不如一见”、“真金不怕火炼”、“有志者事竟成”、“路遥知马力,日久见人心”,这是一些经验之谈,表示一个完整的意思,属于谚语一类。成语跟习用语、谚语是不一样的。
成语大都有一定的出处。如“狐假虎威”出于《战国策·楚策》,“鹬蚌相争”出于《燕策》,“画蛇添足”出于《齐策》,“刻舟求剑”出于《吕氏春秋·察今》,“自相矛盾”出于《韩非子·难势》,都是古代的寓言。如“完璧归赵”出于《史记·廉颇蔺相如列传》,“破釜沉舟”出于《史记·项羽本纪》,“草木皆兵”出于《晋书·苻坚载记》,“一箭双雕”出于《北史·长孙晟传》,“口蜜腹剑”出于《唐书·李林甫传》,都是历史上的故事。至于截取古书的文句用为四字成语的更为普遍。如“有条不紊”取自《尚书·盘庚》“若纲在纲,有条而不紊”,“举一反三”取自《论语·述而》“举一隅,不以三隅反,则不复也”,“痛心疾首”取自《左传》成公十三年“斯是用痛心疾首,暱就寡人”,“分庭抗礼”取自《庄子·渔父》“万乘之主,千乘之君,未尝不分庭抗礼”,“奴颜婢膝”取自晋代葛洪《抱朴子·交际》“以岳峙独立者为涩吝疏拙,以奴颜婢膝者为晓解当世”, “胸有成竹”取自宋代苏轼《文与可画筼筜谷偃竹记》“画竹必先得成竹于胸中”。诸如此类,不胜枚举。其他采用古人文章成句的也为数很多。如“忧心忡忡”出自《诗经·召南·草虫》,“外强中干”出自《左传》僖公十五年,“以逸待劳”出自《孙子·军争》,“水落石出”出自苏轼《后赤壁赋》,“萍水相逢”出自唐代王勃《滕王阁序》,“牢不可破”出自唐代韩愈《平淮西碑》。
在人民口里常说的一些四字习用语也可以归入成语里来。如“咬文嚼字”、“拖泥带水”、“阳奉阴违”、“不三不四”、“心直口快”之类,与成语的结构相同。在成语中也有些是接受外来文化而出现的。如“天花乱坠”、“当头棒喝”、“不可思议”、“不二法门”都是。
成语一般都是四字格式,不是四字的较少。如“五十步笑百步”、“ 欲速则不达”、“ 醉翁之意不在酒”。成语一般所以用四个字,这与汉语本身句法结构和古汉语以单音词为主有关系。
四字的语法结构主要有以下几种形式:
主谓式:名副其实、盛气凌人、杞人忧天、胸有成竹;
动宾式:好为人师、莫名其妙、视为畏途;
联合主谓式:天翻地覆、水落石出、手舞足蹈;
联合动宾式:知己知彼、养精蓄锐、防微杜渐、发号施令;
联合名词式:粗心大意、南辕北辙、镜花水月;
联合动词式:突飞猛进、勇往直前;
动补式:逍遥法外、问道于盲;
兼语式:以邻为壑、令人生畏。
成语的结构是多种多样的,上面只是简单举例的性质。成语在语言表达中有生动简洁、 形象鲜明的作用。它的本身就有不少比喻和对比以及加重的措辞方法。如“阳奉阴违”、“外强中干”、“五光十色”、“一知半解”、“七嘴八舌”、“患得患失”、“不寒而慄”等各有妙用。所以文学家对成语的运用都非常注意。
---能认识4000左右就很不错了