学好英语需要多少词汇量
一、基本听懂需要认识多少比率词汇?
根据语言学家各种测试,要基本听懂/读懂一般非专业英语内容,生词量必须小于2%——也就是说100个单词里,你只有2个以下的单词不认识[1]。 这2%仅仅是最低要求,而且是对于老美老英母语者来说;而对于一般非母语者日本缅甸人等的测试结果,即使98%的单词你都认识,也常常还不能听懂/读懂[2]。
二、中国学生词汇量够吗?
既然对于非母语者认识98%的词汇都不够,咱就把99%定为一个比较理想的目标。那需要掌握多少词汇量才够呢?
不同的美剧用词难度广度其实都不一样:比方《Friends》用词就比较简单:九季一共大概93万个单词,一共有13250个词位(lexeme - 就是把runs, running都算成是一个词run);而《the Big Bang Theory》就难上一个级别:前五季(第六季因为还在播,哥还没加入统计)一共大概22万个单词,词位有约11892个。
如何计算多少词涵盖99%的内容呢?比方你认识"I"这个单词,它在《Friends》中用了35000次,也就是说相对93万词,你只要懂一个I就懂了约3.7%的内容;以此类推,要听懂99%的内容,6079个词位就可以涵盖;而对于《the Big Bang Theory》,要涵盖99%内容需要9007个剧本词汇。
一般中国学生的词汇量大概有多少呢?我把中国学生从小到大有可能背到的人教版中学课本、高考单词、四六级大纲、王玉梅俞敏洪托福、GRE红宝书、再要你命3000,统计了下:一共有13000多个词位——很多人说背完GRE单词就有20000个单词了,其实没有那么多,四六级、托福有很多重复单词。
大家会说即使只有一万三千个听《Friends》也是小菜啊,姐姐我GRE Verbal 165分,应该闭着眼睛都能听明白《Friends》。且慢,前面的计算有一个关键问题:这6079个/9007个词汇是美剧所用的词汇,而你掌握的词汇未必包含这些剧本中的词汇。对于听众词汇能覆盖多少美剧的内容,除了词汇量,还有一个很关键问题就是该听众的“词频结构”。
三、中国学生的词汇结构合理吗?
单单说词汇量没有意义,比方你背了半本《牛津高阶字典》号称坐拥10万词汇量,但如果你专门挑别人根本不用的冷僻词背,你看书听美剧依旧一头雾水。语言学有个理论是高频词一定会比低频词先掌握("High-frequency and wide-range words are generally learned before lower-frequency and narrower-range words.")其实这个假设不适用于大部分中国学生,大部分中国学生掌握词汇都不是通过和英语的自然接触掌握的,而是背诵词汇书来的,里面很多词不常用。而实际应用中的大量高频词,并不在中国学生常用词汇书里面。不少中国学生通过红宝书把minaret等生僻词背得烂熟,却连rinse这样日常用词都不知道。
按照按听众的词汇而不是按照剧本词汇来计算能听懂多少才有意义:先把剧中听众懂的词挑出来,然后累加它们出现的频率,看看占全剧词汇量多少比率,也就是能听懂多少——这个才是规范研究的方法:
对于《Friends》来说,背完中学到GRE的13000个单词,可以大概认识里面大概97-98%的单词。(计算机显示可以涵盖93%的《Friends》的内容,我因为没有剔除《Friends》3万~4万的人名,所以这个比率应该会更高到97-98% )—— 中国学生就是GRE Verbal 满分,也未必能轻松搞定《Friends》啊:
1. 有2%-3%的词你完全不认识。作为一个中国观众,很多中学到GRE的单词相对于《Friends》来说,算是“白背了”,比方“accumulate、accustom、acid、adapt、adhere、adverse”等等一堆书面用词,;而《Friends》当中常用的比方"freak、ass、dude、sweetie、massage、stripper、nap、aisle...”在中学到GRE词汇中并没有出现。
2. 有些词尽管你认识,但摇身一变和别的词组合一下你就不认得了:你可能知道freak是古怪的人,Chandler 有次说RossThe guy's a freak就是这个意思,但是freak out的意思就完全不同了,意思是突然变得很情绪化,美剧中常常可以听到I'm not freaking out(我没有生气);有些词意思很多,你可能只知道一个:比方freak除了变态之外,还有对某事特别着迷的意思,某次Phoebe嘲笑Monica是"an unbeliable control freak"就说她爱控制别人,不是说她是变态,我有时候会告诉别人I'm kind of a neat freak,意思是我有点小洁癖。
上面1.体现的是词汇频率结构低效;2. 体现的是词语能力不足——这些都是单单通过背单词书掌握词汇祸害的啊~
中国学生的英语单词结构(这里假设仅仅通过背单词书获得),哥亲自验证过它的低效——即使是对于书面英语来说也是不理性。哥选择同等词汇量的别的词汇表,比方BNC[3]词频top 13k、古登堡高词频[4]、谷歌高词频等和中国的高中到GRE词汇表相比较,用几本畅销书比方《哈利波特》、《乔布斯自传》等和经典教科书比方罗素的《西方哲学史》作为样本,发现几乎每一本书,中国学生词汇表的涵盖量都是最低的。(只有一本心理学畅销书打败了古登堡高频词表——可能古登堡文本都很古旧的原因)。
顺便说下,我2013下半年的计划之一就是在水木EnglishWorld版贴出中国学生中学到GRE词汇中缺少的常用高频词(用计算机先优选各种词频表,再人工筛选)。
四、母语者的词汇状况如何?
无障碍看美剧最理想的是拥有母语者那样的词汇状况(量和结构)。可能有同学马上不服气说,铁牛哥难道你没听说美国中西部农民只有4000单词却足以应付大多数复杂社会需求,哥对于在n多场合听到中国学生津津乐道这个不知道是哪个培训机构流出来的段子实在是跪服。
其实英美母语者的词汇量要远远大于中国同学的想像:芝加哥大学的两位研究人员Mary Jean Schulman和Robert J. Havighurst对美国中西部社区各个社会阶层的人做过词汇量测试,就是来自最低社会阶层的E组词汇量也达到了28,800,而中上层的词汇量超过了4万[5]。研究者用不同的方法测试,结果会有不同,比方ROBIN GOULDEN(1990)的测试母语者的词汇量是2万左右,但是主流的说法是在2万至2.5万之间 (Crystal 1997). ——这个结果可以秒杀用GRE冷僻词放到母语者而自豪的中国烤鸡族。也就是说一个勤奋刻苦的中国学生把能背的主流词汇书都背完,在词汇量上离母语者还是有很大距离;更不用说词汇结构了。
无论理论上还是实践中都可以确切地说英美母语者可以轻松无字幕搞定美剧。哥经历过很多次旁边不同背景的老美老英给我讲解看不懂的地方,《House》这样的专业医疗剧每一集也能吸引近2千万的观众。
五、到底需要多少词汇量呢?
语言学家用BNC这样词频从高到低排序的合理词汇表测试,读懂小说最低入门门槛词汇量是8~9千,而听懂美剧是6~7千[6]。这个标准用的是相对于母语者的98%的涵盖标准,其实对于非母语者要求会高很多,尤其当是词汇结构低效时。
有同学会说那我背别的词汇书怎么样?比方刘毅的那套从基础词汇到20000貌似很流行啊,其实哥也做过测试,并不比别的主流词汇书来的效率高。可以告诉大家的是,语言学家在掌握词汇方法VLS(Vocabulary Learning Strategies)上常年关注和推荐的是通过自然语言情境掌握(natural context)。也就是说如果你扩大词汇的方式是多读英美报刊、多看电影、多和老外聊天、多写英文信,不仅语言应用能力会提升、能获得语言之外的知识乐趣、扩大词汇量...更重要的是你的词汇结构会更高效。也就是说通过这样方式掌握词汇,高频词会比低频词更早掌握。尤其对于中高级学习者,大量用英语,是突破英语各个方面能力的最佳途径。