法语最常用词汇统计
在学习法语的过程中,学习词汇的顺序很重要。学习词汇的顺序应为从高频词汇到低频词汇。因此有必要统计出最常见的法语高频核心词汇以加速法语词汇学习。
使用NLTK的nltk.probability.FreqDist()
可以方便地获得排序后的词频统计结果
from nltk.stem.wordnet import WordNetLemmatizer
from nltk.probability import FreqDist
from nltk import RegexpTokenizer
toknizer = RegexpTokenizer(r'''\w'|\w+|[^\w\s]''')
def get_top_words(path, coding):
f = open(path,encoding=coding)
text = f.read().lower()
f.close()
words = toknizer.tokenize(text)
words = [WordNetLemmatizer().lemmatize(word) for word in words]
fdist = FreqDist(words)
tops = fdist.most_common(len(fdist))
return tops
tops = get_top_words('corpus.txt','utf8')
topf = open('list.txt','w',encoding='utf8')
for j in tops:
i = j[0]
if all((char>='a' and char<='z') or (char>='A' and char<='Z') or (char>='Ï' and char<='œ') for char in i):
topf.write(i)
topf.write('\n')
topf.close()
使用Dragon Age Inquisition解包后的游戏内文本作为语料库,得到如下常用法语词汇:
de:从……,……的,以……,
le:定冠词
la:定冠词
vous:你们,您
à:(介词prép)表方向,表目的,表给予,表状况,表工具,表方式,表归属
et:和,而且
que:(关系代词pron.rel)那个, (疑问代词pron.interrog)什么
que:(连词conj.)引出从句,引导独立句表愿望,=pourquoi/si ce n'est/comme/quand/puisque/si,作为tel/quel/même和比较级的关联词
que: (副词adv.)多么
est:是,存在
il:他
je:我
un:一个
pa=pas:(阳性名词n.m.)步,(副词)表否定
en: (人称代词)=de lui/d'elle/d'eux/d'elles/de cela,(介词)在……内,(副词)从……那里
ce: (指示代词)这
une: 一个
ne:不
pour:(介词)为了,去,对于,以为,如此……以至于,因为
qu'=que
nous: 我们
qui: (关系代词)那个人,那些人,任何人,(疑问代词)谁,不管是谁
dans: (介词)在……里,在……时,在……后
ou: 在哪里,(关系副词),在……时
on: 某人,人们,大家
mais: (连词)可是
plus: (副词)更多
sur: (介词)在……上面,向着,关于,根据,通过,在……中,将近,处于……情况
tout: 整个的,所有的,任何,大家,一切
votre: 你们的,您的
si: 如果,只要
s' = se
par: 通过,因为,用,
me: (直接宾语)我,(间接宾语)对我,(自反人称代词)自己
se: 自己
elle: 她
sont:是
être:是
bien:好,很
ont: 有(avoir的一般现在时)
avec: 和……一起,用,对于,带有,尽管
y : there, it
avez: 有
peut:能(pouvoir的第三人称单数变位)
aux=à+les
au=à+le
du=de+le
des=de+les
comme: 好像,简直,作为,当……时,由于
font: 做(faire一般现在时)
moi: 我
était: (他)是(être未完成过去时变位)
son: 他的
leur: 他们的
fait: 事实,行动,现象
faire: 做
ce, cet: 这(阳性单数)
cette: 这(阴性单数)
ces: 这(阳阴性复数)
suis: (我)是(être变位)
non: (副词)不,不是
ma: 我的(阴性)
même: 同样的,自己
notre: 我们的(阳性)
sa: 他们的(阴性)
été: 是(être复合过去式)
vos: 你们的(votre变位)
mon: 我们的(阳性)
lui: 他(宾语)
êtes: (你们)是(être变位)
tous: 全部的,一切(阳性复数)
toute: 全部的,一切(阴性单数)
toutes: 全部的,一切(阴性复数)
t' = tu,你
autres: 另外的,又一个,不一样的(复数)
là: 那里
ici: 这里
sans: 没有,否则
quand: 当……的时候
autre: 另外一个的
rien: 什么都没有
jamais: 从来没有
où: 哪里,在……时候
va: 行,好
quoi: 什么,无论什么
soit: 即,假设有,好吧
aussi: 也
avoir: 有
dit: (他,她)说(dire变位)
leurs: 他们的
monde: 世界
toujours: 总是
encore: 还,又,再
dire: 说
avant: 在……之前
après: 在……之后
c' = ce
avait: (他,她)有(avoire未完成过去时)
peu: 少
quelque: 某个,几个,……多,大约
données: 数据(复数)
alors: 那时
vie: 生活
besoin: 需要
deux: 两个
comment: 怎么
voir: 看见
oui: 是
pourquoi: 为什么
fois: 次
faut: (我)需要(falloir变位)
maintenant: 现在
entre: 在……之间
mieux: 更好
trop: 太
bon: 好(阳性)
moins: 少
très: 很
vu: 看见(voir复合过去时)
grand: 大
sou: 钱
vraiment: 真的
compte: 计算
contre: 挨着
sais: (我,你)知道(savoir变位)
fort: 强大的
personne: 人
faites: (你们)做(faire变位)
ca
d' = de
peux: (我,你)能(pouvoir动词变位)
donc: 因此
eux: 他们
ceux: 这个,这些(复数)
tu: 你
评论已关闭