首页 新闻 会员 周边

python词频统计中来源问题

0
悬赏园豆:10 [待解决问题]

def readfile(filename1,filename2):
    fileinfo1=open(filename1,'r').readlines()
    for i in fileinfo1:
        wordlist1=i.split(' ')
    fileinfo2=open(filename2,'r').readlines()
    for i in fileinfo2:
        wordlist2=i.split(' ')
        for word in wordlist2:
            wordlist1.append(word)
    wordlist=wordlist1
    return wordlist

def getstr(key,value):
    countstr=key+'\t'+'<---->'+'\t'+str(value)
    return countstr

if __name__=="__main__":
    wordcnt={}
filename1='D:/fenci.txt'
filename2='D:/NOold2.txt'
wordlist=readfile(filename1,filename2)
wordlistall=wordlist
print(wordlistall)
print("Finish Reading File\n")
allwordnum=len(wordlistall)
print("Number of allwords is :")
print(allwordnum)
print("Start counting......")

这段操作后怎么可以找到该词频来源于哪个文件啊?

ilxx1988的主页 ilxx1988 | 初学一级 | 园豆:175
提问于:2011-10-19 12:17
< >
分享
所有回答(1)
0

使用map来记录所有的单词 words = map()
1) words.append("word","file") 再遍历words来查找文件的来源

2) words.append(word,filearray),遍历words,在遍历filearray来查找文件的来源

iTech | 园豆:202 (菜鸟二级) | 2011-10-19 13:40

麻烦问您一下,我可以直接在这个上面加代码吗?是不是源代码得修改?

支持(0) 反对(0) ilxx1988 | 园豆:175 (初学一级) | 2011-10-19 22:08
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册