现有一个28G的txt文件,里面每一行是一个分词过的专利全文文档,一共370多万行。我需要把它按每五万行为单位做成一个json文件,格式大致如下:
[{"id":"100000001","quanwen":"你好 张梦"},...] 其中每个quanwen中内容是每一行的文本。
# -*- coding: utf-8 -*-import jsondef func(num): f1 = open("result.txt", "r") ls = [] m = 100000001+(num-1)*50000 #m变量为id n = 1 for eachline in f1: if n<((num-1)*50000+1): n+=1 continue data = {} data["id"] = str(m) data["quanwen"] = eachline.replace('\n', ' ') ls.append(data) m += 1 if m==(100000001+num*50000): break f2 = open('%s.json'%str(num), 'w') f2.write(json.dumps(ls)) f2.close() f1.close()i = 1while i < 76: func(i) i+=1