博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python 自用代码(拆分txt文件)
阅读量:5895 次
发布时间:2019-06-19

本文共 750 字,大约阅读时间需要 2 分钟。

现有一个28G的txt文件,里面每一行是一个分词过的专利全文文档,一共370多万行。我需要把它按每五万行为单位做成一个json文件,格式大致如下:

[{"id":"100000001","quanwen":"你好 张梦"},...] 其中每个quanwen中内容是每一行的文本。

# -*- coding: utf-8 -*-import jsondef func(num):    f1 = open("result.txt", "r")    ls = []      m = 100000001+(num-1)*50000 #m变量为id    n = 1    for eachline in f1:        if n<((num-1)*50000+1):            n+=1            continue        data = {}        data["id"] = str(m)        data["quanwen"] = eachline.replace('\n', ' ')        ls.append(data)        m += 1        if m==(100000001+num*50000):            break    f2 = open('%s.json'%str(num), 'w')        f2.write(json.dumps(ls))    f2.close()    f1.close()i = 1while i < 76:    func(i)    i+=1

 

转载于:https://www.cnblogs.com/zhangtianyuan/p/6963243.html

你可能感兴趣的文章
3、先行发生原则
查看>>
Best Time to Buy and Sell Stock II [LEETCODE]
查看>>
Ext-json
查看>>
C# 传统的ToString
查看>>
霜降配1种水果, 冬天不会流鼻涕, 嘴唇不会裂, 还能解酒、预防大脖子病
查看>>
sqlserver存储过程中SELECT 与 SET 对变量赋值的区别[转]
查看>>
echarts合并地图,把中国各个省份分成华北,东北,华东,华中,华南,西南,西北七个大区...
查看>>
包含到cocos2d-x里的tcpsocket源码
查看>>
[转]天龙八部的BillingServer
查看>>
NoSQL与其常见的产品
查看>>
iOS开发UITouch触摸API简介
查看>>
andorid 列表视图 ListView 之BaseAdapter
查看>>
自动布局报错(两条连线冲突):Unable to simultaneously satisfy constraints
查看>>
Amy Granados
查看>>
解决linux环境下qt groupbox 边框不显示问题
查看>>
剑指offer第三天
查看>>
针对Excel表格文件操作的编程实现
查看>>
自动化测试框架中关于selenium api的二次封装
查看>>
day1
查看>>
paloalto防火墙的优势
查看>>