一. 文本爬取(基于python3.6):
在上面的代码中,我已经进行了详细注释,应该能大致看懂。下面重点解析几个容易出错的部分。
源码左上角那个小按钮用处很大,单击之后,鼠标点网页哪里,右边就显示哪里对应的代码。按理来说,接下来就可以仔细查看源码,然后根据规律编程了。
然而!!!偶然发现,选择按姓氏查询,和按籍贯查询看到的源码有所不同。
当选择按姓氏查询时,对应
我直接用下面这句代替新增的前三行:
三 分词与信息抽取
此处调用了哈工大研发的一个包:pyltp。关于此包的下载、配置和使用,可以参考官方文档,链接如下(是中文的哦):
pyltp可完成中文分句、分词、词性标注、命名实体识别、依存句法分析(主谓、动宾等。说实话,作为人,我都分不清这个)、语义角色标注(标注词语与谓词的关系)。
因此,用pyltp即可完成分词和命名实体识别(信息抽取)两个任务。
关于命名实体识别的简单定义如下:
2. windowserror[2]
至今没弄懂这个错误出现的根本原因,不过根据测试大致猜到了。下面这行代码的路径一定要写全,不能用变量名代替。如,写s='d:/data_rabbit/jianli/'+d+'/'+d2+'/'+'0.txt' ,os.path.getsize(s)是不行的。要写成如下形式:
谢谢阅读!!!!