国产成人AV无码一二三区,少女1到100集,国产精品久久久久精品综合紧,巜公妇之诱感肉欲HD在线播放

文章 > Python基础教程 > python如何提取文本信息?

python如何提取文本信息?

头像

小妮浅浅

2021-02-23 14:33:535139浏览 · 0收藏 · 0评论

1、信息提取

先用句子分段器将文档的原始文本分成句子,再用记号赋值器将每个句子进一步分成单词。其次,给每一个句子做词性标记。以nltk中的默认工具为例,将句子分段器、分词器、词性标记器连接。

def ie_preprocess(document):
    # nltk 默认的句子分段器
    sentences = nltk.sent_tokenize(document)
    # nltk默认分词器
    sentences = [nltk.word_tokenize(sent) for sent in sentences]
    # nltk默认词性标记
    sentences = [nltk.pos_tag(sent) for sent in sentences]

2、词块划分

词块划分是实体识别的基础技术,对多个词的顺序进行划分和标记。

如Noun Phrase Chunking(名词短语词块划分)

使用正则表达式来定义一个语法,来进行名词短语词块的划分

3、开发和评估词块划分器

分区器可以用evaluate()方法评价分区器的性能好坏。

以下是使用一元标记来建立单词块分割器的学习。但是,不是确定每个单词的正确单词性标记,而是根据每个单词的单词性标记,确定正确的单词块标记。

# 使用一元标注器建立一个词块划分器。根据每个词的词性标记,尝试确定正确的词块标记。
class UnigramChunker(nltk.ChunkParserI):
    # constructor
    def __init__(self, train_sents):
        # 将训练数据转换成适合训练标注器的形式。tree2conlltags()方法将每个词块树映射到一个三元组(word,tag,chunk)的列表
        train_data = [[(t, c) for w, t, c in nltk.chunk.tree2conlltags(sent)]
                      for sent in train_sents]
        # 训练一元分块器
        # self.tagger = nltk.UnigramTagger(train_data)
        # 训练二元分块器
        self.tagger = nltk.BigramTagger(train_data)
 
    # sentence为一个已标注的句子
    def parse(self, sentence):
        # 提取词性标记
        pos_tags = [pos for (word, pos) in sentence]
        # 使用标注器为词性标记 标注IOB词块
        tagged_pos_tags = self.tagger.tag(pos_tags)
        # 提取词块标记
        chunktags = [chunktag for (pos, chunktag) in tagged_pos_tags]
        # 将词块标记与原句组合
        conlltags = [(word, pos, chunktag) for ((word, pos), chunktag)
                     in zip(sentence, chunktags)]
        # 转换成词块树
        return nltk.chunk.conlltags2tree(conlltags)

以上就是python提取文本信息的方法,希望能对大家有所帮助,更多知识尽在python学习网。

关注

关注公众号,随时随地在线学习

本教程部分素材来源于网络,版权问题联系站长!

《无能的丈夫》完整版| DJ快了又快又骚的POP歌曲| 快拨出我是你母亲的歌曲播放| 下面的小嘴又饿了| 欧洲人与动物胶配方大全图片| BUBBLE| 摸摸大扔子的视频大全 | 四年级下册语文书电子版| 嫂嫂宝库免费观看电视剧全部| 《我的漂亮老师2》| 《出差的日子》中文版| 艾梅柏·希尔德| 缘之空第一季在线观看免费完整番.| 一个添B-个添3个人添| 少女たちよ观看免费高清电视剧| 麻花传媒的短视频制作技巧和方法| 俄罗斯电影| 女友躲雨被老头玩弄| 麻豆蜜桃69无码专区在线| 亚洲AV成人片无码WWW| 国产老熟妇精品观看| 《酒店激战》动漫1-5集免费观... | 《暴雨回不了家去上司家》| 女生给男生吃小头头| 《高压监狱5》完整版| 日产无码久久久久久精品红桃| 男人吸吮完乳房应该怎么处理| 《特别酒店》免费观看| 拍照表情| 《性88分钟》| 他扒开我小流添我三男一女视频| 三男一女CP免费观看电视剧大全 | 一滴都不许漏》何泽城林荫| 我在开会他在下添的好爽| TOUPAIZIPAI| 一路向西在线| 日韩精品| 明星的照片| 《甜蜜惩罚2》第二季的剧情| 半裸| 李丽珍《红颜祸水》