nlp自然语言处理入门pdf,精通python自然语言处理 pdf
本文首先简要介绍了自然语言处理中中文分词的概念和应用场景。然后通过两个简单的例子给出了算法的步骤。然后编写Python代码,在《红楼梦》上测试。最后总结了编写代码时遇到的问题,避免读者犯同样的错误。
目录:
分词算法的概念
分词算法的应用
特定算法
Python的实现
例如:《红楼梦》分词
充满
1.分词算法的概念
汉语分词是指根据用法语义对汉语句子中的词进行切分的过程,即把汉字的排列切割成具有独立意义的词。在英语文章中,空格被用作单词之间的自然分隔符,而在汉语中,只有单词、句子和段落可以很容易地用明显的分隔符隔开,而只有单词没有正式的分隔符。英语也有短语切分的问题,但在单词层面,汉语比英语复杂和困难得多。
分词算法是自然语言处理的基础。一个完整的中文自然语言处理过程一般包括五项核心中文处理技术:分词、词性标注、命名实体识别、依存句法分析和语义分析。
2.分词算法的应用。
本文从搜索引擎和机器翻译两个方面介绍了分词算法的应用。
2.1搜索引擎
比如你在百度上搜索“科比詹姆斯”,你会把“科比詹姆斯”这五个字拆分成“科比”和“詹姆斯”两个字,然后再进行搜索。最后,“科比”和“詹姆斯”这两个词不会直接搜索五个字。
2.2机器翻译
比如有一本字典翻译为“研究生命的起源”。如果让机器直接翻译这六个字,是翻译不出来的。从结果可以看出,在翻译之前,“研究生命起源”这六个字被分成“研究”、“生命”、“起源”三个字,然后进行翻译和组合。
2.3手写英语
书上的英文单词之间总是有空格的,但是手写的英文之间的空格就没有那么明显了。这也是需要分词的场景。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。