python3强制类型转换,python强制类型转化
ntk.tokenize.word _ tokenize(文本)只是瘦的
包装材料功能,调用
TreebankWordTokenizer类实例的标记化方法。显然使用简单的正则表达式分析语句。
类的文档声明:
这种植物被分割成
句子。任何句号——一个句号
areasumedtobotopartofwortheyaratchedto(例如为
缩写等),并且没有单独标记。
基础标记化方法本身非常简单:
eftokenize(self,text):
forregexpinself.contractions 2:
text=regexp.sub(r\1\2 ,text)())))))))))))))))))))。
forregexpinself。缩写:
text=regexp.sub(r\1\2\3 ,text))())))))))))))
#分隔大部分标点符号
sub(r)(^\w\.-\/、)、r \1 、text)))))))))))))))))))))))
#如果空间允许,则分开通信。
(例如不要分开2500)).
text=re sub(r(、\s)、r()、1)、text())))))))))。
# separatesinglequotesifthey 允许使用空格。
text=re sub(r()(s),text))。
# separateperiodshatcomeborendofstring。
text=re.sub((().*(n$)、0 .)、text())))))))))))))))。
返回text.split()
基本上,此方法将句点标记为单独的标记。如果位于字符串的末尾,则为:
ntk.tokenize.word _ tokenize(你好,世界。) )。
[你好,,,世界,。]
字符串中的句点被标记为单词的一部分,假设它是缩写。
ntk。令牌大小。世界,你好."你好吗,")
[你好,世界、怎么样、是、你、?]
只要这个行为被接受,你就没关系。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。