初学Python杂记对文本进行分词
目录
初学Python杂记——对文本进行分词
利用split()的两种方法
(1)直接利用split()函数
vstring = "人生苦短,我用python!"
vstr = vstring.split(',')
# 分词符号仅设置为“,”
print(vstr)
print(len(vstr))
vstr = vstring.split(',!')
# 分词符号设置为“,”和“!”
print(vstr)
print(len(vstr))
输出结果如下所示:
['人生苦短', '我用 python!']
2
['人生苦短,我用 python!']
1
可以根据返回的列表长度来判断,当输入两个分词标号时并没有发生分词。
(2)利用 re.split()
import re # 导入模块
vstring = "人生苦短,我用 Python!Python 高效、优雅,很多人喜欢。ok"
vstr = re.split('[,!、。]' , vstring)
# re.split()函数的第一个参数是一个正则表达式,第二个参数是分词所需的字符串
print(vstr)
print(len(vstr))
# 从长度判断确实是被分词了
输出结果如下所示:
['人生苦短', '我用Python', 'Python高效', '优雅', '很多人喜欢', 'ok']
6