目录

初学Python杂记对文本进行分词

初学Python杂记——对文本进行分词

利用split()的两种方法

(1)直接利用split()函数

vstring = "人生苦短,我用python!"
vstr = vstring.split(',')
# 分词符号仅设置为“,”
print(vstr)
print(len(vstr))

vstr = vstring.split(',!')

# 分词符号设置为“,”和“!”

print(vstr)
print(len(vstr))

输出结果如下所示:

['人生苦短', '我用 python!']
2
['人生苦短,我用 python!']
1

可以根据返回的列表长度来判断,当输入两个分词标号时并没有发生分词。

(2)利用 re.split()

import re # 导入模块
vstring = "人生苦短,我用 Python!Python 高效、优雅,很多人喜欢。ok"
vstr = re.split('[,!、。]' , vstring)

# re.split()函数的第一个参数是一个正则表达式,第二个参数是分词所需的字符串

print(vstr)
print(len(vstr))

# 从长度判断确实是被分词了

输出结果如下所示:

['人生苦短', '我用Python', 'Python高效', '优雅', '很多人喜欢', 'ok']

6