大家好,欢迎来到Crossin的编程教室! Show 有时在处理文件时候,我们需要将中文汉字转换为拼音或者拼音首字母的需求;还有的时候,我们需要对汉字进行按拼音字母排序(汉字的默认排序是编码序而非拼音序)。针对类似的转换需求,本文将介绍三种Python实现的方法,最后给一个批量操作的代码案例! 一、xpinyin 开门见山,Python中文字转拼音可以使用
接着导入xpinyin下的 Pinyin 方法如下
首先试试中文名转拼音,
结果如下:
结果如下: 去掉空格?
有时需要中文名转拼音首字母,也很简单? 二、pypinyin 另一种方法是使用
直接导入就行? 再来看看中文名转拼音的实现办法
结果如下:
启用多音节来实现声调
结果如下:
因为返回的是一个嵌套的list,所以需要简单调整一下
结果如下: 启用多音字模式时,竟然发现 ‘叶’ 也是多音字,查询了资料发现确实是这样,涨知识啦! 下面是中文名转拼音首字母的方法 三、snownlp 最后一种办法是使用
中文名转拼音?
结果如下: 将list转为字符串
结果如下: 最后是中文名转拼音首字母 四、批量将中文名转换成拼音 现在,掌握了基本使用后,我们就能利用批量操作来解放双手
先导入一份学生名单如下 下面是使用
或者是转换为拼音首字母,运行结果如下: 文章分享自微信公众号: 本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与! 原始发表时间:2020-12-09 如有侵权,请联系 删除。 将汉字转为拼音。可以用于汉字注音、排序、检索(Russian translation) 。 最初版本的代码参考了 hotoo/pinyin 的实现。
特性
安装使用示例Python 3(Python 2 下把 >>> from pypinyin import pinyin, lazy_pinyin, Style >>> pinyin('中心') # or pinyin(['中心']),参数值为列表时表示输入的是已分词后的数据 [['zhōng'], ['xīn']] >>> pinyin('中心', heteronym=True) # 启用多音字模式 [['zhōng', 'zhòng'], ['xīn']] >>> pinyin('中心', style=Style.FIRST_LETTER) # 设置拼音风格 [['z'], ['x']] >>> pinyin('中心', style=Style.TONE2, heteronym=True) [['zho1ng', 'zho4ng'], ['xi1n']] >>> pinyin('中心', style=Style.TONE3, heteronym=True) [['zhong1', 'zhong4'], ['xin1']] >>> pinyin('中心', style=Style.BOPOMOFO) # 注音风格 [['ㄓㄨㄥ'], ['ㄒㄧㄣ']] >>> lazy_pinyin('威妥玛拼音', style=Style.WADEGILES) ['wei', "t'o", 'ma', "p'in", 'yin'] >>> lazy_pinyin('中心') # 不考虑多音字的情况 ['zhong', 'xin'] >>> lazy_pinyin('战略', v_to_u=True) # 不使用 v 表示 ü ['zhan', 'lüe'] # 使用 5 标识轻声 >>> lazy_pinyin('衣裳', style=Style.TONE3, neutral_tone_with_five=True) ['yi1', 'shang5'] # 变调 nǐ hǎo -> ní hǎo >>> lazy_pinyin('你好', style=Style.TONE2, tone_sandhi=True) ['ni2', 'ha3o'] 注意事项 :
命令行工具: $ pypinyin 音乐 yīn yuè $ pypinyin -h 文档详细文档请访问:http://pypinyin.rtfd.io/ 。 项目代码开发方面的问题可以看看 开发文档 。 FAQ拼音有误?可以通过下面的方法提高拼音准确性:
>> from pypinyin import load_phrases_dict, load_single_dict >> load_phrases_dict({'桔子': [['jú'], ['zǐ']]}) # 增加 "桔子" 词组 >> load_single_dict({ord('还'): 'hái,huán'}) # 调整 "还" 字的拼音顺序或覆盖默认拼音
# 使用 phrase-pinyin-data 项目中 cc_cedict.txt 文件中的拼音数据优化结果 >>> from pypinyin_dict.phrase_pinyin_data import cc_cedict >>> cc_cedict.load() # 使用 pinyin-data 项目中 cc_cedict.txt 文件中的拼音数据优化结果 >>> from pypinyin_dict.pinyin_data import kxhc1983 >>> kxhc1983.load()
>>> # 使用其他分词模块分词,比如 jieba 之类, >>> #或者基于 phrases_dict.py 里的词语数据使用其他分词算法分词 >>> words = list(jieba.cut('每股24.67美元的确定性协议')) >>> pinyin(words)
为什么没有 y, w, yu 几个声母?>>> from pypinyin import Style, pinyin >>> pinyin('下雨天', style=Style.INITIALS) [['x'], [''], ['t']] 因为根据 《汉语拼音方案》 , y,w,ü (yu) 都不是声母。
如果觉得这个行为不是你想要的,就是想把 y 当成声母的话,可以指定 >>> from pypinyin import Style, pinyin >>> pinyin('下雨天', style=Style.INITIALS) [['x'], [''], ['t']] >>> pinyin('下雨天', style=Style.INITIALS, strict=False) [['x'], ['y'], ['t']] 详见 strict 参数的影响 。 如何将某一风格的拼音转换为其他风格的拼音可以通过 >>> from pypinyin.contrib.tone_convert import to_normal, to_tone, to_initials, to_finals >>> to_normal('zhōng') 'zhong' >>> to_tone('zhong1') 'zhōng' >>> to_initials('zhōng') 'zh' >>> to_finals('zhōng') 'ong' 更多拼音转换的辅助函数,详见
如何减少内存占用如果对拼音的准确性不是特别在意的话,可以通过设置环境变量 更多 FAQ 详见文档中的 FAQ 部分。 拼音数据
Related Projects
|