汉字转拼音python

大家好,欢迎来到Crossin的编程教室!

有时在处理文件时候,我们需要将中文汉字转换为拼音或者拼音首字母的需求;还有的时候,我们需要对汉字进行按拼音字母排序(汉字的默认排序是编码序而非拼音序)。针对类似的转换需求,本文将介绍三种Python实现的方法,最后给一个批量操作的代码案例!

一、xpinyin

开门见山,Python中文字转拼音可以使用xpinyin,直接使用pip安装即可?

pip install xpinyin -i //pypi.douban.com/simple --trusted-host pypi.douban.com

接着导入xpinyin下的 Pinyin 方法如下

from xpinyin import Pinyin

首先试试中文名转拼音,

p = Pinyin() result1 = p.get_pinyin('叶伏天') result1

结果如下:

tone_marks可以显示声调

result2 = p.get_pinyin('叶伏天', tone_marks='marks')

结果如下:

去掉空格?

s = result1.split('-') result3 = s[0].capitalize() + ' ' + ''.join(s[1:]).capitalize() result3 结果如下: 'Ye Futian'

有时需要中文名转拼音首字母,也很简单?

二、pypinyin

另一种方法是使用pypinyin,安装同样可以使用pip

# 安装 pip install pypinyin -i //pypi.douban.com/simple --trusted-host pypi.douban.com

直接导入就行?

再来看看中文名转拼音的实现办法

result1 = pypinyin.pinyin('叶庭云', style=pypinyin.NORMAL) result1

结果如下:

[['ye'], ['ting'], ['yun']]

启用多音节来实现声调

result2 = pypinyin.pinyin('叶庭云', heteronym=True) result2

结果如下:

[['yè', 'xié'], ['tíng'], ['yún']]

因为返回的是一个嵌套的list,所以需要简单调整一下

result_ = [i[0] for i in result1] result3 = result_[0].capitalize() + ' ' + ''.join(result_[1:]).capitalize() result3

结果如下:

启用多音字模式时,竟然发现 ‘叶’ 也是多音字,查询了资料发现确实是这样,涨知识啦!

下面是中文名转拼音首字母的方法

三、snownlp

最后一种办法是使用snownlp,同样的pip安装与导入如下:

# 安装 pip install snownlp -i //pypi.douban.com/simple --trusted-host pypi.douban.com # 导入 from snownlp import SnowNLP

中文名转拼音?

s = SnowNLP('叶庭云') s.pinyin

结果如下:

将list转为字符串

result4 = s.pinyin[0].capitalize() + ' ' + ''.join(s.pinyin[1:]).capitalize() result4

结果如下:

最后是中文名转拼音首字母

四、批量将中文名转换成拼音

现在,掌握了基本使用后,我们就能利用批量操作来解放双手

import pypinyin import pandas as pd df = pd.read_excel('学生名单_test.xls') df.head()

先导入一份学生名单如下

下面是使用pypinyin批量将全部学生的中文姓名转换为拼音

pinyin_name = [] first_pinyin = [] for i in df['姓名']: result = pypinyin.pinyin(i, style=pypinyin.NORMAL) result_ = [i[0] for i in result] result2 = result_[0].capitalize() + ' ' + ''.join(result_[1:]).capitalize() result3 = ''.join([i[0].upper() for i in result_]) print(result2, i, sep=' ') pinyin_name.append(result2) first_pinyin.append(result3) df['英文名'] = pinyin_name df['拼音首字母'] = first_pinyin df.head()

或者是转换为拼音首字母,运行结果如下:

文章分享自微信公众号:

本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!

原始发表时间:2020-12-09

如有侵权,请联系 删除。

汉字拼音转换工具(Python 版)

将汉字转为拼音。可以用于汉字注音、排序、检索(Russian translation) 。

最初版本的代码参考了 hotoo/pinyin 的实现。

  • Documentation: //pypinyin.rtfd.io/
  • GitHub: //github.com/mozillazg/python-pinyin
  • License: MIT license
  • PyPI: //pypi.org/project/pypinyin
  • Python version: 2.7, pypy, pypy3, 3.4, 3.5, 3.6, 3.7, 3.8, 3.9, 3.10

特性

  • 根据词组智能匹配最正确的拼音。
  • 支持多音字。
  • 简单的繁体支持,注音支持,威妥玛拼音支持。
  • 支持多种不同拼音/注音风格。

安装

使用示例

Python 3(Python 2 下把 '中心' 替换为 u'中心' 即可):

>>> from pypinyin import pinyin, lazy_pinyin, Style >>> pinyin('中心') # or pinyin(['中心']),参数值为列表时表示输入的是已分词后的数据 [['zhōng'], ['xīn']] >>> pinyin('中心', heteronym=True) # 启用多音字模式 [['zhōng', 'zhòng'], ['xīn']] >>> pinyin('中心', style=Style.FIRST_LETTER) # 设置拼音风格 [['z'], ['x']] >>> pinyin('中心', style=Style.TONE2, heteronym=True) [['zho1ng', 'zho4ng'], ['xi1n']] >>> pinyin('中心', style=Style.TONE3, heteronym=True) [['zhong1', 'zhong4'], ['xin1']] >>> pinyin('中心', style=Style.BOPOMOFO) # 注音风格 [['ㄓㄨㄥ'], ['ㄒㄧㄣ']] >>> lazy_pinyin('威妥玛拼音', style=Style.WADEGILES) ['wei', "t'o", 'ma', "p'in", 'yin'] >>> lazy_pinyin('中心') # 不考虑多音字的情况 ['zhong', 'xin'] >>> lazy_pinyin('战略', v_to_u=True) # 不使用 v 表示 ü ['zhan', 'lüe'] # 使用 5 标识轻声 >>> lazy_pinyin('衣裳', style=Style.TONE3, neutral_tone_with_five=True) ['yi1', 'shang5'] # 变调 nǐ hǎo -> ní hǎo >>> lazy_pinyin('你好', style=Style.TONE2, tone_sandhi=True) ['ni2', 'ha3o']

注意事项

  • 默认情况下拼音结果不会标明哪个韵母是轻声,轻声的韵母没有声调或数字标识(可以通过参数 neutral_tone_with_five=True 开启使用 5 标识轻声 )。
  • 默认情况下无声调相关拼音风格下的结果会使用 v 表示 ü (可以通过参数 v_to_u=True 开启使用 ü 代替 v )。
  • 默认情况下会原样输出没有拼音的字符(自定义处理没有拼音的字符的方法见 文档 )。

命令行工具:

$ pypinyin 音乐 yīn yuè $ pypinyin -h

文档

详细文档请访问://pypinyin.rtfd.io/ 。

项目代码开发方面的问题可以看看 开发文档 。

FAQ

拼音有误?

可以通过下面的方法提高拼音准确性:

  • 可以通过自定义词组拼音库或者单字拼音库的方式修正拼音结果, 详见 文档 。

>> from pypinyin import load_phrases_dict, load_single_dict >> load_phrases_dict({'桔子': [['jú'], ['zǐ']]}) # 增加 "桔子" 词组 >> load_single_dict({ord('还'): 'hái,huán'}) # 调整 "还" 字的拼音顺序或覆盖默认拼音

  • 也可以使用 pypinyin-dict 项目提供的自定义拼音库来纠正结果。

# 使用 phrase-pinyin-data 项目中 cc_cedict.txt 文件中的拼音数据优化结果 >>> from pypinyin_dict.phrase_pinyin_data import cc_cedict >>> cc_cedict.load() # 使用 pinyin-data 项目中 cc_cedict.txt 文件中的拼音数据优化结果 >>> from pypinyin_dict.pinyin_data import kxhc1983 >>> kxhc1983.load()

  • 如果是分词导致的拼音有误的话,可以先使用其他的分词模块对数据进行分词处理, 然后将分词后的词组结果列表作为函数的参数即可:

>>> # 使用其他分词模块分词,比如 jieba 之类, >>> #或者基于 phrases_dict.py 里的词语数据使用其他分词算法分词 >>> words = list(jieba.cut('每股24.67美元的确定性协议')) >>> pinyin(words)

  • 如果你希望能通过训练模型的方式提高拼音准确性的话,可以看一下 pypinyin-g2pW 这个项目。

为什么没有 y, w, yu 几个声母?

>>> from pypinyin import Style, pinyin >>> pinyin('下雨天', style=Style.INITIALS) [['x'], [''], ['t']]

因为根据 《汉语拼音方案》 , y,w,ü (yu) 都不是声母。

声母风格(INITIALS)下,“雨”、“我”、“圆”等汉字返回空字符串,因为根据 《汉语拼音方案》 , y,w,ü (yu) 都不是声母,在某些特定韵母无声母时,才加上 y 或 w,而 ü 也有其特定规则。 —— @hotoo

如果你觉得这个给你带来了麻烦,那么也请小心一些无声母的汉字(如“啊”、“饿”、“按”、“昂”等)。 这时候你也许需要的是首字母风格(FIRST_LETTER)。 —— @hotoo

参考: hotoo/pinyin#57, #22, #27, #44

如果觉得这个行为不是你想要的,就是想把 y 当成声母的话,可以指定 strict=False , 这个可能会符合你的预期:

>>> from pypinyin import Style, pinyin >>> pinyin('下雨天', style=Style.INITIALS) [['x'], [''], ['t']] >>> pinyin('下雨天', style=Style.INITIALS, strict=False) [['x'], ['y'], ['t']]

详见 strict 参数的影响 。

如何将某一风格的拼音转换为其他风格的拼音

可以通过 pypinyin.contrib.tone_convert 模块对标准拼音进行转换,得到不同风格的拼音。 比如将 zhōng 转换为 zhong,或者获取拼音中的声母或韵母数据:

>>> from pypinyin.contrib.tone_convert import to_normal, to_tone, to_initials, to_finals >>> to_normal('zhōng') 'zhong' >>> to_tone('zhong1') 'zhōng' >>> to_initials('zhōng') 'zh' >>> to_finals('zhōng') 'ong'

更多拼音转换的辅助函数,详见 pypinyin.contrib.tone_convert 模块的 文档 。

如何减少内存占用

如果对拼音的准确性不是特别在意的话,可以通过设置环境变量 PYPINYIN_NO_PHRASES 和 PYPINYIN_NO_DICT_COPY 来节省内存。 详见 文档

更多 FAQ 详见文档中的 FAQ 部分。

拼音数据

  • 单个汉字的拼音使用 pinyin-data 的数据
  • 词组的拼音使用 phrase-pinyin-data 的数据
  • 声母和韵母使用 《汉语拼音方案》 的数据

Related Projects

  • hotoo/pinyin: 汉字拼音转换工具 Node.js/JavaScript 版。
  • mozillazg/go-pinyin: 汉字拼音转换工具 Go 版。
  • mozillazg/rust-pinyin: 汉字拼音转换工具 Rust 版。

Toplist

最新的帖子

標籤