Python处理unicode字符的方法详解

2023-08-11 09:45:11 作者：微小冷

这篇文章主要介绍了Python处理unicode字符的方法详解,unicodedata中定义了所有Unicode字符的字符属性，主要包含两个功能，其一是根据名字查找字符；其二是给定字符查找其对应的信息,需要的朋友可以参考下

编码与查找

unicodedata 中定义了所有 Unicode 字符的字符属性，主要包含两个功能，其一是根据名字查找字符；其二是给定字符查找其对应的信息。

前者有一个函数

后者由四个函数，形参均为 chr[, default] ，其中 char 未待查找字符， default 为找到的字符未定义输出值时的默认输出

上面这些函数，如果没找到，则报 ValueError 错误，示例如下

>>> unicodedata.name('1')
'DIGIT ONE'
>>> unicodedata.decimal('1')
1
>>> unicodedata.digit('1')
1
>>> unicodedata.numeric('1')
1.0

unicode 字符总共分为下面这些类别，通过调用 category(chr) 可以查看字符 chr 所属的unicode分类。

unicode 收集了几乎人类历史上出现的所有符号，所以字符数目相当多。其中，汉字属于 Lo 。

下面实践一下

>>> unicodedata.category('A')
'Lu'
>>> unicodedata.category('a')
'Ll'
>>> unicodedata.category('啊')
'Lo'
>>> unicodedata.category('∭')
'Sm'

由于不同文字的书写顺序是不同的，所以字符的应用场景会受到文字的影响。有一些字符具有较强的方向感，比如英语字母从左向右，而阿拉伯字母则是从右向左的。

bidirectional 可以查询字符文字的方向，

>>> unicodedata.bidirectional('>')
'ON'
>>> unicodedata.bidirectional('\u06A0')
'AL'
>>> unicodedata.bidirectional('啊')
'L'

到此这篇关于Python处理unicode字符的方法详解的文章就介绍到这了,更多相关Python处理unicode内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！