转载

发表于 2018年04月15日
浏览 (1,056)
评论 (0)

正则表达式中匹配 Unicode 的常用类别和命名块

大概两年前，在 Golang正则表达式使用及简单示例中提到了在正则表达式中使用 /p{Lu} 来匹配Unicode 类别或 Unicode 块：

package main
 
import (
    "regexp"
 
    "fmt"
)
 
func foo(i int) *int {
    a := i + 1
    return &(a)
}
 
func main() {
    reg := regexp.MustCompile(`/p{Lu}`)
    fmt.Println(reg.MatchString("A"))
}

但是，在日常使用的时候经常不知道自己要匹配的那个 Unicode 字符属于拿一个类别。于是翻了一下 Golang 所遵循的 RE2 列别表。把一些常用的类别和命名块列举如下：

常用 Unicode 常规类别

类别	描述
Ll	小写字母
Lu	大写字母
Lt	首字母大写字母
Lo	其他字母（注音字母、表意文字等）
L	字母，== Lu \| Ll \| Lt \| Lm \| Lo
Sm	数学符号
Sc	货币符号

比较遗憾的是，目前还没有专门的 Emoji 类别。因此，目前如果你想匹配 Emoji 表情的话，还是需要写 Unicode 范围表达式，诸如 [/x{1F600}-/x{1F6FF}|[/x{2600}-/x{26FF}] ，来匹配表情符号。

常用 Unicode 命名块

名称	描述
Greek	希腊语
Han	汉语
Tibetan	藏语
Thai	泰语
Latin	拉丁语
Hebrew	希伯来语

扩展阅读

Unicode 常规类别
Unicode 命名块
Unicode General Category Values

原文 https://liudanking.com/design-pattern/正则表达式中匹配-unicode-的常用类别和命名块/

正文到此结束

所属分类：编程技术

本文标签： 正则表达式 cat https http tab value
版权声明： 本文为互联网转载文章，出处已在文章中说明(部分除外)。如果侵权，请联系本站长删除，谢谢。
本文海报： 生成海报一生成海报二

热门推荐

配置虚拟站点

浏览(10,016) 评论(20)
修改上传文件权限

浏览(11,451) 评论(18)
VPS 自我监控

浏览(10,240) 评论(23)
OpenVZ VPS 额外支持

浏览(10,313) 评论(17)
openfire数据库安装指南

浏览(19,811) 评论(0)
openfire协议支持指南

浏览(9,250) 评论(18)
openfire定制指南

浏览(11,365) 评论(17)
Caffe 深度学习框架上手教程

浏览(15,555) 评论(0)
ReactiveCocoa入门教程：第一部分

浏览(16,358) 评论(0)
开源HIDS-OSSEC使用实例:监测CC攻击

浏览(16,203) 评论(0)

相关文章

阿里云首购8折

Loading...

其他链接

关于本站

本站定位：个人技术类博客

本站作用：写博客、记日志、闲聊扯淡鼓捣技术。

问题交流

[HBLOG]公众号

HBLOG

HBLOG