Tag: character properties

Java正则表达式中的POSIX字符等价物

我想在Java中使用这样的正则表达式: [[=a=][=e=][=i=]] 。 但Java不支持POSIX类[=a=], [=e=] etc 。 我怎样才能做到这一点? 更确切地说,有没有办法不使用US-ASCII?

使用Java regexp匹配(例如)Unicode字母

StackOverflow上有许多问题和答案,假设“字母”可以在[a-zA-Z]的正则表达式中匹配。 然而,对于Unicode,还有更多的字符,大多数人会认为是一个字母(所有的希腊字母,Cyrllic ..还有更多.Unicode定义了许多块,每个块可能有“字母”。 Java定义为像alpha字符这样的东西定义了Posix类 ,但是它被指定为仅使用US-ASCII。 预定义的字符类定义由[a-zA-Z_0-9]组成的单词,它也排除了许多字母。 那么如何正确匹配Unicode字符串呢? 有没有其他图书馆能够做到这一点?

替换Unicode控制字符

我需要在Java中替换字符串中的所有特殊控制字符。 我想问谷歌地图API v3,谷歌似乎并不喜欢这些字符。 示例: http : //www.google.com/maps/api/geocode/json?sendor = false&address = NEWS%20YO​​RK%C2%8F 此URL包含以下字符: http : //www.fileformat.info/info/unicode/char/008f/index.htm 所以我收到了一些数据,我需要对这些数据进行地理编码。 我知道有些角色不会通过地理编码,但我不知道确切的列表。 我无法找到有关此问题的任何文档,因此我认为Google不喜欢的字符列表就是这个: http : //www.fileformat.info/info/unicode/category/Cc/list.htm 是否有任何已构建的函数来摆脱这些字符,或者我必须构建一个新的,逐个替换? 还是有一个很好的正则表达式完成工作? 有人知道谷歌不喜欢哪个角色列表? 编辑:Google为此创建了一个网页: https://developers.google.com/maps/documentation/webservices/?hl=fr#BuildingURLs