用Java排序阿拉伯语单词

我有一份阿拉伯语单词列表，我想对其进行排序。我已尝试使用不同语言环境的标准Collator（如英语或法语但没有太多希望），我甚至创建了自己的RuleBasedCollator但无济于事。显然，默认排序依赖于unicode值顺序，在许多情况下，这种顺序有效，但显然不在这一顺序中。

遵循javadocs的说明，RuleBasedCollator需要一个字符串，按照您希望它们排序的顺序指定字符。我使用此表中的unicode代码创建了以下字符串：

String arabicLetters = "< \u0623=\uFE83=\uFE84 < \u0628=\uFE8F=\uFE90=\uFE92=\uFE91 < \u062A=\uFE95=\uFE96=\uFE98=\uFE97 < \u062B=\uFE99=\uFE9A=\uFE9C=\uFE9B < \u062C=\uFE9D=\uFE9E=\uFEA0=\uFE9F < \u062D=\uFEA1=\uFEA2=\uFEA4=\uFEA3 < \u062E=\uFEA5=\uFEA6=\uFEA8=\uFEA7 < \u062F=\uFEA9=\uFEAA < \u0630=\uFEAB=\uFEAC < \u0631=\uFEAD=\uFEAE < \u0632=\uFEAF=\uFEB0 < \u0633=\uFEB1=\uFEB2=\uFEB4=\uFEB3 < \u0634=\uFEB5=\uFEB6=\uFEB8=\uFEB7 < \u0635=\uFEB9=\uFEBA=\uFEBC=\uFEBB < \u0636=\uFEBD=\uFEBE=\uFEC0=\uFEBF < \u0637=\uFEC1=\uFEC2=\uFEC4=\uFEC3 < \u0638=\uFEC5=\uFEC6=\uFEC8=\uFEC7 < \u0639=\uFEC9=\uFECA=\uFECC=\uFECB < \u063A=\uFECD=\uFECE=\uFED0=\uFECF < \u0641=\uFED1=\uFED2=\uFED4=\uFED3 < \u0642=\uFED5=\uFED6=\uFED8=\uFED7 < \u0643=\uFED9=\uFEDA=\uFEDC=\uFEDB < \u0644=\uFEDD=\uFEDE=\uFED0=\uFEDF < \u0645=\uFEE1=\uFEE2=\uFEE4=\uFEE3 < \u0646=\uFEE5=\uFEE6=\uFEE8=\uFEE7 < \u0647=\uFEE9=\uFEEA=\uFEEC=\uFEEB < \u0648=\uFEED=\uFEEE < \u064A=\uFEF1=\uFEF2=\uFEF4=\uFEF3 < \u0622=\uFE81=\uFE82 < \u0629=\uFE93=\uFE94 < \u0649=\uFEEF=\uFEF0 < \u0627";

阿拉伯字母可以采用四种forms，具体取决于它们在单词中的位置。因此，我在上面的规则字符串中所做的就是使每个字母的所有4种forms相等。然后我指出用'<'分隔它们的字母的顺序。我想这是正确的方法。

现在，如果我有一个星期几的集合（在这种情况下按星期几排序，而不是按字母顺序排序）：

 الأَحَد, الاِثنَين, الثُّلاثاء, الأَربِعاء, الخَميس, الجُمعة,السَّبت

我得到的结果根本没有排序：

 الأَحَد, الخَميس, الاِثنَين, الثُّلاثاء, الأَربِعاء, السَّبت, الجُمعة

此外，对于如此少量的单词，需要相当长的时间才能使其无法使用。

有人知道我做错了什么，或者是否有一个救生库已经处理过这个问题？

在写这篇文章之前我做了一些谷歌搜索，我很惊讶我没有找到一个结果。

谢谢！

更新代码：

 public static class TranslatableComparator implements java.util.Comparator { @Override public int compare(Translatable t1, Translatable t2) { String sortingRules = "< \u0623=\uFE83=\uFE84 < \u0628=\uFE8F=\uFE90=\uFE92=\uFE91 < \u062A=\uFE95=\uFE96=\uFE98=\uFE97 < \u062B=\uFE99=\uFE9A=\uFE9C=\uFE9B < \u062C=\uFE9D=\uFE9E=\uFEA0=\uFE9F < \u062D=\uFEA1=\uFEA2=\uFEA4=\uFEA3 < \u062E=\uFEA5=\uFEA6=\uFEA8=\uFEA7 < \u062F=\uFEA9=\uFEAA < \u0630=\uFEAB=\uFEAC < \u0631=\uFEAD=\uFEAE < \u0632=\uFEAF=\uFEB0 < \u0633=\uFEB1=\uFEB2=\uFEB4=\uFEB3 < \u0634=\uFEB5=\uFEB6=\uFEB8=\uFEB7 < \u0635=\uFEB9=\uFEBA=\uFEBC=\uFEBB < \u0636=\uFEBD=\uFEBE=\uFEC0=\uFEBF < \u0637=\uFEC1=\uFEC2=\uFEC4=\uFEC3 < \u0638=\uFEC5=\uFEC6=\uFEC8=\uFEC7 < \u0639=\uFEC9=\uFECA=\uFECC=\uFECB < \u063A=\uFECD=\uFECE=\uFED0=\uFECF < \u0641=\uFED1=\uFED2=\uFED4=\uFED3 < \u0642=\uFED5=\uFED6=\uFED8=\uFED7 < \u0643=\uFED9=\uFEDA=\uFEDC=\uFEDB < \u0644=\uFEDD=\uFEDE=\uFED0=\uFEDF < \u0645=\uFEE1=\uFEE2=\uFEE4=\uFEE3 < \u0646=\uFEE5=\uFEE6=\uFEE8=\uFEE7 < \u0647=\uFEE9=\uFEEA=\uFEEC=\uFEEB < \u0648=\uFEED=\uFEEE < \u064A=\uFEF1=\uFEF2=\uFEF4=\uFEF3 < \u0622=\uFE81=\uFE82 < \u0629=\uFE93=\uFE94 < \u0649=\uFEEF=\uFEF0 < \u0627"; RuleBasedCollator col = null; try { col = new RuleBasedCollator(sortingRules); } catch (ParseException e) { //col = (RuleBasedCollator)RuleBasedCollator.getInstance(Locale.FRENCH); } return col.getCollationKey(t1.getTranslation().getText()).compareTo(col.getCollationKey(t2.getTranslation().getText())); } }

您无需定义自己的拼贴器，只需使用内置的拼贴器即可。然后你的Comparator看起来像这样

 public int compare(Translatable t1, Translatable t2) { Collator.getInstance(new Locale("ar")).compare(t1.getTranslation().getText(), t2.getTranslation().getText()); }

（您可以通过浏览Collator.getAvailableLocales()的结果来检查collator是否可用于阿拉伯语。）

如评论中所述，如果您担心性能，则应计算校对键，将它们存储在Translatable对象中，然后对它们进行排序。

如果您真的想知道您定义的内容与标准整理器之间的差异，请打印出规则：

 System.out.println((RuleBasedCollator) Collator.getInstance(new Locale("ar"))).getRules();

用Java排序阿拉伯语单词

如果Java中的reflection减慢了命令的执行速度，为什么这么多框架会使用它呢？

在java 中每2秒重复一次动作

在Java中获取k个最小（或最大）数组元素的最快方法是什么？

如果在JFrame之外，ToolTip会在Java中闪烁吗？

这个位操作在Java中如何工作？

你如何取代Maven依赖的类？

遍历DOM树以获取（名称，值）属性对和叶节点对

java SWT透明复合背景

使用JProgressBar运行JFrame

如何使用java配置在spring中配置waffle