代码之家 › 专栏 › 技术社区 › bsteo

Python re.sub(),带有Unicode表达式词典[重复]

unicode regex python

-2

bsteo · 技术社区 · 2 年前

我有以下Unicode叙利亚文文本:

1 ÜÜ°ÜÜ¼ ÜÜ¶ÜÜ¢ ÜÜ¶Ü¬Ü¼ÜºÜÜ Ü¶ÜÜ¼ ÜÜ¶Ü«Ü½ÜÜ¥ ÜÜÜ¼Ü¶ÜÜ¬Ü¼ Ü ÜÜ¶Ü¡ ÜÜºÜÜÜ½ÜÜÜ¼Ü³ÜÜ ÜÜÜ°ÜÜ¡Ü°ÜÌ ÜÜ¶ÜªÜ³ÜÜÜ¼Ü¶Ü£ Ü¡Ü°Ü ÜÜ¿Ü³ÜÜ ÜÜ¶Ü¬Ü¼Ü°Ü Ü¡ÜÜ¼Ü½ÜÜ«Ü¶ÜÌ Ü¡Ü¶Ü¢ Ü¡Ü°ÜÜ¼Ü¢ÜÜ³Ü Ü Ü½ÜÜÜªÜºÜ«Ü Ü¶Ü¡Ü
2 ÜÜ³ÜÜ¡ÜªÜºÜÜ¢Ü ÜÜ°ÜÜÜ¿Ü°Ü Ü¡Ü°Ü ÜÜ¿Ü³Ü ÜÜºÜÜÜ½ÜÜÜ¼Ü³ÜÜ¶ÜÌ ÜÜ¶ÜÜ¬Ü¼ÜºÜÜ Ü¶ÜÜ¼Ü ÜÜÜ°ÜÜ¢ ÜÜ¶ÜÜª ÜÜ°ÜÜÜ¿ÜÜ¼Ü¶Ü ÜÜ¡Ü°ÜÜ¼Ü¢ÜÜ³ÜÜ ÜÜ¶ÜÜ¬Ü¼Ü°ÜÜ¢ Ü Ü¡Ü¶Ü£ÜÜ¿Ü°ÜÜ¼ Ü Ü¶ÜÜ
3 Ü«Ü¡Ü°Ü¥ ÜÜ¶ÜÜ¢ ÜÜ¶ÜªÜ³ÜÜÜ¼Ü¶Ü£ Ü¡Ü°Ü ÜÜ¿Ü³ÜÜ ÜÜ¶ÜÜ¬Ü¿Ü¬Ü¿ÜÜºÜÜ¥Ü ÜÜÜ¼Ü½Ü Ü³Ü ÜÜ½ÜÜªÜºÜ«Ü Ü¶Ü¡ Ü¥Ü°Ü¡Ü¶ÜÜ
4 ÜÜÜ¼Ü°Ü¢Ü¶Ü« ÜÜ½Ü ÜÜ½ÜÜ¢ ÜªÌÜ°ÜÜ°Ü ÜÜ³ÜÜ¢Ü¶ÜÌ ÜÜ£Ü³Ü¦Ü¼ÜªÌÜ¶Ü ÜÜ¥Ü°Ü¡Ü³ÜÜ ÜÜ°Ü¡Ü«Ü°ÜÜ¶Ü  ÜÌ±ÜÜ³Ü Ü ÜÜ½ÜÜ¢Ü ÜÜ°ÜÜÜÜ¿Ü³Ü Ü¡Ü¶Ü¬Ü¼ÜºÜÜ Ü¶ÜÜ¼ Ü¡Ü«ÜºÜÜÜ³ÜÜ
5 ÜÜ¶Ü¢Ü½ÜÜ¢ ÜÜ¶ÜÜ¢ ÜÜ¶Ü¡Ü°ÜªÜÜ ÜÜÜ¼Ü¶ÜÜ¬Ü¼ Ü ÜÜ¶Ü¡ ÜÜºÜÜÜ½ÜÜÜ¼Ü³ÜÜ ÜÜ³ÜÜ¼Ü°Ü¢Ü³Ü ÜÜ¶ÜÜª ÜÜ¬Ü¼ÜºÜÜÜ¼ ÜÜ°Ü¢ÜÜ¼ÜºÜÜ³ÜÜ
6 ÜÜ³Ü¦Ü¼ ÜÜ°Ü¢Ì±Ü¬Ü¿Ü ÜÜ¶ÜÜ¬Ü¼ Ü ÜÜ¶Ü¡ ÜÜºÜÜÜ½ÜÜÜ¼Ü³ÜÜ Ü Ü³Ü ÜÜÜ°ÜÜ¬Ü¿Ü ÜÜ¨ÜºÜÜªÜ³Ü ÜÜ¡Ü°Ü ÜÜ¿Ü¶ÜÌ ÜÜºÜÜÜ½ÜÜÜ¼Ü³ÜÜ Ü¡Ü¶Ü¢Ü¶ÜÜ¼Ü ÜÜ¶ÜÜª Ü¢Ü¶Ü¦Ü½ÜÜ© Ü¡Ü°Ü ÜÜ¿Ü³ÜÜ ÜÜÜ½Ü Ü¢Ü¶ÜªÜ¥Ü¶ÜÜÜÌ±Ü Ü Ü¥Ü°Ü¡Ü ÜÜºÜÜ£ÜªÜ³ÜÜÜ¶Ü Ü
7 ÜÜ³ÜÜÜ¶ÜÜ¢ ÜÜ¶ÜªÜ³ÜÜÜ¼Ü¶Ü£ Ü¡Ü°ÜÜ«ÜÜ³ÜÜºÜÜ¬Ü¼ Ü©ÜªÜ³Ü Ü Ü°Ü¡ÜÜ¼Ü½ÜÜ«Ü¶ÜÌÜ ÜÜºÜÜ Ü¶Ü¦Ü¼ Ü¡Ü¶Ü¢ÜÜ½ÜÜ¢ ÜÜ°ÜÜÜ¢Ü³Ü ÜÜ°ÜÜ¼Ü¢Ü³Ü ÜÜ¶Ü¬Ü¼ÜÜÜºÜ Ü ÜÜ½ÜÜ¢ ÜÜ°ÜÜÜ¿ÜÜ¼Ü³ÜÜ
8 ÜÜ«Ü°ÜÜ¿Ü°Üª ÜÜ¶Ü¢Ü½ÜÜ¢ Ü ÜÜ¼Ü¶ÜÜ¬Ü¼ Ü ÜÜ¶Ü¡Ü ÜÜ¶ÜÜ¡Ü°Üª Ü ÜÜ½ÜÜ¢Ü ÜÜ¶Ü Ü Ü¥Ü°Ü©Ü¶ÜÜ¼ÜÜ Ü¥Ü°Ü  ÜÜ°Ü ÜÜ³ÜÜ ÜÜ¦Ü¼ÜºÜÜÜ³ÜÜºÜÜ¬Ü¼Ü ÜÜ¡Ü³Ü ÜÜ¶ÜÜ«ÜÜ¿Ü°ÜÜ¬Ü¿Ü½ÜÜ¢Ü³ÜÜÌ±ÜÜ Ü¬Ü°Ü ÜÜ°ÜÜ°ÜÜÜ½Ü¢ÜÜ ÜÜ³ÜÜ¦Ü¼ ÜÜ¶Ü¢Ü³Ü ÜÜºÜÜ°Ü  ÜÜ¶Ü£ÜÜ¿Ü½ÜÜÜ¼ Ü Ü¶ÜÜ
9 ÜÜ¶Ü¢Ü½ÜÜ¢ ÜÜ¶ÜÜ¢ ÜÜ°ÜÜ¼ Ü«Ü¡Ü°Ü¥Ü Ü¡Ü¶Ü¢ Ü¡Ü°Ü ÜÜ¿Ü³Ü ÜÜ¶ÜÜ°Ü ÜÜ ÜÜÜ³Ü ÜÜ°ÜÜÜ¿ÜÜ¼Ü³Ü ÜÜ°Ü ÜÜ°ÜÜÜ°Ü ÜÜ¡Ü°ÜÜ¼Ü¢ÜÜ³Ü ÜÜ³ÜÜ¶Ü  ÜÌ±ÜÜ³Ü Ü©ÜÜ¼Ü³Ü¡Ü°ÜÜÜ½ÜÜ¢Ü Ü¥ÜÜ¼Ü°Ü¡Ü³Ü ÜÜ¶ÜÜ¬Ü¼Ü³Ü Ü©Ü³Ü¡ Ü Ü¥Ü¶Ü  Ü¡Ü¶Ü¢ ÜÜ°ÜÜÜ¿Ü³Ü ÜÜºÜÜÜ¬Ü¼Ü°ÜÜÌ±Ü ÜÜ°Ü ÜÜ³ÜÜ

我想要这样的东西:

1 ÜÝÜ°ÜÝ ÜÝÜ¶ÜÜ¢ ÜÜ¶Ü¬ÝÜºÜÜ Ü¶ÜÝ ÜÜ¶Ü«Ü½ÜÜ¥ ÜÝÜÝÜ¶ÜÜ¬Ý Ü ÜÜ¶Ü¡ ÜÝÜºÜÜÜ½ÜÜÝÜ³ÜÜ ÜÝÜÜ°ÜÜ¡Ü°ÜÌ ÜÜ¶ÜªÜ³ÜÜÝÜ¶Ü£ Ü¡Ü°Ü ÜÝÜ³ÜÜ ÜÜ¶Ü¬ÝÜ°Ü Ü¡ÜÝÜ½ÜÜ«Ü¶ÜÌ Ü¡Ü¶Ü¢ Ü¡Ü°ÜÝÜ¢ÜÜ³Ü Ü Ü½ÜÜÜªÜºÜ«Ü Ü¶Ü¡Ü
2 ÜÜ³ÜÜ¡ÜªÜºÜÜ¢Ü ÜÜ°ÜÜÝÜ°Ü Ü¡Ü°Ü ÜÝÜ³Ü ÜÝÜºÜÜÜ½ÜÜÝÜ³ÜÜ³ÜÌ ÜÝÜ¶ÜÜ¬ÝÜºÜÜ Ü¶ÜÝÜ ÜÜÜ°ÜÜ¢ ÜÝÜ¶ÜÜª ÜÝÜ°ÜÜÝÜÝÜ¶Ü ÜÝÜ¡Ü°ÜÝÜ¢ÜÜ³ÜÜ ÜÜ¶ÜÜ¬ÝÜ°ÜÜ¢ Ü Ü¡Ü¶Ü£ÜÝÜ°ÜÝ Ü Ü¶ÜÜ
3 Ü«Ü¡Ü°Ü¥ ÜÝÜ¶ÜÜ¢ ÜÜ¶ÜªÜ³ÜÜÝÜ¶Ü£ Ü¡Ü°Ü ÜÝÜ³ÜÜ ÜÜ¶ÜÜ¬ÝÜ¬ÝÜÜºÜÜ¥Ü ÜÜÝÜ½Ü Ü³Ü ÜÜ½ÜÜªÜºÜ«Ü Ü¶Ü¡ Ü¥Ü°Ü¡Ü¶ÜÜ
4 ÜÜÝÜ°Ü¢Ü¶Ü« ÜÝÜ½Ü ÜÜ½ÜÜ¢ ÜªÌÜ°ÜÜ°Ü ÜÝÜ³ÜÜ¢Ü¶ÜÌ ÜÜ£Ü³Ü¦ÝÜªÌÜ³Ü ÜÝÜ¥Ü°Ü¡Ü³ÜÜ ÜÜ°Ü¡Ü«Ü°ÜÜ¶Ü  ÜÌ±ÜÜ³Ü Ü ÜÜ½ÜÜ¢Ü ÜÝÜ°ÜÜÜÝÜ³Ü Ü¡Ü¶Ü¬ÝÜºÜÜ Ü¶ÜÝ Ü¡Ü«ÜºÜÜÜ³ÜÜ
5 ÜÜ¶Ü¢Ü½ÜÜ¢ ÜÝÜ¶ÜÜ¢ ÜÜ¶Ü¡Ü°ÜªÜÜ ÜÝÜÝÜ¶ÜÜ¬Ý Ü ÜÜ¶Ü¡ ÜÝÜºÜÜÜ½ÜÜÝÜ³ÜÜ ÜÜ³ÜÝÜ°Ü¢Ü³Ü ÜÝÜ¶ÜÜª ÜÝÜ¬ÝÜºÜÜÝ ÜÝÜ°Ü¢ÜÝÜºÜÜ³ÜÜ
6 ÜÜ³Ü¦Ý ÜÜ°Ü¢Ì±Ü¬ÝÜ ÜÝÜ¶ÜÜ¬Ý Ü ÜÜ¶Ü¡ ÜÝÜºÜÜÜ½ÜÜÝÜ³ÜÜ Ü Ü³Ü ÜÜÜ°ÜÜ¬ÝÜ ÜÝÜ¨ÜºÜÜªÜ³Ü ÜÝÜ¡Ü°Ü ÜÝÜ³ÜÌ ÜÝÜºÜÜÜ½ÜÜÝÜ³ÜÜ Ü¡Ü¶Ü¢Ü¶ÜÝÜ ÜÝÜ¶ÜÜª Ü¢Ü¶Ü¦Ü½ÜÜ© Ü¡Ü°Ü ÜÝÜ³ÜÜ ÜÝÜÜ½Ü Ü¢Ü¶ÜªÜ¥Ü¶ÜÜÜÌ±Ü Ü Ü¥Ü°Ü¡Ü ÜÜºÜÜ£ÜªÜ³ÜÜÜ¶Ü Ü
7 ÜÜ³ÜÜÜ¶ÜÜ¢ ÜÜ¶ÜªÜ³ÜÜÝÜ¶Ü£ Ü¡Ü°ÜÜ«ÜÜ³ÜÜºÜÜ¬Ý Ü©ÜªÜ³Ü Ü Ü°Ü¡ÜÝÜ½ÜÜ«Ü¶ÜÌÜ ÜÜºÜÜ Ü¶Ü¦Ý Ü¡Ü¶Ü¢ÜÜ½ÜÜ¢ ÜÝÜ°ÜÜÜ¢Ü³Ü ÜÜ°ÜÝÜ¢Ü³Ü ÜÜ¶Ü¬ÝÜÜÜºÜ Ü ÜÜ½ÜÜ¢ ÜÝÜ°ÜÜÝÜÝÜ³ÜÜ
8 ÜÜ«Ü°ÜÝÜ°Üª ÜÜ¶Ü¢Ü½ÜÜ¢ Ü ÜÝÜ¶ÜÜ¬Ý Ü ÜÜ¶Ü¡Ü ÜÜ¶ÜÜ¡Ü°Üª Ü ÜÜ½ÜÜ¢Ü ÜÜ¶Ü Ü Ü¥Ü°Ü©Ü¶ÜÝÜÜ Ü¥Ü°Ü  ÜÜ°Ü ÜÜ³ÜÜ ÜÜ¦ÝÜºÜÜÜ³ÜÜºÜÜ¬ÝÜ ÜÜ¡Ü³Ü ÜÝÜ¶ÜÜ«ÜÝÜ°ÜÜ¬ÝÜ½ÜÜ¢Ü³ÜÜÌ±ÜÜ Ü¬ÝÜ°Ü ÜÜ°ÜÜ°ÜÜÜ½Ü¢ÜÜ ÜÝÜ³ÜÜ¦Ý ÜÜ¶Ü¢Ü³Ü ÜÜºÜÜ°Ü  ÜÜ¶Ü£ÜÝÜ½ÜÜÝ Ü Ü¶ÜÜ
9 ÜÜ¶Ü¢Ü½ÜÜ¢ ÜÝÜ¶ÜÜ¢ ÜÝÜ°ÜÝ Ü«Ü¡Ü°Ü¥Ü Ü¡Ü¶Ü¢ Ü¡Ü°Ü ÜÝÜ³Ü ÜÜ¶ÜÜ°Ü ÜÜ ÜÜÜ³Ü ÜÝÜ°ÜÜÝÜÝÜ³Ü ÜÜ°Ü ÜÝÜ°ÜÜÜ°Ü ÜÝÜ¡Ü°ÜÝÜ¢ÜÜ³Ü ÜÜ³ÜÜ¶Ü  ÜÌ±ÜÜ³Ü Ü©ÜÝÜ³Ü¡Ü°ÜÜÜ½ÜÜ¢Ü Ü¥ÜÝÜ°Ü¡Ü³Ü ÜÝÜ¶ÜÜ¬ÝÜ³Ü Ü©Ü³Ü¡ Ü Ü¥Ü¶Ü  Ü¡Ü¶Ü¢ ÜÜ°ÜÜÝÜ³Ü ÜÝÜºÜÜÜ¬ÝÜ°ÜÜÌ±Ü ÜÜ°Ü ÜÜ³ÜÜ
10 ÜÝÜ°ÜÝ ÜÝÜ¶ÜÜ¢ ÜÜÜ°ÜÜÜ½ÜÌ±Ü Ü ÜÝÜ°ÜÜÝÜÝÜ³ÜÜ ÜÜÝÜºÜÜ ÜÜ°ÜÝÜ½ÜÜ¬ÝÜ³Ü ÜªÜ°ÜÝÜ¬ÝÜ³Ü ÜÝÜÜ³ÜÝÜ

基本上随着一些规则的改变 \u073F 到 \u0741 并添加 \u0741 或 \u0742 在文本中没有它们的地方。我取得了一个成功的结果,但字典太长了,有些短语重复,所以我试着用 \1 或 \2 没有执行。

分组的结果(这很糟糕):

1 ÝÜ°Ý ÝÜ¶ÜÜ¢ ÜÜ¶ÝÜºÜÜ Ü¶Ý ÜÜ¶Ü«Ü½ÜÜ¥ ÝÝÜ¶ÜÝ Ü ÜÜ¶Ü¡ ÝÜºÜÜÜ½ÜÝÜ³ÜÜ ÝÜÜ°ÜÜ¡Ü°ÜÌ ÜÜ¶ÜªÜ³ÜÝÜ¶Ü£ Ü¡Ü°Ü ÝÜ³ÜÜ ÜÜ¶ÝÜ°Ü Ü¡ÝÜ½ÜÜ«Ü¶ÜÌ Ü¡Ü¶Ü¢ Ü¡Ü°ÝÜ¢ÜÜ³Ü Ü Ü½ÜÜÜªÜºÜ«Ü Ü¶Ü¡Ü
2 ÜÜ³ÜÜ¡ÜªÜºÜÜ¢Ü ÜÜ°ÜÝÜ°Ü Ü¡Ü°Ü ÝÜ³Ü ÝÜºÜÜÜ½ÜÝÜ³ÜÜ¶ÜÌ ÝÜ¶ÜÝÜºÜÜ Ü¶ÝÜ ÜÜÜ°ÜÜ¢ ÝÜ¶ÜÜª ÝÜ°ÜÝÝÜ¶Ü ÝÜ¡Ü°ÝÜ¢ÜÜ³ÜÜ ÜÜ¶ÜÝÜ°ÜÜ¢ Ü Ü¡Ü¶Ü£ÝÜ°Ý Ü Ü¶ÜÜ
3 Ü«Ü¡Ü°Ü¥ ÝÜ¶ÜÜ¢ ÜÜ¶ÜªÜ³ÜÝÜ¶Ü£ Ü¡Ü°Ü ÝÜ³ÜÜ ÜÜ¶ÜÝÝÜÜºÜÜ¥Ü ÜÝÜ½Ü Ü³Ü ÜÜ½ÜÜªÜºÜ«Ü Ü¶Ü¡ Ü¥Ü°Ü¡Ü¶ÜÜ
4 ÜÝÜ°Ü¢Ü¶Ü« ÝÜ½Ü ÜÜ½ÜÜ¢ ÜªÌÜ°ÜÜ°Ü ÝÜ³ÜÜ¢Ü¶ÜÌ ÜÜ£Ü³ÝÜªÌÜ¶Ü ÝÜ¥Ü°Ü¡Ü³ÜÜ ÜÜ°Ü¡Ü«Ü°ÜÜ¶Ü  ÜÌ±ÜÜ³Ü Ü ÜÜ½ÜÜ¢Ü ÝÜ°ÜÜÝÜ³Ü Ü¡Ü¶ÝÜºÜÜ Ü¶Ý Ü¡Ü«ÜºÜÜÜ³ÜÜ
5 ÜÜ¶Ü¢Ü½ÜÜ¢ ÝÜ¶ÜÜ¢ ÜÜ¶Ü¡Ü°ÜªÜÜ ÝÝÜ¶ÜÝ Ü ÜÜ¶Ü¡ ÝÜºÜÜÜ½ÜÝÜ³ÜÜ ÜÜ³ÝÜ°Ü¢Ü³Ü ÝÜ¶ÜÜª ÝÝÜºÜÝ ÝÜ°Ü¢ÝÜºÜÜ³ÜÜ
6 ÜÜ³Ý ÜÜ°Ü¢Ì±ÝÜ ÝÜ¶ÜÝ Ü ÜÜ¶Ü¡ ÝÜºÜÜÜ½ÜÝÜ³ÜÜ Ü Ü³Ü ÜÜÜ°ÜÝÜ ÝÜ¨ÜºÜÜªÜ³Ü ÝÜ¡Ü°Ü ÝÜ¶ÜÌ ÝÜºÜÜÜ½ÜÝÜ³ÜÜ Ü¡Ü¶Ü¢Ü¶ÝÜ ÝÜ¶ÜÜª Ü¢Ü¶Ü¦Ü½ÜÜ© Ü¡Ü°Ü ÝÜ³ÜÜ ÝÜÜ½Ü Ü¢Ü¶ÜªÜ¥Ü¶ÜÜÜÌ±Ü Ü Ü¥Ü°Ü¡Ü ÜÜºÜÜ£ÜªÜ³ÜÜÜ¶Ü Ü
7 ÜÜ³ÜÜÜ¶ÜÜ¢ ÜÜ¶ÜªÜ³ÜÝÜ¶Ü£ Ü¡Ü°ÜÜ«ÜÜ³ÜÜºÜÝ Ü©ÜªÜ³Ü Ü Ü°Ü¡ÝÜ½ÜÜ«Ü¶ÜÌÜ ÜÜºÜÜ Ü¶Ý Ü¡Ü¶Ü¢ÜÜ½ÜÜ¢ ÝÜ°ÜÜÜ¢Ü³Ü ÜÜ°ÝÜ¢Ü³Ü ÜÜ¶ÝÜÜÜºÜ Ü ÜÜ½ÜÜ¢ ÝÜ°ÜÝÝÜ³ÜÜ
8 ÜÜ«Ü°ÝÜ°Üª ÜÜ¶Ü¢Ü½ÜÜ¢ Ü ÝÜ¶ÜÝ Ü ÜÜ¶Ü¡Ü ÜÜ¶ÜÜ¡Ü°Üª Ü ÜÜ½ÜÜ¢Ü ÜÜ¶Ü Ü Ü¥Ü°Ü©Ü¶ÝÜÜ Ü¥Ü°Ü  ÜÜ°Ü ÜÜ³ÜÜ ÜÝÜºÜÜÜ³ÜÜºÜÝÜ ÜÜ¡Ü³Ü ÝÜ¶ÜÜ«ÝÜ°ÜÝÜ½ÜÜ¢Ü³ÜÜÌ±ÜÜ ÝÜ°Ü ÜÜ°ÜÜ°ÜÜÜ½Ü¢ÜÜ ÝÜ³ÜÝ ÜÜ¶Ü¢Ü³Ü ÜÜºÜÜ°Ü  ÜÜ¶Ü£ÝÜ½ÜÝ Ü Ü¶ÜÜ
9 ÜÜ¶Ü¢Ü½ÜÜ¢ ÝÜ¶ÜÜ¢ ÝÜ°Ý Ü«Ü¡Ü°Ü¥Ü Ü¡Ü¶Ü¢ Ü¡Ü°Ü ÝÜ³Ü ÜÜ¶ÜÜ°Ü ÜÜ ÜÜÜ³Ü ÝÜ°ÜÝÝÜ³Ü ÜÜ°Ü ÝÜ°ÜÜÜ°Ü ÝÜ¡Ü°ÝÜ¢ÜÜ³Ü ÜÜ³ÜÜ¶Ü  ÜÌ±ÜÜ³Ü Ü©ÝÜ³Ü¡Ü°ÜÜÜ½ÜÜ¢Ü Ü¥ÝÜ°Ü¡Ü³Ü ÝÜ¶ÜÝÜ³Ü Ü©Ü³Ü¡ Ü Ü¥Ü¶Ü  Ü¡Ü¶Ü¢ ÜÜ°ÜÝÜ³Ü ÝÜºÜÜÝÜ°ÜÜÌ±Ü ÜÜ°Ü ÜÜ³ÜÜ
10 ÝÜ°Ý ÝÜ¶ÜÜ¢ ÜÜÜ°ÜÜÜ½ÜÌ±Ü Ü ÝÜ°ÜÝÝÜ³ÜÜ ÜÝÜºÜÜ ÜÜ°ÝÜ½ÜÝÜ³Ü ÜªÜ°ÝÝÜ³Ü ÝÜÜ³ÝÜ

我的代码:

#!/usr/bin/env python3
# coding=utf8

import re

syr_unicodes_dict = {
        '([\u0712\u0713\u0715\u071F\u0726\u072C]{1})\u073F': '\1\u0741',
        '([\u0712\u0713\u0715\u071F\u0726\u072C]{1})\u073C': '\1\u0742',
        '^([\u0712\u0713\u0715\u071F\u0726\u072C]{1})': '\1\u0741',
        ' ([\u0712\u0713\u0715\u071F\u0726\u072C]{1})': ' \1\u0741',
        '([\u0730-\u073B]{1}\u0710\u0020[\u0712\u0713\u0715\u071F\u0726\u072C]{1})\u0741': '\1\u0742',
        '([\u073E\u073D]{1}\u0718\u0020[\u0712\u0713\u0715\u071F\u0726\u072C]{1})\u0741': '\1\u0742',
        '([\u0730-\u073B]{1}\u0710\u0308\u0020[\u0712\u0713\u0715\u071F\u0726\u072C]{1})\u0741': '\1\u0742',
        '\u0712\u0742\u0020\u0712\u0741': '\u0712\u0741\u0020\u0712\u0741',
        '\u0713\u0742\u0020\u0713\u0741': '\u0713\u0741\u0020\u0713\u0741',
        '\u0715\u0742\u0020\u0715\u0741': '\u0715\u0741\u0020\u0715\u0741',
        '\u071F\u0742\u0020\u071F\u0741': '\u071F\u0741\u0020\u071F\u0741',
        '\u0726\u0742\u0020\u0726\u0741': '\u0726\u0741\u0020\u0726\u0741',
        '\u072C\u0742\u0020\u072C\u0741': '\u072C\u0741\u0020\u072C\u0741',
        '\u072C\u0742\u0020\u0715\u0741': '\u072C\u0741\u0020\u0715\u0741',
        '\u0715\u0742\u0020\u072C\u0741': '\u0715\u0741\u0020\u072C\u0741',
        '\u0712\u0742\u0020\u0726\u0741': '\u0712\u0741\u0020\u0726\u0741',
        '\u0713\u0742\u0020\u071F\u0741': '\u0713\u0741\u0020\u071F\u0741',
        '\u071F\u0742\u0020\u0713\u0741': '\u071F\u0741\u0020\u0713\u0741',
        '\u0741\u0741': '\u0741',
        '\u0742\u0742': '\u0742'
}

print('length of Syriac_unicodes_dict is ' + str(len(syr_unicodes_dict)))

text_file = open('./matthew.txt', 'r', encoding = 'utf-8')
revised_text_file = open('./matthew_fixed.txt', 'w')

with text_file, revised_text_file:
    for line in text_file:
        for old_value, new_value in (syr_unicodes_dict.items()):
            #new_line = re.sub(r''+old_value+'', r''+new_value+'', line, 1)
            old_value = re.compile(r''+old_value+'')
            #new_value = re.compile(r''+new_value+'') # error don't know why. `TypeError: decoding to str: need a bytes-like object, _sre.SRE_Pattern found`
            new_line = re.sub(old_value, r''+new_value+'', line, re.UNICODE)
            #new_line = re.sub(r''+old_value+'', r''+new_value+'', line, re.UNICODE)
            line = new_line
        revised_text_file.write(new_line)

1 回复 | 直到 2 年前

Barmar 2 年前

对正则表达式使用原始字符串。在替换中,您需要转义中的反斜杠 \1 .

没必要打电话 re.compile() 对于只使用一次的regexp。您可以直接将字符串传递给 re.sub() .

#!/usr/bin/env python3
# coding=utf8

import re

syr_unicodes_dict = {
        r'([\u0712\u0713\u0715\u071F\u0726\u072C])\u073F': '\\1\u0741',
        r'([\u0712\u0713\u0715\u071F\u0726\u072C])\u073C': '\\1\u0742',
        r'^([\u0712\u0713\u0715\u071F\u0726\u072C])': '\\1\u0741',
        r' ([\u0712\u0713\u0715\u071F\u0726\u072C])': ' \\1\u0741',
        r'([\u0730-\u073B]\u0710\u0020[\u0712\u0713\u0715\u071F\u0726\u072C])\u0741': '\\1\u0742',
        r'([\u073E\u073D]\u0718\u0020[\u0712\u0713\u0715\u071F\u0726\u072C])\u0741': '\\1\u0742',
        r'([\u0730-\u073B]\u0710\u0308\u0020[\u0712\u0713\u0715\u071F\u0726\u072C])\u0741': '\\1\u0742',
        r'\u0712\u0742\u0020\u0712\u0741': '\u0712\u0741\u0020\u0712\u0741',
        r'\u0713\u0742\u0020\u0713\u0741': '\u0713\u0741\u0020\u0713\u0741',
        r'\u0715\u0742\u0020\u0715\u0741': '\u0715\u0741\u0020\u0715\u0741',
        r'\u071F\u0742\u0020\u071F\u0741': '\u071F\u0741\u0020\u071F\u0741',
        r'\u0726\u0742\u0020\u0726\u0741': '\u0726\u0741\u0020\u0726\u0741',
        r'\u072C\u0742\u0020\u072C\u0741': '\u072C\u0741\u0020\u072C\u0741',
        r'\u072C\u0742\u0020\u0715\u0741': '\u072C\u0741\u0020\u0715\u0741',
        r'\u0715\u0742\u0020\u072C\u0741': '\u0715\u0741\u0020\u072C\u0741',
        r'\u0712\u0742\u0020\u0726\u0741': '\u0712\u0741\u0020\u0726\u0741',
        r'\u0713\u0742\u0020\u071F\u0741': '\u0713\u0741\u0020\u071F\u0741',
        r'\u071F\u0742\u0020\u0713\u0741': '\u071F\u0741\u0020\u0713\u0741',
        r'\u0741\u0741': '\u0741',
        r'\u0742\u0742': '\u0742'
}

print('length of Syriac_unicodes_dict is ' + str(len(syr_unicodes_dict)))

text_file = open('./matthew.txt', 'r', encoding = 'utf-8')
revised_text_file = open('./matthew_fixed.txt', 'w')

with text_file, revised_text_file:
    for line in text_file:
        for old_value, new_value in (syr_unicodes_dict.items()):
            new_line = re.sub(old_value, new_value, line, re.UNICODE)
            line = new_line
        revised_text_file.write(new_line)

没有必要使用 {1} 在正则表达式中。除非另有量化,否则子模式只匹配1次。

我得到的输出是:

1 ÜÝÜ°ÜÝ ÜÝÜ¶ÜÜ¢ ÜÜ¶Ü¬ÝÜºÜÜ Ü¶ÜÝ ÜÜ¶Ü«Ü½ÜÜ¥ ÜÝÜÝÜ¶ÜÜ¬Ý Ü ÜÜ¶Ü¡ ÜÝÜºÜÜÜ½ÜÜÝÜ³ÜÜ ÜÝÜÜ°ÜÜ¡Ü°ÜÌ ÜÜ¶ÜªÜ³ÜÜÝÜ¶Ü£ Ü¡Ü°Ü ÜÝÜ³ÜÜ ÜÜ¶Ü¬ÝÜ°Ü Ü¡ÜÝÜ½ÜÜ«Ü¶ÜÌ Ü¡Ü¶Ü¢ Ü¡Ü°ÜÝÜ¢ÜÜ³Ü Ü Ü½ÜÜÜªÜºÜ«Ü Ü¶Ü¡Ü
2 ÜÜ³ÜÜ¡ÜªÜºÜÜ¢Ü ÜÜ°ÜÜÝÜ°Ü Ü¡Ü°Ü ÜÝÜ³Ü ÜÝÜºÜÜÜ½ÜÜÝÜ³ÜÜ¶ÜÌ ÜÝÜ¶ÜÜ¬ÝÜºÜÜ Ü¶ÜÝÜ ÜÜÜ°ÜÜ¢ ÜÝÜ¶ÜÜª ÜÝÜ°ÜÜÝÜÝÜ¶Ü ÜÝÜ¡Ü°ÜÝÜ¢ÜÜ³ÜÜ ÜÜ¶ÜÜ¬ÝÜ°ÜÜ¢ Ü Ü¡Ü¶Ü£ÜÝÜ°ÜÝ Ü Ü¶ÜÜ
3 Ü«Ü¡Ü°Ü¥ ÜÝÜ¶ÜÜ¢ ÜÜ¶ÜªÜ³ÜÜÝÜ¶Ü£ Ü¡Ü°Ü ÜÝÜ³ÜÜ ÜÜ¶ÜÜ¬ÝÜ¬ÝÜÜºÜÜ¥Ü ÜÜÝÜ½Ü Ü³Ü ÜÜ½ÜÜªÜºÜ«Ü Ü¶Ü¡ Ü¥Ü°Ü¡Ü¶ÜÜ
4 ÜÜÝÜ°Ü¢Ü¶Ü« ÜÝÜ½Ü ÜÜ½ÜÜ¢ ÜªÌÜ°ÜÜ°Ü ÜÝÜ³ÜÜ¢Ü¶ÜÌ ÜÜ£Ü³Ü¦ÝÜªÌÜ¶Ü ÜÝÜ¥Ü°Ü¡Ü³ÜÜ ÜÜ°Ü¡Ü«Ü°ÜÜ¶Ü  ÜÌ±ÜÜ³Ü Ü ÜÜ½ÜÜ¢Ü ÜÝÜ°ÜÜÜÝÜ³Ü Ü¡Ü¶Ü¬ÝÜºÜÜ Ü¶ÜÝ Ü¡Ü«ÜºÜÜÜ³ÜÜ
5 ÜÜ¶Ü¢Ü½ÜÜ¢ ÜÝÜ¶ÜÜ¢ ÜÜ¶Ü¡Ü°ÜªÜÜ ÜÝÜÝÜ¶ÜÜ¬Ý Ü ÜÜ¶Ü¡ ÜÝÜºÜÜÜ½ÜÜÝÜ³ÜÜ ÜÜ³ÜÝÜ°Ü¢Ü³Ü ÜÝÜ¶ÜÜª ÜÝÜ¬ÝÜºÜÜÝ ÜÝÜ°Ü¢ÜÝÜºÜÜ³ÜÜ
6 ÜÜ³Ü¦Ý ÜÜ°Ü¢Ì±Ü¬ÝÜ ÜÝÜ¶ÜÜ¬Ý Ü ÜÜ¶Ü¡ ÜÝÜºÜÜÜ½ÜÜÝÜ³ÜÜ Ü Ü³Ü ÜÜÜ°ÜÜ¬ÝÜ ÜÝÜ¨ÜºÜÜªÜ³Ü ÜÝÜ¡Ü°Ü ÜÝÜ¶ÜÌ ÜÝÜºÜÜÜ½ÜÜÝÜ³ÜÜ Ü¡Ü¶Ü¢Ü¶ÜÝÜ ÜÝÜ¶ÜÜª Ü¢Ü¶Ü¦Ü½ÜÜ© Ü¡Ü°Ü ÜÝÜ³ÜÜ ÜÝÜÜ½Ü Ü¢Ü¶ÜªÜ¥Ü¶ÜÜÜÌ±Ü Ü Ü¥Ü°Ü¡Ü ÜÜºÜÜ£ÜªÜ³ÜÜÜ¶Ü Ü
7 ÜÜ³ÜÜÜ¶ÜÜ¢ ÜÜ¶ÜªÜ³ÜÜÝÜ¶Ü£ Ü¡Ü°ÜÜ«ÜÜ³ÜÜºÜÜ¬Ý Ü©ÜªÜ³Ü Ü Ü°Ü¡ÜÝÜ½ÜÜ«Ü¶ÜÌÜ ÜÜºÜÜ Ü¶Ü¦Ý Ü¡Ü¶Ü¢ÜÜ½ÜÜ¢ ÜÝÜ°ÜÜÜ¢Ü³Ü ÜÜ°ÜÝÜ¢Ü³Ü ÜÜ¶Ü¬ÝÜÜÜºÜ Ü ÜÜ½ÜÜ¢ ÜÝÜ°ÜÜÝÜÝÜ³ÜÜ
8 ÜÜ«Ü°ÜÝÜ°Üª ÜÜ¶Ü¢Ü½ÜÜ¢ Ü ÜÝÜ¶ÜÜ¬Ý Ü ÜÜ¶Ü¡Ü ÜÜ¶ÜÜ¡Ü°Üª Ü ÜÜ½ÜÜ¢Ü ÜÜ¶Ü Ü Ü¥Ü°Ü©Ü¶ÜÝÜÜ Ü¥Ü°Ü  ÜÜ°Ü ÜÜ³ÜÜ ÜÜ¦ÝÜºÜÜÜ³ÜÜºÜÜ¬ÝÜ ÜÜ¡Ü³Ü ÜÝÜ¶ÜÜ«ÜÝÜ°ÜÜ¬ÝÜ½ÜÜ¢Ü³ÜÜÌ±ÜÜ Ü¬ÝÜ°Ü ÜÜ°ÜÜ°ÜÜÜ½Ü¢ÜÜ ÜÝÜ³ÜÜ¦Ý ÜÜ¶Ü¢Ü³Ü ÜÜºÜÜ°Ü  ÜÜ¶Ü£ÜÝÜ½ÜÜÝ Ü Ü¶ÜÜ
9 ÜÜ¶Ü¢Ü½ÜÜ¢ ÜÝÜ¶ÜÜ¢ ÜÝÜ°ÜÝ Ü«Ü¡Ü°Ü¥Ü Ü¡Ü¶Ü¢ Ü¡Ü°Ü ÜÝÜ³Ü ÜÜ¶ÜÜ°Ü ÜÜ ÜÜÜ³Ü ÜÝÜ°ÜÜÝÜÝÜ³Ü ÜÜ°Ü ÜÝÜ°ÜÜÜ°Ü ÜÝÜ¡Ü°ÜÝÜ¢ÜÜ³Ü ÜÜ³ÜÜ¶Ü  ÜÌ±ÜÜ³Ü Ü©ÜÝÜ³Ü¡Ü°ÜÜÜ½ÜÜ¢Ü Ü¥ÜÝÜ°Ü¡Ü³Ü ÜÝÜ¶ÜÜ¬ÝÜ³Ü Ü©Ü³Ü¡ Ü Ü¥Ü¶Ü  Ü¡Ü¶Ü¢ ÜÜ°ÜÜÝÜ³Ü ÜÝÜºÜÜÜ¬ÝÜ°ÜÜÌ±Ü ÜÜ°Ü ÜÜ³ÜÜ

我不懂叙利亚文,所以我不知道它是否正确,但它没有任何文字 \u 序列。