beldmit: (Программизм)
Dmitry Belyavskiy ([personal profile] beldmit) wrote2018-11-11 02:16 pm

Чудеса Unicode

Очередная порция того, как с помощью Unicode свести с ума браузеры и пользователей.

Предыдущую подборку искать тоже по тегу «домены».

Вообще-то, конечно, Unicode в доменных именах — это неисчерпаемый набор граблей.
yurikhan: (Default)

[personal profile] yurikhan 2018-11-11 12:38 pm (UTC)(link)

Объяснение, почему это работает — неконсистентное. То есть оно ничего не объясняет:

The browser sees the .℡ and then follows the IDNA2008 process listed in RFC5895 to normalise it:

map characters to the "Simple_Lowercase_Mapping" property (the fourteenth column) in UnicodeData.txt, if any.

The ℡ entry is:

2121;TELEPHONE SIGN;So;0;ON;<compat> 0054 0045 004C;;;;N;T E L SYMBOL;;;;

Ну да, и четырнадцатая колонка там пустая, то есть никакого мэппинга нет. Разворачивать по шестой колонке compatibility decomposition прямого указания в цитируемом RFC 5895 нет, только fullwidth и halfwidth.

Правда, есть косвенное указание в § 3: «делайте как правильно, а не как мы говорим». Ну и, видимо, в Мозилле и в Гуглу посчитали, что разворачивать килограмм в Кыргызстан, а сантиметр в Камерун — правильно с точки зрения предотвращения некоторых омоглифических атак.

Edited 2018-11-11 12:45 (UTC)
juan_gandhi: (Default)

[personal profile] juan_gandhi 2018-11-11 04:49 pm (UTC)(link)
Wow.