Когда-то в ТЦИ делали исследовательский проект по интернациональной почте (то есть с не-латиницей до собаки). Я в рамках этого проекта начал реализовывать драфт по поддержке таких адресов в X.509-сертификатах. Реализовал, понятно, с ошибками, но патч засабмитил, его почитали в OpenSSL и заставили переделать драфт. В итоге документ стал RFC 8398 только в этом году.
Автор документа меня, однако, запомнил, и спросил, не допилю ли я патч. Начал допиливать и стал изживать одну из претензий к собственно патчу — зависимость от лишней библиотеки в OpenSSL сочли недопустимой. Ок, всего одна функция. Причём частично прописана в RFC в формате C-шного кода.
А дальше, блин, начинается кино. Разбить доменное имя на части по точке. Сконвертировать каждую часть в последовательность байт (UTF8 же), склеить. Не вылезя нигде за пределы буфера. А длину буфера вернуть, чтобы вызывающая сторона знала, какой буфер передать. В общем, тут даже при готовых функциях то, что на Perl с использованием библиотеки — три вызова, split, map и join, на C даёт пол-экрана.
Написать я это написал. Даже скомпилировал. А вот запускать и отлаживать страшно.
Специально для
ufm: нет, не-ASCII символы в именах доменов и email-адресах — не коварный замысел страшных любителей чебурнета, а нормальный ход нормальных любителей денег. Которым аудиторию по месту (нелатиноалфавитную) очень хочется расширить.
Автор документа меня, однако, запомнил, и спросил, не допилю ли я патч. Начал допиливать и стал изживать одну из претензий к собственно патчу — зависимость от лишней библиотеки в OpenSSL сочли недопустимой. Ок, всего одна функция. Причём частично прописана в RFC в формате C-шного кода.
А дальше, блин, начинается кино. Разбить доменное имя на части по точке. Сконвертировать каждую часть в последовательность байт (UTF8 же), склеить. Не вылезя нигде за пределы буфера. А длину буфера вернуть, чтобы вызывающая сторона знала, какой буфер передать. В общем, тут даже при готовых функциях то, что на Perl с использованием библиотеки — три вызова, split, map и join, на C даёт пол-экрана.
Написать я это написал. Даже скомпилировал. А вот запускать и отлаживать страшно.
Специально для
no subject
Date: 2018-07-18 10:40 pm (UTC)Грубо говоря, тот кто придумывал как в колбасу поменьше положить мяса и побольше мясозаменителя - тоже ведь для бизнеса старался. Но ему, почему-то, в голову не приходило что потом есть эту колбасу ему и его детям. Потому что нормальную колбасу выпускать тупо перестанут. Бизнес, ничего личного.
Впрочем, зачем я работаю КО - мне самому не понятно.
no subject
Date: 2018-07-18 10:45 pm (UTC)То есть конкретно в этой хотелке я не вижу адского ужаса.
no subject
Date: 2018-07-18 10:52 pm (UTC)на какой сам сядешьno subject
Date: 2018-07-19 07:48 am (UTC)no subject
Date: 2018-07-19 09:37 am (UTC)no subject
Date: 2018-07-19 02:27 pm (UTC)no subject
Date: 2018-07-19 02:36 pm (UTC)P.S. Ну и удивляться что у меня отношение к людям, которые за деньги готовы делать что угодно - смысла нет.
no subject
Date: 2018-07-19 02:40 pm (UTC)Ты до Киева добираешься? Я надеюсь в начале декабря доехать.
no subject
Date: 2018-07-19 02:52 pm (UTC)no subject
Date: 2018-07-19 03:21 pm (UTC)no subject
Date: 2018-07-18 10:55 pm (UTC)Использование национальных алфавитов в базовых протоколах интернета - зло.
no subject
Date: 2018-07-19 07:49 am (UTC)no subject
Date: 2018-07-19 10:04 am (UTC)федір@київ.укр
И да, схалявить не получится - і - это ни разу не английская буква.
P.S. Господи, спасибо что вразумил телефонистов и не дал им "пойти на поводу у бизнеса".
no subject
Date: 2018-07-19 02:28 pm (UTC)no subject
Date: 2018-07-19 02:39 pm (UTC)А вот мне - не приятно. И, да. Мне приходилось общаться с китайцами и в емейле и в чатике и голосом. И слава богу, что и у него и у меня были латинские буквы на клавиатуре. И мы оба худо-бедно, но английский оба знали. И свой емейл я смог продиктовать по телефону, а он его набрать.
no subject
Date: 2018-07-19 02:41 pm (UTC)no subject
Date: 2018-07-19 03:00 pm (UTC)Мне, как умеющему всё выше перечисленное, можно иметь _только_один_ емейл который, при этом, не содержит национальных символов?
Можно я буду посылать нахер всех, кто попытается мне продиктовать емейл с национальными буквами, а я в этот момент буду сидеть за компьютером на котором нет данной локали?
Можно я буду считать ... всех тех, кто вместо того что-бы послать бизнес с такими хотелками нахер, идёт на поводу ради денег?
no subject
Date: 2018-07-19 03:23 pm (UTC)Так на них и ориентируются. Вилкой не особо, а палочками - ого-го как.
Ну а как я могу тебе запретить кого-то кем-то считать, я не представляю :)
no subject
Date: 2018-07-19 04:18 pm (UTC)no subject
Date: 2018-07-19 04:22 pm (UTC)Если у тебя на клавиатуре нет украинской раскладки, хоть объобясняйся, ты этот адрес не введёш.
Когда китайский станет языком межнационального общения и на каждой клавиатуре всегда будет китайская раскладка, то я вздохну и пойду учить китайский.
no subject
Date: 2018-07-19 06:33 pm (UTC)no subject
Date: 2018-07-19 08:49 am (UTC)Один русский, не знающий английского (нормальная ситуация в России) пересылает белорусу, не знающему английского, ссылку на статью в Интернете на украинском языке. Зачем им в этой ситуации латинские буквы в адресах?
Один еврей, не знающий английского (нормальная ситуация в Израиле) пересылает другому еврею, не знающему английского, ссылку на книгу в Интернете на иврите. Зачем им в этой ситуации латинские буквы в адресах?
Один китаец, не знающий английского, пересылает корейцу, не знающему английского, файл на японском языке. Зачем им в этой ситуации латинские буквы в адресах и именах файлов?
Краткое резюме сказанного: использование латинского алфавита в базовых протоколах интернета — пережиток западно-европейского империализьма, и это зло должно быть и будет искоренено.
no subject
Date: 2018-07-19 09:35 am (UTC)Я хотел-бы уточнить, если можно, как этот самый "один русский" этот адрес набирать будет?
no subject
Date: 2018-07-19 10:36 am (UTC)Символы и цифры есть.
no subject
Date: 2018-07-19 07:52 am (UTC)Есть причина конвертировать в UTF8 каждую часть отдельно?
no subject
Date: 2018-07-19 09:10 am (UTC)no subject
Date: 2018-07-19 10:52 am (UTC)no subject
Date: 2018-07-19 02:29 pm (UTC)no subject
Date: 2018-07-19 10:14 am (UTC)Во-первых, ну, Си есть кроссплатформенный ассемблер, с уважением, ваш Кэп. Когда его писали,
дороги не минировалиобработку строк не поддерживал ни один процессор, да и вообще строки были менее популярны, чем числодробление.Во-вторых, в те дни, когда мир был юн, на голом Си был написан, к примеру, awk, в котором была вся современная строковая магия и интерпретатор Тьюринг-полного языка.
В-третьих, всю строковую магию Питона до сих пор очень широко интерпретирует CPython, который написан на таком же голом Си.
В-четвертых, при современных отладчиках с их построчным выполнением, брейкпойнтами, отслеживанием значений переменных и т.п. отлаживаться не в пример проще, чем в те дни, когда мир был юн.
no subject
Date: 2018-07-19 02:30 pm (UTC)