beldmit: (Default)
Dmitry Belyavskiy ([personal profile] beldmit) wrote2015-01-31 03:44 pm

Коллекция диакритик

Скриншот из спама:




Какие из этих символов «настоящие», а какие – комбинация, интересно?
ext_613079: Default userpic (Бритый небритый)

[identity profile] shaplov.livejournal.com 2015-01-31 01:10 pm (UTC)(link)
Да все юникодные буквы уже не то что было раньше...

[identity profile] sliva-ne.livejournal.com 2015-01-31 03:19 pm (UTC)(link)
В интернете до сих пор можно найти сайты, где распознают и транслитерируют кодировку.
Хотя популярность у них уже низкая, конечно.

Я сейчас с мобильного интернета и мне будет очень тяжело искать. Попробуйте поискать по запросу "распознать кодировку".

[identity profile] beldmit.livejournal.com 2015-01-31 04:30 pm (UTC)(link)
Да не, меня тут приколол способ маскировки спам-текста с сохранением читаемости.
yurikhan: (Default)

[personal profile] yurikhan 2015-01-31 05:19 pm (UTC)(link)
Ну следующие поколения спамфильтров будут делать сравнение по Unicode Collation Algorithm с параметром strength=primary.

[identity profile] beldmit.livejournal.com 2015-01-31 05:36 pm (UTC)(link)
Так уже сейчас это из папки "Спам" и вытащено.

[identity profile] sliva-ne.livejournal.com 2015-01-31 09:41 pm (UTC)(link)
О, я с телефона не всматривалась в символы :)
ext_605364: geg MOPO4 (geg_MOPO4)

[identity profile] gegmopo4.livejournal.com 2015-02-01 07:21 am (UTC)(link)
Там, кажется, по другому критерию — отсутствию заголовка "To:".

[identity profile] beldmit.livejournal.com 2015-02-01 08:27 am (UTC)(link)
Ну, я не помню. Там еще и обычный текст невидимым шрифтом, и много прочего наверняка.

[identity profile] slobin.livejournal.com 2015-01-31 04:19 pm (UTC)(link)
(1) Не совсем понимаю вопрос. В Юникоде явно описано соответствие precomposed букв и комбинаций. Например, Й = И + ̆. У некоторых комбинаций precomposed форм нет. Ну, строго говоря, у большинства потенциально возможных нет, но у большинства полезных -- есть. Хотя есть исключения. Или тебе интересно, в нормализованном виде тебе шлют спам или нет? А чем это так интересно?

(2) Где-то я видел библиотеку (на go, но это не важно, важна идея :-) специально для создания таких вот "красивеньких" текстов случайным раскидыванием точечек над-под буквами.

... А мой кибер бросит писать стихи и начнёт слушать музыку ...

[identity profile] beldmit.livejournal.com 2015-01-31 04:34 pm (UTC)(link)
Означает ли факт существования precomposed-формы факт её существования в диком виде? То, что я проверил (текст уже убил, но кое-что запомнил, например обе буквы O в слове looking) было в виде одного символа, но живьем не видел. Часть символов живьём видел и знаю, из какого алфавита.

[identity profile] slobin.livejournal.com 2015-01-31 05:02 pm (UTC)(link)
Практически уверен, что да. В частности, предполагаю, что обе буквы O из вьетнамского. Но проверять прямо сейчас не буду, я уже и так на целую минуту опаздываю! ;-(

... Das Imperium schlägt zurück ...

[identity profile] slobin.livejournal.com 2015-01-31 06:56 pm (UTC)(link)
Вернулся. Не, не вьетнамский. Ливский. Причём искать пришлось через французскую википедию. Я сам офигел, чё! А из вьетнамского было бы, например, Ồ или Ộ (тоже в один символ).

... Once upon a time, in a galaxy far, far away ...

[identity profile] beldmit.livejournal.com 2015-01-31 07:00 pm (UTC)(link)
Вьетнамский я успел посмотреть, пока тебя не было. Ливский - это круто.

Еще, пожалуй, интересны перечеркнутая A, С с точкой и перечеркнутое H. Как ты искал?

[identity profile] slobin.livejournal.com 2015-01-31 07:05 pm (UTC)(link)
Тупо погуглил букву, и посмотрел, нет ли ответа из википедии (на любом языке, капризничать не приходится). Потому что wiktionary и graphemica дают справку по юникоду, но не по языкам, где это встречается. Ну вот нашлось во французской википедии (про одну из двух ещё в норвежской). Я во французском ни бум-бум (исправлено :-), но это и не требуется, там "по смыслу" можно догадаться.

... Навязчивое мудрствование в утренние часы ...

Edited 2015-01-31 19:08 (UTC)
ext_605364: geg MOPO4 (geg_MOPO4)

[identity profile] gegmopo4.livejournal.com 2015-02-01 07:26 am (UTC)(link)
Да, случалось некоторые статьи по экзотическим кодировкам находить только в французской википедии. Франция тоже экс-империя.

[identity profile] beldmit.livejournal.com 2015-02-01 08:27 am (UTC)(link)
graphemica - это что?

[identity profile] slobin.livejournal.com 2015-02-01 03:29 pm (UTC)(link)
graphemica.com ,сам узнал только вчера в процессе поисков. Выглядит как справочник по юникоду, видимо, им и является.

... Шестикрылый серафим на перепутье ...

[identity profile] slobin.livejournal.com 2015-01-31 07:01 pm (UTC)(link)
Вдогонку: известная мне с ходу буква, для которой нет precomposed формы, но которая существует в диком виде: G̃g̃. Наверняка и другие есть, но про эту я знал.

... In Soviet Russia, English pidgins YOU!! ...