beldmit: (Default)
[personal profile] beldmit
Скриншот из спама:




Какие из этих символов «настоящие», а какие – комбинация, интересно?

Date: 2015-01-31 01:10 pm (UTC)
ext_613079: Default userpic (Бритый небритый)
From: [identity profile] shaplov.livejournal.com
Да все юникодные буквы уже не то что было раньше...

Date: 2015-01-31 03:19 pm (UTC)
From: [identity profile] sliva-ne.livejournal.com
В интернете до сих пор можно найти сайты, где распознают и транслитерируют кодировку.
Хотя популярность у них уже низкая, конечно.

Я сейчас с мобильного интернета и мне будет очень тяжело искать. Попробуйте поискать по запросу "распознать кодировку".

Date: 2015-01-31 04:30 pm (UTC)
From: [identity profile] beldmit.livejournal.com
Да не, меня тут приколол способ маскировки спам-текста с сохранением читаемости.

Date: 2015-01-31 05:19 pm (UTC)
yurikhan: (Default)
From: [personal profile] yurikhan
Ну следующие поколения спамфильтров будут делать сравнение по Unicode Collation Algorithm с параметром strength=primary.

Date: 2015-01-31 05:36 pm (UTC)
From: [identity profile] beldmit.livejournal.com
Так уже сейчас это из папки "Спам" и вытащено.

Date: 2015-01-31 09:41 pm (UTC)
From: [identity profile] sliva-ne.livejournal.com
О, я с телефона не всматривалась в символы :)

Date: 2015-02-01 07:21 am (UTC)
ext_605364: geg MOPO4 (geg_MOPO4)
From: [identity profile] gegmopo4.livejournal.com
Там, кажется, по другому критерию — отсутствию заголовка "To:".

Date: 2015-02-01 08:27 am (UTC)
From: [identity profile] beldmit.livejournal.com
Ну, я не помню. Там еще и обычный текст невидимым шрифтом, и много прочего наверняка.

Date: 2015-01-31 04:19 pm (UTC)
From: [identity profile] slobin.livejournal.com
(1) Не совсем понимаю вопрос. В Юникоде явно описано соответствие precomposed букв и комбинаций. Например, Й = И + ̆. У некоторых комбинаций precomposed форм нет. Ну, строго говоря, у большинства потенциально возможных нет, но у большинства полезных -- есть. Хотя есть исключения. Или тебе интересно, в нормализованном виде тебе шлют спам или нет? А чем это так интересно?

(2) Где-то я видел библиотеку (на go, но это не важно, важна идея :-) специально для создания таких вот "красивеньких" текстов случайным раскидыванием точечек над-под буквами.

... А мой кибер бросит писать стихи и начнёт слушать музыку ...

Date: 2015-01-31 04:34 pm (UTC)
From: [identity profile] beldmit.livejournal.com
Означает ли факт существования precomposed-формы факт её существования в диком виде? То, что я проверил (текст уже убил, но кое-что запомнил, например обе буквы O в слове looking) было в виде одного символа, но живьем не видел. Часть символов живьём видел и знаю, из какого алфавита.

Date: 2015-01-31 05:02 pm (UTC)
From: [identity profile] slobin.livejournal.com
Практически уверен, что да. В частности, предполагаю, что обе буквы O из вьетнамского. Но проверять прямо сейчас не буду, я уже и так на целую минуту опаздываю! ;-(

... Das Imperium schlägt zurück ...

Date: 2015-01-31 06:56 pm (UTC)
From: [identity profile] slobin.livejournal.com
Вернулся. Не, не вьетнамский. Ливский. Причём искать пришлось через французскую википедию. Я сам офигел, чё! А из вьетнамского было бы, например, Ồ или Ộ (тоже в один символ).

... Once upon a time, in a galaxy far, far away ...

Date: 2015-01-31 07:00 pm (UTC)
From: [identity profile] beldmit.livejournal.com
Вьетнамский я успел посмотреть, пока тебя не было. Ливский - это круто.

Еще, пожалуй, интересны перечеркнутая A, С с точкой и перечеркнутое H. Как ты искал?

Date: 2015-01-31 07:05 pm (UTC)
From: [identity profile] slobin.livejournal.com
Тупо погуглил букву, и посмотрел, нет ли ответа из википедии (на любом языке, капризничать не приходится). Потому что wiktionary и graphemica дают справку по юникоду, но не по языкам, где это встречается. Ну вот нашлось во французской википедии (про одну из двух ещё в норвежской). Я во французском ни бум-бум (исправлено :-), но это и не требуется, там "по смыслу" можно догадаться.

... Навязчивое мудрствование в утренние часы ...

Edited Date: 2015-01-31 07:08 pm (UTC)

Date: 2015-02-01 07:26 am (UTC)
ext_605364: geg MOPO4 (geg_MOPO4)
From: [identity profile] gegmopo4.livejournal.com
Да, случалось некоторые статьи по экзотическим кодировкам находить только в французской википедии. Франция тоже экс-империя.

Date: 2015-02-01 08:27 am (UTC)
From: [identity profile] beldmit.livejournal.com
graphemica - это что?

Date: 2015-02-01 03:29 pm (UTC)
From: [identity profile] slobin.livejournal.com
graphemica.com ,сам узнал только вчера в процессе поисков. Выглядит как справочник по юникоду, видимо, им и является.

... Шестикрылый серафим на перепутье ...

Date: 2015-01-31 07:01 pm (UTC)
From: [identity profile] slobin.livejournal.com
Вдогонку: известная мне с ходу буква, для которой нет precomposed формы, но которая существует в диком виде: G̃g̃. Наверняка и другие есть, но про эту я знал.

... In Soviet Russia, English pidgins YOU!! ...

Profile

beldmit: (Default)
Dmitry Belyavskiy

December 2025

S M T W T F S
 123456
78910111213
14151617181920
2122 2324252627
28 29 3031   

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Feb. 9th, 2026 11:57 pm
Powered by Dreamwidth Studios