Просмотр PDF под линуксом
Sep. 21st, 2013 04:51 pmНу если уж xterm оказался прошлым веком, то чем сейчас нормально смотрят PDF под linux?
xpdf показывает, но не работает с русскими буквами в меню каталогов. Acroread только 32-битный. LibreOffice иногда дает редактировать, иногда не дает. evince странно копирует текст из таблиц.
Ну и если какие сопутствующие рекомендации дадите - тоже буду признателен.
xpdf показывает, но не работает с русскими буквами в меню каталогов. Acroread только 32-битный. LibreOffice иногда дает редактировать, иногда не дает. evince странно копирует текст из таблиц.
Ну и если какие сопутствующие рекомендации дадите - тоже буду признателен.
no subject
Date: 2013-09-21 01:05 pm (UTC)no subject
Date: 2013-09-21 01:07 pm (UTC)no subject
Date: 2013-09-21 02:03 pm (UTC)no subject
Date: 2013-09-21 02:06 pm (UTC)Под GNOME и Xfce — evince, под KDE — okular, для любителей vim’а и настраиваемых шорткатов — zathura. И ещё есть встроенные вьюеры в Firefox’е и Chromium’е.
Копировать текст из таблиц, а иногда и просто текст — в общем случае принципиально невозможно. Ибо типичная таблица в PDF — это кусочки текста (с привязкой к координатам) в неопределённой последовательности, и для правильного определения, что за чем следует, нужен нетривиальный искусственный интеллект.
А то ещё есть
pdftotextиpdftohtmlиз пакетаpoppler-utilsиpdftosrcизtexlive-binaries. С текстом всё понятно, никакого форматирования; HTML ужасен, но есть возможность экспорта XML, включающего координаты привязки; src не пробовал, но, видимо, будет работать только при наличии оного исходника внутри pdf’ки.no subject
Date: 2013-09-21 02:40 pm (UTC)no subject
Date: 2013-09-21 03:08 pm (UTC)no subject
Date: 2013-09-21 03:21 pm (UTC)нормальный же PDF кроме координат глифов содержит еще и текстовое представление этой информации.
в промежутке - PDF, полученный конвертацией из PS, содержащий координаты глифов и шрифты, но не содержащий информации о структуре текста.
no subject
Date: 2013-09-21 03:28 pm (UTC)no subject
Date: 2013-09-21 03:47 pm (UTC)no subject
Date: 2013-09-21 03:56 pm (UTC)Это не так сложно. Берем, рендерим буквы в прямоугольную матрицу символов округляя координаты до числа, кратного разщмеру символов.
Ошибки, естественно, будут. Но в 90% случаев результат будет тем, который ожидается человеком. Собственно это и требуется. Опять же, известно как верстают таблицы наиболее распространенные генераторы PDF, и можно на это заречься (особенно, если в начале файла указано %%Creator)
Можно добиться того, что вероятность того, что таблица, записанная в файле в виде буковок будет скопирована неправильно, будет меньше, чем вероятность того, что попадется PDF с нераспознанной таблицей в виде jpeg.
no subject
Date: 2013-09-22 04:15 am (UTC)глаз читает
том порядке,
экране.
no subject
Date: 2013-09-22 05:16 am (UTC)no subject
Date: 2013-09-22 10:44 am (UTC)В HTML текст в логическом порядке, и если никаких усилий не прилагать, то он в нём же и останется.
Большинство браузеров справляются с тем, чтобы из логического порядка сделать визуальный, с разбиением каждой ячейки на строки и склеиванием нескольких строк от разных ячеек в одну физическую строку. Это несложно. Я говорю о трудности обратной задачи — взять физическую страницу, разделить физические строки, склеить вместе строки, принадлежащие одной ячейке.
Логический порядок текста нужен для любой его обработки — начиная от reflow и кончая синтезом речи.
no subject
Date: 2013-09-22 10:49 am (UTC)Но в общем и целом такое решение будет полезным.
no subject
Date: 2013-09-22 08:22 am (UTC)no subject
Date: 2013-09-22 10:45 am (UTC)no subject
Date: 2013-09-21 02:51 pm (UTC)no subject
Date: 2013-09-21 03:16 pm (UTC)no subject
Date: 2013-09-21 03:06 pm (UTC)no subject
Date: 2013-09-21 03:17 pm (UTC)no subject
Date: 2013-09-21 03:25 pm (UTC)