beldmit | Просмотр PDF под линуксом

Ну если уж xterm оказался прошлым веком, то чем сейчас нормально смотрят PDF под linux?

xpdf показывает, но не работает с русскими буквами в меню каталогов. Acroread только 32-битный. LibreOffice иногда дает редактировать, иногда не дает. evince странно копирует текст из таблиц.

Ну и если какие сопутствующие рекомендации дадите - тоже буду признателен.

Crossposts: http://beldmit.livejournal.com/405292.html

Flat | Top-Level Comments Only

From:

netch

Ещё есть okular.

From:

shaplov.livejournal.com

From:

beldmit.livejournal.com

Он KDE-шный. Хочется gnome-овою хрень.

From:

yurikhan

Под GNOME и Xfce — evince, под KDE — okular, для любителей vim’а и настраиваемых шорткатов — zathura. И ещё есть встроенные вьюеры в Firefox’е и Chromium’е.

Копировать текст из таблиц, а иногда и просто текст — в общем случае принципиально невозможно. Ибо типичная таблица в PDF — это кусочки текста (с привязкой к координатам) в неопределённой последовательности, и для правильного определения, что за чем следует, нужен нетривиальный искусственный интеллект.

А то ещё есть pdftotext и pdftohtml из пакета poppler-utils и pdftosrc из texlive-binaries. С текстом всё понятно, никакого форматирования; HTML ужасен, но есть возможность экспорта XML, включающего координаты привязки; src не пробовал, но, видимо, будет работать только при наличии оного исходника внутри pdf’ки.

From:

beldmit.livejournal.com

Ну, есть "естественный" вариант копирования текста из таблиц. К сожалению, не один. Но то, что мне выдал evince - таковым не является.

From:

vitus_wagner

Утверждение что скопировать таблицу в общем случае невозможно это из той же серии, что утверждение что для того чтобы показать на экране 800x480 графический файл 12000x16000 надо этот файл обязательно полностью распаковать в память и без гига памяти этого не сделать.

From:

alexkuklin.livejournal.com

ну таки *в общем* случае без применения OCR это невозможно, т.к. pdf может просто содержать графику, вообще без текстовой информации.
нормальный же PDF кроме координат глифов содержит еще и текстовое представление этой информации.
в промежутке - PDF, полученный конвертацией из PS, содержащий координаты глифов и шрифты, но не содержащий информации о структуре текста.

From:

vitus_wagner

Ну это понятно. А вот в тех случаях когда текст вообще копируется, из координат собрать линейную последовательность худо-бедно можно.

From:

yurikhan

Ну линейная последовательность будет либо по лексикографическому возрастанию пар (y, x), либо в том порядке, в каком строчки окажутся записаны в файле. В некоторых частных случаях порядок в файле совпадёт с логическим порядком (тем, в котором текст был бы записан в HTML-исходнике, дающем эквивалентную таблицу), но далеко не всегда. Для корректного распознавания последовательности нужен анализ линеек, цветов фона, интервалов между колонками и рядами или комбинации вышеперечисленного, и то будут ошибки.

From:

vitus_wagner

Линейную последовательность надо сделать в том виде, в каком её увидит человеческий глаз.
Это не так сложно. Берем, рендерим буквы в прямоугольную матрицу символов округляя координаты до числа, кратного разщмеру символов.

Ошибки, естественно, будут. Но в 90% случаев результат будет тем, который ожидается человеком. Собственно это и требуется. Опять же, известно как верстают таблицы наиболее распространенные генераторы PDF, и можно на это заречься (особенно, если в начале файла указано %%Creator)

Можно добиться того, что вероятность того, что таблица, записанная в файле в виде буковок будет скопирована неправильно, будет меньше, чем вероятность того, что попадется PDF с нераспознанной таблицей в виде jpeg.

From:

yurikhan

Человеческий глаз читает	таблицу не в том порядке,
в каком она	рендерится на экране.

Edited Date: 2013-09-22 04:15 am (UTC)

From:

vitus_wagner

Ну и что? elinks -dump с этой таблицей прекрасно справляется. Читайте исходники elinks.

From:

yurikhan

В HTML текст в логическом порядке, и если никаких усилий не прилагать, то он в нём же и останется.

Большинство браузеров справляются с тем, чтобы из логического порядка сделать визуальный, с разбиением каждой ячейки на строки и склеиванием нескольких строк от разных ячеек в одну физическую строку. Это несложно. Я говорю о трудности обратной задачи — взять физическую страницу, разделить физические строки, склеить вместе строки, принадлежащие одной ячейке.

Логический порядок текста нужен для любой его обработки — начиная от reflow и кончая синтезом речи.

From:

vitus_wagner

Собственно, поэтому я и не люблю формат PDF. Плохо там с логическим порядком. Но "плохо" - не значит "совсем никак". Задачу автоматизированного восстановления логического порядка по визуальному можно пытаться решать. Да, она будет решаться с ошибками. Да, будут отдельные файлы, для которых результат будет непригоден к употреблению вообще.

Но в общем и целом такое решение будет полезным.