beldmit: (Программизм)
[personal profile] beldmit
Ну если уж xterm оказался прошлым веком, то чем сейчас нормально смотрят PDF под linux?

xpdf показывает, но не работает с русскими буквами в меню каталогов. Acroread только 32-битный. LibreOffice иногда дает редактировать, иногда не дает. evince странно копирует текст из таблиц.

Ну и если какие сопутствующие рекомендации дадите - тоже буду признателен.

Date: 2013-09-21 01:05 pm (UTC)
netch: (bug)
From: [personal profile] netch
Ещё есть okular.

Date: 2013-09-21 01:07 pm (UTC)

Date: 2013-09-21 02:03 pm (UTC)
From: [identity profile] beldmit.livejournal.com
Он KDE-шный. Хочется gnome-овою хрень.

Date: 2013-09-21 02:06 pm (UTC)
yurikhan: (default)
From: [personal profile] yurikhan

Под GNOME и Xfce — evince, под KDE — okular, для любителей vim’а и настраиваемых шорткатов — zathura. И ещё есть встроенные вьюеры в Firefox’е и Chromium’е.

Копировать текст из таблиц, а иногда и просто текст — в общем случае принципиально невозможно. Ибо типичная таблица в PDF — это кусочки текста (с привязкой к координатам) в неопределённой последовательности, и для правильного определения, что за чем следует, нужен нетривиальный искусственный интеллект.

А то ещё есть pdftotext и pdftohtml из пакета poppler-utils и pdftosrc из texlive-binaries. С текстом всё понятно, никакого форматирования; HTML ужасен, но есть возможность экспорта XML, включающего координаты привязки; src не пробовал, но, видимо, будет работать только при наличии оного исходника внутри pdf’ки.

Date: 2013-09-21 02:40 pm (UTC)
From: [identity profile] beldmit.livejournal.com
Ну, есть "естественный" вариант копирования текста из таблиц. К сожалению, не один. Но то, что мне выдал evince - таковым не является.

Date: 2013-09-21 03:08 pm (UTC)
vitus_wagner: My photo 2005 (white)
From: [personal profile] vitus_wagner
Утверждение что скопировать таблицу в общем случае невозможно это из той же серии, что утверждение что для того чтобы показать на экране 800x480 графический файл 12000x16000 надо этот файл обязательно полностью распаковать в память и без гига памяти этого не сделать.

Date: 2013-09-21 03:21 pm (UTC)
From: [identity profile] alexkuklin.livejournal.com
ну таки *в общем* случае без применения OCR это невозможно, т.к. pdf может просто содержать графику, вообще без текстовой информации.
нормальный же PDF кроме координат глифов содержит еще и текстовое представление этой информации.
в промежутке - PDF, полученный конвертацией из PS, содержащий координаты глифов и шрифты, но не содержащий информации о структуре текста.

Date: 2013-09-21 03:28 pm (UTC)
vitus_wagner: My photo 2005 (white)
From: [personal profile] vitus_wagner
Ну это понятно. А вот в тех случаях когда текст вообще копируется, из координат собрать линейную последовательность худо-бедно можно.

Date: 2013-09-21 03:47 pm (UTC)
yurikhan: (default)
From: [personal profile] yurikhan
Ну линейная последовательность будет либо по лексикографическому возрастанию пар (y, x), либо в том порядке, в каком строчки окажутся записаны в файле. В некоторых частных случаях порядок в файле совпадёт с логическим порядком (тем, в котором текст был бы записан в HTML-исходнике, дающем эквивалентную таблицу), но далеко не всегда. Для корректного распознавания последовательности нужен анализ линеек, цветов фона, интервалов между колонками и рядами или комбинации вышеперечисленного, и то будут ошибки.

Date: 2013-09-21 03:56 pm (UTC)
vitus_wagner: My photo 2005 (white)
From: [personal profile] vitus_wagner
Линейную последовательность надо сделать в том виде, в каком её увидит человеческий глаз.
Это не так сложно. Берем, рендерим буквы в прямоугольную матрицу символов округляя координаты до числа, кратного разщмеру символов.

Ошибки, естественно, будут. Но в 90% случаев результат будет тем, который ожидается человеком. Собственно это и требуется. Опять же, известно как верстают таблицы наиболее распространенные генераторы PDF, и можно на это заречься (особенно, если в начале файла указано %%Creator)

Можно добиться того, что вероятность того, что таблица, записанная в файле в виде буковок будет скопирована неправильно, будет меньше, чем вероятность того, что попадется PDF с нераспознанной таблицей в виде jpeg.

Date: 2013-09-22 04:15 am (UTC)
yurikhan: (default)
From: [personal profile] yurikhan
Человеческий
глаз читает
таблицу не в
том порядке,
в каком онарендерится на
экране.
Edited Date: 2013-09-22 04:15 am (UTC)

Date: 2013-09-22 05:16 am (UTC)
vitus_wagner: My photo 2005 (white)
From: [personal profile] vitus_wagner
Ну и что? elinks -dump с этой таблицей прекрасно справляется. Читайте исходники elinks.

Date: 2013-09-22 10:44 am (UTC)
yurikhan: (default)
From: [personal profile] yurikhan

В HTML текст в логическом порядке, и если никаких усилий не прилагать, то он в нём же и останется.

Большинство браузеров справляются с тем, чтобы из логического порядка сделать визуальный, с разбиением каждой ячейки на строки и склеиванием нескольких строк от разных ячеек в одну физическую строку. Это несложно. Я говорю о трудности обратной задачи — взять физическую страницу, разделить физические строки, склеить вместе строки, принадлежащие одной ячейке.

Логический порядок текста нужен для любой его обработки — начиная от reflow и кончая синтезом речи.

Date: 2013-09-22 10:49 am (UTC)
vitus_wagner: My photo 2005 (white)
From: [personal profile] vitus_wagner
Собственно, поэтому я и не люблю формат PDF. Плохо там с логическим порядком. Но "плохо" - не значит "совсем никак". Задачу автоматизированного восстановления логического порядка по визуальному можно пытаться решать. Да, она будет решаться с ошибками. Да, будут отдельные файлы, для которых результат будет непригоден к употреблению вообще.

Но в общем и целом такое решение будет полезным.

Date: 2013-09-22 08:22 am (UTC)
From: [identity profile] beldmit.livejournal.com
А порядок рендера прописан в стандарте?

Date: 2013-09-22 10:45 am (UTC)
yurikhan: (default)
From: [personal profile] yurikhan
Скорее нет, чем да. Я имел в виду тот порядок, в котором окажется текст после сортировки его по точке привязки.

Date: 2013-09-21 02:51 pm (UTC)
From: [identity profile] sdols.livejournal.com
wine start :)

Date: 2013-09-21 03:16 pm (UTC)
From: [identity profile] beldmit.livejournal.com
Тоже вариант.

Date: 2013-09-21 03:06 pm (UTC)
vitus_wagner: My photo 2005 (white)
From: [personal profile] vitus_wagner
Есть ещё epdfview. В качестве замены xpdf-у куда симпатичнее evince. Потому что не содержит лишнего. Насчет таблиц - не проверял.

Date: 2013-09-21 03:17 pm (UTC)
From: [identity profile] beldmit.livejournal.com
Оно симпатичное, но я вообще не понял, как из него копировать текст.

Date: 2013-09-21 03:25 pm (UTC)
vitus_wagner: My photo 2005 (white)
From: [personal profile] vitus_wagner
edit/select text

Profile

beldmit: (Default)
Dmitry Belyavskiy

December 2025

S M T W T F S
 123456
78910111213
14151617181920
2122 2324252627
28 29 3031   

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Feb. 12th, 2026 05:01 am
Powered by Dreamwidth Studios