Как разбить 1-ин pdf документ на множество pdf файлов в соответствии с регулярным выражением ?

@IOvan · Регистрация: 07.11.2016

Студворк — интернет-сервис помощи студентам

Есть документ представляющий собой сборник статей тезисов (c рисунками) в двух формате pdf, задача получить из многостраничного документа содержащего множество статей множество файлов каждый из которых содержит по одной статье причем деление на статьи должно быть быть постраничным т.е кажждый файл содержит одну статью если следующая статья начинает на странице где кончается первая статья то эта страница захватывается целиком независимо ни от чего. Кроме того каждый файл должен иметь название вида 0номер страницы где начинается статья-0номер страницы где статья заканчивается.pdf
У меня такой вопрос чем осуществить подобное деление в командной строке линукс
Хотелось бы увидеть шелскрипт выполняющий подобное деление
признак для фильтрации такой (к сожалению не знаю спецсимвола начала страницы в pdf да это и бесполезно в каждом иструменте он свой а фильтрация такова
'спецсимвол начала страницы"УДК" Авторский знак Некое множество букв содержащих Фамилию И.О. через запятую год Любое количество символов Спецсимвол конца страницы'
В результате возникает ряд новых вопросов
0. каким инструментом пользоваться для разбивки
1. Кодирование символа начала и конца страницы
2. Кодирование авторского знака
3.Сохранение номера начальной (содержащей УДК) и конечной страницы (содержащей авторский знак copyright

Добавлено через 1 час 12 минут
Обращаю внимание отвечающих просто разбить на файлы pdf мне не требуется!!!!!!

@nezabudka · 28.02.2020, 11:57

Не по теме:

Кратчайший путь к успеху это грамотно составленный райдер

Этот раздел форума не сервис по написанию сценариев.

Сообщение от IOvan

Хотелось бы увидеть шелскрипт выполняющий подобное деление

Для начала хотелось бы увидеть ваши попытки по решению задачи

@IOvan · 28.02.2020, 16:53 **[ТС]**

Для того чтобы рассказать о своих попытках мне необходимо знать каким инструментами для этого можно пользоваться а по поводу поток алгорим разбиения изложен в тексте задачи вот еще вариант - алгоритм разбиения фильтрация всех страниц документа на предмет вхождения в них строк содержащих УДК и авторский знак копирайт © определение номеров страниц содержащих эти строки, экспорт номеров этих строк в массив или файл вида номер страницы содержащей УДК-номер страницы содержащей © затем построчное считывание этих страниц в splitpdf в качестве входных значений и сохрание полученного результата так как сказано в тексте задачи.

@u235 · 04.03.2020, 13:07

Я бы перевел каким-нибудь конвертером pdf в html постранично. А дальше парсил бы эти html на предмет наличия заголовков, кегля, жирного шрифта и т.д. Что-то подобное я делал в винде на AutoIt..

@qwertehok · 04.03.2020, 15:03

pdf это картинка. что бы разбивать по символам картинку надо в эти самые символы конвертировать
найди утилиту которая распознает pdf в txt\rtf в линуксе и когда у тебя будут готовы эти файлы ты легко разберешь на страницы

@u235 · 04.03.2020, 15:11

qwertehok, нет, pdf это не картинка. С тем же успехом можно говорить, что и doc/rtf это картинка.

@IOvan · 10.03.2020, 11:19 **[ТС]**

Все это не представляется возможным, т.к. документ содержит картинки.

@qwertehok · 10.03.2020, 11:50

тогда нужно программирование + что то типа ABBYY API

распознаешь и делишь

@u235 · 10.03.2020, 13:22

По большому счету распознавание и не нужно. Найти есть ли на одной картинке чуть более крупный шрифт, чем на другой можно и в Imagemagick.

@IOvan · 10.03.2020, 16:38 **[ТС]**

А просто сделать экспорт страниц по заданному рег выражению нельзя ? Неужели не существует инструментария для этого работающего в ком строке?

Добавлено через 2 минуты
А зачем если нуно просто получить на выходе структурно такие же файлы как исходный только по одной статье в файле о картинках я написал только для того чтобы не было предложений типа берешь зва ковертишь в txt и грепишь его, я просто хотел обратить внимание что такой вариант не годится из-за иллистраций

@u235 · 10.03.2020, 19:27

Почему предложение про конвертацию txt/html не подходит? Это нужно только для поиска начала/конца новой статьи. А так из исходного pdf нарезаются страницы в соответствии с найденными началами статей и картинки никуда не деваются.

Добавлено через 6 минут
Пример:
исходный файл pdf -20 стр.
сконвертировали в 20 txt файлов с именами 001.txt...020.txt
grepом нашли что слово УДК находится в 001.txt, 005.txt,015.txt
значит вырезаем в отдельные файлы из исходного pdf страницы 1-4, 5-14,15-20

@qwertehok · 10.03.2020, 22:35

Сообщение от u235

исходный файл pdf -20 стр.
сконвертировали в 20 txt файлов

вот это вот как сделать?

@u235 · 11.03.2020, 06:51

qwertehok, например утилитой pdftotext из пакета poppler, ~~м.б. придется 3-4 срочки на баше написать для постраничной обработки.~~

Добавлено через 29 минут

Bash
1
2
pdftotext in.pdf in.txt
csplit -n 4 -f '' in.txt '/^L/' '{*}'

все.
^L набирать как Ctrl-v Ctrl-L

@qwertehok · 11.03.2020, 08:40

ну и отлично, то что ТС и надо

Новые блоги и статьи Все статьи Все блоги /
Модель заражения группы наркоманов alhaos 17.04.2026 Условия задачи сформулированы тут Суть: - Группа наркоманов из 10 человек. - Только один инфицирован ВИЧ. - Колются одной иглой. - Колются раз в день. - Колются последовательно через. . .	Мысли в слух. Про "навсегда". kumehtar 16.04.2026 Подумалось тут, что наверное очень глупо использовать во всяких своих установках понятие "навсегда". Это очень сильное понятие, и я только начинаю понимать край его смысла, не смотря на то что давно. . .	My Business CRM MaGz GoLd 16.04.2026 Всем привет, недавно возникла потребность создать CRM, для личных нужд. Собственно программа предоставляет из себя базу данных клиентов, в которой можно фиксировать звонки, стадии сделки, а также. . .	Знаешь почему 90% людей редко бывают счастливыми? kumehtar 14.04.2026 Потому что они ждут. Ждут выходных, ждут отпуска, ждут удачного момента. . . а удачный момент так и не приходит.
Фиксация колонок в отчете СКД Maks 14.04.2026 Фиксация колонок в СКД отчета типа Таблица. Задача: зафиксировать три левых колонки в отчете. Процедура ПриКомпоновкеРезультата(ДокументРезультат, ДанныеРасшифровки, СтандартнаяОбработка) / / . . .	Настройки VS Code Loafer 13.04.2026 { "cmake. configureOnOpen": false, "diffEditor. ignoreTrimWhitespace": true, "editor. guides. bracketPairs": "active", "extensions. ignoreRecommendations": true, . . .	Оптимизация кода на разграничение прав доступа к элементам формы Maks 13.04.2026 Алгоритм из решения ниже реализован на нетиповом документе, разработанного в конфигурации КА2. Задачи, как таковой, поставлено не было, проделанное ниже исключительно моя инициатива. Было так:. . .	Контроль заполнения и очистка дат в зависимости от значения перечислений Maks 12.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: реализовать контроль корректности заполнения дат назначения. . .

@IOvan 0 / 0 / 0 Регистрация: 07.11.2016 Сообщений: 4

	Как разбить 1-ин pdf документ на множество pdf файлов в соответствии с регулярным выражением ? 27.02.2020, 16:42. Показов 2669. Ответов 13 Метки нет (Все метки) Есть документ представляющий собой сборник статей тезисов (c рисунками) в двух формате pdf, задача получить из многостраничного документа содержащего множество статей множество файлов каждый из которых содержит по одной статье причем деление на статьи должно быть быть постраничным т.е кажждый файл содержит одну статью если следующая статья начинает на странице где кончается первая статья то эта страница захватывается целиком независимо ни от чего. Кроме того каждый файл должен иметь название вида 0номер страницы где начинается статья-0номер страницы где статья заканчивается.pdf У меня такой вопрос чем осуществить подобное деление в командной строке линукс Хотелось бы увидеть шелскрипт выполняющий подобное деление признак для фильтрации такой (к сожалению не знаю спецсимвола начала страницы в pdf да это и бесполезно в каждом иструменте он свой а фильтрация такова 'спецсимвол начала страницы"УДК" Авторский знак Некое множество букв содержащих Фамилию И.О. через запятую год Любое количество символов Спецсимвол конца страницы' В результате возникает ряд новых вопросов 0. каким инструментом пользоваться для разбивки 1. Кодирование символа начала и конца страницы 2. Кодирование авторского знака 3.Сохранение номера начальной (содержащей УДК) и конечной страницы (содержащей авторский знак copyright Добавлено через 1 час 12 минут Обращаю внимание отвечающих просто разбить на файлы pdf мне не требуется!!!!!! 0

@IOvan 0 / 0 / 0 Регистрация: 07.11.2016 Сообщений: 4
	28.02.2020, 16:53 [ТС]
	Для того чтобы рассказать о своих попытках мне необходимо знать каким инструментами для этого можно пользоваться а по поводу поток алгорим разбиения изложен в тексте задачи вот еще вариант - алгоритм разбиения фильтрация всех страниц документа на предмет вхождения в них строк содержащих УДК и авторский знак копирайт © определение номеров страниц содержащих эти строки, экспорт номеров этих строк в массив или файл вида номер страницы содержащей УДК-номер страницы содержащей © затем построчное считывание этих страниц в splitpdf в качестве входных значений и сохрание полученного результата так как сказано в тексте задачи. 0

@u235 5520 / 2873 / 571 Регистрация: 07.11.2019 Сообщений: 4,767
	04.03.2020, 13:07
	Я бы перевел каким-нибудь конвертером pdf в html постранично. А дальше парсил бы эти html на предмет наличия заголовков, кегля, жирного шрифта и т.д. Что-то подобное я делал в винде на AutoIt.. 0

@qwertehok 5988 / 4563 / 1096 Регистрация: 29.08.2013 Сообщений: 28,203 Записей в блоге: 3
	04.03.2020, 15:03
	pdf это картинка. что бы разбивать по символам картинку надо в эти самые символы конвертировать найди утилиту которая распознает pdf в txt\rtf в линуксе и когда у тебя будут готовы эти файлы ты легко разберешь на страницы 0

@u235 5520 / 2873 / 571 Регистрация: 07.11.2019 Сообщений: 4,767
	04.03.2020, 15:11
	qwertehok, нет, pdf это не картинка. С тем же успехом можно говорить, что и doc/rtf это картинка. 0

@IOvan 0 / 0 / 0 Регистрация: 07.11.2016 Сообщений: 4
	10.03.2020, 11:19 [ТС]
	Все это не представляется возможным, т.к. документ содержит картинки. 0

@qwertehok 5988 / 4563 / 1096 Регистрация: 29.08.2013 Сообщений: 28,203 Записей в блоге: 3
	10.03.2020, 11:50
	тогда нужно программирование + что то типа ABBYY API распознаешь и делишь 0

@u235 5520 / 2873 / 571 Регистрация: 07.11.2019 Сообщений: 4,767
	10.03.2020, 13:22
	По большому счету распознавание и не нужно. Найти есть ли на одной картинке чуть более крупный шрифт, чем на другой можно и в Imagemagick. 0

@IOvan 0 / 0 / 0 Регистрация: 07.11.2016 Сообщений: 4
	10.03.2020, 16:38 [ТС]
	А просто сделать экспорт страниц по заданному рег выражению нельзя ? Неужели не существует инструментария для этого работающего в ком строке? Добавлено через 2 минуты А зачем если нуно просто получить на выходе структурно такие же файлы как исходный только по одной статье в файле о картинках я написал только для того чтобы не было предложений типа берешь зва ковертишь в txt и грепишь его, я просто хотел обратить внимание что такой вариант не годится из-за иллистраций 0

@u235 5520 / 2873 / 571 Регистрация: 07.11.2019 Сообщений: 4,767
	10.03.2020, 19:27
	Почему предложение про конвертацию txt/html не подходит? Это нужно только для поиска начала/конца новой статьи. А так из исходного pdf нарезаются страницы в соответствии с найденными началами статей и картинки никуда не деваются. Добавлено через 6 минут Пример: исходный файл pdf -20 стр. сконвертировали в 20 txt файлов с именами 001.txt...020.txt grepом нашли что слово УДК находится в 001.txt, 005.txt,015.txt значит вырезаем в отдельные файлы из исходного pdf страницы 1-4, 5-14,15-20 0

@qwertehok 5988 / 4563 / 1096 Регистрация: 29.08.2013 Сообщений: 28,203 Записей в блоге: 3
	11.03.2020, 08:40
	ну и отлично, то что ТС и надо 0