Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.78/9: Рейтинг темы: голосов - 9, средняя оценка - 4.78
 Аватар для Orlov1
100 / 42 / 7
Регистрация: 03.02.2019
Сообщений: 655

Парсинг pdf Tabula

03.02.2023, 23:15. Показов 2143. Ответов 9

Студворк — интернет-сервис помощи студентам
Всем привет!
Есть PDF файл test.pdf. https://disk.yandex.ru/i/1TLhlw6pHL6shg
Нужно спарсить из таблицы ФИО и таб номер.

Накидал вот такой код, но он парсит данные не корректно. ФИО вообще не отображается :

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
import glob
import pandas as pd
import tabula
 
file = ("test.pdf")
 
pdf_files = glob.glob('*.pdf')
 
pdf_tables = tabula.read_pdf(file,
                             pages = 'all',
                             multiple_tables=True,
                             lattice=True,
                             encoding="windows-1251")
 
for table in pdf_tables:
    print(pdf_tables[0])

Что я делаю не так и как спарсить данные корректно ?
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
03.02.2023, 23:15
Ответы с готовыми решениями:

PDF парсинг на С++
Подскажите пожалуйста,какова структура файлов PDF? Или есть ли какие-то методы и библеотеки для работы с PDF файлами. Интересует как и...

Парсинг pdf файла
Подскажите пожалуйста можно ли как то про парсить pdf файл , если не сложно покажите пример пожалуйста!

Парсинг таблиц из pdf файла
Всем привет! Мне нужно извлечь из таблицы в нескольких pdf файлах данные в формате даты dd.mm.yy. Пытаюсь парсить с помощью библиотеки...

9
5514 / 2867 / 571
Регистрация: 07.11.2019
Сообщений: 4,751
04.02.2023, 08:23
Python
1
2
table=pdf_tables[0]
print(table['Фамилия, Имя, Отчество'])
Code
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
0           Иванов Иван Иванович
1           Петров Петр Петрович
2                            NaN
3        Сидоров Сидор Сидорович
4     Михайлов Михаил Михаилович
5       Сергеев Сергей Сергеевич
6        Романов Роман Романович
7           Егоров Егор Егорович
8                            NaN
9                            NaN
10                           NaN
11                           NaN
12                           NaN
13                           NaN
14                           NaN
15                           NaN
16                           NaN
17                           NaN
18                           NaN
Name: Фамилия, Имя, Отчество, dtype: object
0
 Аватар для Orlov1
100 / 42 / 7
Регистрация: 03.02.2019
Сообщений: 655
04.02.2023, 15:41  [ТС]
u235, благодарю, а как исключить лишние строки 'NaN' ?
0
5514 / 2867 / 571
Регистрация: 07.11.2019
Сообщений: 4,751
04.02.2023, 16:02
Orlov1, не очень знаю Pandas, но можно так:
Python
1
print(table['Фамилия, Имя, Отчество'][~pd.isna(table['Фамилия, Имя, Отчество'])])
Code
1
2
3
4
5
6
7
8
0          Иванов Иван Иванович
1          Петров Петр Петрович
3       Сидоров Сидор Сидорович
4    Михайлов Михаил Михаилович
5      Сергеев Сергей Сергеевич
6       Романов Роман Романович
7          Егоров Егор Егорович
Name: Фамилия, Имя, Отчество, dtype: object
0
 Аватар для Orlov1
100 / 42 / 7
Регистрация: 03.02.2019
Сообщений: 655
04.02.2023, 16:12  [ТС]
Цитата Сообщение от u235 Посмотреть сообщение
не очень знаю Pandas, но можно так:
PythonВыделить код
1
print(table['Фамилия, Имя, Отчество'][~pd.isna(table['Фамилия, Имя, Отчество'])])
У меня этот код не работает, ругается на ~pd.isna
0
5514 / 2867 / 571
Регистрация: 07.11.2019
Сообщений: 4,751
04.02.2023, 16:23
А так:
Python
1
print(''.join(i+'\n' for i in table['Фамилия, Имя, Отчество'] if str(i)!='nan'))
0
 Аватар для Orlov1
100 / 42 / 7
Регистрация: 03.02.2019
Сообщений: 655
04.02.2023, 19:07  [ТС]
Что означают эти ошибки и как от них избавиться ? см скрин
Миниатюры
Парсинг pdf Tabula  
0
5514 / 2867 / 571
Регистрация: 07.11.2019
Сообщений: 4,751
04.02.2023, 20:13
Orlov1, это не ошибки, это предупреждения. Означает что некоторые символы в этом pdf не могут корректно отобразиться в юникод.
1
 Аватар для Orlov1
100 / 42 / 7
Регистрация: 03.02.2019
Сообщений: 655
04.02.2023, 20:16  [ТС]
Цитата Сообщение от u235 Посмотреть сообщение
Orlov1, это не ошибки, это предупреждения. Означает что некоторые символы в этом pdf не могут корректно отобразиться в юникод.
А как-то игнорировать эти предупреждения можно, чтобы они не выводились в консоли ?
0
5514 / 2867 / 571
Регистрация: 07.11.2019
Сообщений: 4,751
04.02.2023, 20:23
Orlov1, Если погуглить по фразе "tabula python off warning", то окажется, что достаточно добавить опцию silent=True, например:
Python
1
tabula.read_pdf("/path/to/sample.pdf", pages="all", silent=True)
Я это нашел за две минуты. Неужели у вас какой-то другой интернет?
2
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
04.02.2023, 20:23
Помогаю со студенческими работами здесь

Перенести парсинг PDF из PHP На C#
Добрый день, многоуважаемые форумчане. у меня возникла задача - прочитать текст из pdf документа БЕЗ использования сторонних библиотек для...

Парсинг текстовых pdf файлов
Всем доброго времени суток! На днях получил задание - написать программу на c++, осуществляющую парсинг пдф файла, которая вытаскивает...

парсинг pdf - русские шрифты
Для парсинга использую pdfbox все отлично если в pdf обычная - без применения каких то шрифтов иначе замест текста идут коды типа...

Парсинг множества документов PDF с сохранением полученных данных в БД
Всем доброго времени суток. Ситуация такая, что у меня есть куча PDF файлов из которых нужно вытащить данные в мою базу данных, все файлы...

Есть pdf фаил в виде таблицы, необходим парсинг
есть pdf файл в виде таблицы необходимо парсинг текста по столбцам и записывать их в бд . структура файла имя фамиля отчество


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
10
Ответ Создать тему
Новые блоги и статьи
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Access
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru