47 / 47 / 6
Регистрация: 28.04.2015
Сообщений: 160
Записей в блоге: 4
1

Кракозябры при копировании из PDF в Word

17.04.2016, 10:59. Показов 111676. Ответов 19

Author24 — интернет-сервис помощи студентам
Кракозябры при копировании из PDF в Word

При при копировании текста из некоторых файлов PDF в Word получаются кракозябры.
Например:

<1) )6#*2 )("0*-6#**)# ;+#$%#*-# – -, +)4## 1)(), –
)*) & 8"-*=-8# *#&#"*).
вместо:

Это очень ограниченное убеждение - и, более того, - оно в принципе неверно.
Понятно, что такие тексты распознавать тексты с помощью FineReader или других аналогичных программ. Имеются ли другие решения?
Также вопрос: почему получаются такие кракозябры? Была применена шифровка?

Пример описанного файла PDF прилагаю.
Вложения
Тип файла: pdf stgnrbonmeetn.pdf (223.4 Кб, 97 просмотров)
0
Лучшие ответы (1)
Programming
Эксперт
94731 / 64177 / 26122
Регистрация: 12.04.2006
Сообщений: 116,782
17.04.2016, 10:59
Ответы с готовыми решениями:

Кракозябры при копировании из PDF
Если кто разбирается посмотрите пожалуйста приложенный файл. С виду текст нормальный, но при...

Символы Юникода, написанные в FPC, при копировании в блокнот выдают кракозябры
Доброго времени суток, почему после символы юникода написанные в free pascal , при копировании в...

При копировании кода из pdf появляются ошибки
Здравствуйте. Скажите, почему при копировании кода в компилятор с сайта, он не выполняется,...

Квадратики в ворде при копировании текста из PDF документа
Добрый день!!! Ребята подскажите по такому вопросу. Пытаюсь скопироавть текст из PDF документа в...

19
Супер-Помогатор
1035 / 621 / 132
Регистрация: 26.12.2013
Сообщений: 1,975
17.04.2016, 12:42 2
Лови и не мучайся
Вложения
Тип файла: rar ворд.rar (268.6 Кб, 488 просмотров)
0
47 / 47 / 6
Регистрация: 28.04.2015
Сообщений: 160
Записей в блоге: 4
17.04.2016, 13:59  [ТС] 3
Спасибо, antal10!
Но меня интересует не конкретно этот файл, а теоретический ответ на данный вопрос.
Данный файл я привел только в качестве примера.

Еще раз повторю вопросы:
1. Каким образом при формировании файла PDF была создана такая проблема с кракозябрами?
2. Как скопировать текст из подобного файла PDF в Word без распознавания текста.
0
Супер-Помогатор
1035 / 621 / 132
Регистрация: 26.12.2013
Сообщений: 1,975
17.04.2016, 15:11 4
Лучший ответ Сообщение было отмечено Alex_Gur как решение

Решение

Цитата Сообщение от Alex_Gur Посмотреть сообщение
1. Каким образом при формировании файла PDF была создана такая проблема с кракозябрами?
2. Как скопировать текст из подобного файла PDF в Word без распознавания текста.
1. Очень просто. Достаточно зайти в свойства документа и посмотреть, что файл был создан с помощью Mac OS X 10.6.7 Quartz PDFContext возможно там и кодировка маковская, а может он и зашифрован, там есть такое. Проверить не могу.
2. Никак. Вообще-то Витя Орлов это продает за деньги, было бы удивительно если бы это просто так копировалось. Возможно и зашифровал. Хотя я склоняюсь все-таки к какой-то хитрой маковской кодировке шрифтов, которую ворд, а точнее винда не понимает.
1
47 / 47 / 6
Регистрация: 28.04.2015
Сообщений: 160
Записей в блоге: 4
17.04.2016, 16:02  [ТС] 5
Большое спасибо, ясно.
И последний вопрос: тогда каким образом Вы этот файл преобразовали? Через Mac OS?
0
Супер-Помогатор
1035 / 621 / 132
Регистрация: 26.12.2013
Сообщений: 1,975
17.04.2016, 16:34 6
Цитата Сообщение от Alex_Gur Посмотреть сообщение
Большое спасибо, ясно.
И последний вопрос: тогда каким образом Вы этот файл преобразовали? Через Mac OS?
Это не я - это хозяин файлов, т.е. Виктор Орлов.
1
47 / 47 / 6
Регистрация: 28.04.2015
Сообщений: 160
Записей в блоге: 4
17.04.2016, 17:05  [ТС] 7
Еще раз - благодарю за разъяснение!
0
4 / 4 / 1
Регистрация: 07.06.2016
Сообщений: 60
03.07.2017, 13:49 8
Та же самая проблема, но несколько под другим углом.

В редакции делается верстка газеты, а потом она преобразуется в PDF. Если с PDF-страницы газеты скопировать в Word кусок текста, то происходит уже описанное здесь - в Word появляется несколько абзацев кракозябр.
Методом тыка выяснилось, что возникает такое из-за изменения кодовой страницы. Вставляется почему-то в 1252 (CP-1252), хотя должно происходить в нормальной 1251.

Преобразовать скопированный текст обратно в CP-1251 не проблема, нашел в Сети кучу рекомендаций, как это сделать. Но хотелось бы устранить первопричину этого вывиха, чтобы копировалось без проблем. А пока не очень понятно с чего это вообще возникает.
Вот сверстанный текст - все вроде бы в порядке, видимых нарушений нет. В Acrobat Distiller делаем из него PDF -тоже вроде бы проходит без проблем, сообщений об ошибках нет. Открываем полученный PDF - тоже все нормально.
Но если попробовать из него что-то скопировать - кракозябры.
0
0 / 0 / 0
Регистрация: 03.05.2018
Сообщений: 5
22.05.2018, 16:54 9
Здравствуйте, та же проблема. Пдф создан в Мак Ос, из-за этого не могу скопировать текст. А текст на англ языке, в переводчики буду забрасывать, сможете помочь? Там 46 страниц.
Вложения
Тип файла: pdf whitepaper_en.pdf (2.61 Мб, 23 просмотров)
0
Модератор
Эксперт MS Access
12059 / 4921 / 789
Регистрация: 07.08.2010
Сообщений: 14,399
Записей в блоге: 4
22.05.2018, 17:51 10
распознается файнридером неплохо, а копированием --кракозябры
Вложения
Тип файла: docx whitepaper_en.docx (19.0 Кб, 17 просмотров)
1
0 / 0 / 0
Регистрация: 03.05.2018
Сообщений: 5
22.05.2018, 22:24 11
А как вы так сделали? Мне бы весь документ в ворд запихать, а у вас только 8 страниц, не подскажите как это сделать?
0
Модератор
Эксперт MS Access
12059 / 4921 / 789
Регистрация: 07.08.2010
Сообщений: 14,399
Записей в блоге: 4
23.05.2018, 06:38 12
Цитата Сообщение от Raptor279 Посмотреть сообщение
А как вы так сделали? Мне бы весь документ в ворд запихать, а у вас только 8 страниц, не подскажите как это сделать?
--установить FineReader 12
--научиться с ним работать
--этот ПДФ достаточно хорош, но несколько минут на страницу(вместе с доработкой в ВОРДЕ) понадобится
--у вас 46 страниц --вечера должно хватить
--твм есть еще рисунки с текстом --его тоже надо выделить и вывести в текст

желаю успехов в освоении новой программы
0
15147 / 6420 / 1731
Регистрация: 24.09.2011
Сообщений: 9,999
23.05.2018, 10:32 13
shanemac51, FineReader очень хорош, но сильно платный
Raptor279, есть https://finereaderonline.com/ , он дает бесплатно распознать 10 картинок на один email (подсказка раз ).
Причем картинка может быть большой (подсказка два).
Если нужен только текст, то можно в простом граф. редакторе типа IrfanView сохранить PDF постранично, создать панорамы из нескольких страниц (например 2х5) и распознать finereaderonline в Excel.

А еще распознавалка есть в Гугл-диск: https://support.google.com/drive/answer/176692
С английским текстом хорошего качества должна справиться.
0
Модератор
Эксперт MS Access
12059 / 4921 / 789
Регистрация: 07.08.2010
Сообщений: 14,399
Записей в блоге: 4
23.05.2018, 11:43 14
в свое время я пробовала более 20 распознавалок, позже еще с десяток
после проб оставила только 3
остальные дают недостоверное распознавание при немного нестандартном ПДФ(о сканах уж молчу)

файл ТС достаточно приличный(видимо получен напрямую из WORD или аналога)
может его распознает и еще что-то из отброшенных мною 27 программ

сканы же, особенно грязные и кривые, распознает только файнридер
0
0 / 0 / 0
Регистрация: 21.05.2018
Сообщений: 6
24.05.2018, 19:05 15
Цитата Сообщение от Raptor279 Посмотреть сообщение
Пдф создан в Мак Ос, из-за этого не могу скопировать текст.
Очень странно, но мак тоже не понимает эти символы. И проблема тут точно не в кодировке. Скорее проблема в программе, которая при создании PDF забыла включить туда символы. Под словами так вообще символов нет, только пробелы.
Цитата Сообщение от antal10 Посмотреть сообщение
1. Очень просто. Достаточно зайти в свойства документа и посмотреть, что файл был создан с помощью Mac OS X 10.6.7 Quartz PDFContext возможно там и кодировка маковская, а может он и зашифрован, там есть такое. Проверить не могу.
Не совсем, в том файле такая же проблема. И мак его точно также не читает. Даже больше скажу, если бы проблема была с кодировкой (которая может отличаться, не спорю), выглядело бы это так:
Положительный полюс
Или даже так:
╧юыюцшЄхы№э√щ яюы■ё эряЁ*цхэш
Тут проблема уж точно не в ней, у вашем файле просто набор несвязных символов. Скорее всего, при создании PDF криво вписали параметры. Символы должны быть одинаковыми для любой системы, PDF это картинки с возможностью пихать под них символы. Так что подозрение падает именно на создавших эти файлы.

И да, FineReader это действительно лучший софт для распознавания. Всякие бесплатные и так далее не дадут сравнимого по качеству результата.
0
Модератор
Эксперт MS Access
12059 / 4921 / 789
Регистрация: 07.08.2010
Сообщений: 14,399
Записей в блоге: 4
24.05.2018, 23:01 16
не вычитывала
Вложения
Тип файла: docx Новый документ.docx (44.8 Кб, 15 просмотров)
0
0 / 0 / 0
Регистрация: 19.11.2020
Сообщений: 126
07.05.2022, 23:02 17
Здравствуйте, та же проблема. Пдф создан в Мак Ос, из-за этого не могу скопировать текст.
Вложения
Тип файла: pdf RGR-2_28_gr.pdf (209.7 Кб, 9 просмотров)
0
Модератор
Эксперт MS Access
12059 / 4921 / 789
Регистрация: 07.08.2010
Сообщений: 14,399
Записей в блоге: 4
08.05.2022, 08:23 18
Цитата Сообщение от Le_ka Посмотреть сообщение
из-за этого не могу скопировать текст.
текста в ПДФ очень мало, но и в него внедрены мини-формулы, которые в текст НЕ ПЕРЕВЕДУТСЯ
остальное - это явный функции с вкраплениями смеси символ+символ через мини функцию

хотя может ПДФ сделан даже не с документа ВОРД, а например с LaTex
0
Модератор
Эксперт MS Access
12059 / 4921 / 789
Регистрация: 07.08.2010
Сообщений: 14,399
Записей в блоге: 4
08.05.2022, 09:00 19
Le_ka,
вот что получается даже через finereader

я обычно распознаю формулы как картинки, причем часто в ячейках таблицы
и уже в ворде перебиваю в редакторе формул
Миниатюры
Кракозябры при копировании из PDF в Word  
0
1 / 1 / 0
Регистрация: 24.11.2023
Сообщений: 1
24.11.2023, 15:40 20
Сам недавно намучался с данной проблемой, но на забугорных форумах вычитал сработавший для меня метод. Из вводных данных: в системе установлен пакет Microsoft Office и Adobe Acrobat Pro. Открываем нужный пдф файл в акробате, жмём печать - там выбираем принтер "Microsoft Print to PDF", сохраняем в удобное место. Потом открываем акробатом уже этот сохранённый файл и экспортируем его в формат ворда. Не знаю как и почему это работает, но надеюсь кому-нибудь пригодится!
1
24.11.2023, 15:40
IT_Exp
Эксперт
87844 / 49110 / 22898
Регистрация: 17.06.2006
Сообщений: 92,604
24.11.2023, 15:40
Помогаю со студенческими работами здесь

Нужно убрать переносы при копировании из PDF, выручьте плз
Проблема такая - в пдф файле есть текст который в колонках (журнал). Копирую его в writer,...

Как при заблокированном копировании из PDF файла извлечь текст?
Как при заблокированном копировании из PDF файла извлечь текст, да так, чтобы ни одна буква и...

При копировании и сохранении в Word появляется "Microsoft Office Word - обнаружена ошибка"
При копировании и сохранении в Word появляется &quot;Microsoft Office Word - обнаружена ошибка&quot;,...

Проблемы при копировании из Word
Здравствуйте! у меня клиент 6,5 в послдние время началась проблемы при копировании текста с worda,...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
20
Ответ Создать тему
Опции темы

КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2024, CyberForum.ru