С Новым годом! Форум программистов, компьютерный форум, киберфорум
С++ для начинающих
Войти
Регистрация
Восстановить пароль
Карта форума Темы раздела Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.50/6: Рейтинг темы: голосов - 6, средняя оценка - 4.50
58 / 34 / 8
Регистрация: 08.07.2011
Сообщений: 235
1

Алгоритм определения наличия текста в файле.

12.09.2011, 07:42. Показов 1092. Ответов 9
Метки нет (Все метки)

Author24 — интернет-сервис помощи студентам
Всем доброго времени суток.
Собственно вопрос в теме.
Есть произвольный бинарный файл, содержит набор спецсимволов типа %:?*№ и т.д. и текст "Привет, это тест!"
Подскажите где копать, по поводу алгоритма определения текста в файле.
Т.е. моя задача написать функцию, которая вернет мне 1, если файл, помимо спецсимволов содержит текст.
Можно тупо загнать все символы в исключение и сканировать, но это долго и тупо.
Подскажите где можно поискать алгоритмы распознавания текста в файле (точнее наличия текста, для начала) в фйле??
Заранее спасибо.
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
12.09.2011, 07:42
Ответы с готовыми решениями:

Написать функцию для определения наличия в файле чисел, у которых сумма цифр целой и дробной части равны
2)Дан текстовый файл с неизвестным количеством вещественных чисел. Написать функцию для...

Определения ФАКТА НАЛИЧИЯ стего-закладки в файле *.GIF
Всем добрый день! Собраты, кто что может сказать о создании приложения для определения ФАКТА...

Проверка наличия текста в файле
Здравствуйте , меня интересует как проверить наличие текста в txt файле . Просто по загрузке формы...

Методика определения наличия зловредов
Сразу хочу извиниться,если подобная тема уже имела место быть. Мои часовые поиски по форуму в...

9
4226 / 1796 / 211
Регистрация: 24.11.2009
Сообщений: 27,562
12.09.2011, 08:07 2
Такого универсального алгоритма быть не может. Текст в файлах представляется не текстом, то есть не символами, а значениями битов, теми же значениями битов представляются и бинарные данные. Ты нашёл в бинарнике текст AB? Эси. А может это число 16706? Разбирай спецификации тех форматов, файлы которых тебе потенциально могут подсунуть, ищи в них, как кодируется позиция текста и как опознать сам формат.

Добавлено через 4 минуты
"ABC" может оказаться 4276803, "A B" - 4268098. Интерпретация битов - задача программы и только программы, она может и любой спецсимвол интерпретировать, как букву (другая кодировка и все возражения к хелу).
0
58 / 34 / 8
Регистрация: 08.07.2011
Сообщений: 235
12.09.2011, 08:12  [ТС] 3
Цитата Сообщение от taras atavin Посмотреть сообщение
Такого универсального алгоритма быть не может. Текст в файлах представляется не текстом, то есть не символами, а значениями битов, теми же значениями битов представляются и бинарные данные. Ты нашёл в бинарнике текст AB? Эси. А может это число 16706? Разбирай спецификации тех форматов, файлы которых тебе потенциально могут подсунуть, ищи в них, как кодируется позиция текста и как опознать сам формат.

Добавлено через 4 минуты
"ABC" может оказаться 4276803, "A B" - 4268098. Интерпретация битов - задача программы и только программы, она может и любой спецсимвол интерпретировать, как букву (другая кодировка и все возражения к хелу).
В том то и дело - предполагается анализатор текста, в котором могут присутствовать битые байты и спецсимволы - получается формат текстовый. Но от этого не легче. Мне надо отфильтровать для начала чистый текст а потом уже его язык анализировать.
Вот и озадачился как определить для начала чистый текст.
0
4226 / 1796 / 211
Регистрация: 24.11.2009
Сообщений: 27,562
12.09.2011, 08:18 4
Текст с управляющими последовательностями? Тогда тебе надо опознать кодировку и фактический формат. Опять таки он может быть каким угодно, но в каждой версии есть строго определённые символы начала таких последовательностей и правила определения их длины (как вариант - строго определённые символы конца последовательности, или её фиксированная длина). Копай спецификации возможных фактических форматов и анализируй "в лоб". Иначе нельзя, ни какого универсального флага наличия текста в начале файла не существует, а значит не может быть и универсального алгоритма его проверки.
0
Эксперт С++
1069 / 848 / 60
Регистрация: 30.04.2011
Сообщений: 1,659
12.09.2011, 08:21 5
KorPaEv, сразу надо определиться: текст в однобайтной кодировке или в многобайтной?
Потому как в зависимости от количество байтов в символе, надо определять, по сколько байтов читать за раз. Если по одному байту - то просто считываем очередную порцию байтов и ищем в нем текст.
Если многобайтная, то считываем очередную порцию много*байт, и ищем в ней текст.
0
4226 / 1796 / 211
Регистрация: 24.11.2009
Сообщений: 27,562
12.09.2011, 08:30 6
А может быть и переменной длины, например, UTF-8. Тогда читать байты по одному. Прочитал байт - проверяешь, получился ли вообще символ, или его префикс, потом читаешь следующий байт или в текущий символ, или в следующий.
0
4866 / 3288 / 468
Регистрация: 10.12.2008
Сообщений: 10,570
12.09.2011, 08:34 7
удали из него все символы, которых не должно быть
0
4226 / 1796 / 211
Регистрация: 24.11.2009
Сообщений: 27,562
12.09.2011, 08:35 8
А если бы и сущестовал такой флаг, его бы сразу не было. Вот представь: ты сам сочинил формат текста с бинарными управляющими вставками, а о таком флаге явно не знаешь и не выставил его. Всё, формат без поддержки флага существует, флаг потерял универсальность. И таких девелоперов, не знающих хотя бы по одному флагу каждый, а между собой ни о чём не договаривающихся - всё ИТ сообщество.
0
58 / 34 / 8
Регистрация: 08.07.2011
Сообщений: 235
12.09.2011, 08:39  [ТС] 9
Спасибо! Кстати кодировка будет многобайтовая, это осложняет все, может встретиться слово в 1251 битое, битый байт будет юникод например.
0
4226 / 1796 / 211
Регистрация: 24.11.2009
Сообщений: 27,562
12.09.2011, 08:52 10
html в UTF-8 вполне подходит под твоё описание. Все управляющие последовательности в нём начинаются символом "<" и заканчиваются символом ">". А есть форматы, в которых управляющие последовательности начинаются с символа с кодом 1B (в шестнадцатеричной записи). Я в одной приладе делал управляющие последовательности с символа "~" с завершающим "#", а символы "<" и ">" были обычными текстовыми (правда в ANSI 1251, то есть в однобайтном коде). Причём, UTF-8 мало того, что многобайтная, так ещё и переменной длины, так что читать всё таки по одному.
0
12.09.2011, 08:52
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
12.09.2011, 08:52
Помогаю со студенческими работами здесь

Скрипт для определения наличия блокировки пользователя ПК
Всем привет Подскажите, есть ли решение, чтобы узнать заблокирован (т.е. висит в ctr+alt+del) комп...

Определения наличия закладки в документе WORD из скрипта Excel
Доброе время суток уважаемый All, Пишу тут для ОК скриптик который будет в шаблонных документах...

Регулярное выражение для определения наличия заданных символов в строке
Здравствуйте. Делаю собственный проект и вот попал на большую проблему...необходимо...

C# проверка на наличия информации в txt файле
Ребят, такой вопрос, кто поможет? У меня есть TXT файл, и он пустой. Если файл заполнен какой...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
10
Ответ Создать тему
Новые блоги и статьи
Книги и учебные ресурсы по C#
InfoMaster 08.01.2025
Базовые учебники и руководства Одной из лучших книг для начинающих является "C# 10 и . NET 6 для начинающих" Эндрю Троелсена и Филиппа Джепикса . Книга последовательно раскрывает основные концепции. . .
Что такое NullReferenceEx­­­ception и как исправить?
InfoMaster 08.01.2025
NullReferenceException - одно из самых распространенных исключений, с которым сталкиваются разработчики на C#. Это исключение возникает при попытке обратиться к членам объекта (методам, свойствам или. . .
Что такое Null Pointer Exception (NPE) и как это исправить?
InfoMaster 08.01.2025
Null Pointer Exception (NPE) - это одно из самых распространенных исключений в Java, которое возникает при попытке использовать ссылку на объект, значение которой равно null. Это исключение относится. . .
Русский язык в консоли C++
InfoMaster 08.01.2025
При разработке программ на C++ одной из частых проблем, с которой сталкиваются русскоязычные программисты, является корректное отображение кириллицы в консольных приложениях. Эта проблема особенно. . .
Telegram бот на C#
InfoMaster 08.01.2025
Разработка ботов для Telegram стала неотъемлемой частью современной экосистемы мессенджеров. C# предоставляет мощный и удобный инструментарий для создания разнообразных ботов, от простых. . .
Использование GraphQL в Go (Golang)
InfoMaster 08.01.2025
Go (Golang) является одним из наиболее популярных языков программирования, используемых для создания высокопроизводительных серверных приложений. Его архитектурные особенности и встроенные. . .
Что лучше использовать при создании класса в Java: сеттеры или конструктор?
Alexander-7 08.01.2025
Вопрос подробнее: На вопрос: «Когда одновременно создаются конструктор и сеттеры в классе – это нормально?» куратор уточнил: «Ваш класс может вообще не иметь сеттеров, а только конструктор и геттеры. . .
Как работать с GraphQL на TypeScript
InfoMaster 08.01.2025
Введение в GraphQL и TypeScript В современной разработке веб-приложений GraphQL стал мощным инструментом для создания гибких и эффективных API. В сочетании с TypeScript, эта технология. . .
Счётчик на базе сумматоров + регистров и генератора сигналов согласования.
Hrethgir 07.01.2025
Создан с целью проверки скорости асинхронной логики: ранее описанного сумматора и предополагаемых fast регистров. Регистры созданы на базе ранее описанного, предполагаемого fast триггера. То-есть. . .
Как перейти с Options API на Composition API в Vue.js
BasicMan 06.01.2025
Почему переход на Composition API актуален В мире современной веб-разработки фреймворк Vue. js продолжает эволюционировать, предлагая разработчикам все более совершенные инструменты для создания. . .
Архитектура современных процессоров
inter-admin 06.01.2025
Процессор (центральный процессор, ЦП) является основным вычислительным устройством компьютера, которое выполняет обработку данных и управляет работой всех остальных компонентов системы. Архитектура. . .
История создания реляционной модели баз данных, правила Кодда
Programming 06.01.2025
Предпосылки создания реляционной модели В конце 1960-х годов компьютерная индустрия столкнулась с серьезными проблемами в области управления данными. Существовавшие на тот момент модели данных -. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru