58 / 34 / 8
Регистрация: 08.07.2011
Сообщений: 235
|
|
1 | |
Алгоритм определения наличия текста в файле.12.09.2011, 07:42. Показов 1092. Ответов 9
Метки нет (Все метки)
Всем доброго времени суток.
Собственно вопрос в теме. Есть произвольный бинарный файл, содержит набор спецсимволов типа %:?*№ и т.д. и текст "Привет, это тест!" Подскажите где копать, по поводу алгоритма определения текста в файле. Т.е. моя задача написать функцию, которая вернет мне 1, если файл, помимо спецсимволов содержит текст. Можно тупо загнать все символы в исключение и сканировать, но это долго и тупо. Подскажите где можно поискать алгоритмы распознавания текста в файле (точнее наличия текста, для начала) в фйле?? Заранее спасибо.
0
|
12.09.2011, 07:42 | |
Ответы с готовыми решениями:
9
Написать функцию для определения наличия в файле чисел, у которых сумма цифр целой и дробной части равны Определения ФАКТА НАЛИЧИЯ стего-закладки в файле *.GIF Проверка наличия текста в файле Методика определения наличия зловредов |
4226 / 1796 / 211
Регистрация: 24.11.2009
Сообщений: 27,562
|
|
12.09.2011, 08:07 | 2 |
Такого универсального алгоритма быть не может. Текст в файлах представляется не текстом, то есть не символами, а значениями битов, теми же значениями битов представляются и бинарные данные. Ты нашёл в бинарнике текст AB? Эси. А может это число 16706? Разбирай спецификации тех форматов, файлы которых тебе потенциально могут подсунуть, ищи в них, как кодируется позиция текста и как опознать сам формат.
Добавлено через 4 минуты "ABC" может оказаться 4276803, "A B" - 4268098. Интерпретация битов - задача программы и только программы, она может и любой спецсимвол интерпретировать, как букву (другая кодировка и все возражения к хелу).
0
|
58 / 34 / 8
Регистрация: 08.07.2011
Сообщений: 235
|
|
12.09.2011, 08:12 [ТС] | 3 |
В том то и дело - предполагается анализатор текста, в котором могут присутствовать битые байты и спецсимволы - получается формат текстовый. Но от этого не легче. Мне надо отфильтровать для начала чистый текст а потом уже его язык анализировать.
Вот и озадачился как определить для начала чистый текст.
0
|
4226 / 1796 / 211
Регистрация: 24.11.2009
Сообщений: 27,562
|
|
12.09.2011, 08:18 | 4 |
Текст с управляющими последовательностями? Тогда тебе надо опознать кодировку и фактический формат. Опять таки он может быть каким угодно, но в каждой версии есть строго определённые символы начала таких последовательностей и правила определения их длины (как вариант - строго определённые символы конца последовательности, или её фиксированная длина). Копай спецификации возможных фактических форматов и анализируй "в лоб". Иначе нельзя, ни какого универсального флага наличия текста в начале файла не существует, а значит не может быть и универсального алгоритма его проверки.
0
|
1069 / 848 / 60
Регистрация: 30.04.2011
Сообщений: 1,659
|
|
12.09.2011, 08:21 | 5 |
KorPaEv, сразу надо определиться: текст в однобайтной кодировке или в многобайтной?
Потому как в зависимости от количество байтов в символе, надо определять, по сколько байтов читать за раз. Если по одному байту - то просто считываем очередную порцию байтов и ищем в нем текст. Если многобайтная, то считываем очередную порцию много*байт, и ищем в ней текст.
0
|
4226 / 1796 / 211
Регистрация: 24.11.2009
Сообщений: 27,562
|
|
12.09.2011, 08:30 | 6 |
А может быть и переменной длины, например, UTF-8. Тогда читать байты по одному. Прочитал байт - проверяешь, получился ли вообще символ, или его префикс, потом читаешь следующий байт или в текущий символ, или в следующий.
0
|
4226 / 1796 / 211
Регистрация: 24.11.2009
Сообщений: 27,562
|
|
12.09.2011, 08:35 | 8 |
А если бы и сущестовал такой флаг, его бы сразу не было. Вот представь: ты сам сочинил формат текста с бинарными управляющими вставками, а о таком флаге явно не знаешь и не выставил его. Всё, формат без поддержки флага существует, флаг потерял универсальность. И таких девелоперов, не знающих хотя бы по одному флагу каждый, а между собой ни о чём не договаривающихся - всё ИТ сообщество.
0
|
58 / 34 / 8
Регистрация: 08.07.2011
Сообщений: 235
|
|
12.09.2011, 08:39 [ТС] | 9 |
Спасибо! Кстати кодировка будет многобайтовая, это осложняет все, может встретиться слово в 1251 битое, битый байт будет юникод например.
0
|
4226 / 1796 / 211
Регистрация: 24.11.2009
Сообщений: 27,562
|
|
12.09.2011, 08:52 | 10 |
html в UTF-8 вполне подходит под твоё описание. Все управляющие последовательности в нём начинаются символом "<" и заканчиваются символом ">". А есть форматы, в которых управляющие последовательности начинаются с символа с кодом 1B (в шестнадцатеричной записи). Я в одной приладе делал управляющие последовательности с символа "~" с завершающим "#", а символы "<" и ">" были обычными текстовыми (правда в ANSI 1251, то есть в однобайтном коде). Причём, UTF-8 мало того, что многобайтная, так ещё и переменной длины, так что читать всё таки по одному.
0
|
12.09.2011, 08:52 | |
12.09.2011, 08:52 | |
Помогаю со студенческими работами здесь
10
Скрипт для определения наличия блокировки пользователя ПК Определения наличия закладки в документе WORD из скрипта Excel Регулярное выражение для определения наличия заданных символов в строке C# проверка на наличия информации в txt файле Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи | |||||
Книги и учебные ресурсы по C#
InfoMaster 08.01.2025
Базовые учебники и руководства
Одной из лучших книг для начинающих является "C# 10 и . NET 6 для начинающих" Эндрю Троелсена и Филиппа Джепикса . Книга последовательно раскрывает основные концепции. . .
|
Что такое NullReferenceException и как исправить?
InfoMaster 08.01.2025
NullReferenceException - одно из самых распространенных исключений, с которым сталкиваются разработчики на C#. Это исключение возникает при попытке обратиться к членам объекта (методам, свойствам или. . .
|
Что такое Null Pointer Exception (NPE) и как это исправить?
InfoMaster 08.01.2025
Null Pointer Exception (NPE) - это одно из самых распространенных исключений в Java, которое возникает при попытке использовать ссылку на объект, значение которой равно null. Это исключение относится. . .
|
Русский язык в консоли C++
InfoMaster 08.01.2025
При разработке программ на C++ одной из частых проблем, с которой сталкиваются русскоязычные программисты, является корректное отображение кириллицы в консольных приложениях. Эта проблема особенно. . .
|
Telegram бот на C#
InfoMaster 08.01.2025
Разработка ботов для Telegram стала неотъемлемой частью современной экосистемы мессенджеров. C# предоставляет мощный и удобный инструментарий для создания разнообразных ботов, от простых. . .
|
Использование GraphQL в Go (Golang)
InfoMaster 08.01.2025
Go (Golang) является одним из наиболее популярных языков программирования, используемых для создания высокопроизводительных серверных приложений. Его архитектурные особенности и встроенные. . .
|
Что лучше использовать при создании класса в Java: сеттеры или конструктор?
Alexander-7 08.01.2025
Вопрос подробнее:
На вопрос: «Когда одновременно создаются конструктор и сеттеры в классе – это нормально?» куратор уточнил: «Ваш класс может вообще не иметь сеттеров, а только конструктор и геттеры. . .
|
Как работать с GraphQL на TypeScript
InfoMaster 08.01.2025
Введение в GraphQL и TypeScript
В современной разработке веб-приложений GraphQL стал мощным инструментом для создания гибких и эффективных API. В сочетании с TypeScript, эта технология. . .
|
Счётчик на базе сумматоров + регистров и генератора сигналов согласования.
Hrethgir 07.01.2025
Создан с целью проверки скорости асинхронной логики: ранее описанного сумматора и предополагаемых fast регистров. Регистры созданы на базе ранее описанного, предполагаемого fast триггера. То-есть. . .
|
Как перейти с Options API на Composition API в Vue.js
BasicMan 06.01.2025
Почему переход на Composition API актуален
В мире современной веб-разработки фреймворк Vue. js продолжает эволюционировать, предлагая разработчикам все более совершенные инструменты для создания. . .
|
Архитектура современных процессоров
inter-admin 06.01.2025
Процессор (центральный процессор, ЦП) является основным вычислительным устройством компьютера, которое выполняет обработку данных и управляет работой всех остальных компонентов системы. Архитектура. . .
|
История создания реляционной модели баз данных, правила Кодда
Programming 06.01.2025
Предпосылки создания реляционной модели
В конце 1960-х годов компьютерная индустрия столкнулась с серьезными проблемами в области управления данными. Существовавшие на тот момент модели данных -. . .
|