Форум программистов, компьютерный форум, киберфорум
C# .NET
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.76/21: Рейтинг темы: голосов - 21, средняя оценка - 4.76
215 / 149 / 48
Регистрация: 28.12.2016
Сообщений: 716
.NET 4.x

Быстрый поиск в большом объеме данных

13.03.2017, 16:19. Показов 4213. Ответов 9
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Добрый день. Есть файл в формата .txt (~4гб), в нем хранятся записи в строку, 1 запись = 1 строка. Каждая строка уникальна, повторов нету. Программа должна обращаться к записям и смотреть есть ли искомая, если не нашли - добавляем.

Как лучше реализовать?
Через базу данных? К примеру я пробывал sqlite очень долго работает, скорее всего я накосячил.
Или же не меняя формата работать напрямую?
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
13.03.2017, 16:19
Ответы с готовыми решениями:

Как правильнее работать с базой при большом объеме данных?
Вопрос в следующем. Есть база со множеством таблиц. И есть программа, которая одновременно работает с несколькими таблицами. А также...

Определение четности чисел в большом объеме данных, используя 10 потоков
Как такое можно решить? Мозги кипят, вижу что при помощи Мютекса, но как? есть список типа int размером допустим 1000000 из произвольных...

Быстрый поиск подстрок в большом массиве
Всем привет, есть огромный массив (примерно 400кк строк) Пример строк: lU0Hf5FAJQHGkVtou5pJBC4m0gox6sY5pD849lPy7393 ...

9
Эксперт .NET
 Аватар для kolorotur
17823 / 12973 / 3382
Регистрация: 17.09.2011
Сообщений: 21,261
13.03.2017, 18:14
Цитата Сообщение от Defences Посмотреть сообщение
Как лучше реализовать?
Через базу данных?
Да, не стоит изобретать велосипед, особенно когда речь идет о таких объемах данных.

Цитата Сообщение от Defences Посмотреть сообщение
я пробывал sqlite очень долго работает
Ну можете создать тему в разделе ADO.NET и выложить там схему базы и код, который с ней работает.
Местные умельцы наверняка найдут проблему.
0
 Аватар для m0nax
1274 / 975 / 113
Регистрация: 12.01.2010
Сообщений: 1,971
13.03.2017, 21:54
сделай еще один файлик, храни в нем хеш строк первого файла в том же порядке(если не меняется конечно)
файлик будет маленький и запросто залезет в память, поиск по полному совпадению будет за миллисекунды

4 гига записей это похоже многие десятки миллионов записей, sqlite такое не потянет
0
Эксперт .NET
 Аватар для Usaga
14088 / 9305 / 1348
Регистрация: 21.01.2016
Сообщений: 34,929
14.03.2017, 07:27
Defences, такое делается либо сотворением своей маленькой велосипедной СУБД (строить индекс для TXT-файла, хранить хеши строк и т.п), либо использовать готовую СУБД в виде того же SQLite. Если SQLite сильно тормозит, то как выше порекомендовали, обратитесь в соответствующий раздел форума по базам.

Если выяснится, что SQLite "давится" таким объёмом данных, то ничего не останется, кроме как велосипедить.

Добавлено через 3 минуты
Цитата Сообщение от Defences Посмотреть сообщение
я пробывал sqlite очень долго работает
СУБД не быстрее сама по себе, просто потому, что она - СУБД. Вы пробовали строить индексы по полю со строками или использовать full text search?
0
215 / 149 / 48
Регистрация: 28.12.2016
Сообщений: 716
14.03.2017, 07:45  [ТС]
Я думал что такое можно реализовать только посредством БД, но на просторах интернета нашел программу Arhivar, которая подходит под мои требования, она работает только с .txt, без сторонних dll и т.д, управляется за 40сек почти с любым объемом, к примеру у нас записей 15кк, сверяем 10кк за 45 сек и получаем уникальные строки. Я не очень понимаю как это реализовано без средств БД. Возможно в несколько потоках читается файл и идет сверка, хотя это только гипотеза.

Формат моей строки
#00-00-0000-00 slovo & params

Ибо в программу поступают постоянно записи, нужно сверить на уникальность, если нету - записать в другой файл, чтобы админ вручную смотрел, ибо попадание дубликата - сбой, баг.
Вложения
Тип файла: rar Arhivar.rar (2.93 Мб, 14 просмотров)
0
Эксперт .NET
 Аватар для Usaga
14088 / 9305 / 1348
Регистрация: 21.01.2016
Сообщений: 34,929
14.03.2017, 08:03
Цитата Сообщение от Defences Посмотреть сообщение
Я не очень понимаю как это реализовано без средств БД.
Ну, я уже выше заикнулся: нужно проиндексировать ваш файл, создать отдельный файл, в котором будет размещаться информация о позиции каждой строки в исходном документе, а так же хеши этих строк. Причём сам индекс должен быть представлен деревом (организован специальным образом) и, скорее всего, должен храниться в оперативной памяти, а на диск только сохраняться.

Тогда время поиска будет исчисляться миллисекундами. А сам поиск будет заключаться в вычислении хеша новой строки, поиска всех строк с данным хешем и прямом сравнении этих строк (хеши для разных строк могут совпадать) для определения факта наличия дубликата. Ну и обновления индекса, при добавлении новой строки.

Добавлено через 2 минуты
Это можно сделать своими силами. А можно воспользоваться SQLite-том. Но в любом случае, для эффективного решения вашей задачи нужно что-то сложнее и умнее тупого перебора всех строк в файле.
0
215 / 149 / 48
Регистрация: 28.12.2016
Сообщений: 716
14.03.2017, 08:25  [ТС]
Usaga, а что скажите о Arhivar, для меня это некая магия...

Искал как увеличить скорость поиска в БД, нашел интересную методичку о слепых инъекциях, там описывается поиск от 1 символа, то есть искомое слово hello, мы ищем все слова на h, далее чтобы 2 была e, 3 - l и так пока не останется 1 строка в select, если нету записей, то вернут 0 - значит записываем. Не знаю увеличит это скорость или нет, попробую.
0
Эксперт .NET
 Аватар для Usaga
14088 / 9305 / 1348
Регистрация: 21.01.2016
Сообщений: 34,929
14.03.2017, 08:30
Defences, я не знаю, что за Archivar (видел ваше вложение, но изучать не стал).

Цитата Сообщение от Defences Посмотреть сообщение
Искал как увеличить скорость поиска в БД, нашел интересную методичку о слепых инъекциях, там описывается поиск от 1 символа,
Т.е. описанное мной выше про индексацию вы принципиально не заметили?..
0
215 / 149 / 48
Регистрация: 28.12.2016
Сообщений: 716
14.03.2017, 08:58  [ТС]
Usaga, возможно я не так понял.

вот у нас пустой файл.
main.txt и hash.txt

1)Записываем данные в него, попутно создаем хеш каждой строки и записываем в отдельный файл.
2)Загружаем hash.txt в оперативку(ибо даже при 100кк записей это 3.4гб. 32 байта строка и 2 байта переход на новую). Думаю воспользоваться hashset.
3)Поступила строка, получаем md5 из нее и пробуем
C#
1
2
3
4
5
6
7
8
9
10
if(!hashset.add(наша мд5 строка))
{
// запись уже есть
File.AppendAllText("bug.log",строка)
}
else
{
// записи нету, добавляем в main
// вот тут загвостка, а  если следом еще 1 повтор пойдет, а в main еще нету этой строки, ну точнее мы добавили, а hash старый у нас, опять переопределять?)
}
4)Заного создаем hash(свежий, ибо main изменялась)
0
Эксперт .NET
 Аватар для Usaga
14088 / 9305 / 1348
Регистрация: 21.01.2016
Сообщений: 34,929
14.03.2017, 09:47
Defences, всё неверно.

Тебе нужно хранить и использовать информацию о позиции каждой строки в исходном файле и хеш данной строки. Хранить это нужно в виде удобном для быстрого поиска хешей. А это уже не список. Это нужно либо в виде дерева, либо в виде хеш-таблицы.

Сначала ищем в индексе позиции всех строк с оперделённым хешем. Потом в исходном файле ищем строки по этим позициям и сравниваем с новой.
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
14.03.2017, 09:47
Помогаю со студенческими работами здесь

Ошибка "Сервер не предоставил значащий ответ" при большом объеме данных
В общем клиент получает ошибку "Сервер не предоставил значащий ответ", когда длина передаваемого массива объектов превышает 1103. На...

Копирования данных (в большом объеме) по определенным условиям
Здравствуйте люди добрые, у меня проблемы встроенные функции excel 2016 не позволяют нужный редизайн таблиц в ексель и сбор корректно...

memo статус бар тормозит при большом объёме
Привет всем =) сталкнулся вот таким проблемой, статус бар тормозит при большом объёме... Как правильно добавить код чтобы статус бар не...

Оптимизация кода скрипта при большом объеме информации
Уважаемые друзья, нужна ваша помощь в оптимизации запроса, т.к. сервер не дает завершить выполнение скрипта, отдавая ошибку 504. Смысл...

Text Mesh Pro не работает при большом объеме текста
Я пытаюсь передать большой текст, где-то 1,500,000 символов, в textMeshPro вот так мой класс using UnityEngine; using TMPro; ...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
10
Ответ Создать тему
Новые блоги и статьи
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Access
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru