|
215 / 149 / 48
Регистрация: 28.12.2016
Сообщений: 716
|
|
.NET 4.x Быстрый поиск в большом объеме данных13.03.2017, 16:19. Показов 4213. Ответов 9
Метки нет (Все метки)
Добрый день. Есть файл в формата .txt (~4гб), в нем хранятся записи в строку, 1 запись = 1 строка. Каждая строка уникальна, повторов нету. Программа должна обращаться к записям и смотреть есть ли искомая, если не нашли - добавляем.
Как лучше реализовать? Через базу данных? К примеру я пробывал sqlite очень долго работает, скорее всего я накосячил. Или же не меняя формата работать напрямую?
0
|
|
| 13.03.2017, 16:19 | |
|
Ответы с готовыми решениями:
9
Как правильнее работать с базой при большом объеме данных?
Быстрый поиск подстрок в большом массиве |
|
17823 / 12973 / 3382
Регистрация: 17.09.2011
Сообщений: 21,261
|
|||
| 13.03.2017, 18:14 | |||
|
Местные умельцы наверняка найдут проблему.
0
|
|||
|
1274 / 975 / 113
Регистрация: 12.01.2010
Сообщений: 1,971
|
|
| 13.03.2017, 21:54 | |
|
сделай еще один файлик, храни в нем хеш строк первого файла в том же порядке(если не меняется конечно)
файлик будет маленький и запросто залезет в память, поиск по полному совпадению будет за миллисекунды 4 гига записей это похоже многие десятки миллионов записей, sqlite такое не потянет
0
|
|
|
14088 / 9305 / 1348
Регистрация: 21.01.2016
Сообщений: 34,929
|
||
| 14.03.2017, 07:27 | ||
|
Defences, такое делается либо сотворением своей маленькой велосипедной СУБД (строить индекс для TXT-файла, хранить хеши строк и т.п), либо использовать готовую СУБД в виде того же SQLite. Если SQLite сильно тормозит, то как выше порекомендовали, обратитесь в соответствующий раздел форума по базам.
Если выяснится, что SQLite "давится" таким объёмом данных, то ничего не останется, кроме как велосипедить. Добавлено через 3 минуты
0
|
||
|
215 / 149 / 48
Регистрация: 28.12.2016
Сообщений: 716
|
|
| 14.03.2017, 07:45 [ТС] | |
|
Я думал что такое можно реализовать только посредством БД, но на просторах интернета нашел программу Arhivar, которая подходит под мои требования, она работает только с .txt, без сторонних dll и т.д, управляется за 40сек почти с любым объемом, к примеру у нас записей 15кк, сверяем 10кк за 45 сек и получаем уникальные строки. Я не очень понимаю как это реализовано без средств БД. Возможно в несколько потоках читается файл и идет сверка, хотя это только гипотеза.
Формат моей строки #00-00-0000-00 slovo & params Ибо в программу поступают постоянно записи, нужно сверить на уникальность, если нету - записать в другой файл, чтобы админ вручную смотрел, ибо попадание дубликата - сбой, баг.
0
|
|
|
14088 / 9305 / 1348
Регистрация: 21.01.2016
Сообщений: 34,929
|
||
| 14.03.2017, 08:03 | ||
|
Тогда время поиска будет исчисляться миллисекундами. А сам поиск будет заключаться в вычислении хеша новой строки, поиска всех строк с данным хешем и прямом сравнении этих строк (хеши для разных строк могут совпадать) для определения факта наличия дубликата. Ну и обновления индекса, при добавлении новой строки. Добавлено через 2 минуты Это можно сделать своими силами. А можно воспользоваться SQLite-том. Но в любом случае, для эффективного решения вашей задачи нужно что-то сложнее и умнее тупого перебора всех строк в файле.
0
|
||
|
215 / 149 / 48
Регистрация: 28.12.2016
Сообщений: 716
|
|
| 14.03.2017, 08:25 [ТС] | |
|
Usaga, а что скажите о Arhivar, для меня это некая магия...
Искал как увеличить скорость поиска в БД, нашел интересную методичку о слепых инъекциях, там описывается поиск от 1 символа, то есть искомое слово hello, мы ищем все слова на h, далее чтобы 2 была e, 3 - l и так пока не останется 1 строка в select, если нету записей, то вернут 0 - значит записываем. Не знаю увеличит это скорость или нет, попробую.
0
|
|
|
14088 / 9305 / 1348
Регистрация: 21.01.2016
Сообщений: 34,929
|
||
| 14.03.2017, 08:30 | ||
|
Defences, я не знаю, что за Archivar (видел ваше вложение, но изучать не стал).
0
|
||
|
215 / 149 / 48
Регистрация: 28.12.2016
Сообщений: 716
|
||||||
| 14.03.2017, 08:58 [ТС] | ||||||
|
Usaga, возможно я не так понял.
вот у нас пустой файл. main.txt и hash.txt 1)Записываем данные в него, попутно создаем хеш каждой строки и записываем в отдельный файл. 2)Загружаем hash.txt в оперативку(ибо даже при 100кк записей это 3.4гб. 32 байта строка и 2 байта переход на новую). Думаю воспользоваться hashset. 3)Поступила строка, получаем md5 из нее и пробуем
0
|
||||||
|
14088 / 9305 / 1348
Регистрация: 21.01.2016
Сообщений: 34,929
|
|
| 14.03.2017, 09:47 | |
|
Defences, всё неверно.
Тебе нужно хранить и использовать информацию о позиции каждой строки в исходном файле и хеш данной строки. Хранить это нужно в виде удобном для быстрого поиска хешей. А это уже не список. Это нужно либо в виде дерева, либо в виде хеш-таблицы. Сначала ищем в индексе позиции всех строк с оперделённым хешем. Потом в исходном файле ищем строки по этим позициям и сравниваем с новой.
1
|
|
| 14.03.2017, 09:47 | |
|
Помогаю со студенческими работами здесь
10
memo статус бар тормозит при большом объёме Оптимизация кода скрипта при большом объеме информации Text Mesh Pro не работает при большом объеме текста Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
||||
|
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта
Симптом:
После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
|
Access
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
|
Новый ноутбук
volvo 07.12.2025
Всем привет.
По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне:
Ryzen 5 7533HS
64 Gb DDR5
1Tb NVMe
16" Full HD Display
Win11 Pro
|
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
|
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
|
|
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов
На странице:
https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/
нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
|
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов.
. . .
|
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
|
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
|
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут.
В век Веб все очень привыкли к дизайну Single-Page-Application .
Быстренько разберем подход "на фреймах".
Мы делаем одну. . .
|