Форум программистов, компьютерный форум, киберфорум
C# для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.91/75: Рейтинг темы: голосов - 75, средняя оценка - 4.91
 Аватар для Simbiont
27 / 27 / 16
Регистрация: 22.04.2016
Сообщений: 86

Быстрый парсинг Excel

18.10.2016, 14:40. Показов 15156. Ответов 3
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Господа, прошу помощи.
Суть: есть (и раз в неделю добавляется) сотня файлов *.xls. Содержимое - 1 лист примерно 500 строк на 60 столбцов.
Нужно: слить все файлы в один xls, минуя 1 строчку. В дальнейшем, с выборкой некоторых столбцов, сейчас нужно слить все столбцы.

Да, я знаю, существуют надстройки в экселе, но, видимо, предстоит довольно большая работа с подключением отчетов в c# проекты.
Сделал забор из всех файлов в DataTable значений ячеек (фактически, сохранил в структуру).
В случае работы ранее с текстовыми отчетами и логами, такой парсинг пролетал за несколько секунд для объема в десяток тысяч строк. А вот сейчас так же попробовал забрать данные из сотни эксель-таблиц и... 2.5 часа парсинга для суммарно 1млн ячеек (30к х35 листов).
Работаю со стандартным модулем Interop.Excel, по принципу - взять файл, создать application, открыть книгу, увидеть фигу открыть лист, определить крайнюю ячеку и считать ячейки в DataTable DT:
C#
1
2
3
4
5
6
7
8
9
10
11
var openXls = new Microsoft.Office.Interop.Excel.Application();
            var openXlsWb = openXls.Workbooks.Open(somestring_xls, Type.Missing, Type.Missing,
                Type.Missing, Type.Missing, Type.Missing, Type.Missing, Type.Missing, Type.Missing, Type.Missing,
                Type.Missing, Type.Missing, Type.Missing, Type.Missing, Type.Missing);
            Excel.Worksheet openXlsWs = (Excel.Worksheet)openXlsWb.Sheets[1];
            var lastCell = openXlsWs.Cells.SpecialCells(Excel.XlCellType.xlCellTypeLastCell);
            for (int comNum = 0; comNum < lastCell.Column; comNum++)
            {
                DT.Columns.Add(comNum.ToString());
            }
            DataRow stringData = DT.NewRow();
Ну и далее просто копирование построчно (со второй строки) данных из ячеек в в DataRow, ничего примечательного:

C#
1
2
3
4
5
6
7
8
9
for (int i = 1; i < lastCell.Row; i++)
                {
                    stringData = DT.NewRow();
                    for (int j = 0; j < lastCell.Column; j++)
                    {
                        stringData[j] = openXlsWs.Cells[i+1, j + 1].Text.ToString();
                    }    
                    DT.Rows.Add(stringData);
                }
После чего закрываю эксель книгу и процесс и перехожу к следущему XLS.

Процесс наполнения DT тормозит эту схему чуть меньше чем совсем никак. Проблема именно в поячеечном считывании экселя. Может нужно открывать файлы только для чтения или еще какие то параметры я пропустил?
По идее, при обращении к lastCell.Row, я обращаюсь к уже инициализированному объекту, а не к методу, поэтому это тоже не должно сильно тормозить. Грешу на параметры открытия файла или на саму встроенную функцию обращения к ячейкам. Может есть какой-то простой и незатратный способ забрать что-то типа query в DT? потому что 12часовое слияние 100 500строчных экселей - это бред какой-то. В любой адекватной БД на подобные запросы ушло бы от силы минуты 2, наверно.

И еще пара дополнительных вопросов, если позволите:
Запустить ли парсинг в пуле потоков (List потоков подготовили и по списку сделали .Run), ускорит ли?
процесс поклеточного сохранения данных из DT также слишком долгий. ЧЯДНТ?
0
Лучшие ответы (1)
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
18.10.2016, 14:40
Ответы с готовыми решениями:

Наиболее быстрый способ работы с файлом Excel (около 20000 строк)
Здравствуйте ребята, хотел спросить у вас совета. Есть программа по распечатке ценников по артикулу или штрихкоду товара. Какой обработкой...

быстрый парсинг
&lt;? $content= file_get_contents('http://kosmoskan.ru/?page=rasp'); preg_match_all('~&lt;h3 align=&quot;left&quot;&gt;.*&lt;p&gt;(+)&lt;/p&gt;.*&lt;/h3&gt;~siuU',...

Быстрый парсинг строки
Всем доброго времени суток... Прошу разъяснить что делаю не так. Получаю строку вида, нужно ее обработать с минимальными задержками, по...

3
964 / 485 / 241
Регистрация: 02.06.2016
Сообщений: 760
18.10.2016, 15:03
Лучший ответ Сообщение было отмечено Simbiont как решение

Решение

Simbiont, попробуй напрямую копировать значения регионов, при использовании макросов это самый быстрый вариант.
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
static void CopyRange(Range Source, Range Destination)
{
    Destination.Cells[1, 1]
        .Resize(Source.Rows.Count, Source.Columns.Count)
        .Value = Source.Value;
}
 
static void Main()
{
    var app = new Application();
    var inbook = app.Workbooks.Open(@"p:\Книга1.xlsx");
    var outbook = app.Workbooks.Add();
 
    // скопирует прямоугольный регион A1:C2 из inbook
    // в B2:D3 из outbook
    CopyRange(
        inbook.Sheets[1].Range["A1", "C2"],
        outbook.Sheets[1].Range["B2", "B2"]);
 
    inbook.Close();
    app.Visible = true;
}
1
 Аватар для Simbiont
27 / 27 / 16
Регистрация: 22.04.2016
Сообщений: 86
19.10.2016, 13:34  [ТС]
Спасибо, попробую копировать кусками (целыми экселями ). О результатах расскажу завтра (не хочу прерывать текущий сеанс и замеряю время этого крэйзи-эксель-пати ).

Добавлено через 20 часов 33 минуты
Да, спасибо, Aael!
Через данный подход время выполнения сократилось до 15 секунд
Но стала валиться ошибка. Думаю, допилю парсинг отдельных багнутых отчетов по классике в catch'е.
0
 Аватар для EveKS
601 / 485 / 185
Регистрация: 19.04.2016
Сообщений: 1,885
19.10.2016, 15:30
Aael, Simbiont, или я не так понимаю, или можно так?:
C#
1
2
xlApp.Workbooks.Open("path");
var arrData1 = (object[,])xlApp.Range["A1:Z500"].Value;
Добавлено через 1 минуту
понял - там сразу в excel данные идут
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
19.10.2016, 15:30
Помогаю со студенческими работами здесь

Быстрая работа со строкой (быстрый парсинг)
Есть строка вида &quot;имя1(значение1),имя2(значение2),&quot; Где &quot;имя&quot; и &quot;значение&quot; могут иметь произвольную длину (от 1 символа и до ...), а сами...

Быстрый парсинг огромного txt файла (800 мб)
В общем нужно распарсить в массив Integer-ов огромный текстовый файл (800 мб), состоящий из 1 длинной строки, которая состоит из чисел от 1...

Быстрый экспорт в Excel
Всем здравствуйте. Необходимо организовать пользователям возможность быстрого экспорта в Excel вьюшки. Напрямую оооочень медленно...

Быстрый импорт из Excel в 1С
Всем доброго времени суток. Стоит такая задача - необходимо написать обработку, которая переносила бы данные из листа Excel в регистр...

Быстрый импорт excel в sql
Форумчане, приветствую! Есть файл excel размером 500к строк +-. Нужно максимально быстро переливать данные из excel в sql и в момент...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
4
Ответ Создать тему
Новые блоги и статьи
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Access
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru