Форум программистов, компьютерный форум, киберфорум
C# для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.52/21: Рейтинг темы: голосов - 21, средняя оценка - 4.52
0 / 0 / 0
Регистрация: 19.12.2016
Сообщений: 31

Парсинг html + javascript

21.01.2017, 20:50. Показов 4378. Ответов 4
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Доброго времени суток!

Я хочу написать парсер, чтобы получать нужную информацию с сайта для дальнейшей работы с ней. Начал изучать, нашел множество примеров, которые внятно поясняют, что и как делать, но не подходит для моего варианта. Проблема в том, что информация, которая нужна мне, выводится через javascript и при парсинге страницы, парсится все, кроме таблицы с нужной информацией (вместо нее надпись "Loading..."). Как решить данную проблему, поделитесь знаниями и опытом?

P.S. Сайт получает информацию поэтапно, как я понял, прочитав пару тем.
Есть парсер этого сайта для Excel, и там такой метод получения (нужной мне) информации, в три этапа:

1. "Открыть сайт site.ru в IE",
2. "Прокрутить страницу вниз"
3. "Закрыть IE".

Для удобства есть окошко с кодом, полученным с сайта, в нем есть весь код в html, даже тот, что получается через javascript.

Если есть подобные команды для c#, php, буду очень признателен.

P.P.S. Язык программирования по сути не важен, но отдаю предпочтение C# дабы парсер был в виде *.exe программы с выводом данных в Excel или txt.

P.P.P.S Извиняюсь за такой фанатизм к описанию данной темы. Самое главное - как мне получить эту информацию, есть ли варианты, как в Excel парсере?
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
21.01.2017, 20:50
Ответы с готовыми решениями:

Парсинг html сайта у которого frontend на javascript
Здравствуйте. Пытаюсь запарсить вот этот сайт: http://allsocial.ru Для начала пытаюсь получить html код, но он приходит не...

Парсинг делают одновременно со скачиванием html, или в конце со скачанным html
Представим что html байт за байтом записывается в файл, Как правильнее сделать парсинг , после того как будет скачан полностью весь html,...

Парсинг сайта с JavaScript
Мне нужно пропарсить сайт, но информация поялвяеться на сайте только после выполнения JS. Как получить HTML сайта после выполнения скриптов?

4
 Аватар для EveKS
601 / 485 / 185
Регистрация: 19.04.2016
Сообщений: 1,885
21.01.2017, 22:55
Можно всё, и здесь таких тем куча, но вот site.ru не открывается, чтоб с него что-то спарсить...

Добавлено через 43 минуты
Тут надо видеть саму проблему, а то... вот пример парсинга:
Выбор только ссылок из Html

Вот пример как я делал Excel из данных Xml запроса, сделал на скорую руку... могу подсказать как пробросить Exception чтоб убить Task.
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
public class ExcelMaker : IExcelMaker
    {
        public async void ToMakeExcel(Task<IEnumerable<Bill>> xmls, Task<object[,]> excel)
        => await Task.Run( async() =>
        {
            #region XmlToArray
            var _xmls = await xmls;
            var xmlData = _xmls.Select(xml =>
            {
                ExcelData ExcelData = new ExcelData();
                ExcelData.Date = DateTime.Parse(xml.Title.B_start, null, DateTimeStyles.RoundtripKind);
                var temp = xml.Ch_details.Charges_d.Charge_d.Select(d =>
                    new { call = d.C_num, tot = d.C_tot }).ToArray();
 
                string[,] arrXml = new string[temp.Length, 2];
                for (int i = 0; i < arrXml.GetUpperBound(0); i++)
                {
                    arrXml[i, 0] = temp[i].call;
                    arrXml[i, 1] = temp[i].tot;
                }
                ExcelData.Excel = arrXml;
                return ExcelData;
            }).OrderBy(xml=>xml.Date).ToList();
            #endregion
 
 
            #region ToExcel
            var excalResult = excel.Result;
 
            for (int i = 4; i < xmlData.Count + 4; i++)
            {
                excalResult = Sorts(excalResult, xmlData[i - 4].Excel, i);
            }
 
            Excel.Application xlApp = new Excel.Application();
 
            Excel.Workbook xlWb;
            Excel.Worksheet xlSht;
            //var abs = "ABCDEFGHIJKLMNOPQRSTUVWXYZ";
 
            xlWb = xlApp.Workbooks.Add(System.Reflection.Missing.Value);
            xlSht = (Excel.Worksheet)xlWb.Sheets[1];
 
            xlSht.Range["A1"]
                .Resize[excalResult.GetUpperBound(0), excalResult.GetUpperBound(1)]
                .Value = excalResult; 
            var excelDate = xmlData.Select(xml => xml.Date.ToString("MMM.yyyy")).ToArray();          
            xlSht.Range["D2"].Resize[1, excelDate.Length].Value = excelDate;
            xlSht.Columns["B:Z"].AutoFit();
 
            xlWb.Close(true);
            xlApp.Quit();
            #endregion
        });
        public static object[,] Sorts(object[,] arrExcel, string[,] arrXml, int n)
        {
            for (int i = 1; i <= arrExcel.GetLength(0); i++)
                for (int j = 0; j < arrXml.GetLength(0); j++)
                    if (arrExcel[i, 2]?.ToString().Trim() == arrXml[j, 0]?.Trim().Substring(2))
                    {
                        arrExcel[i, n] = arrXml[j, 1];
                    }
 
            return arrExcel;
}
0
0 / 0 / 0
Регистрация: 19.12.2016
Сообщений: 31
21.01.2017, 23:22  [ТС]
EveKS, "site.ru" написал для примера.

вот сам сайт
Кликните здесь для просмотра всего текста
www.myscore.ru


когда парсишь, то список событий (футбольных матчей) не парсится.

Это решаемо? Многие сказали, что информация защищена от копирования. Мне кажется и это обойти можно, раз парсер для Excel получает эту информацию. Конечно, там только список матчей и их последние 5 очных встреч парсят, но все же информация получается каким-то образом. Если вы уверены, что это возможно, то, пожалуйста, окажите помощь. Готов вознаградить финансово в содействии))
0
 Аватар для EveKS
601 / 485 / 185
Регистрация: 19.04.2016
Сообщений: 1,885
21.01.2017, 23:40
MagaN, что там именно скрыто? - весь table виден... Даже в браузере.
0
Эксперт .NET
 Аватар для Wolfdp
3785 / 1762 / 371
Регистрация: 15.06.2012
Сообщений: 6,538
Записей в блоге: 3
22.01.2017, 02:19
пришедшая страница в js вызывает асинхроный запрос на подгрузку данных (лично я увидел http://d.myscore.com.ua/x/feed/f_1_0_2_ru_1) и уже пришедшие данные пихает в таблицу. Правда пришедший вормат вогнал меня в ступор, но думаю, если заморочится, то можно расшифровать.

p.s. лучше смотреть сначала из network в любом браузере.

Не по теме:

p.p.s.

Цитата Сообщение от MagaN Посмотреть сообщение
Многие сказали, что информация защищена от копирования.
защита в браузере от копирования выглядит как замок на полуметровом заборе -- вроде и закрыто, но и перелезть не проблема.

0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
22.01.2017, 02:19
Помогаю со студенческими работами здесь

Парсинг сайтов, написанных на javascript
Мне нужно на C# сделать парсинг сайта, написанного на javascript. Как это сделать, есть ли какие-то примеры в интернете и может...

Парсинг HTML в вк
Пытаюсь спарсить Моб тел. класс=labeled делаю через HtmlAgilityPack var WebGet = new HtmlWeb(); var doc =...

HTML парсинг
Привет всем! Мне сказали код можно в 2 строки написать. Как правильно парсить HTML со страницы в C#? Допустим мне нужно с этого сайта в...

Парсинг HTML
Как ни пробовал, ничего не получается. Есть переменная string с текстом такого типа: ...

Парсинг html
:&lt;/td&gt; &lt;/tr&gt; &lt;tr&gt; &lt;td&gt;111 string pattern1 = &quot;:&lt;/td&gt;\\s+&lt;/tr&gt;\\s+&lt;tr&gt;\\s+&lt;td&gt;ЧИСЛО&quot;; нужно дописать патерн...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
5
Ответ Создать тему
Новые блоги и статьи
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Access
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru