С Новым годом! Форум программистов, компьютерный форум, киберфорум
.NET
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.78/18: Рейтинг темы: голосов - 18, средняя оценка - 4.78
 Аватар для Vinemax
149 / 117 / 10
Регистрация: 12.09.2011
Сообщений: 785

Парсинг сайта с Java

24.07.2020, 08:20. Показов 3402. Ответов 2
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Привет всем!

У меня есть задача парсить данные с сайта, большая часть которого генерируется какими-то скриптами, скорее всего Java. То есть, когда я открываю этот сайт в браузере и сохраняю его в html, то на выходе получается небольшой html-файл, в котором самих нужных мне данных нет, а есть какие-то вызовы скриптов.

Подскажите, пожалуйста, возможно ли средствами .NET (C# или VB) получать всё содержимое страницы сайта со всеми сгенерированными данными на странице, то есть так, как если бы я её открыл в браузере? Может быть есть какая-то бесплатная библиотека для этого? Может быть HtmlAgilityPack может такое сделать?

Спасибо!
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
24.07.2020, 08:20
Ответы с готовыми решениями:

Помогите реализовать парсинг сайта на Java
Здравствуйте уважаемые форумчане, возникла такая ситуация, есть пост запрос следующего содержания: curl -X POST \ -H...

Парсинг данных с сайта или страницы сайта
Здравствуйте, добрые люди! Есть задача спарсить данные с страницы соц сети. Или просто со страницы с помощью js. На пхп не предлагать....

Парсинг пакета на java
Господа, подскажите, как это правильно делать в Java? Допустим я получаю по сети пакет известного формата, состоящий из кучи полей с...

2
Эксперт .NET
 Аватар для Usaga
14114 / 9331 / 1350
Регистрация: 21.01.2016
Сообщений: 35,065
24.07.2020, 09:18
Цитата Сообщение от Vinemax Посмотреть сообщение
Может быть HtmlAgilityPack может такое сделать?
Т.е. вы ещё не пробовали, но вопрос уже задаёте?

Вообще, если содержимое страницы формируется динамически, то HtmlAgilityPack уже не поможет. Нужно или работать с веб-приложение через браузер (гуглите: Selenium) или смотреть как скрипты с сервером взаимодействуют (API) и обращаться к серверу напрямую.
1
800 / 583 / 207
Регистрация: 21.02.2019
Сообщений: 2,095
24.07.2020, 11:51
Vinemax,
.. в вашем случае прежде всего можно поставить Fiddler между браузером и сайтом, и посмотреть на формат ответа от сервера, возможно там есть все данные, которые вам нужны в открытом виде в формате JSON или XML или URL-encoding ...Но есть большая вероятность, что эти данные упакованы/зашифрованы в виде base64 или еще как - тогда Selenium, как сказали выше, или подобные ...
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
24.07.2020, 11:51
Помогаю со студенческими работами здесь

Парсинг XML в java
Помогите с программой пожалуйста (хотя бы задайте верное направление) Имеется xml документ, там содержатся данные о нескольких фирмах, в...

Парсинг Java чата
здравствуйте. Хочу спарсить чат - а конкретно все что есть в элементе(1). Но если вписываю его для нахождения то его прога не находит....

Парсинг сайта
Добрый день, стоит задача парсить сайт game.co.uk. Необходимо консольное апп, которое принимает на вход id продукта и на выходе отдает...

Парсинг сайта
Имеется страница с примерно следующим содержимым ... <div class="main random"> <b>1</b> <b>123</b> ...

Парсинг сайта
Здравствуйте. Подскажите пожалуйста. Есть необходимость получать данные со страниц сайта, нажимать там на кнопки, вводить данные. Только...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Новые блоги и статьи
сукцессия микоризы: основная теория в виде двух уравнений.
anaschu 11.01.2026
https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
WordPad для Windows 11
Jel 10.01.2026
WordPad для Windows 11 — это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .
Classic Notepad for Windows 11
Jel 10.01.2026
Old Classic Notepad for Windows 11 Приложение для Windows 11, позволяющее пользователям вернуть классическую версию текстового редактора «Блокнот» из Windows 10. Программа предоставляет более. . .
Почему дизайн решает?
Neotwalker 09.01.2026
В современном мире, где конкуренция за внимание потребителя достигла пика, дизайн становится мощным инструментом для успеха бренда. Это не просто красивый внешний вид продукта или сайта — это. . .
Модель микоризы: классовый агентный подход 3
anaschu 06.01.2026
aa0a7f55b50dd51c5ec569d2d10c54f6/ O1rJuneU_ls https:/ / vkvideo. ru/ video-115721503_456239114
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR
ФедосеевПавел 06.01.2026
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR ВВЕДЕНИЕ Введу сокращения: аналоговый ПИД — ПИД регулятор с управляющим выходом в виде числа в диапазоне от 0% до. . .
Модель микоризы: классовый агентный подход 2
anaschu 06.01.2026
репозиторий https:/ / github. com/ shumilovas/ fungi ветка по-частям. коммит Create переделка под биомассу. txt вход sc, но sm считается внутри мицелия. кстати, обьем тоже должен там считаться. . . .
Расчёт токов в цепи постоянного тока
igorrr37 05.01.2026
/ * Дана цепь постоянного тока с сопротивлениями и напряжениями. Надо найти токи в ветвях. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа и решает её. Последовательность действий:. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru