Форум программистов, компьютерный форум, киберфорум
С++ для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.84/25: Рейтинг темы: голосов - 25, средняя оценка - 4.84
 Аватар для SkYMaaN
25 / 19 / 8
Регистрация: 05.04.2019
Сообщений: 338

HTML парсер на С++

07.10.2020, 12:52. Показов 5388. Ответов 10
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Добрый день, подскажите удобную библиотеку для парсинга страниц с текстовой информацией.
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
07.10.2020, 12:52
Ответы с готовыми решениями:

Парсер HTML
Хочу написать прогу по выборке из своих html файлов некоторых тегов (img например). Пошел искать библиотеки парсинга и запутался. Их...

Парсер HTML на C++
Помогите найти библиотеку для синтаксического анализа HTML на C++ или Си. Желательно, работающую с HTML DOM P.S. Нет, я не пишу браузер,...

Парсер html на c++
В консольном приложении хочу чтобы для конвертации валют использовались актуальные данные с сайта. Это возможно реализовать? Какие...

10
 Аватар для Nishen
1357 / 856 / 365
Регистрация: 26.02.2015
Сообщений: 3,814
07.10.2020, 13:00
gumbo-parser & gumbo-query
1
 Аватар для SkYMaaN
25 / 19 / 8
Регистрация: 05.04.2019
Сообщений: 338
07.10.2020, 13:20  [ТС]
Добрый день, подскажите удобную библиотеку для парсинга страниц с текстовой информацией.
0
 Аватар для Nishen
1357 / 856 / 365
Регистрация: 26.02.2015
Сообщений: 3,814
07.10.2020, 13:24
HTML парсер на С++

Много тем еще создашь?
0
 Аватар для SkYMaaN
25 / 19 / 8
Регистрация: 05.04.2019
Сообщений: 338
07.10.2020, 15:31  [ТС]
Цитата Сообщение от Nishen Посмотреть сообщение
Много тем еще создашь?
баг форума - продублировало сообщение
0
262 / 151 / 33
Регистрация: 29.06.2019
Сообщений: 1,515
07.10.2020, 20:49
если умеете писать "регулярные выражения" - <regex>
1
 Аватар для SkYMaaN
25 / 19 / 8
Регистрация: 05.04.2019
Сообщений: 338
07.10.2020, 21:42  [ТС]
Столкнулся с проблемой. Скачал библиотеку "gumbo-parser", но не могу найти заголовочные файлы в библиотеке, все папки пролистал. ht tps://gith ub.com/go ogle/gumbo-parser
Хотя в примере использования ( ht tps://ha br.com/ru/po st/280 270/ ) - есть соответствующие инклуды.
Что я упустил?
0
 Аватар для Nishen
1357 / 856 / 365
Регистрация: 26.02.2015
Сообщений: 3,814
08.10.2020, 11:26
Цитата Сообщение от JeyCi Посмотреть сообщение
если умеете писать "регулярные выражения"
Да, и сколько времени у тебя уйдет на более-менее нормально работающий парсер при написании с нуля?

Добавлено через 37 секунд
Цитата Сообщение от SkYMaaN Посмотреть сообщение
Скачал библиотеку "gumbo-parser", но не могу найти заголовочные файлы в библиотеке
https://github.com/google/gumb... master/src
1
Любитель чаепитий
 Аватар для GbaLog-
3745 / 1801 / 566
Регистрация: 24.08.2014
Сообщений: 6,020
Записей в блоге: 1
08.10.2020, 11:31
Цитата Сообщение от JeyCi Посмотреть сообщение
если умеете писать "регулярные выражения" - <regex>
https://stackoverflow.com/ques... 54#1732454
0
262 / 151 / 33
Регистрация: 29.06.2019
Сообщений: 1,515
08.10.2020, 12:37
да видела я уже ваши "нормально" и "не нравятся регулярки"... поэтому и написала "если умеете" - то ничего сложного в C++, т.к. регулярки универсальны - можно использовать во многих языках... для меня - это всегда быстрее - поменять регулярку, чем создавать большие проекты (ради того чтобы вытянуть нужную инфо с html)... не работаю с десятками миллионов строк, да и страница html не такая уж большая... не интересен ваш холивар - но regex всегда удобный рабочий инструмент, причём для многих языков - для кода на скорую руку - вообще Perfecto

Добавлено через 1 минуту
а выбиратьТСу - я его тз не изучала...

Добавлено через 20 минут
P.S.
пример простого паттерна регулярного выражения для парсинга json (когда не надо соблюдать структуру "дерева")
Code
1
RegExp.Pattern = "" & Chr(34) & "(.+?)" & Chr(34) & ":(.+?),"   'берёт каждый элемент (key & item) отдельно из json-структуры
быстро и кратко... (правда с vba кода, chr'ы на c++ несложно заменить на нужное)
регулярки для html'ов не сложнее... если один раз научиться писать паттерны - во многих языках спасёт

Добавлено через 12 минут
только предварительно html зачищаю от рабочих символов (в vba так)
Code
1
2
3
4
    S = Replace(S, Chr(34), "")
     S = Replace(S, Chr(10), "")
    S = Replace(S, Chr(9), "")
    S = Replace(S, Chr(32), "")
остальное парсится регуляркой

Добавлено через 9 минут
не универсальноЙ - но под конкретную страницу конкретной структуры за нужной инфо - создать нужную регулярку - мне универсальный парсер и не нужен... и многа кода тем более не надо иногда (когда основные задачи шире)
0
Эксперт С++
 Аватар для Avazart
8484 / 6151 / 615
Регистрация: 10.12.2010
Сообщений: 28,683
Записей в блоге: 30
08.10.2020, 20:52
В большинстве случаем регулярки это заведомо плохое решение для html ... и медленный ...
Другое дело что возможно придется комбинировать ...


От себя скажу что есть еще Сишная библиотека libxml2
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
08.10.2020, 20:52
Помогаю со студенческими работами здесь

Парсер HTML страниц
Здравствуйте, Начал учить C++, интересует информация, исходник парсера HTML страницы. Очень был бы благодарен такой информацией ...

c++ парсер html страниц
Хочу изучить парсер html страниц через с++, но нигде не могу найти нужной литературы, даже примерно где искать не знаю. В поисковике уже...

Парсер HTML
Здравствуйте! Нигде не могу найти парсера HTML на Си/С++, помогите кто чем может! На PHP все просто выходит в две строки, но надо...

Html парсер на QT
Добрый день! Я понимаю, что мой вопрос очень абстрактен. Я хочу реализовать програмку на Qt, которая будет сама лазить по определенному...

Html парсер без использования QXMLReader
нужен пример html парсера без использования QXMLReader т.к в html коде могут быть ошибки по вервии xml


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
11
Ответ Создать тему
Новые блоги и статьи
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Access
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru