С Новым годом! Форум программистов, компьютерный форум, киберфорум
C# .NET
Войти
Регистрация
Восстановить пароль
Карта форума Темы раздела Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.60/5: Рейтинг темы: голосов - 5, средняя оценка - 4.60
38 / 1 / 0
Регистрация: 27.03.2014
Сообщений: 38
1

Избавление от &_shy_; при парсинге страницы

30.08.2016, 23:56. Показов 866. Ответов 1
Метки нет (Все метки)

Author24 — интернет-сервис помощи студентам
Доброго времени суток. Пытаюсь спарсить страницу вот таким вот кодом
C#
1
2
3
4
5
6
7
WebClient wClient = new WebClient();
wClient.Encoding = Encoding.UTF8;
wClient.Proxy = null;
Uri uri = new Uri(url);
html = wClient.DownloadString(uri);
html = html.Replace("&_shy_;", "");//без подчеркиваний. Киберфорум заменяет автоматом без них
html = html.Replace(" ", " ");
При этом часть этих переносов(вроде так они называются) исчезает, но половина, вероятнее всего при получении html кода заменяется на -, т.е. получается такой текст дво-ич-ная за-пись ко-то-ро-го со-дер-жит 5 единиц. Каким образом можно такое исправить и можно ли вообще?
Если нет, то тогда для отображения консоль использовать нельзя, надо использовать что-то на подобие WebView(не писал не разу проект Windows Forms, поэтому не знаю названий точных) или как-то можно по другому? Заранее спасибо
0
Programming
Эксперт
94731 / 64177 / 26122
Регистрация: 12.04.2006
Сообщений: 116,782
30.08.2016, 23:56
Ответы с готовыми решениями:

обход   при парсинге
Нужно спарсить топ посещений сайтов, проблема в том, что стоит   между тысячами и сотнями...

Кракозябры при парсинге страницы
Получаю код страницы. С помощью регулярок извлекаю значение тэга заголовка страницы(<title>). Но в...

Ошибка при парсинге страницы сайта
В методе онклик пишу: public void onClick(View v) { Document doc = null; try...

Запуск скрипта при парсинге страницы
Есть некоторый сайт с таблицей, которую необходимо пропарсить и записать данные в бд. Таблица...

1
0 / 0 / 0
Регистрация: 05.09.2016
Сообщений: 3
06.09.2016, 14:47 2
Привет
попробуй использовать WebUtility.HtmlDecode
0
06.09.2016, 14:47
IT_Exp
Эксперт
87844 / 49110 / 22898
Регистрация: 17.06.2006
Сообщений: 92,604
06.09.2016, 14:47
Помогаю со студенческими работами здесь

Слетела кодировка при парсинге html-страницы
Здравствуйте! Начал писать программу которая парсит сайт. В заголовке html-страницы указана...

Неверное регулярное выражение при парсинге страницы
Имеется страница такой разметки: <tr class="lutr"> 15 26 37 48 </tr> <tr class="lutr"> 1 ...

Народ, как обойти защиту при парсинге страницы?
Есть страница , на ней есть кнопка "показать номер", при нажатии на неё отображается номер, только...

Как обойти lazy load при парсинге страницы
Нужно спарсить со страницы несколько картинок, но они идут как background-image к блоку div и...

При парсинге страницы, нужно получать файлы в имени которых нет расширения
Дана ссылка на файл в закодированном виде, например...

При парсинге страницы, нужно получать файлы в имени которых нет расширения
Дана ссылка на файл в закодированном виде, например...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
2
Ответ Создать тему
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru