Форум программистов, компьютерный форум, киберфорум
C# для начинающих
Войти
Регистрация
Восстановить пароль
Карта форума Темы раздела Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.80/15: Рейтинг темы: голосов - 15, средняя оценка - 4.80
0 / 0 / 0
Регистрация: 10.12.2014
Сообщений: 6
1

Использование GZip для сжатия текста веб-страницы

11.12.2016, 20:57. Показов 3048. Ответов 7
Метки нет (Все метки)

Author24 — интернет-сервис помощи студентам
Добрый вечер, форумчане! Прошу вашей помощи. Решения из похожих тем мне не помогли.

Есть метод
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
 public static string GetURL(string address)//получение текста со страницы
        {
            //using (var client = new MyWebClient())
            using (var client = new WebClient())
            {
                //WebClient берет Proxy из конфигурационных файлов Internet Explorer. Отключаем
                client.Proxy = null;
                client.Credentials = CredentialCache.DefaultNetworkCredentials;
                client.Encoding = Encoding.UTF8;
                client.Headers[HttpRequestHeader.AcceptEncoding] = "gzip";
                using (GZipStream responseStream = new GZipStream(client.OpenRead(address), CompressionMode.Decompress))
                {
                    using (StreamReader reader = new StreamReader(responseStream))
                    { return reader.ReadToEnd(); }
                }
            }
        }
Выдается следующая ошибка

Неправильное магическое число в заголовке GZip. Передача должна идти в поток GZip.

В чем дело, никак не могу понять. Ощущение, что в поток GZip ничего не попадает. Хотя, когда использую
C#
1
client.DownloadString(address);
все парсит как надо.
0
Лучшие ответы (1)
Programming
Эксперт
94731 / 64177 / 26122
Регистрация: 12.04.2006
Сообщений: 116,782
11.12.2016, 20:57
Ответы с готовыми решениями:

Распаковка GZip из веб запроса
Доброго времени суток. пишу свой прокси сервер. Говорю сразу,для своих нужд. Данный сервер должен...

GZIP распаковка веб страницы
Помогите перевести код с Delphi на С++ Вот сам код: HeadersToList(http.Headers); // полезная...

Программа для сжатия и распаковки текста
Добрый день! Подскажите, пожалуйста, дано задание: "Разработка программы для сжатия и распаковки...

Извлечение текста из веб-страницы
Доброго времени суток, специалисты VBA. Посоветуйте решение. На листе в ячейку E2 - вписано...

7
Администратор
Эксперт .NET
17553 / 13776 / 5298
Регистрация: 17.03.2014
Сообщений: 28,253
Записей в блоге: 1
12.12.2016, 13:59 2
Лучший ответ Сообщение было отмечено kocherga как решение

Решение

kocherga, попробуй заменить GZipStream на DeflateStream. Еще лучше будет положиться на автоматическую распаковку.
C#
1
2
3
4
5
6
7
8
9
10
11
12
class MyWebClient : WebClient
{
    protected override WebRequest GetWebRequest(Uri address)
    {
        WebRequest webReq = base.GetWebRequest(address);
        HttpWebRequest httpReq = webReq as HttpWebRequest;
        if (httpReq == null) return webReq;
 
        httpReq.AutomaticDecompression = DecompressionMethods.Deflate | DecompressionMethods.GZip;
        return httpReq;
    }
}
0
0 / 0 / 0
Регистрация: 10.12.2014
Сообщений: 6
13.12.2016, 12:35  [ТС] 3
К сожалению, при использование DeflateStream выдается ошибка: Обнаружены недопустимые данные при декодировании.
А при использование автоматической декомпрессии не происходит выигрыша по времени, по сравнению с тем же DownloadString().
0
1453 / 845 / 150
Регистрация: 06.06.2012
Сообщений: 2,370
13.12.2016, 12:38 4
Цитата Сообщение от kocherga Посмотреть сообщение
А при использование автоматической декомпрессии не происходит выигрыша по времени, по сравнению с тем же DownloadString().
А должно?
0
0 / 0 / 0
Регистрация: 10.12.2014
Сообщений: 6
13.12.2016, 12:51  [ТС] 5
Не верно выразилась. Время парсинга страницы при автоматической распаковке и вообще без нее не отличается.
0
Администратор
Эксперт .NET
17553 / 13776 / 5298
Регистрация: 17.03.2014
Сообщений: 28,253
Записей в блоге: 1
13.12.2016, 13:10 6
kocherga, возможно выигрыш и есть, но он слишком небольшой. Нужно замерять время не для одной, а для десятков или сотен страниц.
1
0 / 0 / 0
Регистрация: 10.12.2014
Сообщений: 6
13.12.2016, 13:17  [ТС] 7
Измеряла для примерно 20 страниц. Из-за чего такое может происходить? Парсинг делаю для новостного сайта.
0
Администратор
Эксперт .NET
17553 / 13776 / 5298
Регистрация: 17.03.2014
Сообщений: 28,253
Записей в блоге: 1
13.12.2016, 19:15 8
kocherga, возможно затраты времени на распаковку перекрывают выигрыш от более быстрой передачи данных.
1
13.12.2016, 19:15
IT_Exp
Эксперт
87844 / 49110 / 22898
Регистрация: 17.06.2006
Сообщений: 92,604
13.12.2016, 19:15
Помогаю со студенческими работами здесь

Замена текста веб-страницы (GreaseMonkey)
Мне нужно заменить один текст на другой, где бы на странице он ни находился. Например, есть такая...

Декодинг сжатой gzip страницы.
Получаю через сокетное соединение html-файл. его код сжат gzip-ом. Как средствами PHP можно...

При попытке выполнения сжатия диска система пишет, что доступное для сжатия место — всего лишь 45 МБ
Приветствую. Пытаюсь отделить от диска D (не системный) 50гб памяти. На диске 450+гб памяти всего...

Неправильное магическое число в заголовке GZip. Передача должна идти в поток GZip
Добрый день, пытаюсь написать свой мини-архиватор. Задача заключается в использовании только...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
8
Ответ Создать тему
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2024, CyberForum.ru