Форум программистов, компьютерный форум, киберфорум
Python
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.57/7: Рейтинг темы: голосов - 7, средняя оценка - 4.57
0 / 0 / 0
Регистрация: 31.01.2021
Сообщений: 101

Получение cookie и headers для парсинга

03.07.2023, 19:06. Показов 1600. Ответов 1

Студворк — интернет-сервис помощи студентам
Здравствуйте, нужна помощь! Стоит задача спарсить данные с сайта dns (название товаров и их цены). Нашел готовое решение, так как не силен в парсинге. В коде требуется заполнить куки и заголовок, но у меня не получается найти эти данные, пробовал через отладку в браузере во вкладке network найти запрос к странице "/catalog/17a89aab16404e77/videokarty/" но там имеются только запросы типа font, не то что нужно так скажем) Подскажите пожалуйста как это можно сделать?
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
import requests
 
import json
from bs4 import BeautifulSoup
 
cookies = {
    """ Вставляем куки"""
}
 
headers = {
    """ Вставляем заголовок """
}
 
urls = {
    "catalog": "/catalog/",
    "videokarty": {
        "url":"https://www.dns-shop.ru/catalog/17a89aab16404e77/videokarty/",
        "tag":"a",
        "class_":"catalog-product__name ui-link ui-link_black"
    }}
 
def find_values_from_key(key, json_object):
    """TODO посмотреть, может можно переписать эту лагающую херню)"""
    if isinstance(json_object, list):
        for list_element in json_object:
            yield from find_values_from_key(key, list_element)
    elif isinstance(json_object, dict):
        if key in json_object:
            yield json_object[key]
        for dict_value in json_object.values():
            yield from find_values_from_key(key, dict_value)
 
def search_Pages(url):
    """
        Поиск количества странниц в категории товара
    """
    response = response_get(url)
    data = json.loads(response.text)
    root = BeautifulSoup(data['html'], 'lxml')
 
    number_str = []
    parse_namber_str = root.find_all('a', class_='pagination-widget__page-link', href=True)
    if len(parse_namber_str)<1:
        return int(1)
    else:
        for tag in parse_namber_str:
            if tag.get('href')[0] == '/':
                number_str.append(tag.get('href'))
        return int(number_str[-1][-2:])
 
def response_get(url, params=None):
    """
        Метод запросов GET.
        Возвращает строку с HTML документом.
    """
    response = requests.get(url, cookies=cookies, headers=headers, params=params)
 
    return response
 
def price(data_product):
    """"
        Метод парсит цену товара, а точнее, пока что извлекает JSON обьект с содержимым productID
        TODO Требуется Ускорить работу
    """
    """ Как ты и заметил куки и заголовки продублированы в методе PRICE
        Это не случайно. По какой то причине те куки с заголовком, которые отправляются с основным запросом
        не работают. Пришлось отправлять новые... Вероятно вся проблема в csrf токене, а может и нет.
        Не было особо времени заниматься этим. 
    """
    cookiessss = {
        """ Вставляем куки 
        """
    }
 
    headerssss = {
        """ Вставляем заголовок """
    }
 
    data_headers = f'data={{"type":"product-buy","containers":' \
                   f'[{{"id":"as-X0HjkI","data":{{"id":"%s"}}}}]}}' % data_product
 
    params_headers = {
        'cityId': '15', # В данном параметре передается наименование города, в котором ищется товар
        'langId': 'ru',
        'v': '2',
    }
 
    response = requests.post("https://www.dns-shop.ru/ajax-state/product-buy/",
                            cookies=cookiessss, headers=headerssss, data=data_headers,params=params_headers)
 
    root = json.loads(response.text)
 
    return root
 
def par_videokarty(url):
    """
            Парсер стрницы https://www.dns-shop.ru/catalog/17a89aab16404e77/videokarty/
    """
    pages = {
        "p": str(search_Pages(url)),
    }
 
    for page_number in range(1,int(pages["p"])+1):
        response = response_get(url, params={"p":page_number})
        data = json.loads(response.text)
        root = BeautifulSoup(data['html'], 'lxml')
        print('___________________________')
        print('Страница - ', page_number,'\n')
        allSmartfony = root.find_all(urls["videokarty"]["tag"], class_=urls["videokarty"]["class_"])
        art_phone = root.find_all("div", class_="catalog-product ui-button-widget")
        product_id = root.find_all("div", class_="catalog-product ui-button-widget")
        hrefs = root.find_all("a", class_="catalog-product__name ui-link ui-link_black")
        for art, name, data_product, href in zip(art_phone,allSmartfony, product_id,hrefs):
            len_product_name = name.find('span')
            product_art = art.get('data-code')
            data_bd_name = data_product.get('data-product')
            href_links = href.get('href')
            a = list(find_values_from_key("current", price(data_bd_name)))[0]
            b = str(a)
            print('найден товар - ', href_links)
            """ insert_table_smart - Запись в БД артикул, наименование, цену и ссылку товара"""
            # insert_table_smart(product_art,len_product_name.text, b, href_links)
 
            # TODO Написать более простую функцию фарсинга цены у товара.... Слишком большие задержки
            with open("all_tovar_video.txt", 'a', encoding="utf-8") as f:
                f.write(str(product_art+" - "+len_product_name.text+" - "+b+'\n'))
                f.close()
            print(str(product_art)," - ",len_product_name.text, ' ___ ', b, " Р")
    print('Всего страниц - ', search_Pages(url),'\n')
 
par_videokarty("https://www.dns-shop.ru/catalog/17a89aab16404e77/videokarty/")
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
03.07.2023, 19:06
Ответы с готовыми решениями:

CAnnot send session cookie - headers already sent by
Подскажите в чем ошибка в коде: session_start(); $_SESSION = $myrow_entry; echo $_SESSION; выдает ошибку,...

Cannot send session cookie - headers already sent
Warning: session_start() : Cannot send session cookie - headers already sent by (output started at C:\site\java\index.php:1) in...

При установке cookie ошибка headers already sent
Привет всем. Начал изучать куки, и решил попробовать написать счетчик посещений страницы. Написал вот как: &lt;!DOCTYPE...

1
71 / 71 / 55
Регистрация: 04.06.2016
Сообщений: 237
04.08.2023, 22:59
Для того чтобы посмотреть заголовки отправляемые браузером при GET запросе html страницы можно использовать расширение HTTP Header Spy для chrome. После установки расширения, откройте нужную страницу для парсинга, нажмите на иконку расширения и далее нажмите на пункт "Запрос". Там вы увидите отправленные заголовки.

А для того чтобы посмотреть куки используемые на сайте откройте Application -> Cookies -> Адрес сайта в инспекторе chrome.
Миниатюры
Получение cookie и headers для парсинга   Получение cookie и headers для парсинга  
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
04.08.2023, 22:59
Помогаю со студенческими работами здесь

Получение содержимого html-страницы для дальнейшего парсинга
Всем привет. У меня возник вопрос, при помощи какого инструмента можно получить html содержимое страницы, что бы потом его парсить. ...

Cookie и Denwer - Cannot modify header information - headers already sent
Люди почему в denwer не ставятся cookie? например если выполнить этот код (setCookie('login', $login, time() + (60*60*24*30))) то вылазит...

Warning: cannot send session cookie - headers already start
написал вот такой код: &lt;html&gt; &lt;head&gt; &lt;title&gt;Sessions&lt;/title&gt; &lt;/head&gt; &lt;body&gt; &lt;h1&gt;Try start session&lt;/h1&gt; ...

Получение cookie для дальнейшего использования
Всем привет. Работаю первый раз с antigate в среде делфи. Так вот, есть проблема с получением куков при переходе по ссылке с каптчей. ...

Warning: session_start(): Cannot send session cookie - headers already sent by (output started at
Ошибка Warning: session_start(): Cannot send session cookie - headers already sent by (output started at Z:\home\news\www\auth.php:3) in...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
2
Ответ Создать тему
Новые блоги и статьи
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Access
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru