Форум программистов, компьютерный форум, киберфорум
Python: Сети
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.64/11: Рейтинг темы: голосов - 11, средняя оценка - 4.64
0 / 0 / 0
Регистрация: 26.04.2023
Сообщений: 2

Парсер hh.ru на Python

26.04.2023, 22:06. Показов 2866. Ответов 3
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Доброго времени суток. У меня при изучении Python возникла проблема, сижу ломаю голову. Парсер должен вытягивать 100 вакансий со страницы, а вытягивает 20. Почему именно 20 не пойму. В программе фигурирует число 20 как кол-во страниц на сайте, почему оно попадает в циклы я не знаю. В общем скорее всего решение очивидное, просто я долблюсь в глаза
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
import requests
from bs4 import BeautifulSoup
URL = 'https://hh.ru/search/vacancy?no_magic=true&L_save_area=true&text=Python&excluded_text=учитель&salary=&currency_code=RUR&education=not_required_or_not_specified&education=special_secondary&experience=doesNotMatter&order_by=relevance&search_period=0&items_on_page=100'
headers = {
        "accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
        "user-agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36"
    }
 
 
def hh_request(url, retry = 5): 
    try:
        response = requests.get(url=url, headers=headers)
        print(f"[+] {url} {response.status_code}")
    except Exception as ex:
        if retry:
            print(f'[INFO] retry={retry} => {url}')
            return hh_request(url, retry=(retry-1))
        else:
            raise
    else:
        return response
 
 
 
def extract_max_page(request):
    hh_soup = BeautifulSoup(request.text, 'lxml')
    print(f'{hh_soup.title.text}\n')
    paginator = hh_soup.find_all('span', {'class':'pager-item-not-in-short-range'})
    
    pages = []
    for page in paginator:
        pages.append(int(page.find('a').text))
    max_page = (pages[-1])
    return max_page
    
    
def vacancy_extractor(max_page):
    vacancy_title = []
    for page in range(max_page):
        reponse = hh_request(f'{URL}&page={page}')
        soup = BeautifulSoup(reponse.text, 'lxml')
        results = soup.find_all('a', {'class': 'serp-item__title'})
        for result in results:
            vacancy_title.append(result.text)
    return vacancy_title
 
 
def main():
    request = hh_request(URL)
    max_page = extract_max_page(request)
    print(max_page)
    vacancy_title = vacancy_extractor(max_page)
    print(vacancy_title)
    print(len(vacancy_title))
    
        
 
if __name__ == "__main__":
    main()
 
 
def vacancy_extractor(max_page):
    vacancy_title = []
    for page in range(max_page):
        reponse = hh_request(f'{URL}&page={page}')
        soup = BeautifulSoup(reponse.text, 'lxml')
        results = soup.find_all('a', {'class': 'serp-item__title'})
        for result in results:
            vacancy_title.append(result.text)
    return vacancy_title
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
26.04.2023, 22:06
Ответы с готовыми решениями:

Парсер почт youtube на python
Добрый вечер,Друзья! мне когда то давний друг написал парсер почт youtube на питоне,прошло 2 месяца и этот парсер перестал работать,можете...

Парсер на Python
Пишу парсер для страницы https://www.regard.ru/catalog/tovar244993.htm/ Получилось спарсить данные с основной карточки, но никак не могу...

Парсер на Python
Добрый день, подскажите, пожалуйста. Пытаюсь сделать парсер. IDE Pycharm. Mac 2014г Big Sur. Установлен Pyhton 3.10.4. Не могу...

3
 Аватар для kazak
3599 / 2741 / 354
Регистрация: 11.03.2009
Сообщений: 6,298
26.04.2023, 22:36
А Вы уверены, что в ответе от HH есть 100 вакансий?
0
0 / 0 / 0
Регистрация: 26.04.2023
Сообщений: 2
26.04.2023, 22:49  [ТС]
Да, в юрлке прописано. В сумме их с 20 страниц должно получиться 7800, а получается ровно 400) 20х20 страниц

Добавлено через 1 минуту
Там функция продублировалась, мой косяк, забыл убрать, не обращайте внимания
0
 Аватар для kazak
3599 / 2741 / 354
Регистрация: 11.03.2009
Сообщений: 6,298
26.04.2023, 23:08
То что Вы в урлке просите у сервера 100 записей на страницу, еще не означает, что сервер Вас послушает. Некоторые владельцы сайтов не особо жалуют автоматизаторов и всячески пытаются вставлять им палки в колеса Если мне память не изменяет, этому приколу уже года 2, в статике приходит 20 вакансий, остальные подгружаются динамически. Хотите быстрый результат, осваивайте selenium.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
26.04.2023, 23:08
Помогаю со студенческими работами здесь

Парсер Python
Здравствуйте. Всех с наступающим Новым годом Есть код парсера на Python. Ответ от сервера 403. Как узнать в чём причина такого ответа....

Парсер на python
Мне нужен парсер, который бы доставал css стили с сайта, но чет все что нахожу - это парсинг html. Может это как то по другому называется...

Парсер на Python
Здравствуйте. Решил написать простенький парсер на Питоне, но столкнулся с проблемой: не могу вытащить цену с сайта ДНС. Названия и ссылки...

Парсер api.hh.ru на python
Парсю json и обработанные данные записываю в excel, но получаю ошибку "'NoneType' object is not subscriptable" когда пытаюсь...

Парсер Python BeautifulSoup
Всем доброго времени суток. Помогите пожалуйста решить вопрос. Я новичок в Пайтоне При парсинге сайтов с доменом "ru" выдает...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
4
Ответ Создать тему
Новые блоги и статьи
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Access
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru