Проблема с парсером

@zooloosoo · Регистрация: 26.09.2021

Author24 — интернет-сервис помощи студентам

Здравствуйте, возникла необходимость получить некоторые данные с сайта. В программировании на уровне Привет, Мир. Но задачу нужно было решить. Требуется чтобы парсер с исходной страницы извлёк все ссылки, потом перешёл по каждой ссылке и вытащил требуемую информацию. Как собрать ссылки я разобрался, как вытащить данные со страниц тоже, а вот как это совместить ума не приложу.
Такой код у меня получился, но ругается(((

Кликните здесь для просмотра всего текста

Python

import requests
from bs4 import BeautifulSoup
import csv
 
from requests import Response
 
CSV = 'cards.csv'
HOST = 'https://tophotels.ru'
URL = 'https://tophotels.ru/catalog/hotel/12'
HEADERS = {
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36'
}
 
 
# Получаем код страницы
def get_html(url, params=''):
    r = requests.get(url, headers=HEADERS, params=params)
    return r
 
 
# Получаем ссылки отелей на одной странице
def get_link(html):
    soup = BeautifulSoup(html.text, 'html.parser')
    items = soup.find_all('div', class_='hotel__info')
    links = []
 
    for item in items:
        links.append(
            {
                'hotel_link': HOST + item.find('a', class_='hotel__name').get('href')
            }
        )
    return links
 
 
# Получаем название отеля
def get_name(html):
    soup = BeautifulSoup(html.text, 'html.parser')
    items = soup.find_all('table', class_='dropdown-item__description-tbl')
    names = []
 
    for item in items:
        names.append(
            {
                'hotel_name': item.find('td', class_='dropdown-item__description-tbl-name').get_text(strip=True)
            }
        )
 
    return names
 
 
# Получаем последние 5 отзывов
def get_rate(html):
    soup = BeautifulSoup(html.text, 'html.parser')
    items = soup.find_all('article', class_='reviews-short__item')
    rates = []
 
    for item in items:
        rates.append(
            {
                'hotel_rates': item.find('span', class_='reviews-short__rev').get_text()
            }
        )
 
    return rates
 
 
# Сохраняем документ
def save_doc(items, path):
    with open(path, "w", newline='') as file:
        writer = csv.writer(file, delimiter=';')
        writer.writerow(['Ссылка'])
        for item in items:
            writer.writerow([item['hotel_link']])
 
 
# html = get_html(URL)
# suma = get_name(html) + get_rate(html)
# print(get_link(html))
 
# Получаем список ссылок с учётом пагинации
def parser_link():
    PAGENATION = input('Укажите количество страниц для парсинга: ')
    PAGENATION = int(PAGENATION.strip())
    html = get_html(URL)
    if html.status_code == 200:
        links = []
        for page in range(1, PAGENATION):
            print(f'Парсим страницу: {page}')
            html = get_html(URL, params={'page': page})
            links.extend(get_link(html))
    else:
        print('Error')
 
    return links
 
def get_data(links):
    for url in links:
        print(url)
        html = get_html(url)
        all = get_name(html) + get_rate(html)
        return all
 
def parse():
    all = get_data(parser_link())
    print(all)
 
parse()

Выдаваемые ошибки:

Кликните здесь для просмотра всего текста

Код

E:\Каталог\progr\venv\Scripts\python.exe E:/Каталог/progr/parcer3.py
Укажите количество страниц для парсинга: 2
Парсим страницу: 1
{'hotel_link': 'https://tophotels.ru/hotel/al4115'}
Traceback (most recent call last):
  File "E:\Каталог\progr\parcer3.py", line 109, in <module>
    parse()
  File "E:\Каталог\progr\parcer3.py", line 106, in parse
    all = get_data(parser_link())
  File "E:\Каталог\progr\parcer3.py", line 101, in get_data
    html = get_html(url)
  File "E:\Каталог\progr\parcer3.py", line 18, in get_html
    r = requests.get(url, headers=HEADERS, params=params)
  File "E:\Каталог\progr\venv\lib\site-packages\requests\api.py", line 75, in get
    return request('get', url, params=params, **kwargs)
  File "E:\Каталог\progr\venv\lib\site-packages\requests\api.py", line 61, in request
    return session.request(method=method, url=url, **kwargs)
  File "E:\Каталог\progr\venv\lib\site-packages\requests\sessions.py", line 542, in request
    resp = self.send(prep, **send_kwargs)
  File "E:\Каталог\progr\venv\lib\site-packages\requests\sessions.py", line 649, in send
    adapter = self.get_adapter(url=request.url)
  File "E:\Каталог\progr\venv\lib\site-packages\requests\sessions.py", line 742, in get_adapter
    raise InvalidSchema("No connection adapters were found for {!r}".format(url))
requests.exceptions.InvalidSchema: No connection adapters were found for "{'hotel_link': 'https://tophotels.ru/hotel/al4115'}"

Process finished with exit code 1

если не трудно, подскажите куда дальше двигаться)

	26.09.2021, 10:41