Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.67/18: Рейтинг темы: голосов - 18, средняя оценка - 4.67
1 / 1 / 0
Регистрация: 09.03.2017
Сообщений: 57

Парсер ругается на кодировку

22.11.2018, 22:42. Показов 3348. Ответов 3
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Написал простенький парсер авито. При выводе в консоль, все хорошо выводит, но при записи в csv ругается на кодировку,как это лечится?
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
import requests
from bs4 import BeautifulSoup
import csv
 
def get_html(url):
    r = requests.get(url) #Запрос сервера
    return r.text #Возвращет html код страницы
 
def get_total_pages(html):
    """Определяет количество страниц"""
    soup = BeautifulSoup(html,'lxml')
 
    pages = soup.find('div',class_ = 'pagination-pages').find_all('a',class_= 'pagination-page')[-1].get('href')
    total_pages = pages.split('=')[1].split('&')[0] #Таким образом выделяем необходимый элемент из всего тега
    return int(total_pages)
 
def write_csv(data):
    with open('avito.csv','a') as f:
        writer = csv.writer(f)
        writer.writerow((data['title'],
                        data['price'],
                        data['metro'],
                        data['url']))
 
def get_page_data(html):
    soup = BeautifulSoup(html,'lxml')
 
    adds = soup.find('div',class_ = "catalog-list").find_all('div',class_ = "item_table")
 
    for ad in adds:
        try:
            title = ad.find('div',class_= "description").find('h3').text.strip()
        except:
            title = ""
 
        try:
            url = "https://www.avito.ru" + ad.find('div',class_= "description").find('h3').find('a').get('href')
        except:
            url = ""
 
        try:
            price = ad.find('span',class_= 'price').text.strip()
        except:
            price = ''
 
        try:
            metro = ad.find('div',class_= 'data').find_all('p')[-1].text.strip()
        except:
            metro = ""
 
        data = {'title': title,
                'price': price,
                'metro': metro,
                'url': url}
        write_csv(data)
 
def main():
    url = "https://www.avito.ru/moskva/telefony?p=1&q=htc"
    base_url = "https://www.avito.ru/moskva/telefony?"
    page_part = "p="
    query_part = "&q=htc"
 
    #total_pages = get_total_pages(get_html(url))
 
    for i in range(1,3):
        url_gen = base_url + page_part + str(i) + query_part
        html = get_html(url_gen)
        get_page_data(html)
 
 
main()
Вот ошибка

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
C:\Projects\game\testing\parsingavito\venv\Scripts\python.exe C:/Projects/game/testing/parsingavito/avito.py
Traceback (most recent call last):
  File "C:/Projects/game/testing/parsingavito/avito.py", line 71, in <module>
    main()
  File "C:/Projects/game/testing/parsingavito/avito.py", line 68, in main
    get_page_data(html)
  File "C:/Projects/game/testing/parsingavito/avito.py", line 55, in get_page_data
    write_csv(data)
  File "C:/Projects/game/testing/parsingavito/avito.py", line 23, in write_csv
    data['url']))
  File "C:\Users\Anton\AppData\Local\Programs\Python\Python37-32\lib\encodings\cp1251.py", line 19, in encode
    return codecs.charmap_encode(input,self.errors,encoding_table)[0]
UnicodeEncodeError: 'charmap' codec can't encode character '\u20bd' in position 58: character maps to <undefined>
 
Process finished with exit code 1
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
22.11.2018, 22:42
Ответы с готовыми решениями:

Создал первое WCF Console Application по примеру. Ругается на кодировку utf8
Всем привет. Недавно начал изучать WCF. Делал все строго по Видео за исключением, что БД на мускуле своя. У меня все имена таблиц и...

Почему vk ругается на бесплатные хостинги? На какие не ругается?
Здравствуйте, Что нужно сделать, чтобы vk не ругался на бесплатный хостинг? Я нашёл отличный хостинг 5gbfree.com. Я на нём храню свои...

Изменить кодировку
Вот в чём суть. Есть xml файлы в кодировке utf-8. Есть сайт с кодировкой windows-1251. Несколько сервисов сайта должны использовать те...

3
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
22.11.2018, 23:29
Цитата Сообщение от lopatuxin Посмотреть сообщение
Написал простенький парсер авито.
Зачем использовать чужие и неправильные примеры? Этот парсер из видеоуроков по BeautifulSoup ни на что серьезное не годится.

ПО сабжу - записывайте данные в файл в кодировке UTF-8.
0
1 / 1 / 0
Регистрация: 09.03.2017
Сообщений: 57
22.11.2018, 23:35  [ТС]
Дык надо же где то учится)) Я учусь, вот и спрашиваю. По сабжу, это что значит?
0
0 / 0 / 1
Регистрация: 28.02.2017
Сообщений: 32
23.11.2018, 18:44
Цитата Сообщение от lopatuxin Посмотреть сообщение
По сабжу, это что значит?
По существу вопроса, то бишь по теме. Правильно подсказали - сохраняйте файл в кодировке UTF-8.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
23.11.2018, 18:44
Помогаю со студенческими работами здесь

Не понимаю кодировку
В какую кодировку нужно перевести данный текст? если выходит неправильно по столбцу(выделен).

Изменить кодировку
Здравствуйте! Как решить проблему кодировками? 1-й скрин: файл написан в кодировке ANSI и в выпадающем списке(берется из бд которая в...

Задать кодировку
Как установить кодировку с помощью mysql_set_charset в случае когда я подключаюсь к базе таким образом ? После того как я выложил сайт у...

Изменить кодировку
Мне приходит ответ на запрос с заголовком: &quot;content-type:text/plain; charset=utf8; Content-transfer-Encoding:8bit &quot; при...

Преобразовать кодировку
Добрый день, подскажите плииз. Как из &quot;&quot;п ;р ;и&amp; #1084;ер&quot;&quot; сделать &quot;пример&quot;? (добавил лишних пробелов - форум сам...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
4
Ответ Создать тему
Новые блоги и статьи
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Access
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru