С Новым годом! Форум программистов, компьютерный форум, киберфорум
Python
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.56/18: Рейтинг темы: голосов - 18, средняя оценка - 4.56
1 / 1 / 0
Регистрация: 03.06.2013
Сообщений: 101

Парсинг на scrapy

18.10.2014, 11:56. Показов 3370. Ответов 4
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Добрый день. проблема распарсить сайт на питоне с помощью фреймворка Scrapy. вещь в наших краях не очень распространенная, но все же прошу помощи.
вот сайт
https://apply.firstgroupcareer... d/results/

вот код спайдера

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
from scrapy.spider import Spider
from scrapy.selector import Selector
from scrapy.http import Request
from workopolis.items import Node
 
import time
import re
 
 
 
 
 
 
 
 
class apply(Spider):
 
    name = "apply_spider"
 
    lang = ''
 
    rowFrom = ''
 
    location = ''
 
    title = ''
 
    city = ''
 
    description = ''
 
    category = ''
 
    job_id = ''
 
    driver = None
 
 
 
    start_urls = [
        'https://apply.firstgroupcareers.com/vacancy/find/results/'
        ]
    
    url_app = 'https://apply.firstgroupcareers.com/vacancy/jobecode/description/'
 
 
 
    def parse(self, response):
        
        hxs = Selector(response)
        
        jobs = hxs.xpath('//*[@class="rowContainerHolder"]')
        items = []
        
        for job in jobs:
            item = Node()
            x = job
 
        
 
        item['title'] = hxs.xpath("string(.//*[contains(@class,'rowHeader')])").extract()[0]
 
        url = html.xpath("string(.//*[contains(@class,'rcMenu')]//a").extract()[0]
 
 
        item['job_id'] = re.search('jobId=([0-9]+)', url).groups()[0]
 
        item['apply_url'] = self.url_app.replace('jobecode',item['job_id'])
 
        g = item['title'].split('-')
 
        item['title'] = g[1]
 
        item['city'] = g[0]
 
                        
                    
        print   item['apply_url']
                    
        d_url = item['apply_url']
 
 
                
 
                
                    
 
        request = Request(d_url, callback=self.parse_details)
        request.meta['item'] = item
        items.append(request)
                
 
        for item in items:
            
            yield item
 
 
 
 
    def parse_details(self,response):
 
        html = Selector(response)
        item = response.meta['item']
 
        item['description'] = html.xpath(".//*[contains(@class,'earcu_posdescriptionnote')]").extract()[0]
 
 
        item['language'] = 'en'
 
        item['state'] = html.xpath(".//*[contains(@class,'jobSumValue')]").extract()[0]
        
        
        
 
        
        return item

не могу исправить проблемы
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
18.10.2014, 11:56
Ответы с готовыми решениями:

Scrapy не переходит по странице
Привет всем! Почему паук не переходит по страницам использую правило(что не так делаю), тут код: # -*- encoding: utf-8 -*- from...

Scrapy передача респонса
Добрый день! Спасибо! ну не поленитесь переписать хоть

Scrapy возврат значения
Добрый день. Изучаю Scrapy и столкнулась с проблемой вывода конечного url при редиректе. Код вот: import scrapy import json ...

4
 Аватар для Zuzik
298 / 256 / 57
Регистрация: 11.06.2012
Сообщений: 1,557
18.10.2014, 18:21
И какие же у вас проблемы? Тут к сожалению нет экстрасенсов .
0
1 / 1 / 0
Регистрация: 03.06.2013
Сообщений: 101
18.10.2014, 19:55  [ТС]
Zuzik, зато петросянов много)
смысл писать об ошибке? не работает скрипт, нужно запустить и проверить,если не сложно. конкретно сейчас ошибка такая
local variable 'item' referenced before assignment
0
 Аватар для Zuzik
298 / 256 / 57
Регистрация: 11.06.2012
Сообщений: 1,557
18.10.2014, 21:47
Цитата Сообщение от bor1k_by Посмотреть сообщение
смысл писать об ошибке?
cмысл такой что по ошибке часто можно сказать в чем проблема, а запускать ваш скрипт, до этого возможно установив 2 библиотеки ( используемые у вас я думаю имеются далеко не у всех), да и потом выгадывать что за ошибку имел ввиду автор ... Желающих делать это найдется немного.
Пока у вас проблема в том что вы пытаетесь использовать переменную item, до того как ей что то присвоено.Где именно - честно говоря без запуска кода подсказать не смогу, не помню увы некоторых вещей.

Добавлено через 5 минут
Что такое workopolis? Такой библиотеки не знает ни гугл ни pip.
0
 Аватар для Wolkodav
842 / 480 / 58
Регистрация: 18.09.2012
Сообщений: 1,688
22.10.2014, 23:10
bor1k_by, 55 строка, если не найдено jobs, то не будет объекта item, вывод, все плохо, а вообще как-то подозрительный цикл на 55 строке...

Добавлено через 48 секунд
bor1k_by, переходов по строкам делайте поменьше, крайне трудно читать
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
22.10.2014, 23:10
Помогаю со студенческими работами здесь

парсер на фреймворке scrapy
Вcем привет. Пытаюcь cпарcить некоторые данный c cайта c помощью фреймворка scrapy,однако, не могу иcправить то, что не позволяет вывеcти...

Scrapy crawl как объект
Я бы хотел запускать своего паука из функции как объект, чтобы при каждом запуске изменялось его поле последней посещенной страницы....

Авторизация, Парсер Aliexpress на Scrapy
Приветствую! Что делаю не так? Помогите с авторизацией на али, пожалуйста. Все запросы к страницам редиректит на логин. Код...

Проблема с использованием библиотеки Scrapy
Всем привет, возникла проблема с библиотекой scrapy. Вкратце: при попытке создать проект, консоль выдаёт вот это scrapy : Имя...

Scrapy, прописать селектор правильно
Создаю spider на Scrapy, не получается спарсить данные, у всех одинаковый класс, не знаю как правильно прописать селектор, import...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
5
Ответ Создать тему
Новые блоги и статьи
Почему дизайн решает?
Neotwalker 09.01.2026
В современном мире, где конкуренция за внимание потребителя достигла пика, дизайн становится мощным инструментом для успеха бренда. Это не просто красивый внешний вид продукта или сайта — это. . .
Модель микоризы: классовый агентный подход 3
anaschu 06.01.2026
aa0a7f55b50dd51c5ec569d2d10c54f6/ O1rJuneU_ls https:/ / vkvideo. ru/ video-115721503_456239114
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR
ФедосеевПавел 06.01.2026
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR ВВЕДЕНИЕ Введу сокращения: аналоговый ПИД — ПИД регулятор с управляющим выходом в виде числа в диапазоне от 0% до. . .
Модель микоризы: классовый агентный подход 2
anaschu 06.01.2026
репозиторий https:/ / github. com/ shumilovas/ fungi ветка по-частям. коммит Create переделка под биомассу. txt вход sc, но sm считается внутри мицелия. кстати, обьем тоже должен там считаться. . . .
Расчёт токов в цепи постоянного тока
igorrr37 05.01.2026
/ * Дана цепь постоянного тока с сопротивлениями и напряжениями. Надо найти токи в ветвях. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа и решает её. Последовательность действий:. . .
Новый CodeBlocs. Версия 25.03
palva 04.01.2026
Оказывается, недавно вышла новая версия CodeBlocks за номером 25. 03. Когда-то давно я возился с только что вышедшей тогда версией 20. 03. С тех пор я давно снёс всё с компьютера и забыл. Теперь. . .
Модель микоризы: классовый агентный подход
anaschu 02.01.2026
Раньше это было два гриба и бактерия. Теперь три гриба, растение. И на уровне агентов добавится между грибами или бактериями взаимодействий. До того я пробовал подход через многомерные массивы,. . .
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Налог на собак: https:/ / **********/ gallery/ V06K53e Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf Пост отсюда. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru