0 / 0 / 0
Регистрация: 09.08.2022
Сообщений: 69
1

Какие модули необходимы для создания парсера?

11.09.2022, 12:05. Показов 1495. Ответов 7

Author24 — интернет-сервис помощи студентам
Добрый день!

Собираюсь автоматизировать свою программу, сделав парсер. Необходимо открывать сайт, логиниться и открывать нужный раздел, откуда после можно скачивать данные. Но в стандартном приложении нет подходящих модулей, а в интернете много видеоуроков, где не даётся никаких инструкций, какие именно модули нужны и как с ними работать. Подскажите, пожалуйста
0
Лучшие ответы (1)
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
11.09.2022, 12:05
Ответы с готовыми решениями:

Какие знания и умения необходимы для создания ботов в Telegram?
Люди добрые, подскажите пожалуйста, какие знания и умения необходимы для того чтобы научиться...

Какие Excel библиотеки необходимы для создания CreateObject('Excel.Application') ?
проблема в том что клиент не хочет пользоваться MS Excel. существуют ли возможность работы с Open...

Какие модули сущесвуют, для создания GUI под symbian
Здравствуйте! Мне надо написать прогу под symbian с простеньким гуйком. Подскажите, что можно...

Какие необходимы компоненты для работы с БД
Здравствуйте! Подскажите пожалуйста, какое ПО (весь список) необходимо заиметь на компьютере,...

какие компонеты необходимы для MySQL
Пожалуйста подскажите, какие компоненты необходимы для подключение к MySQL и какие в них необходимо...

7
пофигист широкого профиля
4757 / 3194 / 860
Регистрация: 15.07.2013
Сообщений: 18,491
12.09.2022, 01:56 2
А вы так уж уверены что есть специальные модули чтобы "открывать сайт", специальные модули чтобы логиниться на нём, специальные модули чтобы "открывать нужный раздел" и специальный модуль для скачивания оттуда данных?
Т.е. вы считаете что всё уже давно сделано до вас. А вы только как в конструкторе Лего все соберете ни чем не заморачиваясь и всё сразу заработает?
Ну тогда вас ждёт облом.
0
0 / 0 / 0
Регистрация: 09.08.2022
Сообщений: 69
12.09.2022, 21:16  [ТС] 3
Конечно нет. Такие подозрения появились после просмотра нескольких статей/уроков по созданию парсеров на Delphi, даже для Лазаруса был. Первое, что бросилось в глаза - использование абсолютно нестандартных для Паскаля методов, например объявление переменных типа Variant, а также типы TFPHTTPClient, Tdomnodelist и Thtmldocument, словно не на Паскале написано. С тремя последними столкнулся вообще впервые, опыта работы с ними нет совсем. Более того, простая копипаста выявила ещё один сюрприз: оказалось что Лазарус знаком с этими типами не лучше меня и просто их не пропускает. Не говоря уже о различных участках кода, например:
Pascal
1
2
3
4
5
6
7
8
    with ListView1.Items.Add do
      begin
        Caption := nlist[i].ChildNodes[1].ChildNodes[1].ChildNodes[0].TextContent;
        SubItems.Add(nlist[i].ChildNodes[1].ChildNodes[1].ChildNodes[3].ChildNodes[1].ChildNodes[0].TextContent);
        SubItems.Add(nlist[i].ChildNodes[1].ChildNodes[1].ChildNodes[3].ChildNodes[1].ChildNodes[1].TextContent);
        SubItems.Add(ClearLine(nlist[i].ChildNodes[1].ChildNodes[1].ChildNodes[3].ChildNodes[3].TextContent));
        SubItems.Add(nlist[i].ChildNodes[1].ChildNodes[1].ChildNodes[7].ChildNodes[0].TextContent);
      end;
в которых компилятор выделяет абсолютно всё чуть ли не посимвольно.
Рекомендуемый ListView также не открылся, весь код просто был выделен красным. Без удаления всех указанных функций и переменных программа не компилируется. Это и натолкнуло меня на мысль, что существуют какие-то библиотеки, отвечающие за работу с сайтами (напоминаю, опыта работы с сетью 0)

Также в сети упоминались какие-то компоненты, такие как TWebBrowser, но их в Лазарусе нет
0
пофигист широкого профиля
4757 / 3194 / 860
Регистрация: 15.07.2013
Сообщений: 18,491
13.09.2022, 00:16 4
Цитата Сообщение от aprilpotter912 Посмотреть сообщение
простая копипаста выявила ещё один сюрприз: оказалось что Лазарус знаком с этими типами не лучше меня и просто их не пропускает.
А вам никто не говорил что простая копипаста текста программы вообще почти никогда не работает ни в Дельфи, ни в Лазарусе? И там и там GUI (Graphic User Interface) приложения помимо текста кода содержат еще и модули форм.
И да это совсем не тот Паскаль, о котором вы очевидно говорите. Так что начните пока с начальных уроков разработки программ в Дельфи и/или Лазарусе. Познакомьтесь с объектами и компонентами.
0
0 / 0 / 0
Регистрация: 09.08.2022
Сообщений: 69
13.09.2022, 08:35  [ТС] 5
Цитата Сообщение от northener Посмотреть сообщение
А вам никто не говорил что простая копипаста текста программы вообще почти никогда не работает ни в Дельфи, ни в Лазарусе? И там и там GUI (Graphic User Interface) приложения помимо текста кода содержат еще и модули форм.
И да это совсем не тот Паскаль, о котором вы очевидно говорите. Так что начните пока с начальных уроков разработки программ в Дельфи и/или Лазарусе. Познакомьтесь с объектами и компонентами.
Цитата Сообщение от northener Посмотреть сообщение
А вам никто не говорил что простая копипаста текста программы вообще почти никогда не работает ни в Дельфи, ни в Лазарусе?
Это насколько надо быть тупымнаивным, чтобы просто скопировать текст и сидеть в ожидании результата? Скопированный текст не работал при добавленных компонентах, в нём указанных, и при изменении всех имён компонентов в соответствии с кодом, и при обратном изменении имён компонентов в скопированном тексте; у меня сложилось впечатление, что вы не поняли суть вопроса.

Цитата Сообщение от aprilpotter912 Посмотреть сообщение
а также типы TFPHTTPClient, Tdomnodelist и Thtmldocument
Приведу пример с сайта delphi-devs.ru, где приводится код для написания парсера

Delphi
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
procedure TForm1.btnStartClick(Sender: TObject);
var
  httpclient: TFPHTTPClient;
  html: string;
  doc: thtmldocument;
  nlist: tdomnodelist;
  i: integer;
  j: integer;
  s: string;
begin
  httpclient := TFPHttpClient.Create(nil);
  httpclient.AddHeader('User-Agent',
    'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0');
  try
    html := httpclient.Get(edUrl.Text);
  finally
    httpclient.Free;
  end;
 // если не юникод
 //  readhtmlfile(doc, tstringstream.Create(CP1251ToUTF8(html)));
 
  readhtmlfile(doc, tstringstream.Create(html));
  nlist := doc.GetElementsByTagName('div');
  ListView1.Items.BeginUpdate;
  for i := 0 to nlist.Count - 1 do
  begin
    if (tdomelement(nlist[i]).getattribute('class') = 'ranked-team standard-box') then
    begin
      with ListView1.Items.Add do
      begin
        Caption := nlist[i].ChildNodes[1].ChildNodes[1].ChildNodes[0].TextContent;
        SubItems.Add(nlist[i].ChildNodes[1].ChildNodes[1].ChildNodes[3].ChildNodes[1].ChildNodes[0].TextContent);
        SubItems.Add(nlist[i].ChildNodes[1].ChildNodes[1].ChildNodes[3].ChildNodes[1].ChildNodes[1].TextContent);
        SubItems.Add(ClearLine(nlist[i].ChildNodes[1].ChildNodes[1].ChildNodes[3].ChildNodes[3].TextContent));
        SubItems.Add(nlist[i].ChildNodes[1].ChildNodes[1].ChildNodes[7].ChildNodes[0].TextContent);
      end;
    end;
 
  end;
  ListView1.Items.EndUpdate;
  nlist.Free;
  doc.Free;
end;
Как видно, TFPHTTPClient, Tdomnodelist и Thtmldocument указаны с качестве типов переменных, которые не имеют отношения к компонентам. Да и в принципе нет особой необходимости их создавать при наличии типов String и Text. Отсюда и вытекает вопрос, для каких целей они используются и, возможно, к каким модулям/библиотекам они могут относиться, если Лазарус не признаёт их.
0
Модератор
 Аватар для D1973
9655 / 6261 / 2429
Регистрация: 21.01.2014
Сообщений: 26,691
Записей в блоге: 3
13.09.2022, 09:45 6
Лучший ответ Сообщение было отмечено aprilpotter912 как решение

Решение

Цитата Сообщение от aprilpotter912 Посмотреть сообщение
если Лазарус не признаёт их
aprilpotter912, первая же! ссылка в Яндексе ведет на справочный сайт именно не Delphi, а FreePascal (то бишь именно Lazarus), а уж там все есть: и описание этого класса, и свойства, и методы и тот самый модуль, в котором он, этот класс, описан...
Миниатюры
Какие модули необходимы для создания парсера?  
1
0 / 0 / 0
Регистрация: 09.08.2022
Сообщений: 69
13.09.2022, 23:21  [ТС] 7
Цитата Сообщение от D1973 Посмотреть сообщение
aprilpotter912, первая же!
Спасибо!

В целом, вопрос был в том, какие модули нужно подключить в Uses, чтобы указанный код работал

Нужны, вроде, следующие:

Delphi
1
2
3
4
5
6
7
8
9
unit main;
 
{$mode objfpc}{$H+}
 
interface
 
uses
  Classes, SysUtils, Forms, Controls, Graphics, Dialogs, ExtCtrls, StdCtrls, StrUtils,
  ComCtrls, fphttpclient, LConvEncoding, sax_html, dom_html, dom, opensslsockets;
0
0 / 0 / 0
Регистрация: 09.08.2022
Сообщений: 69
29.09.2022, 19:25  [ТС] 8
Заметка:

Продолжение темы с решением здесь: Пакеты, компоненты, библиотеки для работы с сетью в Lazarus
0
29.09.2022, 19:25
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
29.09.2022, 19:25
Помогаю со студенческими работами здесь

Какие библиотеки необходимы для работы с ADODB?
какие библиотеки необходимы для работы с ним?

Посоветуйте материалы для создания парсера
Добрый день, товарищи. Начал я эволючионировать в сторону изучения java. Для личных нужд уже...

Ищу партнёра для создания парсера
Ищу партнёра для создания парсера выдачи поисковиков. Кто заинтересован стучитесь ICQ (268-316-510)

Какие условия необходимы для получения гармонических колебаний?
1. Какие условия необходимы для получения гармонических колебаний? Как должны изменяться...

Какие компоненты необходимы для работы с Excel (Office2013)?
Какие компоненты необходимы для работы с Excel (Microsoft Office 2013)?


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
8
Ответ Создать тему
Опции темы

Новые блоги и статьи
Как проверить существование ключа в объекте или массиве в JavaScript
bytestream 25.01.2025
При разработке веб-приложений на JavaScript программисты постоянно сталкиваются с необходимостью работать с объектами и массивами. Эти структуры данных являются фундаментальными элементами языка и. . .
Как создать ArrayList из массива (array) в Java
bytestream 25.01.2025
При разработке программного обеспечения на языке Java программисты часто сталкиваются с необходимостью эффективного управления наборами данных. Массивы и ArrayList являются двумя фундаментальными. . .
Как сгенерировать случайные целые числа (int) в указанном диапазоне в Java
bytestream 25.01.2025
В программировании генерация случайных чисел является важнейшим инструментом для решения множества практических задач. От создания игровых механик до реализации алгоритмов машинного обучения, от. . .
Как сделать, чтобы grep выводил строки до и после найденной
hw_wired 25.01.2025
Утилита grep стала незаменимым инструментом для поиска и фильтрации информации в Unix-подобных операционных системах. Эта командная утилита позволяет осуществлять поиск строк, соответствующих. . .
Как клонировать определенную ветку в Git
bytestream 24.01.2025
Одной из ключевых функций Git является возможность клонирования веток, что позволяет создавать локальные копии удаленных репозиториев и работать с определенными версиями проекта. Этот механизм. . .
Как в цикле обойти строки DataFrame в Pandas Python
bytestream 24.01.2025
DataFrame представляет собой одну из основных структур данных в библиотеке Python Pandas, которая организует информацию в виде двумерной таблицы с строками и столбцами. Эта структура данных особенно. . .
Как получить имя текущей ветки в Git
bytestream 24.01.2025
При работе с Git часто возникает необходимость определить имя текущей ветки, в которой ведется разработка. Знание текущей ветки является критически важным аспектом для эффективного управления. . .
Как отсортировать массив объектов по значению поля объекта в JavaScript
bytestream 24.01.2025
При разработке веб-приложений на JavaScript разработчики часто сталкиваются с необходимостью работать с массивами объектов. Эти структуры данных представляют собой упорядоченные наборы элементов, где. . .
Ошибка "src refspec master does not match any" при пуше коммита в Git
bytestream 24.01.2025
При работе с системой контроля версий Git разработчики нередко сталкиваются с различными ошибками, одной из которых является сообщение "src refspec master does not match any". Эта ошибка возникает. . .
Как округлить не более двух цифр после запятой в JavaScript
bytestream 24.01.2025
При работе с числами в JavaScript разработчики часто сталкиваются с необходимостью округления десятичных значений до определенного количества знаков после запятой. Это особенно важно при работе с. . .
Как сделать UPDATE из SELECT в SQL Server
hw_wired 24.01.2025
В современных системах управления базами данных операции обновления и выборки данных являются фундаментальными инструментами для работы с информацией. SQL Server предоставляет мощные команды UPDATE и. . .
Как вставить элемент в массив на указанный индекс в JavaScript
hw_wired 24.01.2025
Массивы являются одной из фундаментальных структур данных в JavaScript, предоставляющей разработчикам мощный инструмент для хранения и управления упорядоченными наборами данных. Они позволяют хранить. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru