1 / 1 / 1
Регистрация: 20.12.2009
Сообщений: 23
|
||||||
1 | ||||||
Парсинг с сайта20.12.2009, 19:11. Показов 2072. Ответов 4
Метки нет (Все метки)
Привет! Подскажите пожалуйста, как организовать парсинг например со страницы http://one-files.ru/movies/139... myati.html такой текст, т.е. новость с сайта...
Если можно, то с комментариями к программе.
0
|
20.12.2009, 19:11 | |
Ответы с готовыми решениями:
4
Парсинг данных с сайта или страницы сайта Парсинг сайта Парсинг сайта Парсинг сайта |
116 / 58 / 6
Регистрация: 16.12.2009
Сообщений: 204
|
||||||
21.12.2009, 07:33 | 2 | |||||
Сначала нужно сделать функцию для сохранения страниц на жесткий диск, я б рекомендова использовать для этого функцию UrlDownloadToFile из юнита URLMon.
А потом начинается самое веселое. Анализ содержимого страниц, с целью определить правила по которым будет выбираться нужная информация . Например, на странице, которую вы привели, информация о фильме начинается после строчки
Если вам требуется осуществить автоматическую навигацию по сайту, то придется определить место где в HTML-коде находиться ссылка на следующую страницу.
0
|
3072 / 1410 / 425
Регистрация: 19.01.2009
Сообщений: 3,889
|
|
21.12.2009, 20:30 | 3 |
Совсем не обязательно - достаточно использовать IdHTTP, или если религия не позволяет, то напрямую через сокеты обращаемся с GET запросом, к вышеуказанному УРЛу. Контент можно вернуть в обыкновенную стринговую переменную, ну а затем верно - разбиваем все регулярками
Ты конкретнее скажи, что тебе нужно "выдерать" из паги, а мы подсобим
0
|
111 / 96 / 35
Регистрация: 03.02.2009
Сообщений: 282
|
|
21.12.2009, 23:23 | 4 |
короче я когда делал парсинг делел так:
сначала загружал данные в Memo1.LoadFromFile (ну, или если хочешь можешь сохранить на диск) потом начинал одной букве смотреть, что-же это такое: если эта буква - '<', то это начало тега, следовательно помечаем что мы находимся внутри тега (переменная inTag:=true) если эта буква - '>', то если мы находимся внутри тега, то этот тег закрывается. inTag:=false. об этом напишу ниже (2). если эта буква - '/',, то если мы находимся внутри тега, то это закрывающийся тег, переменная isCloseTag:=False. если мы находимся не внутри тега, то это обычная буква, об этом напишу ниже (1). ну, иначе (если это не '<', не '>' и не '/'), то это обычная буква (1). теперь сноски подробно: (1) если это обычная буква, то если мы находимся внутри тега, tagName:=tagName+эта_буква иначе (если мы не внутри тега), то переменная word:=word+эта самая_буква (2) если мы напоролись на букву '>' и эта буква оказалась внутри тега, то значит тег закрылся. теперь смотрим на переменную isCloseTag, если это открывающийся тег (например <p>, <td>, <html>, <body> и т.д.), то смотрим что-же это за тег (переменная word), и если это это тот тег, который нам нужен (например <p>Инфо</p> - между тегами <p> и </p> находится та инфа которую нам нужно выдрать, смотри подробнее 1ый пост). если-же это закрывающийся тег, то смотрим что-же это за тег, и если мы напоролись на тег который нам нужен (см. переменную tagName) (например в моем примере выше - </p>), то то что мы там сохранили в переменной word, то и есть та информация которая нам нужна. сохраняем эту информацию куда нам нужно. результат готов вот и все, 20 минут потратил, надеюсь тебе помог мой алгоритм. делай
0
|
1 / 1 / 1
Регистрация: 20.12.2009
Сообщений: 23
|
|
02.01.2010, 23:49 [ТС] | 5 |
0
|
02.01.2010, 23:49 | |
02.01.2010, 23:49 | |
Помогаю со студенческими работами здесь
5
Парсинг сайта Парсинг сайта Парсинг с сайта Парсинг сайта Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи | |||||
Книги и учебные ресурсы по C#
InfoMaster 08.01.2025
Базовые учебники и руководства
Одной из лучших книг для начинающих является "C# 10 и . NET 6 для начинающих" Эндрю Троелсена и Филиппа Джепикса . Книга последовательно раскрывает основные концепции. . .
|
Что такое NullReferenceException и как исправить?
InfoMaster 08.01.2025
NullReferenceException - одно из самых распространенных исключений, с которым сталкиваются разработчики на C#. Это исключение возникает при попытке обратиться к членам объекта (методам, свойствам или. . .
|
Что такое Null Pointer Exception (NPE) и как это исправить?
InfoMaster 08.01.2025
Null Pointer Exception (NPE) - это одно из самых распространенных исключений в Java, которое возникает при попытке использовать ссылку на объект, значение которой равно null. Это исключение относится. . .
|
Русский язык в консоли C++
InfoMaster 08.01.2025
При разработке программ на C++ одной из частых проблем, с которой сталкиваются русскоязычные программисты, является корректное отображение кириллицы в консольных приложениях. Эта проблема особенно. . .
|
Telegram бот на C#
InfoMaster 08.01.2025
Разработка ботов для Telegram стала неотъемлемой частью современной экосистемы мессенджеров. C# предоставляет мощный и удобный инструментарий для создания разнообразных ботов, от простых. . .
|
Использование GraphQL в Go (Golang)
InfoMaster 08.01.2025
Go (Golang) является одним из наиболее популярных языков программирования, используемых для создания высокопроизводительных серверных приложений. Его архитектурные особенности и встроенные. . .
|
Что лучше использовать при создании класса в Java: сеттеры или конструктор?
Alexander-7 08.01.2025
Вопрос подробнее:
На вопрос: «Когда одновременно создаются конструктор и сеттеры в классе – это нормально?» куратор уточнил: «Ваш класс может вообще не иметь сеттеров, а только конструктор и геттеры. . .
|
Как работать с GraphQL на TypeScript
InfoMaster 08.01.2025
Введение в GraphQL и TypeScript
В современной разработке веб-приложений GraphQL стал мощным инструментом для создания гибких и эффективных API. В сочетании с TypeScript, эта технология. . .
|
Счётчик на базе сумматоров + регистров и генератора сигналов согласования.
Hrethgir 07.01.2025
Создан с целью проверки скорости асинхронной логики: ранее описанного сумматора и предополагаемых fast регистров. Регистры созданы на базе ранее описанного, предполагаемого fast триггера. То-есть. . .
|
Как перейти с Options API на Composition API в Vue.js
BasicMan 06.01.2025
Почему переход на Composition API актуален
В мире современной веб-разработки фреймворк Vue. js продолжает эволюционировать, предлагая разработчикам все более совершенные инструменты для создания. . .
|
Архитектура современных процессоров
inter-admin 06.01.2025
Процессор (центральный процессор, ЦП) является основным вычислительным устройством компьютера, которое выполняет обработку данных и управляет работой всех остальных компонентов системы. Архитектура. . .
|
История создания реляционной модели баз данных, правила Кодда
Programming 06.01.2025
Предпосылки создания реляционной модели
В конце 1960-х годов компьютерная индустрия столкнулась с серьезными проблемами в области управления данными. Существовавшие на тот момент модели данных -. . .
|