1 / 1 / 1
Регистрация: 20.12.2009
Сообщений: 23
1

Парсинг с сайта

20.12.2009, 19:11. Показов 2074. Ответов 4
Метки нет (Все метки)

Author24 — интернет-сервис помощи студентам
Привет! Подскажите пожалуйста, как организовать парсинг например со страницы http://one-files.ru/movies/139... myati.html такой текст, т.е. новость с сайта...
Если можно, то с комментариями к программе.

HTML5
1
<td align="left" valign="top" class="news"><div id='news-id-1393'><div align="center"><img src="http://img2.immage.de/1912ac3ekinopoisk.ruantikiller31072086.jpg" alt='Антикиллер Д.К: Любовь без памяти (2009/DVD9/DVDRip/1400MB/700MB)' title='Антикиллер Д.К: Любовь без памяти (2009/DVD9/DVDRip/1400MB/700MB)' /></div><br /><u>Информация о фильме</u><br /><b>Название: </b>Антикиллер Д.К: Любовь без памяти<br /><b>Оригинальное название: </b>Антикиллер Д.К: Любовь без памяти<br /><b>Год выхода: </b>2009<br /><b>Жанр: </b>Боевик, детектив<br /><b>Режиссер: </b>Эльдар Салаватов<br /><b>В ролях: </b>Гоша Куценко, Вячеслав Разбегаев, Михаил Ефремов, Иван Бортник, Александр Тютин, Екатерина Климова, Александр Мякушко, Станислав Любшин, Евгений Антропов, Руслан Хабибуллов<br /><br /><b>О фильме:</b> Бывший майор милиции Коренев  по прозвищу Лис  после событий, связанных с ликвидацией банды террористов, продолжает бороться  со злом во всех  его проявлениях. На этот раз судьба находит Лиса  в лечебно-трудовом профилактории, где тот прячется  от окружающей действительности. Жена его бросила, на работе конфликты из-за  его нетрадиционных методов работы, и только  в клинике Лис чувствует себя спокойно. Но когда  в городе происходит  ряд покушений  на людей из его прошлой жизни, Лису не удается  остаться в стороне. Банкир Хондачев и его референт, молодая женщина по имени Катя, забирают Коренева из лечебно-трудового профилактория и просят помочь в  поиске людей, покушавшихся на банкира и, очевидно,  похитивших крупную сумму денег из его банка.  Лис, больше из интереса к девушке, соглашается, не представляя, во что он ввязывается. Расследование столкнет Лиса с его прошлым, о котором он хотел бы забыть, и перевернет его жизнь, подарив настоящую любовь.<br /><br /><b>IMDB Rating: 6.1/10 (13 votes)</b><br /><br /><b>Выпущено: </b>Россия, Arnold and Gregor Production / Stimul M Production<br /><b>Продолжительность: </b>01:31:35<br /><b>Озвучивание: </b>Оригинальное <b>[лицензия]</b><br /><br /><u>Файл</u><br /><b>Формат: </b>AVI (XviD)<br /><b>Качество: </b>DVDRip<br /><b>Видео: </b>1683 kb/s, 704x288<br /><b>Аудио: </b>AC3, 448 kb/s (6 ch)<br /><b>Размер: </b>1,399 MB<br /><b>Скачать: </b><a href="http://multi-up.com/188627" target="_blank"><b>Сэмпл</b></a><br /><br /><b>Релиз группы </b><img src="http://img4.immage.de/19126bdstarvideo.gif" alt='Антикиллер Д.К: Любовь без памяти (2009/DVD9/DVDRip/1400MB/700MB)' title='Антикиллер Д.К: Любовь без памяти (2009/DVD9/DVDRip/1400MB/700MB)' /><br /><br /><div align="center"><a href="http://***********/F/i011.***********/0912/3d/3ec6b6d24fce.jpg.html" target="_blank"><img src="http://i011.***********/0912/3d/3ec6b6d24fcet.jpg" alt='Антикиллер Д.К: Любовь без памяти (2009/DVD9/DVDRip/1400MB/700MB)' title='Антикиллер Д.К: Любовь без памяти (2009/DVD9/DVDRip/1400MB/700MB)' /></a> <a href="http://***********/F/i061.***********/0912/23/1334d7b1f398.jpg.html" target="_blank"><img src="http://i061.***********/0912/23/1334d7b1f398t.jpg" alt='Антикиллер Д.К: Любовь без памяти (2009/DVD9/DVDRip/1400MB/700MB)' title='Антикиллер Д.К: Любовь без памяти (2009/DVD9/DVDRip/1400MB/700MB)' /></a> <a href="http://***********/F/s03.***********/i176/0912/ca/ba2478d5eb9c.jpg.html" target="_blank"><img src="http://s03.***********/i176/0912/ca/ba2478d5eb9ct.jpg" alt='Антикиллер Д.К: Любовь без памяти (2009/DVD9/DVDRip/1400MB/700MB)' title='Антикиллер Д.К: Любовь без памяти (2009/DVD9/DVDRip/1400MB/700MB)' /></a> <a href="http://***********/F/s41.***********/i093/0912/59/936e91e05f90.jpg.html" target="_blank"><img src="http://s41.***********/i093/0912/59/936e91e05f90t.jpg" alt='Антикиллер Д.К: Любовь без памяти (2009/DVD9/DVDRip/1400MB/700MB)' title='Антикиллер Д.К: Любовь без памяти (2009/DVD9/DVDRip/1400MB/700MB)' /></a></div><br /><!--QuoteBegin--><div class="quote"><!--QuoteEBegin--><b>Антикиллер Д.К: Любовь без памяти (2009) DVDRip</b><br /><a href="http://********.net/download/1517.15e50b2a68414c599ef0c028ad/Antikiller.D.K.Ljubov.bez.pamjati.2009.O.DVDRip_STAR_VIDEO.avi.html" target="_blank"><b>http://********.net/download/1517.15e50b2a68414c599ef0c028ad/Antikiller.D.K.Ljubov.bez.pamjati.2009.O.DVDRip_STAR_VIDEO.avi.html</b></a><br /><b>зеркало</b><br /><a href="http://vip-file.com/download/1699.15e50b2a68414c599ef0c028ad/Antikiller.D.K.Ljubov.bez.pamjati.2009.O.DVDRip_STAR_VIDEO.avi.html" target="_blank"><b>http://vip-file.com/download/1699.15e50b2a68414c599ef0c028ad/Antikiller.D.K.Ljubov.bez.pamjati.2009.O.DVDRip_STAR_VIDEO.avi.html</b></a><br /><b>зеркало</b><br /><a href="http://sms4file.com/downloadvip/1699.15e50b2a68414c599ef0c028ad/Antikiller.D.K.Ljubov.bez.pamjati.2009.O.DVDRip_STAR_VIDEO.avi.html" target="_blank"><b>http://sms4file.com/downloadvip/1699.15e50b2a68414c50c028ad/Antikiller.D.K.Ljubov.bez.pamjati.2009.O.DVDRip_STAR_VIDEO.avi.html</b></a><!--QuoteEnd--></div><!--QuoteEEnd--><br /><u>Файл</u><br /><b>Формат: </b>AVI (XviD)<br /><b>Качество: </b>DVDRip<br /><b>Видео: </b>1052 kb/s, 704x288<br /><b>Аудио: </b>MP3, 128 kb/s (2 ch)<br /><b>Размер: </b>699 MB<br /><b>Скачать: </b><a href="http://rapidshare.com/files/322921548/Antikiller.D.K.Ljubov.bez.pamjati.2009.O.DVDRip.700MB.sample.avi" target="_blank"><b>Сэмпл</b></a><br /><br /><div align="center"><a href="http://immage.de/image-7,1912459a1.png,0,0.html" target="_blank"><img src="http://img2.immage.de/thumb_1912459a1.png" alt='Антикиллер Д.К: Любовь без памяти (2009/DVD9/DVDRip/1400MB/700MB)' title='Антикиллер Д.К: Любовь без памяти (2009/DVD9/DVDRip/1400MB/700MB)' /></a> <a href="http://immage.de/image-7,1912b68a2.png,0,0.html" target="_blank"><img src="http://img2.immage.de/thumb_1912b68a2.png" alt='Антикиллер Д.К: Любовь без памяти (2009/DVD9/DVDRip/1400MB/700MB)' title='Антикиллер Д.К: Любовь без памяти (2009/DVD9/DVDRip/1400MB/700MB)' /></a> <a href="http://immage.de/image-7,1912e2f918a3.png,0,0.html" target="_blank"><img src="http://img2.immage.de/thumb_1912e2f918a3.png" alt='Антикиллер Д.К: Любовь без памяти (2009/DVD9/DVDRip/1400MB/700MB)' title='Антикиллер Д.К: Любовь без памяти (2009/DVD9/DVDRip/1400MB/700MB)' /></a> <a href="http://immage.de/image-7,1912a4.png,0,0.html" target="_blank"><img src="http://img2.immage.de/thumb_1912a4.png" alt='Антикиллер Д.К: Любовь без памяти (2009/DVD9/DVDRip/1400MB/700MB)' title='Антикиллер Д.К: Любовь без памяти (2009/DVD9/DVDRip/1400MB/700MB)' /></a></div><br /><!--QuoteBegin--><div class="quote"><!--QuoteEBegin--><b>Антикиллер Д.К: Любовь без памяти (2009) DVDRip</b><br /><a href="http://********.net/download/6361.606276c5a42b061c609b5a8057/Antikiller.D.K.Ljubov.bez.pamjati.2009.O.DVDRip.700MB.avi.html" target="_blank"><b>http://********.net/download/6361.606276c5a42b061c609b5a8057/Antikiller.D.K.Ljubov.bez.pamjati.2009.O.DVDRip.700MB.avi.html</b></a><br /><b>зеркало</b><br /><a href="http://vip-file.com/download/6866.606276c5a42b061c609b5a8057/Antikiller.D.K.Ljubov.bez.pamjati.2009.O.DVDRip.700MB.avi.html" target="_blank"><b>http://vip-file.com/download/6866.606276c5a42b061c609b5a8057/Antikiller.D.K.Ljubov.bez.pamjati.2009.O.DVDRip.700MB.avi.html</b></a><br /><b>зеркало</b><br /><a href="http://sms4file.com/downloadvip/6866.606276c5a42b061c609b5a8057/Antikiller.D.K.Ljubov.bez.pamjati.2009.O.DVDRip.700MB.avi.html" target="_blank"><b>http://sms4file.com/downloadvip/6866.606276c5a42b061c65a8057/Antikiller.D.K.Ljubov.bez.pamjati.2009.O.DVDRip.700MB.avi.html</b></a><!--QuoteEnd--></div><!--QuoteEEnd--><br /><b>Формат:</b> DVD9<br /><b>Качество: </b>DVD R5<br /><b>Видео: </b>PAL 16:9 (720x576)<br /><b>Аудио:</b> Russian (Dolby AC3, 6 ch), Russian (DTS, 5 ch)<br /><b>Субтитры:</b> Нет<br /><b>Размер:</b> 6.17 GB<br /><b>Дополнительно: </b>Смотрите на DVD, создатели и исполнители<br /><br /><b>Релиз группы</b> <img src="http://img4.immage.de/19128d01c0starvideo.gif" alt='Антикиллер Д.К: Любовь без памяти (2009/DVD9/DVDRip/1400MB/700MB)' title='Антикиллер Д.К: Любовь без памяти (2009/DVD9/DVDRip/1400MB/700MB)' /><br /><br /><!--QuoteBegin--><div class="quote"><!--QuoteEBegin--><b>Антикиллер Д.К: Любовь без памяти (2009) DVD9</b><br /><a href="http://********.net/download/4785.4c764c5dda4767ebad1dff1c19/Antikiller.D.K.Ljubov.bez.pamjati.O.DVD.rar.html" target="_blank"><b>http://********.net/download/4785.4c764c5dda4767ebad1dff1c19/Antikiller.D.K.Ljubov.bez.pamjati.O.DVD.rar.html</b></a><br /><b>зеркало</b><br /><a href="http://vip-file.com/download/4707.4c764c5dda4767ebad1dff1c19/Antikiller.D.K.Ljubov.bez.pamjati.O.DVD.rar.html" target="_blank"><b>http://vip-file.com/download/4707.4c764c5dda4767ebad1dff1c19/Antikiller.D.K.Ljubov.bez.pamjati.O.DVD.rar.html</b></a><br /><b>зеркало</b><br /><a href="http://sms4file.com/downloadvip/4707.4c764c5dda4767ebad1dff1c19/Antikiller.D.K.Ljubov.bez.pamjati.O.DVD.rar.html" target="_blank"><b>http://sms4file.com/downloadvip/4707.4c764c5dda4767ebad1dff1c19/Antikiller.D.K.Ljubov.bez.pamjati.O.DVD.rar.html</b></a><!--QuoteEnd--></div><!--QuoteEEnd--></div>
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
20.12.2009, 19:11
Ответы с готовыми решениями:

Парсинг данных с сайта или страницы сайта
Здравствуйте, добрые люди! Есть задача спарсить данные с страницы соц сети. Или просто со...

Парсинг сайта
есть 2 кода для разных сайтов,по сути одинакаво должны работать,но в певром варианте берет все...

Парсинг сайта
Всем доброго времени суток. В общем решил попробовать попарсить сайт и вот что пока получилось:...

Парсинг сайта
Доброго времени суток. Простите если не в тот топик, запутался. Вобщем-то так... Я не спец в...

4
116 / 58 / 6
Регистрация: 16.12.2009
Сообщений: 204
21.12.2009, 07:33 2
Сначала нужно сделать функцию для сохранения страниц на жесткий диск, я б рекомендова использовать для этого функцию UrlDownloadToFile из юнита URLMon.
А потом начинается самое веселое. Анализ содержимого страниц, с целью определить правила по которым будет выбираться нужная информация . Например, на странице, которую вы привели, информация о фильме начинается после строчки
HTML5
1
<div id='dle-content'>
, значит все что выше вам не нужно. Для разбора текста страницы можно использовать регулярные выражения (если хорошо их понимаете).
Если вам требуется осуществить автоматическую навигацию по сайту, то придется определить место где в HTML-коде находиться ссылка на следующую страницу.
0
Эксперт С++
3072 / 1410 / 425
Регистрация: 19.01.2009
Сообщений: 3,889
21.12.2009, 20:30 3
Цитата Сообщение от _victor Посмотреть сообщение
Сначала нужно сделать функцию для сохранения страниц на жесткий диск
Совсем не обязательно - достаточно использовать IdHTTP, или если религия не позволяет, то напрямую через сокеты обращаемся с GET запросом, к вышеуказанному УРЛу. Контент можно вернуть в обыкновенную стринговую переменную, ну а затем верно - разбиваем все регулярками

Ты конкретнее скажи, что тебе нужно "выдерать" из паги, а мы подсобим
0
111 / 96 / 35
Регистрация: 03.02.2009
Сообщений: 282
21.12.2009, 23:23 4
короче я когда делал парсинг делел так:
сначала загружал данные в Memo1.LoadFromFile (ну, или если хочешь можешь сохранить на диск)

потом начинал одной букве смотреть, что-же это такое:
если эта буква - '<', то это начало тега, следовательно помечаем что мы находимся внутри тега (переменная inTag:=true)
если эта буква - '>', то если мы находимся внутри тега, то этот тег закрывается. inTag:=false. об этом напишу ниже (2).
если эта буква - '/',, то если мы находимся внутри тега, то это закрывающийся тег, переменная isCloseTag:=False. если мы находимся не внутри тега, то это обычная буква, об этом напишу ниже (1).
ну, иначе (если это не '<', не '>' и не '/'), то это обычная буква (1).

теперь сноски подробно:
(1) если это обычная буква, то если мы находимся внутри тега, tagName:=tagName+эта_буква
иначе (если мы не внутри тега), то переменная word:=word+эта самая_буква
(2) если мы напоролись на букву '>' и эта буква оказалась внутри тега, то значит тег закрылся. теперь смотрим на переменную isCloseTag, если это открывающийся тег (например <p>, <td>, <html>, <body> и т.д.), то смотрим что-же это за тег (переменная word), и если это это тот тег, который нам нужен (например <p>Инфо</p> - между тегами <p> и </p> находится та инфа которую нам нужно выдрать, смотри подробнее 1ый пост).
если-же это закрывающийся тег, то смотрим что-же это за тег, и если мы напоролись на тег который нам нужен (см. переменную tagName) (например в моем примере выше - </p>), то то что мы там сохранили в переменной word, то и есть та информация которая нам нужна. сохраняем эту информацию куда нам нужно. результат готов

вот и все, 20 минут потратил, надеюсь тебе помог мой алгоритм. делай
0
1 / 1 / 1
Регистрация: 20.12.2009
Сообщений: 23
02.01.2010, 23:49  [ТС] 5
Ты конкретнее скажи, что тебе нужно "выдерать" из паги, а мы подсобим
Спарсить ввесь текст новости, ну и если можно, то потом в bb код ее (пример во вложенном файле)
Вложения
Тип файла: txt text (bb).txt (6.2 Кб, 93 просмотров)
0
02.01.2010, 23:49
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
02.01.2010, 23:49
Помогаю со студенческими работами здесь

Парсинг сайта
Добрый день. Возникла проблема с написанием рекурсивного парсинга страниц сайта. Суть такова,...

Парсинг сайта
Прикладываю файл проекта(украден где-то на форуме)(). ВОт ссылка на страницу - годовой отчет банка....

Парсинг с сайта
Ребят. Набрасал кусок. выдает много ошибок. Работает не коректно. Подсобите. вот код: ...

Парсинг сайта
Помощь в написане простого парсера на ява. На других языках тоже рассмотрю.


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
5
Ответ Создать тему
Опции темы

Новые блоги и статьи
Книги и учебные ресурсы по C#
InfoMaster 08.01.2025
Базовые учебники и руководства Одной из лучших книг для начинающих является "C# 10 и . NET 6 для начинающих" Эндрю Троелсена и Филиппа Джепикса . Книга последовательно раскрывает основные концепции. . .
Что такое NullReferenceEx­­­ception и как исправить?
InfoMaster 08.01.2025
NullReferenceException - одно из самых распространенных исключений, с которым сталкиваются разработчики на C#. Это исключение возникает при попытке обратиться к членам объекта (методам, свойствам или. . .
Что такое Null Pointer Exception (NPE) и как это исправить?
InfoMaster 08.01.2025
Null Pointer Exception (NPE) - это одно из самых распространенных исключений в Java, которое возникает при попытке использовать ссылку на объект, значение которой равно null. Это исключение относится. . .
Русский язык в консоли C++
InfoMaster 08.01.2025
При разработке программ на C++ одной из частых проблем, с которой сталкиваются русскоязычные программисты, является корректное отображение кириллицы в консольных приложениях. Эта проблема особенно. . .
Telegram бот на C#
InfoMaster 08.01.2025
Разработка ботов для Telegram стала неотъемлемой частью современной экосистемы мессенджеров. C# предоставляет мощный и удобный инструментарий для создания разнообразных ботов, от простых. . .
Использование GraphQL в Go (Golang)
InfoMaster 08.01.2025
Go (Golang) является одним из наиболее популярных языков программирования, используемых для создания высокопроизводительных серверных приложений. Его архитектурные особенности и встроенные. . .
Что лучше использовать при создании класса в Java: сеттеры или конструктор?
Alexander-7 08.01.2025
Вопрос подробнее: На вопрос: «Когда одновременно создаются конструктор и сеттеры в классе – это нормально?» куратор уточнил: «Ваш класс может вообще не иметь сеттеров, а только конструктор и геттеры. . .
Как работать с GraphQL на TypeScript
InfoMaster 08.01.2025
Введение в GraphQL и TypeScript В современной разработке веб-приложений GraphQL стал мощным инструментом для создания гибких и эффективных API. В сочетании с TypeScript, эта технология. . .
Счётчик на базе сумматоров + регистров и генератора сигналов согласования.
Hrethgir 07.01.2025
Создан с целью проверки скорости асинхронной логики: ранее описанного сумматора и предополагаемых fast регистров. Регистры созданы на базе ранее описанного, предполагаемого fast триггера. То-есть. . .
Как перейти с Options API на Composition API в Vue.js
BasicMan 06.01.2025
Почему переход на Composition API актуален В мире современной веб-разработки фреймворк Vue. js продолжает эволюционировать, предлагая разработчикам все более совершенные инструменты для создания. . .
Архитектура современных процессоров
inter-admin 06.01.2025
Процессор (центральный процессор, ЦП) является основным вычислительным устройством компьютера, которое выполняет обработку данных и управляет работой всех остальных компонентов системы. Архитектура. . .
История создания реляционной модели баз данных, правила Кодда
Programming 06.01.2025
Предпосылки создания реляционной модели В конце 1960-х годов компьютерная индустрия столкнулась с серьезными проблемами в области управления данными. Существовавшие на тот момент модели данных -. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru