С Новым годом! Форум программистов, компьютерный форум, киберфорум
PHP
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.87/15: Рейтинг темы: голосов - 15, средняя оценка - 4.87
1 / 1 / 1
Регистрация: 23.06.2015
Сообщений: 17

Google parser

27.06.2016, 22:40. Показов 3107. Ответов 5
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Добрый вечер, читателям форума. Оцените "простой" парсер гугла, скажите, что улучшить, что добавить, может есть альтернативные способы.
PHP
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
header('Content-type: text/html; charset=windows-1251');
$url = "https://www.google.com.ua/search?q=php&num=25"; 
$ch = curl_init(); 
curl_setopt($ch, CURLOPT_URL,$url); 
curl_setopt($ch, CURLOPT_USERAGENT, ""); 
curl_setopt($ch, CURLOPT_FAILONERROR, 1); 
curl_setopt($ch, CURLOPT_HEADER, 0); 
curl_setopt($ch, CURLOPT_REFERER, "http://www.google.com.ua/"); 
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); 
curl_setopt($ch, CURLOPT_RETURNTRANSFER,1); 
curl_setopt($ch, CURLOPT_TIMEOUT, 30); 
curl_setopt($ch, CURLOPT_POST, 0); 
 
$data_url = curl_exec($ch); 
 
preg_match_all('/<h3 class="r"><a href="\/url\?q=(.+?)&amp/is', urldecode($data_url), $matches_url); 
preg_match_all('/<h3 class="r">(<a href="\/url.+?)<\/h3>/is', $data_url, $matches_title); 
preg_match_all('/<span class="st">(.+?)<\/span><br>/is',$data_url, $matches_description); 
 
function getArray($matches){
    return array_slice(explode("[separator]", strip_tags(implode("[separator]",$matches))),0, 20); 
}
 
$url_array = $matches_url[1]; 
 
$final_array['titles'] = getArray($matches_title[0]);
$final_array['descriptions'] = getArray($matches_description[0]); 
$final_array['urls'] = array_slice($url_array, 0 ,20);
Со своей задачей справляется, надо 20 первых результатов, но вот качество меня смущает)
Заранее благодарен.
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
27.06.2016, 22:40
Ответы с готовыми решениями:

Json parser
Как преобразовать следующий json { &quot;directions&quot;: { &quot;A&quot;: { &quot;name&quot;: &quot;Виталий&quot;, &quot;email&quot;:...

Php parser M3U
Здравствуйте друзя я хочу создать такой сайт https://canlitv.plus . мне нужен парсер или такой скрипт. можете помочь.

Yandex wordstat parser
Всем привет! Пишу парсер yandex wordstat. Сначала работал без прокси, но после нескольких попыток, как я понял, яндекс меня забанил....

5
Автор FAQ
 Аватар для insideone
3687 / 964 / 114
Регистрация: 10.01.2010
Сообщений: 2,550
28.06.2016, 13:25
Вполне нормально.

Для качества можете освоить скажем Goutte (https://github.com/FriendsOfPHP/Goutte)
Запрос вернёт парсер DowCrawler который без заморочных регулярок может получить результат (http://symfony.com/doc/current... awler.html)
1
1 / 1 / 1
Регистрация: 23.06.2015
Сообщений: 17
28.06.2016, 13:31  [ТС]
Цитата Сообщение от insideone Посмотреть сообщение
Вполне нормально.
Спасибо за ответ. Скажите еще пожалуйста, а в плане производительности, если сначала explode весь $data_url по определенному классу, и дальше прогнать через foreach в поисках нужного контента?
0
Автор FAQ
 Аватар для insideone
3687 / 964 / 114
Регистрация: 10.01.2010
Сообщений: 2,550
28.06.2016, 13:35
Очевидно затраты по памяти будут больше, но для разбора небольших страниц это несущественно. Тем не менее такой вариант не очень красив, т.к. неочевиден. По мне так лучше если код будет удобно-читаем, чем если будет на 10% быстрее работать
0
1 / 1 / 1
Регистрация: 23.06.2015
Сообщений: 17
28.06.2016, 13:38  [ТС]
Цитата Сообщение от insideone Посмотреть сообщение
Очевидно затраты по памяти будут больше, но для разбора небольших страниц это несущественно. Тем не менее такой вариант не очень красив, т.к. неочевиден. По мне так лучше если код будет удобно-читаем, чем если будет на 10% быстрее работать
И последний вопрос, можно как-то бороться при помощи url с выдачей ссылок новостей, и картинок, в основном извращения в регулярке из за них, поскольку мне они не нужны.
0
Автор FAQ
 Аватар для insideone
3687 / 964 / 114
Регистрация: 10.01.2010
Сообщений: 2,550
29.06.2016, 10:27
Вопрос не понял. Чтобы не было извращений в регулярках, можно просто их не использовать. См. Goutte
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
29.06.2016, 10:27
Помогаю со студенческими работами здесь

Php simple html dom parser
Здравствуйте, дорогие форумчане. Начинаю изучать библиотеку парсинга php simple html dom parser. Возникло несколько вопросов. Вот...

Библиотека Simple DOM Parser - парсинг
Добрый день. ЕСть страница 4.php: &lt;div id=&quot;d1&quot;&gt;text-1&lt;/div&gt; &lt;div class=&quot;d2&quot;&gt;text-2&lt;/div&gt; &lt;div id=&quot;glob-1&quot;&gt; ...

PHP Simple HTML DOM Parser
Не подключается библиотека, на страничке написал 1 строчку с подключением include 'simple_html_dom.php'; запускаю и выдает ерор Parse...

Проблемка с PHP Simple HTML DOM Parser. Парсит, не останавливается на конце тега + кодировка
Собственно проблема, даже две :) 1) Есть кусок кода: .... $com = ' '; // еще один буфер foreach($elements as $element)...

Parser PHP
Всем привет, возникла не большая проблема, никак не могу спарсить значение. &lt;div class=&quot;chart__price&quot;&gt; &lt;span...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
6
Ответ Создать тему
Новые блоги и статьи
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR
ФедосеевПавел 06.01.2026
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR ВВЕДЕНИЕ Введу сокращения: аналоговый ПИД — ПИД регулятор с управляющим выходом в виде числа в диапазоне от 0% до. . .
Модель микоризы: классовый агентный подход 2
anaschu 06.01.2026
репозиторий https:/ / github. com/ shumilovas/ fungi ветка по-частям. коммит Create переделка под биомассу. txt вход sc, но sm считается внутри мицелия. кстати, обьем тоже должен там считаться. . . .
Расчёт токов в цепи постоянного тока
igorrr37 05.01.2026
/ * Дана цепь постоянного тока с сопротивлениями и напряжениями. Надо найти токи в ветвях. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа и решает её. Последовательность действий:. . .
Новый CodeBlocs. Версия 25.03
palva 04.01.2026
Оказывается, недавно вышла новая версия CodeBlocks за номером 25. 03. Когда-то давно я возился с только что вышедшей тогда версией 20. 03. С тех пор я давно снёс всё с компьютера и забыл. Теперь. . .
Модель микоризы: классовый агентный подход
anaschu 02.01.2026
Раньше это было два гриба и бактерия. Теперь три гриба, растение. И на уровне агентов добавится между грибами или бактериями взаимодействий. До того я пробовал подход через многомерные массивы,. . .
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Налог на собак: https:/ / **********/ gallery/ V06K53e Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf Пост отсюда. . .
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop? Ниже её машинный перевод. После долгих разбирательств я наконец-то вернула себе. . .
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод. Thinkpad X220 Tablet —. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru