Форум программистов, компьютерный форум, киберфорум
PHP для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.61/18: Рейтинг темы: голосов - 18, средняя оценка - 4.61
2 / 2 / 1
Регистрация: 01.10.2009
Сообщений: 53

Не работает парсер кэша Google

20.08.2010, 19:31. Показов 3467. Ответов 2
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Народ посмотрите пожалуйста, что может быть не так, вот весь скрипт:
PHP
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
    <title>Google Cache Dumper - дампер кеша Google</title>
    <style type="text/css">
    body {
        background-color: #DDDDDD;
        font-family: "Trebuchet MS", Arial, sans-serif;
    }
    h1, h2 {
        font-family: serif;
        text-align: center;
    }
    #page {
        background-color: #FFFFFF;
        border: 2px solid #AAAAAA;
        margin: 0 auto;
        padding: 20px;
        width: 80%;
    }
    span.help {
        cursor: help;
    }
    div.error {
        border: 1px solid #AA0000;
        background-color: #FFAAAA;
        padding: 5px;
    }
    .google {
        font-size: 1.2em;
    }
    </style>
</head>
<body>
<div id="page">
<h1>Google Cache Dumper - дампер кеша <span class="google"><span style="color:#184DC6">G</span><span style="color:#C61800">o</span><span style="color:#EFBA00">o</span><span style="color:#184DC6">g</span><span style="color:#31B639">l</span><span style="color:#C61800">e</span></span></h1>
<form action="<?=basename(__FILE__)?>">
<table align="center" cellpadding="4">
    <tr>
        <td>
            <span class="help" title="Сайт, который будем скачивать">Домен</span>
        </td>
        <td>
            <input type="text" name="domain" value="<?=$_GET['domain']?>">
        </td>
    </tr>
        <td>
            <span class="help" title="Количество страниц выдачи, которые будут распарсены. 0 - парсить все.">Количество страниц</span>
        </td>
        <td>
            <input type="text" name="p" value="<?=isset($_GET['p'])?$_GET['p']:0?>">
        </td>
    </tr>
    <tr>
        <td>
            <span class="help" title="Задержка между запросами, миллисекунды">Задержка</span>
        </td>
        <td>
            <input type="text" name="sleep" value="<?=isset($_GET['sleep'])?$_GET['sleep']:1000?>"> мсек.
        </td>
    </tr>
    <tr>
        <td align="center" colspan="2">
<?php
if(is_dir('./out/') && is_writeable('./out/')) {
?>
            <input type="submit" name="submit" value="Начать">
<?php
} else {
unset($_GET['submit']);
?>
            <div class="error">Папка ./out/ должна существовать и быть доступной для записи!</div>
<?php
}
?>
        </td>
    </tr>
</table>
</form>
<?php
set_time_limit(0);
function dbg($var)
{
    echo '<pre>';
    echo var_dump($var);
    echo '</pre>';
}
 
function say($str)
{
    static $n = 0;
    echo "Msg #$n: $str<br>";
    flush();
    $n++;
}
 
if(isset($_GET['submit']))
{
    $domain = $_GET['domain'];
    $sleep = $_GET['sleep']*1000;
    $p = $_GET['p'];
    
    // Start parsing
    $pages = array();
    $parse = true;
    for($i = 0; $parse && ($i < $p || $p == 0); $i++)
    {
        $page = file_get_contents('http://www.google.com/search?num=50&hl=ru&q=site:'.$domain.'&start='.$i*50 .'&sa=N');//('search.html');
        $parse = preg_match_all('#<cite>([^<]+) - [0-9]+k - </cite>#', $page, $matches);
        foreach($matches[1] as $link)
        {
            $pages[] = $link;
            say('Page found: '.$link);
        }
        usleep($sleep);
    }
    say('<b>Parsing finished!</b>');
    $dir = 'out/'.$domain;
    @mkdir($dir, 0777);
    chmod($dir, 0777);
    
    say('<b>Starting downloading cache...</b>');
    foreach($pages as $page)
    {
        $part = parse_url('http://'.$page);
        $container = $dir.'/'.$part['host'];
        $file = $container.(($part['path']{strlen($part['path'])-1} == '/')?($part['path'].'index.html'):$part['path']);
        @mkdir($container);
        chmod($container, 0777);
        $cache = file_get_contents('http://www.google.com/search?q=cache:'.$page);
        file_put_contents($file, $cache);
        chmod($file, 0777);
        
        say("Page $page saved to $file");
        flush();
        usleep($sleep);
    }
}
?>
</div>
</body>
</html>
Или может кто знает рабочий скрипт или программу для выкачки сайта из кэша Гугла ?
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
20.08.2010, 19:31
Ответы с готовыми решениями:

Убрать страницы из кэша Google
В гугле прокэшировалась куча php-страниц, которые генерировал скрипту меня на сайте. Теперь пытаюсь их оттуда убрать. В Google Webmasters...

Не работает ВК, удаление кэша не помогает
Не работает сайт ВК во всех браузерах, очистка кэша не помагает. На таком же виндовсе на ноуте от того же модема ВК работает. В чем может...

Og:image и Viber - не работает, берет картинку из кэша (предположительно)
Всем доброго дня! Помогите с крайне интересным вопросам... Пересылаю ссылка на карточку товара по Viber, а отображается картинка -...

2
 Аватар для Vovan-VE
13210 / 6599 / 1041
Регистрация: 10.01.2008
Сообщений: 15,069
20.08.2010, 20:07
Цитата Сообщение от BlackvsEvgen Посмотреть сообщение
PHP
1
<form action="<?=basename(__FILE__)?>">
Оставьте action пустым. Это будет означать "на этот же адрес".
HTML5
1
<form action="">
0
2 / 2 / 1
Регистрация: 01.10.2009
Сообщений: 53
20.08.2010, 20:41  [ТС]
Vovan-VE, сделал, в папке out создаётся папка с назвванием домена пустая и всё. Ничего вообщем не изменилось.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
20.08.2010, 20:41
Помогаю со студенческими работами здесь

В Opera не работает вызов очистки кэша через Ctrl+Shift+Del
При этом перестаёт работать эта комбинация клавиш и во всех других браузерах, пока не будет закрыта Opera Остальные горячие клавиши везде...

Баг в Google Chrome при ajax-запросе, Скрипт работает во всех браузерах кроме Google Chrome
данный скрипт срабатывает везде (опера, ИЕ, ФФ, Сафари), кроме Google Chrome: // запись в кэш всех фоток var proimg = ; var ximg...

Не работает парсер
require_once 'vendor/autoload.php'; function Pars($CounterPage) { $CounterVacansyLimit = 0; while($CounterPage &lt;= 25) { ...

Не работает парсер
Помогите, пожалуйста. Я сейчас изучаю simple html dom и что-то у меня не ладится. &lt;?php header(&quot;Content-type: text/html;...

Не работает парсер писем
Есть вот такой парсер ящиков #!/usr/bin/perl ################# By Fepsis for forum.antichat.ru ################# use threads; ...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Новые блоги и статьи
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Access
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru