Регистрация: 23.08.2009
Сообщений: 420
1

Как поисковый бот видит страницу

23.12.2009, 09:35. Показов 7114. Ответов 13
Метки нет (Все метки)

Author24 — интернет-сервис помощи студентам
Отчасти эта тема уже обсуждалась в одном из топиков, но не как основная.
Прошу участников форума высказать свои соображения и поделиться наблюдениями.
0
Programming
Эксперт
94731 / 64177 / 26122
Регистрация: 12.04.2006
Сообщений: 116,782
23.12.2009, 09:35
Ответы с готовыми решениями:

Сайт видит или не идит поисковый бот?
Здравствуйте. Мой сайт перешел на новую кодировку utf-8 после чего вдвое упал трафик. Посмотрел как...

Как видит страницу Googlebot
Здравствуйте, подскажите решил посмотреть как видит страницу Googlebot Вот как поисковый робот...

Яндекс видит страницу, как ссылку через php
но не чпу(который прописан через rewrite rule) есть какой то способ это исправить - или просто...

Vk бот на Python. Проблема при работе бота в беседах (longpull не видит, что в беседу кто-то написал)
В общем, сделал следующее: 1. По примерам из Интернета, с помощью библиотеки vk_api написал такого...

13
Регистрация: 13.03.2006
Сообщений: 959
23.12.2009, 10:54 2
Как DOM. :)
Мои сомнения кончились, когда предъявили "нечитаемый" мета-тег для верификации в Гугле. Он был тупо вставлен внутрь блока <style>...</style>, как только его вынесли оттуда, бот сразу же его разглядел. Вполне достаточно.

А кому недостаточно, может поэкспериментировать с тегами не на своем месте. Было немало других ошибок, которые вне DOM оставались бы незамеченными, просто эта запомнилась лучше всего.

Это, кстати, повод для размышлений тем персонажам, которые кричат, что валидность и качество верстки не влияют ни на что. Правда, я не очень верю, что такие персонажи умеют и хотят размышлять...
0
Регистрация: 23.08.2009
Сообщений: 420
23.12.2009, 11:08  [ТС] 3
А кому недостаточно, может поэкспериментировать с тегами не на своем месте.
Хорошо, а рассмотрим динамический случай.
Открывается страница. После того, как объектная модель сформирована, в нее вносятся изменения. В чистом js по событию onload,
в jquery в секции
<div>Код</div><div>$(document).ready(function(){...})</div>
Добавляем новые элементы в разные части страницы с помощью ajax.
В простом случае подгружаем в div какой-то html-код, в сложном строим элементы через CreateElement
Думаете робот выполняет этот код? Как еще он получит окончательную модель?
0
Регистрация: 13.03.2006
Сообщений: 959
23.12.2009, 11:22 4
Хорошо, а рассмотрим динамический случай.

...

Добавляем новые элементы в разные части страницы с помощью ajax.
В простом случае подгружаем в div какой-то html-код, в сложном строим элементы через CreateElement
Думаете робот выполняет этот код? Как еще он получит окончательную модель?
Не нужно рассматривать динамические случаи. :) Потому что это уже пахнет софистикой - бот не станет подгружать все Java-скрипты и интерпретировать их. Но то, что выложено в HTML-коде, он разберет.
0
Регистрация: 23.08.2009
Сообщений: 420
23.12.2009, 11:36  [ТС] 5
Не нужно рассматривать динамические случаи. :) Потому что это уже пахнет софистикой
И не только софистикой, но и клоакингом.
По-моему, тема очень интересная и важная. Если ПС не научатся видить dom в динамике, они ослепнут.
0
Регистрация: 14.12.2009
Сообщений: 157
23.12.2009, 11:50 6
Если ПС не научатся видить dom в динамике, они ослепнут.
для этого нужны совсем другие ресурсы...
0
Регистрация: 13.03.2006
Сообщений: 959
23.12.2009, 12:05 7
для этого нужны совсем другие ресурсы...
Ресурсы уже, по-видимому, достаточны. Не забывайте, что сейчас достаточно быстро ловятся внедренные в HTML-код вирусные загрузчики. Причем, не только примитивно врезанные iframe, а java-скрипты с шифрованием и саморазвертыванием, которые внедряют этот iframe в страницу. :) Так что уже решаемы простые динамические случаи, когда внедрение элемента делается скриптом, находящимся в коде страницы.
0
Регистрация: 14.12.2009
Сообщений: 157
23.12.2009, 12:19 8
Не забывайте, что сейчас достаточно быстро ловятся внедренные в HTML-код вирусные загрузчики.
Да, был у меня подшефный. на который через дыру и хостера заразили все индексные файлы - непиятно было, когда в индексе весело предупреждение, что на сайте потенциально опасный код...
0
Регистрация: 23.08.2009
Сообщений: 420
24.12.2009, 12:33  [ТС] 9
Ресурсы уже, по-видимому, достаточны.
Что касается Гугла - у него есть хром. Значит, прикрутить интерпретацию js в бота они могут.
Интересует, сделано это или нет. И в какой мере. Потому что для современных сайтов динамическое изменение dom - обычное дело.
И если Гугл и/или Яндекс не контролируют ситуацию, то по крайней мере
должны ее учитывать в своих рекомендациях.
0
Регистрация: 14.12.2009
Сообщений: 157
24.12.2009, 12:47 10
Что касается Гугла - у него есть хром. Значит, прикрутить интерпретацию js в бота они могут.
у них еще раньше gmail появился ))
0
Регистрация: 23.08.2009
Сообщений: 420
24.12.2009, 13:01  [ТС] 11
у них еще раньше gmail появился
я имел в виду, что в хроме есть интерпретатор js, а значит технологией они владеют
0
iolibi
29.12.2009, 13:15 12
узнал много нового! углублюсь в изучение этого вопроса! спасибо
Регистрация: 23.08.2009
Сообщений: 420
13.01.2010, 13:30  [ТС] 13
для этого нужны совсем другие ресурсы...
Есть два момента.
Во-первых, объект js XmlHttpRequest не поддерживает кроссдоменные запросы.
Значит роботу ПС нужно будет как-то обходить это, например, проксировать адреса через свои сервера или использовать в качестве шлюза флеш.
Во-вторых, интересно, как робот будет реагировать на ajax-загрузку запрещенных (в robots.txt или метатегом) к индексации страниц.
По идее, они запрещены сами по себе, а как робот будет оценивать их в составе других - неизвестно.
0
Регистрация: 14.12.2009
Сообщений: 157
13.01.2010, 13:44 14
Во-вторых, интересно, как робот будет реагировать на ajax-загрузку запрещенных (в robots.txt или метатегом) к индексации страниц.
ajax-загрузка - это формирование страницы по данному урлу, так что формально - если страница разрешена, то и к скрипту обратиться можно - ведь идет формирование страницы (к тому же ajax'сом обычно получают фрагменты страницы, а не веб-страницу (в том смысле, что обычно не подгружается head страницы))
0
13.01.2010, 13:44
IT_Exp
Эксперт
87844 / 49110 / 22898
Регистрация: 17.06.2006
Сообщений: 92,604
13.01.2010, 13:44
Помогаю со студенческими работами здесь

Как сделать поисковый робот?
Нужно сделать скрипт, который будет просматривать страницы в одном клике от главной. Казалось...

Rave Report не видит вторую страницу
У меня есть 1 отчёт с двумя страницами. Прописываю в код кнопки: RvProject1.ExecuteReport...

На хостинге видит только главную страницу
Залил сайт на хостинг, видит только главную страницу. На остальных выдает ошибку 404. Сайт на...

Ноут не видит страницу авторизации хотспота
Уважаемые господа! Выручайте. Жена с ребенком находиться в Греции, в гостинице пытается...

Поисковый индекс, как его реализовать на деле?
Здравствуйте Пытаюсь сделать простой поисковик, для поиска по своему сайту, источник данных MySql...

Как поисковик отправляет сайту поисковый запрос
Доброго времени суток, уважаемые формунчани) И так вопрос: каким способом поисковики передают сайту...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
14
Ответ Создать тему
Опции темы

КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2024, CyberForum.ru