На данный момент довольно актуальна встает проблема о защите своего контента в блогах и на сайтах. Любой школьнег может поставить плагин на wordpress и тырить ваши статьи к себе. Чуть более соображающий человек легко подправит плагин, и вырежет из него все ссылки, так что вам от этого точно лучше не станет.
Мне стало интересно, как к этому относится яндекс и google, и я написал им письма со следующим вопросом:

Здравствуйте!
Меня очень интересует вопрос о защите статей, которые я пишу на сайтах. Многие легко могут скопировать их на свой сайт с помощью грабберов или вручную, и удалить из них ссылки (если они были) на мой сайт, и не сказав об авторстве.
Как к этому относится яндекс?
Есть ли способы, как можно сообщить роботу яндекса, о том, что статья принадлежит именно мне, или хоть как-то защититься от копирования? Очень  интересно узнать мнение специалиста.

На следующий день мне пришел интересный ответ:

Здравствуйте,  Борис!

Поисковая система Яндекс является лишь зеркалом русского Интернета, поэтому мы
не правомочны разбираться в вопросах плагиата.
Чтобы защитить свои авторские права Вам надо, видимо, обратиться к хозяевам
указанного сайта и к провайдеру, на сервере которого он находится. Если сайт
прекратит свое существование, он будет удален из поисковой базы Яндекс
автоматически.

Тем не менее, мы уже работаем над алгоритмами, которые будут способны отличать
текст источника от плагиата.


С уважением, Платон Щукин
Служба поддержки Яндекс.Ру

Итак, мои соображения - судя по выдаче и моим некоторым экспериментам, яндекс сейчас абсолютно никак не порицает копирование контента. Ноо.. если сплог например копирует rss в некоторую категорию от wordpress, он никогда не подымется в выдаче выше вашего сайта. Так как у вас, обычно, есть комментарии, ссылки с тегов, и еще много внутренних ссылок. Само собой вы будете выше.
А в бан уходят не за копирование контента!!! А за то, что вы не попадаете в выдачу, и если посмотреть средства веб-мастера, то обычно у вас переходы только с бирж, и проверки на индексацию той или иной страницы. Ваш сайт начинает считаться спам-сайтом и гудбай доход с него. Поэтому, если надумаете делать сплог, то долго на автомате вы не проживете. Придется делать его более релевантным, чем сайты, с которых вы “тырите” информацию.
В результате, прихожу к выводу, что бесполезно защищаться от граббинга rss, и нужно только больше уважать самого себя, если за вами такое пристальное внимание:)
Но если это создает увеличенную нагрузку на ваш сервер (хостинг), то предлагаю банить определенные ip как минимум (хотя это не всегда вариант, в частности для VPN-подключений к интернету). Если меня коснется эта проблема, то буду думать, что делать дальше. Пока перегрузов не чувствую.

P.S. В принципе, робота всегда можно отличить от человека, например, по скорости переходам по страницам, и можно сделать плагин для временного блокирования такого ip. Если припрет - короче сделаю:)
Read the rest of this entry

Google BookmarksDiggdel.icio.usTechnoratiYahoo My WebNews2.ruБобрДобр.ruMemori.ruМоёМесто.ruMister Wong

Новогодний ап тица.

Короче как многие поняли полная жопа. Стали рулить ГС. Ничего разумного не могу сказать, что происходит. Подрезаны сдл по крупному. Не важно были ли покупные или продажные ссылки или нет.
Кто-то до сих пор верит в сказку в перетекание тица. Ну ждите блин. Что-то у меня появилось чувство, что яндекс решил не париться и не грузить сервера и добавил в алгоритм одну простую команду: тиц равен случаной число умноженное на прошлый тиц. Насрать на баки и прочие факторы. Корочь хз что делать.
Отменять покупные ссылки не буду, но и новых больше не куплю. Такой эффект от них меня не вдохновляет.
А теперь о хорошем:
В прошлом посте я писал, что можно и нужно решать проблему с контентом. Сейчас я немного модифицировал задачу, и решил заграбить полностью весь ЖЖ (!). Вы представляете сколько это контента??
Для этого разработал паука, который бегает по страницам ЖЖ, и собирает ссылки у которых есть rss. (За час нашел 13099 ЖЖ ссылок, из них пока обработал 1289 и решил что у них есть rss-лента). Далее эти ссылки передаются в “пылесос”, который собственно грабит контент. Контент выбирается по-простому принципу - если он больше n символов, значит можем брать его себе.
Вообщем, это тонны контента. В дальнейшем при создании нового сайта можно только указать какие ключевики меня интересуют, и взять нужный контент по ним. Пока буду ждать обработки контента. Она довольно медленная при моем соединении 64кб/с, но пока буду на работе, думаю многое успеет заграбится.

Усиленно читают у меня в блоге:

Google BookmarksDiggdel.icio.usTechnoratiYahoo My WebNews2.ruБобрДобр.ruMemori.ruМоёМесто.ruMister Wong
Яндекс.Метрика