Защита статей от плагиата (ответ Яндекса)

Автор: admin

Янв 28

На данный момент довольно актуальна встает проблема о защите своего контента в блогах и на сайтах. Любой школьнег может поставить плагин на wordpress и тырить ваши статьи к себе. Чуть более соображающий человек легко подправит плагин, и вырежет из него все ссылки, так что вам от этого точно лучше не станет.
Мне стало интересно, как к этому относится яндекс и google, и я написал им письма со следующим вопросом:

Здравствуйте!
Меня очень интересует вопрос о защите статей, которые я пишу на сайтах. Многие легко могут скопировать их на свой сайт с помощью грабберов или вручную, и удалить из них ссылки (если они были) на мой сайт, и не сказав об авторстве.
Как к этому относится яндекс?
Есть ли способы, как можно сообщить роботу яндекса, о том, что статья принадлежит именно мне, или хоть как-то защититься от копирования? Очень интересно узнать мнение специалиста.

На следующий день мне пришел интересный ответ:

Здравствуйте, Борис!

Поисковая система Яндекс является лишь зеркалом русского Интернета, поэтому мы
не правомочны разбираться в вопросах плагиата.
Чтобы защитить свои авторские права Вам надо, видимо, обратиться к хозяевам
указанного сайта и к провайдеру, на сервере которого он находится. Если сайт
прекратит свое существование, он будет удален из поисковой базы Яндекс
автоматически.

Тем не менее, мы уже работаем над алгоритмами, которые будут способны отличать
текст источника от плагиата.

–
С уважением, Платон Щукин
Служба поддержки Яндекс.Ру

Итак, мои соображения - судя по выдаче и моим некоторым экспериментам, яндекс сейчас абсолютно никак не порицает копирование контента. Ноо.. если сплог например копирует rss в некоторую категорию от wordpress, он никогда не подымется в выдаче выше вашего сайта. Так как у вас, обычно, есть комментарии, ссылки с тегов, и еще много внутренних ссылок. Само собой вы будете выше.
А в бан уходят не за копирование контента!!! А за то, что вы не попадаете в выдачу, и если посмотреть средства веб-мастера, то обычно у вас переходы только с бирж, и проверки на индексацию той или иной страницы. Ваш сайт начинает считаться спам-сайтом и гудбай доход с него. Поэтому, если надумаете делать сплог, то долго на автомате вы не проживете. Придется делать его более релевантным, чем сайты, с которых вы “тырите” информацию.
В результате, прихожу к выводу, что бесполезно защищаться от граббинга rss, и нужно только больше уважать самого себя, если за вами такое пристальное внимание:)
Но если это создает увеличенную нагрузку на ваш сервер (хостинг), то предлагаю банить определенные ip как минимум (хотя это не всегда вариант, в частности для VPN-подключений к интернету). Если меня коснется эта проблема, то буду думать, что делать дальше. Пока перегрузов не чувствую.

P.S. В принципе, робота всегда можно отличить от человека, например, по скорости переходам по страницам, и можно сделать плагин для временного блокирования такого ip. Если припрет - короче сделаю:)
Read the rest of this entry

44 коммент.
Рубрика: yandex, мысли вслух

Новогодний ап тица.

Автор: admin

Дек 18

Короче как многие поняли полная жопа. Стали рулить ГС. Ничего разумного не могу сказать, что происходит. Подрезаны сдл по крупному. Не важно были ли покупные или продажные ссылки или нет.
Кто-то до сих пор верит в сказку в перетекание тица. Ну ждите блин. Что-то у меня появилось чувство, что яндекс решил не париться и не грузить сервера и добавил в алгоритм одну простую команду: тиц равен случаной число умноженное на прошлый тиц. Насрать на баки и прочие факторы. Корочь хз что делать.
Отменять покупные ссылки не буду, но и новых больше не куплю. Такой эффект от них меня не вдохновляет.
А теперь о хорошем:
В прошлом посте я писал, что можно и нужно решать проблему с контентом. Сейчас я немного модифицировал задачу, и решил заграбить полностью весь ЖЖ (!). Вы представляете сколько это контента??
Для этого разработал паука, который бегает по страницам ЖЖ, и собирает ссылки у которых есть rss. (За час нашел 13099 ЖЖ ссылок, из них пока обработал 1289 и решил что у них есть rss-лента). Далее эти ссылки передаются в “пылесос”, который собственно грабит контент. Контент выбирается по-простому принципу - если он больше n символов, значит можем брать его себе.
Вообщем, это тонны контента. В дальнейшем при создании нового сайта можно только указать какие ключевики меня интересуют, и взять нужный контент по ним. Пока буду ждать обработки контента. Она довольно медленная при моем соединении 64кб/с, но пока буду на работе, думаю многое успеет заграбится.

Усиленно читают у меня в блоге:

6 коммент.
Рубрика: yandex, мысли вслух, эксперимент

О сайте

Сайт в первую очередь расчитан на тех, кто хочет улучшить позиции своего сайта и кому интересны изменения в алгоритмах яндекса и гугла.
Также, после того как начал зарабатывать более 400$ в месяц с интернета, я понял, что мне есть чем поделится, и теперь описываю результаты продвижения своих проектов и заработков на них.
Все свои вопросы вы можете задать моей секретарше. Она очень умная. Просьба не обижать ее.

Метки

Биржи Оффлайн Проекты ап апдейт бан биржа блогосфера бомжы вебмастер выводы граббер доход доходы заработок индекс клоакинг лаба мысль новости оптимизатор предсказание проект саттелиты сетка ссылка статьи тематика теория тиц эксперимент юмор яндекс blog.ru cms google liex linkfeed linkfeedator livejournal pda rss sape seo yandex

Календарь

Июль 2017
Пн	Вт	Ср	Чт	Пт	Сб	Вс
« Дек
	1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Архивы

Апдейты

Мои пузомерки

На правах рекламы

Статьи

SeoKot - вся правда о поисковиках

Защита статей от плагиата (ответ Яндекса)

Новогодний ап тица.

О сайте

Последние записи

Рубрики

Последние комментарии

Опросы