Сижу и думаю, насчет алгоритмов яндекса. Главная мысль - как он определяет тематичен ли ссылающийся сайт, если сайт не находятся в яндекс каталоге.
Если бы я был автором алгоритма яндекса, то примитивная модель действовала бы так:
- 1) Выделяем наиболее часто повторяющиеся слова в текстах, на странице ссылающегося сайта и на кого он ссылается.
- 2) Упорядочиваем их по релевантности, учитывая разметку (h1, h2, h3, b, title и т.д.).
- 3) Берем первые n ключевых слов (число n неизвестно, но предполагаю что не более 10)
- 4) Сравниваем ключевики, на совпадение.
Вводим коэффициенты a,b.
Колличество и качество совпавших ключевиков - это a%.
Максимальный тиц, который может передать ссылка на странице - это b. - 5) Итого получаем пропорцию:
x - a%
b - 100%
Отсюда тиц передаваемый ссылкой равен x=b*a/100.
Выводы:
Из моей теории следует, что сайт не располагающийся в яндекс-каталоге, не имеет тематику. Тематика определяется для каждой страницы сайта персонально.
Теория не претендует на реальность. После ее додумывания, начну тестировать на практике.
Усиленно читают у меня в блоге: