Итак, начал разворот своих промышленных масштабов. Тематику решил сменить с недвижимости на образовательные сайты. Купил специально хост для этой сетки, нашел книги, которые нигде не размещались и распространяются в архивах. Так что их тексты вроде уникальны и буду юзать их.
Два сайта уже готовы, и забиты под завязку (это значит что сейчас на них по 50 статей, и еще по одной будут автоматом публиковаться еще 50 недель). Этого вполне достаточно для саттелита. Вообщем высчитал что на забивку саттелита и обработку текстов у меня уходит где-то 2 часа. Итого дизайн+настройка округлю до трех часов. Осталось еще 8 сайтов подготовить. Только вот времени постоянно не хватает, так как дипломная достает(((
Read the rest of this entry
Сижу и думаю, насчет алгоритмов яндекса. Главная мысль - как он определяет тематичен ли ссылающийся сайт, если сайт не находятся в яндекс каталоге.
Если бы я был автором алгоритма яндекса, то примитивная модель действовала бы так:
- 1) Выделяем наиболее часто повторяющиеся слова в текстах, на странице ссылающегося сайта и на кого он ссылается.
- 2) Упорядочиваем их по релевантности, учитывая разметку (h1, h2, h3, b, title и т.д.).
- 3) Берем первые n ключевых слов (число n неизвестно, но предполагаю что не более 10)
- 4) Сравниваем ключевики, на совпадение.
Вводим коэффициенты a,b.
Колличество и качество совпавших ключевиков - это a%.
Максимальный тиц, который может передать ссылка на странице - это b.
- 5) Итого получаем пропорцию:
x - a%
b - 100%
Отсюда тиц передаваемый ссылкой равен x=b*a/100.
Выводы:
Из моей теории следует, что сайт не располагающийся в яндекс-каталоге, не имеет тематику. Тематика определяется для каждой страницы сайта персонально.
Теория не претендует на реальность. После ее додумывания, начну тестировать на практике.
Усиленно читают у меня в блоге: