Архив рубрики ‘ Разработки ’

Продвижение неизбежно

Что такое продвижение неизбежно?

Внимание!!! Это конкурс проводимый WebEffector и WebMasters.
Суть конкурса:
Продвинуть в поисковой системе google.ru фразу “Продвижение неизбежно” на внутренней странице любого сайта или блога.
Все участники, которые попадут в ТОП 50 Московской выдачи google.ru по данному запросу в 12.00 часов 6 августа 2011 года, получат 100$ (wmz), участник, чей сайт окажется на первом месте получит 1000$ (wmz).
Все участники, которые будут зарегистрированы в конкурсе, получают промо-код на пополнение счета в системе WebEffector на 300 рублей. Read the rest of this entry

Google BookmarksDiggdel.icio.usTechnoratiYahoo My WebNews2.ruБобрДобр.ruMemori.ruМоёМесто.ruMister Wong

Продолжу тему как прокачивать сайт тематикой в бирже sape, или любой другой аналогичной. Читайте начало тут и тут.
Итак, изначально я привёл пример на одном запросе. Вот что я имею на данный момент по продвигаемым НЧ: Read the rest of this entry

Google BookmarksDiggdel.icio.usTechnoratiYahoo My WebNews2.ruБобрДобр.ruMemori.ruМоёМесто.ruMister Wong

Итак, решил немного поучить пользователей как своими силами без нытья о нереальности поднимать ТИЦ и позиции в выдаче для любого сайта с помощью биржи sape.
Свои уроки и отчеты буду писать в течении ровно 3-ех апдейтов ТИЦ яндекса, чтобы вы смогли увидеть результат. Записи буду делать каждый апдейт выдачи.

Подопытный кролик

Подопытным будет мой псевдо-сайт Конспектомания
На данный момент его посещаемость выглядит так (учтите, что на графике число - посетителей в неделю! т.е. в сутки в среднем 300 человек)

Покажу что это число можно спокойно поднимать далее.
ТИЦ у сайта 0, по данным яндекс-вебмастера на сайт ссылаются 17 площадок в виде 31 ссылки (заодно вопрос к тебе читатель, ты думаешь что 31 ссылка за 300 пользователей в сутки - это много?).  Заодно прокачаем и тиц (ранее не было цели его прокачивать, так как сайт делал made for adsense). Read the rest of this entry

Google BookmarksDiggdel.icio.usTechnoratiYahoo My WebNews2.ruБобрДобр.ruMemori.ruМоёМесто.ruMister Wong

Предлагаем вашему вниманию новый сервис по определению тематики сайтов, страниц и текстов.

Описание:
Сервис ExTheme нужен для автоматического определения тематики любых сайтов и текстов. В качестве каталогизации сайтов принят яндекс-каталог, так как он наиболее полно соответствует требованиям seo-специалистов. То есть сервис может ответить на вопрос - в каком разделе яндекс-каталога находился бы ваш сайт (текст), если бы его приняли в него. В качестве алгоритма определения используется технология нейронных сетей.

Возможности:

  • Определение тематики главных страниц сайтов
  • Определение тематики вложенных страниц сайтов
  • Определение тематики произвольного текста
  • Вы можете сами обучать сервис на своих сайтах
  • Работа в пакетном режиме через api-интерфейс (soap, xml-rpc) (в закрытом тестировании)
  • Имеется плагин под firefox для работы с биржами sape, setlinks, mainlink, gogetlinks, liex, xap. (в разработке)

Сайт определителя тематики http://exTheme.ru

Если сервис будет интересен пользователям, и если wink согласиться, то он будет внедрён в плагин Wink-а.

p.s. По сравнению с моими прошлыми разработками - применён алгоритм двойной персептрона, для улучшенной обучаемости, а также создан алгоритм автоматического приближения для улучшенного рассмотрения текста. Определение сейчас может быть не точным лишь из-за нехватки словарного запаса, но вы сами можете дообучать алгоритм на основе своих сайтов.
На сайте, на данный момент, возможно имеется много ошибок, не забывайте, что это лишь тестирование. Функционал и интерфейс еще обязательно изменится.

И самое главное - сервис абсолютно бесплатный.
http://exTheme.ru

Усиленно читают у меня в блоге:

Google BookmarksDiggdel.icio.usTechnoratiYahoo My WebNews2.ruБобрДобр.ruMemori.ruМоёМесто.ruMister Wong

Предлагаю вашему вниманию алгоритм покупки ссылок.
Цель задачи - купить более качественные ссылки.
Само по себе слово “качество” довольно расплывчато, поэтому нормализуем условие задачи.
Нормализованная цель задачи - из X доноров выбрать N набравших больше баллов. Причем N задается косвенно оптимизатором, как колличество денег желаемых потратить на запрос.
Еще более упрощенно задача выглядит так - система должна из двух доноров выбрать тот, что лучше.

Покупка проходит в три этапа.

Этап 1: Сеошник создает фильтр в бирже удовлетворяющий его предпочтениям и задает бюджет.
Грубо говоря, например сеошник указал купить ссылки от 2 до 5 рублей, с бюджетом 30р на данный запрос.

Этап 2: Программа получает ссылки предложенные биржой через api и фильтрует полный хлам.
Я использую следующие фильтры:
1) Проверка на GBL из прошлого опыта проверок
2) Страница проходит проверку YAP и GOP
3) Отсеиваем сайты где страниц по yandex<80
4) Отсеиваем по stop-словам url и текст донора. (всякие варезники, попандеры, pron-тематику, дипломы и т.д.)
5) Делаем перепроверку на BL (колличество исходящих ссылок) и удаляем >3
6) удаляем страницы с количеством внутренних ссылок >150 и <5
7) удаляем страницы с количеством чистого текста <500 символов (текст без html внутри body)
8. удаляем сайты с заспамленностью >100% (отношение количества исходящих ссылок с домена к количеству страниц в индексе яндекса)

Этап 3: Из того что осталось вычисляем по формуле сколько баллов наберет каждый донор и скупаем набравшие больше всего балов учитывая ограничение по максимальному расходу средств.

Формула:
Балл=PR(главной сайта)*10+PR(страницы донора)*20-BL(исходящих ссылок)*3+Content(колличество символов чистого текста)/100+балл тематичности/10+ТИЦ/5+Возраст(количество дней в бирже)/30+1000/ALEXARANK

Да, данная формула не идеальна, но она учитывает все довольно важные факторы. Строил её на своем опыте по продвижению.
Публикую данную статью, чтобы получить полезные советы (всё-таки коллективный опыт и разум лучше субьективного:) )
Буду рад любым замечаниям и предложениям.
Read the rest of this entry

Google BookmarksDiggdel.icio.usTechnoratiYahoo My WebNews2.ruБобрДобр.ruMemori.ruМоёМесто.ruMister Wong

Недавно наткнулся на пульт маулнета (если нужен, сами ищите в поисковике). Вообщем это очередной сайт, который за денюшку может проверить ваших доноров на множество различных пузомерок.
Меня очень заинтересовал один параметр - проверка заспамленности. К сожалению у маула он так и не заработал. Аналогичная пузомерка есть на бирже liex.
Так же нашёл статью, что гугл любит низкую заспамленность. Наверно яндекс тоже (?), и эта пузомерка может влиять на ТИЦ.
Для тех кто еще не понял о чем речь - заспамленность сайта - это отношение числа исходящих ссылок с домена к числу страниц на сайте. В итоге получается своеобразная цифра.

Вообщем, я сделал скрипт который позволяет проверить любой сайт. Пробуем, тестируем.

Проверить заспамленность сайта

.

Попробую прогнать через него базу сайтов сапы. Посмотрю что получиться:)
Работает скрипт медленно и требует много ресурсов. Возможно будет падать сервак. В дальнейшем оптимизирую.

Усиленно читают у меня в блоге:

Google BookmarksDiggdel.icio.usTechnoratiYahoo My WebNews2.ruБобрДобр.ruMemori.ruМоёМесто.ruMister Wong

Linkfeedator дубль два

Снова вернулся к работе над проектом linkfeedator. Его функционал на данный момент полностью восстановлен, плюс ко всему добавил возможность проверок YAP и YAL через крон, а также модуль определения позиций по яндексу и гуглу.
На оффсайте теперь можно скачать бесплатную демо-версию продукта и оценить продукт в работе. Также добавился месячный тариф.
Правда купить пока что никак нельзя - еще не успел получить аттестат продавца Webmoney. Заявку в мегасток подал, но мне уже второй раз приходят замечания на доработку. Надеюсь завтра уже буду щеголять аттестатом продавца.
Read the rest of this entry

Google BookmarksDiggdel.icio.usTechnoratiYahoo My WebNews2.ruБобрДобр.ruMemori.ruМоёМесто.ruMister Wong

Наконец сегодня додумал до логического конца алгоритм определения тематики и начал реализацию.  Сюда запишу его, чтобы не забыть детали. Алгоритм построен на теории нейронных сетей, и нужен мне в корыстных целях направленных на яндекс. Ценность алгоритма в том - что это будет первый алгоритм определения тематики сайта, который сможет реализовать почти любой программист. Надеюсь кому-нибудь пригодится.

Этап 1: Определение ключевых слов сайта

1) Получаем страницу
2) Убираем теги, и все кроме букв и пробелов. Знаки препинания заменяем на пробелы. (Цифры удалить!!!)
3) Разбиваем весь текст на слова, то есть делаем одномерный массив слов.
4) удаляем слова меньшие 2 букв
4) Каждое слово прогоняем через стеммер.  Я использую алгоритм Портера. Для тех кто не в курсе стеммер - это программа которая отбразывает от слова суффиксы и приставки, оставляя корень. Алгоритм Портера слаб, но пока сойдет. Как найду морфологический словарь - сменю на него.
5) При прогоне через стеммер создаем новый ассоциативный массив, где ключом будет само слово, а значением колличество повторений слова. Например (”Yandex” =>3, “Тиц” =>5) и т.д.
6) Упорядочиваем ассоциативный массив по убыванию колличества повторений.
7) Удаляем все слова повторяющиеся менее трех раз (колличество под вопросом).
8) В итоге мы получили ключевики сайта с их “тошнотой”. Обычно их на этом этапе 50-100 штук.
9) Проверяем каждый ключевик по базе общих слов не несущих тематику. Например слова: “меня”, “когда”, “сколько” и т.д. Я храню эти слова в отдельной таблице бд и написал отдельный скрипт, который позволяет их сформировать. Обойдя сотню сайтов мы набираем базу самых популярных не имеющих тематику слов.
Этап 2: Создаем тематическую базу

1) Для начала в бд нужно создать три таблицы: “слова”, “тематики” и “веса”.
Поля таблиц:
“Слова”: word_id, word
“Тематики”: theme_id, parent_id, theme
“Веса”: word_id, theme_id, ves
2) Заполняем таблицу тематик. Я для этих целей пользуюсь базой Ашманова (где-то 5000 тематик). Не использую ЯК, потому что сайты в него заносятся вручную, то бишь робот тут не причем. В нашем случае необходимо знать тематику, которую видит робот на обычных сайтов. Я не говорю что тематика по Ашманову совпадет с тем что определил робот яндекса, но нам это и не нужно. Представьте что по Ашманову у нас вышло “кпк” для донора и акцептора, а по яндексу “сотовые телефоны”.Не все ли равно?
3) Самый трудный момент. Выбираем нужную тему, например “интернет-ресуры”. Из найденных в первом этапе ключевиков страницы выбираем относящиеся к этой теме, и проставляем им коэффициенты, насколько сильно они относятся к данной теме (балл от 0 до 1). Позже будем корректировать это значение, сейчас это не суть важно. Это значение и будет синаптической силой. В сумме они дадут активацию нейрона к данной тематике.  В реальности это дает потрясающие возможности даже для многозначных слов. Например слово “лук” можно отнести и к кухне и к “охоте”. Это не повлияет на верность определения.
Этот момент трудный, потому что придется обойти множество сайтов, чтобы собрать хотя бы по 10 слов для каждой тематики. На деле десяти слов вполне достаточно. Итого необходимо 50000 слов, чтобы определить тему сайта по Ашманову. Кто-то скажет это много, но в день при нормальной оболочке можно легко собрать тысячу слов. Итого 50 дней пассивного труда.
4) Мы создали семантическое ядро для каждой тематики, и указали с каким весом относится к каждой теме определенное слово.

Этап 3: Узнаем тему неизвестных сайтов и корректируем результаты

1) Поскольку мы первоначально как-то обучили программу. Теперь покажу как ей пользоваться.
Для неизвестного сайта выполняем этап 1 и узнаем ключевые слова с “тошнотой”.  В результате полученные примерно 30 ключевиков проверяем по базе к каким темам они относятся и какие коэффициенты имеют.

Примитивный пример:
Текст “Лук и стрелы это лук”.
Лук тошнота 2. Тема “охота” вес 0.7.  Тема “кухня” вес 0.6.
Стрелы тошнота 1.  Тема “охота” вес 0.8.
Находим активацию нейрона:
К теме охота: 0.7*2+1*0.8=2.2
К теме кухня: 0.6*1=0.6

Поздравляю - тема текста определена.  Здесь также можно определить в % насколько текст относится к другим темам.
2) Возможно в прошлом этапе неверно проставлены коэффициенты и их нужно корректировать. Для этого необходим отдельный интерфейс, где выбрав тематику видишь все ключевые слова по ней с их коэффициентами. Изменяя коэффициенты мы усиливаем значение того или иного слова в определенной теме. При анализе множества сайтов мы приходим к стабильному результату.

Результат.

Данный алгоритм не нуждается в обсуждении его необходимости. Это каждый решает сам для себя. Мне плевать с колокольни если он вам не нужен:)

Для тех кто хоть что-то понял о том что я сказал - интересно услышать ваши мысли о его эффективности. У меня он уже почти реализован технически, и скоро начну пробовать. Если будет интерес к нему- прикручу как дополнительную услугу к линкфидатору или сделаю веб-сервис для проверки списка ссылок.

Усиленно читают у меня в блоге:

Google BookmarksDiggdel.icio.usTechnoratiYahoo My WebNews2.ruБобрДобр.ruMemori.ruМоёМесто.ruMister Wong

Исследуя выдачу яндекса (yandex xml), я нашел одну очень значимую деталь - яндекс знает о всех СДЛ сайтах!
На основе этих знаний я написал скрипт, который говорит к какой категории относится тот или иной сайт, и какая к нему трастовость. С очень высокой точностью этот скрипт определил все мои СДЛ сайты, и гавносайты! Я просто в шоке от таких результатов. Если есть время, перейдите по ссылке ниже и потестите мой скрипт. Возможно он ошибется:) Но если так решил яндекс, то врятли это простая ошибка.

Проверить сайт на СДЛность

В любом случае буду рад почитать ваши комментарии о его точности.
В целом я пошел дальше и приделал этот скрипт к моему linkfeed-клиенту, и на основе него купил кучку ссылок с СДЛ сайтов с запредельной трастовостью. Не знаю есть ли разница в передачи тиц от них, по сравнению с ГС, но попробовать стоит. Так что это мой новый эксперимент.

P.S. Скрипт за сутки может проанализировать до 1000 сайтов. Если он начал глючить, значит колличество запросов к яндексу в этот день у меня закончилось.

Усиленно читают у меня в блоге:

Google BookmarksDiggdel.icio.usTechnoratiYahoo My WebNews2.ruБобрДобр.ruMemori.ruМоёМесто.ruMister Wong

Не писал пару дней, потому что работали над множеством проектов. Сегодня просто решил рассказать вкратце, что творится у меня в жизни, над чем все-таки ведется работа, и немного о том, что творится в интернете.
Итак, сначала о мега-проектах:
1) Теперь у моего сайта появилась pda-версия по адресу pda.academiaopen.ru, которая предназначена для просмотра сайта через различные мобильники, кпк, коммуникаторы и прочие телефончики. Эта версия сайта отличается своей легкостью, не содержит лишней графики, и все картинки в постах автоматически ужимаются по размеру и качеству. Очень скоро этот программный продукт выложим в открытый доступ, и каждый желающий сможет иметь pda-версию своего блога. Наш скрипт позволяет создать мобильную версию для сайтов на движках joomla 1.5 и wordpress. Суть работы скрипта проста до невозможности - вы создаете у себя поддомен типа pda.yoursite.ru, ложите на него наш скрипт, и хопа - мобильная версия вашего сайта готова:)
Скрипт будет распространяться бесплатно, и кому не жалко могут сделать donate в развитие проекта:) Хотя я слабо верю в donate от русскоязычного населения, но надежда умирает последней:) Основная надежда у нашей фирмы на иностранную аудиторию.
В любом случае ждите аннонса проекта на официальных сайтах cms joomla и wordpress (ну и у меня в блоге конечно).
2) Я писал пост “Анализатор страниц для покупки ссылок“, в котором выкладывал раннюю версию скрипта для анализа страниц, на которых мы покупаем ссылки. Идея продолжила свое развитие, и скрипт претерпел уже множество модификаций (на сайте я его не обновлял), и теперь я решил заняться автоматизацией и типизацией покупок ссылок. Поскольку, вручную прокачивать сотню сайтов уже становится нереально (!!!). А ведь при покупке я фактически выполняю одни и теже действия, лишь немного меняя стратегию продвижения. Но если действия одни и теже, и они муторные, то их обязательно надо автоматизировать!)
Вообщем идея состоит в следующем: пользователь заходит в систему “Оптимизатор” (сейчас она работает как клиент биржи linkfeed), и видит свои проекты. Для покупки ссылок он выбирает только схему раскрутки, например: прокачка нулевиками, прокачка мордами, прокачка тематикой, и все… Скрипт сам начинает поиск и разбор сайтов на которых можно купить ссылки, находит наиболее качественные и релевантные, проверяет их на наличие в индексе, и все “гамно” автоматом заносит в BL. Остальные покупает. Также скрипт ведет ежедневную статистику о колличестве купленных ссылок, расходах оптимизатора, строит различные графики, и что самое главное (!) при апдейте тиц вычисляет эффективность прокачки той или иной схемой, что в итоге дает оптимизатору реальные цифры о качестве прокачки. Вот такие пироги:) Работа над этой системой кипит, и скоро можно будет говорить о первых результатах.

Немного об интернете: Из блога Кikk узнал, что гугл ввел новый тег, позволяющий указать поисковику где у вас оригинал статьи, а где побочные статьи. Это должно решить проблему неверного распределения pr. Подробности читайте в посте Новый тег rel=canonical от Google.

Немного о жизни: Паралельно с моими проектами пишу диплом и работаю над программным продуктом на тему “автоматизация воспитательного процесса в ВУЗе”((( Гори синим пламенем этот гребанный универ. Когдаж он блин закончится…

Усиленно читают у меня в блоге:

Google BookmarksDiggdel.icio.usTechnoratiYahoo My WebNews2.ruБобрДобр.ruMemori.ruМоёМесто.ruMister Wong
Яндекс.Метрика