Архив рубрики ‘ мысли вслух ’

Задумался немного над цифрами доходов, которые нам идут с сайтов. В итоге пришел к выводу, что мы чуть-ли не миллионеры, если копнуть в суть, и провести сравнение. Только очень ленивые.
Например - сайт сделанный на коленке за час и добавленный в сапу, грубо говоря, будет приносить как самый мимнимум 3 рубля в сутки.
Итого за час мы увеличили свою годовую зарплату примерно на 1000 рублей.
Далее пробегаемся еще по паре бирж, и биржам статей. С каждой можно получить хотя бы по рублю в сутки. Итого с нашего стремного сайта получаем 2000р в год.
Даже если на сайт ушел не час, а день в итоге имеем следующее - 1 день работы = min 2000р зарплаты.
Много ли профессий можно найти, которые у нас в стране дают такой же доход?:) В мелких городах вообще народ месяц вкалывает с утра до ночи, чтобы получить какие-то 5000р. А 10т.р. - это уже считается что у человека хорошая зарплата. Жестоко…

А теперь проведем аналогию, если бы доход нам шел не с сайтов, а с процентов вклада в банке. Чтобы получить 2000 в год - нужно чтобы у нас было вложение 20000р в банке. А мы вложили в создание жалкий стольник..

Вообщем вывод таков - если сайтостроением заниматься реально как профессией, то это одна из самых прибыльных профессий в России. Read the rest of this entry

Google BookmarksDiggdel.icio.usTechnoratiYahoo My WebNews2.ruБобрДобр.ruMemori.ruМоёМесто.ruMister Wong

Наконец сегодня додумал до логического конца алгоритм определения тематики и начал реализацию.  Сюда запишу его, чтобы не забыть детали. Алгоритм построен на теории нейронных сетей, и нужен мне в корыстных целях направленных на яндекс. Ценность алгоритма в том - что это будет первый алгоритм определения тематики сайта, который сможет реализовать почти любой программист. Надеюсь кому-нибудь пригодится.

Этап 1: Определение ключевых слов сайта

1) Получаем страницу
2) Убираем теги, и все кроме букв и пробелов. Знаки препинания заменяем на пробелы. (Цифры удалить!!!)
3) Разбиваем весь текст на слова, то есть делаем одномерный массив слов.
4) удаляем слова меньшие 2 букв
4) Каждое слово прогоняем через стеммер.  Я использую алгоритм Портера. Для тех кто не в курсе стеммер - это программа которая отбразывает от слова суффиксы и приставки, оставляя корень. Алгоритм Портера слаб, но пока сойдет. Как найду морфологический словарь - сменю на него.
5) При прогоне через стеммер создаем новый ассоциативный массив, где ключом будет само слово, а значением колличество повторений слова. Например (”Yandex” =>3, “Тиц” =>5) и т.д.
6) Упорядочиваем ассоциативный массив по убыванию колличества повторений.
7) Удаляем все слова повторяющиеся менее трех раз (колличество под вопросом).
8) В итоге мы получили ключевики сайта с их “тошнотой”. Обычно их на этом этапе 50-100 штук.
9) Проверяем каждый ключевик по базе общих слов не несущих тематику. Например слова: “меня”, “когда”, “сколько” и т.д. Я храню эти слова в отдельной таблице бд и написал отдельный скрипт, который позволяет их сформировать. Обойдя сотню сайтов мы набираем базу самых популярных не имеющих тематику слов.
Этап 2: Создаем тематическую базу

1) Для начала в бд нужно создать три таблицы: “слова”, “тематики” и “веса”.
Поля таблиц:
“Слова”: word_id, word
“Тематики”: theme_id, parent_id, theme
“Веса”: word_id, theme_id, ves
2) Заполняем таблицу тематик. Я для этих целей пользуюсь базой Ашманова (где-то 5000 тематик). Не использую ЯК, потому что сайты в него заносятся вручную, то бишь робот тут не причем. В нашем случае необходимо знать тематику, которую видит робот на обычных сайтов. Я не говорю что тематика по Ашманову совпадет с тем что определил робот яндекса, но нам это и не нужно. Представьте что по Ашманову у нас вышло “кпк” для донора и акцептора, а по яндексу “сотовые телефоны”.Не все ли равно?
3) Самый трудный момент. Выбираем нужную тему, например “интернет-ресуры”. Из найденных в первом этапе ключевиков страницы выбираем относящиеся к этой теме, и проставляем им коэффициенты, насколько сильно они относятся к данной теме (балл от 0 до 1). Позже будем корректировать это значение, сейчас это не суть важно. Это значение и будет синаптической силой. В сумме они дадут активацию нейрона к данной тематике.  В реальности это дает потрясающие возможности даже для многозначных слов. Например слово “лук” можно отнести и к кухне и к “охоте”. Это не повлияет на верность определения.
Этот момент трудный, потому что придется обойти множество сайтов, чтобы собрать хотя бы по 10 слов для каждой тематики. На деле десяти слов вполне достаточно. Итого необходимо 50000 слов, чтобы определить тему сайта по Ашманову. Кто-то скажет это много, но в день при нормальной оболочке можно легко собрать тысячу слов. Итого 50 дней пассивного труда.
4) Мы создали семантическое ядро для каждой тематики, и указали с каким весом относится к каждой теме определенное слово.

Этап 3: Узнаем тему неизвестных сайтов и корректируем результаты

1) Поскольку мы первоначально как-то обучили программу. Теперь покажу как ей пользоваться.
Для неизвестного сайта выполняем этап 1 и узнаем ключевые слова с “тошнотой”.  В результате полученные примерно 30 ключевиков проверяем по базе к каким темам они относятся и какие коэффициенты имеют.

Примитивный пример:
Текст “Лук и стрелы это лук”.
Лук тошнота 2. Тема “охота” вес 0.7.  Тема “кухня” вес 0.6.
Стрелы тошнота 1.  Тема “охота” вес 0.8.
Находим активацию нейрона:
К теме охота: 0.7*2+1*0.8=2.2
К теме кухня: 0.6*1=0.6

Поздравляю - тема текста определена.  Здесь также можно определить в % насколько текст относится к другим темам.
2) Возможно в прошлом этапе неверно проставлены коэффициенты и их нужно корректировать. Для этого необходим отдельный интерфейс, где выбрав тематику видишь все ключевые слова по ней с их коэффициентами. Изменяя коэффициенты мы усиливаем значение того или иного слова в определенной теме. При анализе множества сайтов мы приходим к стабильному результату.

Результат.

Данный алгоритм не нуждается в обсуждении его необходимости. Это каждый решает сам для себя. Мне плевать с колокольни если он вам не нужен:)

Для тех кто хоть что-то понял о том что я сказал - интересно услышать ваши мысли о его эффективности. У меня он уже почти реализован технически, и скоро начну пробовать. Если будет интерес к нему- прикручу как дополнительную услугу к линкфидатору или сделаю веб-сервис для проверки списка ссылок.

Усиленно читают у меня в блоге:

Google BookmarksDiggdel.icio.usTechnoratiYahoo My WebNews2.ruБобрДобр.ruMemori.ruМоёМесто.ruMister Wong

Приветствую всех!
Ужас, я не писал уже больше полмесяца. Работы было очень много. Сейчас наша фирма готовится к релизу idoblog 2.0 (компонент для joomla 1.5, для построения социальных сообществ типа хабр+жж+я.ру), и надеюсь скоро закончится разработка Linkfeedator 2 (анализатор купленных ссылок для популярных бирж).
Вот как раз о нем я хотел бы поговорить, и спросить совета.
Столкнулся с такой проблем - очень легко попасть в шары (линфидатор начнет ходить по сети бесплатно). Хотя я крайне не рекомендовал бы качать такую версию, потому что в ней может быть код, который заберет ваши пароли от аккаунтов бирж. Но врятли кто меня послушает, так что вижу два выхода:

1) Зашифровать коды продукта с помощью ioncube. Но в этом случае две проблемы - клиент может ставиться в локалке на денвер у человека, который имеет динамический ip. В этом случае я не могу сказать - “работай только с определенного ip-адреса”. А если даже заставлю ставить клиент только на сервера, то народ начнет сомневаться, что я сам не краду пароли. Ведь код зашифрован и проверить невозможно.

2) Часть функций linkfeedator будут работать через мой сервер, И я буду вести статистику по заходам с различных ip и под какими логинами заходят. Под логинами тут подразумеваю логин/пароль от оффсайта компонента. Но тут опять минус - линкфидатор позиционировался как автономный клиент, который дает почуствовать независимость от различных сервисов.

Что же делать, я пока не знаю. Может у кого-нибудь есть идеи, как защитить мой продукт?

Усиленно читают у меня в блоге:

Google BookmarksDiggdel.icio.usTechnoratiYahoo My WebNews2.ruБобрДобр.ruMemori.ruМоёМесто.ruMister Wong

Во-первых, хочу сказать, что у меня теперь есть своя личная секретутка. Вы можете увидеть ее в правой колонке (если у вас включен flash). Она обученная и довольно умная. Не буду рассказывать особо о ней - если нужно она сама все расскажет. Если вам нечего делать или есть вопросы- пообщайтесь с ней немного, буду очень благодарен. Также вы можете сделать для своего блога подобного персонажа.

Во-вторых, вернемся к теме. По ходу разработки linkfeedator мне пришлось общаться с саппортом и программистами бирж. Уже точно могу сказать, что через недельку-две выйдет linkfeedator 2.0, который будет поддерживать биржы sape, linkfeed, setlinks. С остальными биржами возникли некоторые трудности.

Основной фишкой проекта станет выгодная покупка ссылок. Например вы покупаете ссылку с площадки, которая есть в двух биржах. При этом вы увидите цены на ссылки в обоих биржах. Кроме этого появятся новые фильтры тематичности.

Хочу выразить огромную благодарность тем программистам бирж, кто отвечал на мои вопросы и помогал в разрабоке. В частности с моей инициативы было ускорено написание api документации к бирже linkfeed, и сейчас началась доработка api биржы setlinks. Надеюсь завтра уже будут добавлены необходимые мне функции. К sape трудно придраться, но пообещали тоже добавить несколько полезных функций.

Кто интересуется биржами - на другом блоге я написал их подробное сравнение по множеству параметров. Читайте пост Linkfeed в сравнении с остальными биржами. Кстати там я получил негативный ответ от авторов xap:)

Всем удачных апов, и результатов! В следующем посте раскрою методику продвижения в топы google.

P.S. По-поводу прошлых постов о борьбе с яндексом - я смог обойти сайт Артемия Лебедева и поднятся еще на одну позицию:-P

Усиленно читают у меня в блоге:

Google BookmarksDiggdel.icio.usTechnoratiYahoo My WebNews2.ruБобрДобр.ruMemori.ruМоёМесто.ruMister Wong
Как и обещал Садовский, к нам пришло полное веселье. Не долго мне удалось поиграть в войнушки, как яндекс поставил шах и мат в этой игровой партии. И обозвал он свой мат “анадырем“.
Правда “анадырь” получился не таким каким его обещали нам, а с брибамбасами. В частности в него внедрели элементы разрабатываемого “Арзамаса“. Если мне не изменяет память, именно в арзамасе хотели внедрить полный геотаргетинг поиска.. Что-то они поторопились. Не буду сейчас рассказывать про особенности анадыря, так как сам пока их не знаю.

Итак, почему я решил что моя партия проигранна? Да потому что я не могу теперь биться вслепую. Хитрый Яндекс лишил нас классических средств анализа продвижения, и отслеживания позиций. С какого-то перепугу блог Аллы Пугачевой стал выше по позициям чем мой блог.. при этом мой блог теперь хорошо доступен в выдаче для Африки.. Полный ппц.  Мне теперь что, сто раз написать надо, что я из России, чтобы тупой робот это понял?? И я не могу привязать себя к определенному региону, так как это не имеет смысла..
Поскольку в сео-мире начался бедлам, я вижу три пути дальнейшего развития:
1) Пытаться осваивать новые алгоритмы яндекса, поскольку все мы теперь тут новички, и ни у кого нет приоритетов! Любой мега-сеошник сейчас такой же ноль в прокачке выдачи, как и любой школьник заказавший прокачку в сеопульте.  Вариант прокачки выдачи сейчас крайне не стабилен, и не уверен в его стабильности в дальнейшем, так как начнется дальнейшее подкручивание роликов-за-шариков:)

2) Классическая непостижимая тема - изучение формулы ТИЦ. Опять же тут никогда не было стабильности, и врятли она будет. Но эта тема имеет место быть. К тому же в ней не так важна стабильность. Тиц падает, а цены растут, так что рынок очень конкурентноспособный и интересный. Но… исследовать тиц - это все равно, что завязать себе глаза и биться об забор месяц, и все время думать “сколько сантиметров будет у меня шишка”. А потом открыть глаза и удивится почему шишки уже нет. Вот блин - оказывается уже прошла, пока бился:)

3) Это направление основано на первой мысли любого школьника загнавшего сайт в сапу - чем больше сайтов я нафигачу, тем богаче я буду. Отчасти в этих мыслях есть логика.
Но обычный человек не может создавать тучу сайтов, так как это очень муторно и доход копеечный. Но! Этот доход стабильный, если мы избегаем бана и вылета из выдачи.

Я не могу отказаться ни от одного пути, так как в каждом есть свой смысл. Но поразмыслив первые два пути я буду развивать в своем проекте Linkfeedator (кстати на днях будет второй релиз).

А третий путь меня сейчас интересует больше всего. Поскольку, если подойти к этой теме с умом, то из нее можно многое выжать. В частности, я буду развивать пока приватный проект “Parazit“, который основывается на самоорганизующихся структурах.
На практике система Parazit должна сама порождать новые сайты, без всякого участия вебмастера.
Возьму простой пример: Минус и минус = плюс. Таким образом если система автоматически соберет контент с десятка тематических сайтов, обработает его должным образом и выберет себе дизайн, то получится новый сайт. При этом робот сам должен заниматся обновлением и вычислять некоторые сеопараметры получившихся сайтов (как минимум плотность ключевых слов, и сверять уникальность с оригиналом). Вот это мне кажется очень интересная задачка.
А вы чем думаете заниматься далее? Строгать буратинок, или работать на партнерки?:)

Read the rest of this entry

Google BookmarksDiggdel.icio.usTechnoratiYahoo My WebNews2.ruБобрДобр.ruMemori.ruМоёМесто.ruMister Wong

Исследуя выдачу яндекса (yandex xml), я нашел одну очень значимую деталь - яндекс знает о всех СДЛ сайтах!
На основе этих знаний я написал скрипт, который говорит к какой категории относится тот или иной сайт, и какая к нему трастовость. С очень высокой точностью этот скрипт определил все мои СДЛ сайты, и гавносайты! Я просто в шоке от таких результатов. Если есть время, перейдите по ссылке ниже и потестите мой скрипт. Возможно он ошибется:) Но если так решил яндекс, то врятли это простая ошибка.

Проверить сайт на СДЛность

В любом случае буду рад почитать ваши комментарии о его точности.
В целом я пошел дальше и приделал этот скрипт к моему linkfeed-клиенту, и на основе него купил кучку ссылок с СДЛ сайтов с запредельной трастовостью. Не знаю есть ли разница в передачи тиц от них, по сравнению с ГС, но попробовать стоит. Так что это мой новый эксперимент.

P.S. Скрипт за сутки может проанализировать до 1000 сайтов. Если он начал глючить, значит колличество запросов к яндексу в этот день у меня закончилось.

Усиленно читают у меня в блоге:

Google BookmarksDiggdel.icio.usTechnoratiYahoo My WebNews2.ruБобрДобр.ruMemori.ruМоёМесто.ruMister Wong

Кого я читаю

Уже несколько раз мне пытались передать эстафету, так что трудно теперь сказать от кого я ее принял=)) Но все равно я вас всех упомяну в этом посте. Итак, читать rss-ленту я люблю, и даже немного напрягает когда полдня в ней нет новых сообщений.
Недавно подписался на бомжеленту, но понял что это полнейшая хрень. Есть конечно парочка интересных людей, но в целом бред. Им бы чистку провести.

Read the rest of this entry

Google BookmarksDiggdel.icio.usTechnoratiYahoo My WebNews2.ruБобрДобр.ruMemori.ruМоёМесто.ruMister Wong
Мой бубен

Мой бубен

Чето задумался немного, а какое будущее у бирж ссылок? Только наивный будет думать, что яндекс не знает сайты, которые продают ссылки. Даже если я, ради спортивного интереса, смог за час написать скрипт, который выдрал всю информацию обо всех всех сайтах участвующих в биржах sape и linkfeed, то что уж говорить о работниках яндекса?:)
Даже последний баран может зарегиться в бирже и в интерфейсе оптимизатора найти все сайты:)

Другое дело, что яндекс пока нас не трогает, только малость пессимизирует:)
Так что закупайте новые бубны, и стучите в них как можно больше. Я себе уже прикупил:)

А теперь хотел рассказать об одной замеченной мной детале. Все говорят от апах тица и апах выдачи. Но анализируя ссылочную статистику, я заметил еще показатель - ссылочный апдейт. Он тоже довольно нестабилен.
Смотрите следующие графики:
Read the rest of this entry

Google BookmarksDiggdel.icio.usTechnoratiYahoo My WebNews2.ruБобрДобр.ruMemori.ruМоёМесто.ruMister Wong

Не писал пару дней, потому что работали над множеством проектов. Сегодня просто решил рассказать вкратце, что творится у меня в жизни, над чем все-таки ведется работа, и немного о том, что творится в интернете.
Итак, сначала о мега-проектах:
1) Теперь у моего сайта появилась pda-версия по адресу pda.academiaopen.ru, которая предназначена для просмотра сайта через различные мобильники, кпк, коммуникаторы и прочие телефончики. Эта версия сайта отличается своей легкостью, не содержит лишней графики, и все картинки в постах автоматически ужимаются по размеру и качеству. Очень скоро этот программный продукт выложим в открытый доступ, и каждый желающий сможет иметь pda-версию своего блога. Наш скрипт позволяет создать мобильную версию для сайтов на движках joomla 1.5 и wordpress. Суть работы скрипта проста до невозможности - вы создаете у себя поддомен типа pda.yoursite.ru, ложите на него наш скрипт, и хопа - мобильная версия вашего сайта готова:)
Скрипт будет распространяться бесплатно, и кому не жалко могут сделать donate в развитие проекта:) Хотя я слабо верю в donate от русскоязычного населения, но надежда умирает последней:) Основная надежда у нашей фирмы на иностранную аудиторию.
В любом случае ждите аннонса проекта на официальных сайтах cms joomla и wordpress (ну и у меня в блоге конечно).
2) Я писал пост “Анализатор страниц для покупки ссылок“, в котором выкладывал раннюю версию скрипта для анализа страниц, на которых мы покупаем ссылки. Идея продолжила свое развитие, и скрипт претерпел уже множество модификаций (на сайте я его не обновлял), и теперь я решил заняться автоматизацией и типизацией покупок ссылок. Поскольку, вручную прокачивать сотню сайтов уже становится нереально (!!!). А ведь при покупке я фактически выполняю одни и теже действия, лишь немного меняя стратегию продвижения. Но если действия одни и теже, и они муторные, то их обязательно надо автоматизировать!)
Вообщем идея состоит в следующем: пользователь заходит в систему “Оптимизатор” (сейчас она работает как клиент биржи linkfeed), и видит свои проекты. Для покупки ссылок он выбирает только схему раскрутки, например: прокачка нулевиками, прокачка мордами, прокачка тематикой, и все… Скрипт сам начинает поиск и разбор сайтов на которых можно купить ссылки, находит наиболее качественные и релевантные, проверяет их на наличие в индексе, и все “гамно” автоматом заносит в BL. Остальные покупает. Также скрипт ведет ежедневную статистику о колличестве купленных ссылок, расходах оптимизатора, строит различные графики, и что самое главное (!) при апдейте тиц вычисляет эффективность прокачки той или иной схемой, что в итоге дает оптимизатору реальные цифры о качестве прокачки. Вот такие пироги:) Работа над этой системой кипит, и скоро можно будет говорить о первых результатах.

Немного об интернете: Из блога Кikk узнал, что гугл ввел новый тег, позволяющий указать поисковику где у вас оригинал статьи, а где побочные статьи. Это должно решить проблему неверного распределения pr. Подробности читайте в посте Новый тег rel=canonical от Google.

Немного о жизни: Паралельно с моими проектами пишу диплом и работаю над программным продуктом на тему “автоматизация воспитательного процесса в ВУЗе”((( Гори синим пламенем этот гребанный универ. Когдаж он блин закончится…

Усиленно читают у меня в блоге:

Google BookmarksDiggdel.icio.usTechnoratiYahoo My WebNews2.ruБобрДобр.ruMemori.ruМоёМесто.ruMister Wong

Сегодня пришла в голову уникальная мысль, объясняющая, почему иной сайт передает неимоверное число ТИЦ, а иной совсем ничего.
Итак, стандартное мышление: поисковый робот заходит на вашу страницу, индексирует ее и выявляет ключевые слова, по которым позже определяеться релевантность запроса. Также по соотношению ключевых слов сайта донора ссылающегося на сайт акцептор переходит тиц (определяется тематика). Но все видят, что эта тема далеко не катит. Хотя у нее есть свои плюсы. Например, если мы продвигаем сайт покупными ссылками с бирж наобум, то обычно для нулевика получаем с каждых 100 ссылок с тиц 10 - 10 тиц. А если продвигаем тематическими, то есть совпадают ключевики донора и акцептора, то на 100 ссылок с тиц 10 приходится 20-30 тиц. Но…. слишком эта схема расплывчата и далекооооо не всегда работает. Я долго задовался вопросом “ПОЧЕМУ”?
Седня ночью приснился мне новый важный параметр, о котором я немного знал, но не не обращал внимания.
Загляните в панель вебмастера яндекса, и увидите, что он хранит данные о запросах, по которым попадают на ваш сайт. Не трудно предположить, что эти данные не столь абстрактны, а яндекс хранит информацию о каждой странице и всем запросам по которым на нее пришли.
Исходя из этих данных, я представил, что яндекс строит соотношение тематик не по ключевикам страниц, а по ключевикам запросов на страницу. Ведь это очень многое объясняет. Это создает полную тематику!!!
Хотя, ключевики страницы и ключевики запроса должны совпадать, но это далеко не всегда так.
Также считаю, что колличество запросов на сайт донор релевантных вашему сайту увеличивает передачу тиц. Таким образом, этим я объясняю внезапные падения или рост тиц.

Можете стебаться над моими мыслями, и сказать что сеошники любят выдумывать всякую хрень, но это всего лишь теория, которую также трудно опровергнуть, как и подтвердить. Зато из моей теории следует, что морда сайта (обычно самая посещаемая по запросам), должна передать максимальный тиц. Кто-нибудь продвигался мордами? Также из этой теории следует, что у сдл сайтов будет больше передача, чем у гс.

Вообщем будет интересно услышать любые мысли.
Read the rest of this entry

Google BookmarksDiggdel.icio.usTechnoratiYahoo My WebNews2.ruБобрДобр.ruMemori.ruМоёМесто.ruMister Wong
Яндекс.Метрика