Archive for 18 декабря 2008

ХЗ, может кому и понадобиться. На данный момент имеется база из 1600 адресов пользователей LiveJournal в mysql.
Все записи вида account.livejournal.com.
Я собираю их для грабления rss в дальнейшем. База растет с каждой минутой. Если кому нужно пишите. Как-нить договоримся))

Google Bookmarks Digg del.icio.us Technorati Yahoo My Web News2.ru БобрДобр.ru Memori.ru МоёМесто.ru Mister Wong

Новогодний ап тица.

Короче как многие поняли полная жопа. Стали рулить ГС. Ничего разумного не могу сказать, что происходит. Подрезаны сдл по крупному. Не важно были ли покупные или продажные ссылки или нет.
Кто-то до сих пор верит в сказку в перетекание тица. Ну ждите блин. Что-то у меня появилось чувство, что яндекс решил не париться и не грузить сервера и добавил в алгоритм одну простую команду: тиц равен случаной число умноженное на прошлый тиц. Насрать на баки и прочие факторы. Корочь хз что делать.
Отменять покупные ссылки не буду, но и новых больше не куплю. Такой эффект от них меня не вдохновляет.
А теперь о хорошем:
В прошлом посте я писал, что можно и нужно решать проблему с контентом. Сейчас я немного модифицировал задачу, и решил заграбить полностью весь ЖЖ (!). Вы представляете сколько это контента??
Для этого разработал паука, который бегает по страницам ЖЖ, и собирает ссылки у которых есть rss. (За час нашел 13099 ЖЖ ссылок, из них пока обработал 1289 и решил что у них есть rss-лента). Далее эти ссылки передаются в “пылесос”, который собственно грабит контент. Контент выбирается по-простому принципу - если он больше n символов, значит можем брать его себе.
Вообщем, это тонны контента. В дальнейшем при создании нового сайта можно только указать какие ключевики меня интересуют, и взять нужный контент по ним. Пока буду ждать обработки контента. Она довольно медленная при моем соединении 64кб/с, но пока буду на работе, думаю многое успеет заграбится.

Google Bookmarks Digg del.icio.us Technorati Yahoo My Web News2.ru БобрДобр.ru Memori.ru МоёМесто.ru Mister Wong
Яндекс.Метрика