Наконец дела пошли в гору. Точнее сдвинулись с мертвой точки.
Начну с мелочи - я наконец получил персональный аттестат webmoney. Значит скоро сделаю себе аттестат продавца. Но наша почта меня шокировала - это просто ппц. Отправил письмо со сканом паспорта и заявлением соискателя, так оно дошло через 3 недели!!! Жесть. Особенно если учесть что я отправил 1-ым классом. Замучил бедных аттестаторов за эти три недели) Впечатление, как будто я не с урала отправил письмо, а с какого-нибудь Магадана.

Во-вторых, я организовал небольшую фирму. Чтобы поднять знания молодых веб-программистов до нужного уровня решили сделать небольшой стартап ExTheme. На нём прекрасно можно будет научить программистов всяким полезные штучки типа работу с паттернами, фреймворками, как пользоваться ajax и т.д.

А теперь о том что же такое ExTheme и с чем его едят.

Меня давно интересовала задача определения тематики сайтов. Изучив еще много интересных материалов и докладов в основном сотрудников яндекса на эту тему - решили сделать небольшой веб-сервис.
Принцип работы сервиса следующий - пользователь загружает список сайтов которые хочет проверить на тематику (например 10000 штук) в удобном ему формате (txt, csv) на сайт, после чего задача автоматически добавляется в очередь и обрабатывается. Через некоторое время ему возвращается результат с возможностью различных сортировок и построений графиков.

Особенности ExTheme
За основу каталогизации взят Яндекс Каталог. При этом он подробно изучен.
Задача поставлена таким образом - что робот должен с высокой точностью распознавать имеющиеся сайты в ЯКе. То есть все тесты и первоначальное обучение проходит с помощью ЯКа. На основе этого обучения exTheme сможет распознать тематику абсолютно любого сайта.
Оказалось очень удобно ставить тесты качества.
Например: тематика “развлечения->игры” содержит 1600 сайтов. Мы прогоняем их через робота и видим что робот смог верно распознать 70%. Значит асессорам надо еще поработать над этой тематикой.
Из плюсов (для нас) - проект не будет нуждаться в службе поддержке. Алгоритм распознавания универсален, и не нуждается в доработке. За проектом будут следить лишь два асессора.

Зачем это нужно?
Приведу несколько примеров:
1) Бывает так, что вы купили ссылку на сайте с тематикой “авто”, но со страницы с тематикой “недвижимость”. Возможно даже с какой-нить рекламной страницы. Сервис поможет определить такие нестыковки.
2) Просто хотите посмотреть круговой график кто же ссылается на ваш сайт:)
3) Основной аудиторией думаю будут seo-фирмы и разработчики разного ПО. Для них будет api-интерфейс (xmlrpc, soap).
В общем применение думаю можно найти.

Чё почём?
О монетизации пока речи нет. Проект будет бесплатным.

p.s. Если у кого-то есть мысли по применению и функционалу, высказывайте. Возможно сделаем.

Усиленно читают у меня в блоге:

Google BookmarksDiggdel.icio.usTechnoratiYahoo My WebNews2.ruБобрДобр.ruMemori.ruМоёМесто.ruMister Wong