Проект ExTheme
Автор: adminАпр 26
Наконец дела пошли в гору. Точнее сдвинулись с мертвой точки.
Начну с мелочи - я наконец получил персональный аттестат webmoney. Значит скоро сделаю себе аттестат продавца. Но наша почта меня шокировала - это просто ппц. Отправил письмо со сканом паспорта и заявлением соискателя, так оно дошло через 3 недели!!! Жесть. Особенно если учесть что я отправил 1-ым классом. Замучил бедных аттестаторов за эти три недели) Впечатление, как будто я не с урала отправил письмо, а с какого-нибудь Магадана.
Во-вторых, я организовал небольшую фирму. Чтобы поднять знания молодых веб-программистов до нужного уровня решили сделать небольшой стартап ExTheme. На нём прекрасно можно будет научить программистов всяким полезные штучки типа работу с паттернами, фреймворками, как пользоваться ajax и т.д.
А теперь о том что же такое ExTheme и с чем его едят.
Меня давно интересовала задача определения тематики сайтов. Изучив еще много интересных материалов и докладов в основном сотрудников яндекса на эту тему - решили сделать небольшой веб-сервис.
Принцип работы сервиса следующий - пользователь загружает список сайтов которые хочет проверить на тематику (например 10000 штук) в удобном ему формате (txt, csv) на сайт, после чего задача автоматически добавляется в очередь и обрабатывается. Через некоторое время ему возвращается результат с возможностью различных сортировок и построений графиков.
Особенности ExTheme
За основу каталогизации взят Яндекс Каталог. При этом он подробно изучен.
Задача поставлена таким образом - что робот должен с высокой точностью распознавать имеющиеся сайты в ЯКе. То есть все тесты и первоначальное обучение проходит с помощью ЯКа. На основе этого обучения exTheme сможет распознать тематику абсолютно любого сайта.
Оказалось очень удобно ставить тесты качества.
Например: тематика “развлечения->игры” содержит 1600 сайтов. Мы прогоняем их через робота и видим что робот смог верно распознать 70%. Значит асессорам надо еще поработать над этой тематикой.
Из плюсов (для нас) - проект не будет нуждаться в службе поддержке. Алгоритм распознавания универсален, и не нуждается в доработке. За проектом будут следить лишь два асессора.
Зачем это нужно?
Приведу несколько примеров:
1) Бывает так, что вы купили ссылку на сайте с тематикой “авто”, но со страницы с тематикой “недвижимость”. Возможно даже с какой-нить рекламной страницы. Сервис поможет определить такие нестыковки.
2) Просто хотите посмотреть круговой график кто же ссылается на ваш сайт:)
3) Основной аудиторией думаю будут seo-фирмы и разработчики разного ПО. Для них будет api-интерфейс (xmlrpc, soap).
В общем применение думаю можно найти.
Чё почём?
О монетизации пока речи нет. Проект будет бесплатным.
p.s. Если у кого-то есть мысли по применению и функционалу, высказывайте. Возможно сделаем.
Усиленно читают у меня в блоге:
21 коммент.
Пишет MyFreeWeb | дата: 27 апреля 2010 в 0:43
больная тема — тематика %)
у меня есть сайт. http://krosswordr.ru
это словарь — на нем много статей на совсем разную тему. как яндекс определит, что это словарь? по мета-тегу?
как вообще правильно продвигать словарь? на каждую рубрику брать ссылки с сайтов ее (рубрики) тематики?
Пишет admin | дата: 27 апреля 2010 в 15:26
На самом деле определить, то что сайт на тему “словарь” особой сложности на данный момент нет. Но если ты уберёшь на главной странице блоки “Что это такое?” и “Подбор по буквам”, то тут не только робот, но и человек не поймет на какую тему этот сайт.
>как вообще правильно продвигать словарь? на каждую рубрику брать ссылки с сайтов ее (рубрики) тематики?
Да, думаю это один из путей. Второй путь - брать ссылки из тематики Справки-> Словари -> Словари терминов
Пишет MyFreeWeb | дата: 27 апреля 2010 в 16:50
спасибо за второй путь, даже и не думал об этом %)
Пишет Holo | дата: 27 апреля 2010 в 16:51
Кот а Linkfeedator ты продолжать будешь?
Пишет admin | дата: 27 апреля 2010 в 16:54
Да. После того как мои молодые программисты наберутся опыта на проекте ExTheme, они будут работать над lfd.
Пишет Grush | дата: 29 апреля 2010 в 13:04
И всетаки очень хочется Linkfeedator =)
Может можно пока просто восстановить его работоспособность на предмет проверки ссылок на индексацию а все остальное тогда уж как получиццо.
Пишет barabashko | дата: 1 мая 2010 в 7:23
хочется LFD обратно в жизнь, очень очень
Пишет Holo | дата: 14 мая 2010 в 14:04
Чет кот куда то опять пропал
Пишет Kocmoc | дата: 20 мая 2010 в 13:43
Котофеич, рад что ты вернулся! Жду новых интересных материалов.
Пишет Яндекс против сеошников | SeoKot - вся правда о поисковиках | дата: 27 мая 2010 в 17:14
[...] ExTheme [...]
Пишет Промышленные масштабы - это хорошо:) | SeoKot - вся правда о поисковиках | дата: 31 мая 2010 в 19:53
[...] ExTheme [...]
Пишет Holo | дата: 1 июля 2010 в 11:49
что то кот опять пропал
Пишет Яндекс - это большая клоака | SeoKot - вся правда о поисковиках | дата: 15 апреля 2011 в 19:52
[...] extheme [...]
Пишет Яндекс не хочет считать поддомены | SeoKot - вся правда о поисковиках | дата: 6 июня 2011 в 12:23
[...] EXTHEMe [...]
Пишет Пора завязывать с ГС | SeoKot - вся правда о поисковиках | дата: 7 июня 2011 в 13:29
[...] EXTHEME [...]
Пишет Поиграем в нострадамуса?)) | SeoKot - вся правда о поисковиках | дата: 8 июня 2011 в 15:41
[...] EXTHEME [...]
Пишет Тунельная схема и январский апдейт ТИЦ-а яндекса | SeoKot - вся правда о поисковиках | дата: 21 июня 2011 в 11:50
[...] EXTHEME [...]
Пишет Последние события… | SeoKot - вся правда о поисковиках | дата: 4 июля 2011 в 1:38
[...] EXTHEME [...]
Пишет Секреты поиска яндекса и установки релевантности страницы | SeoKot - вся правда о поисковиках | дата: 30 июля 2011 в 16:38
[...] extheme [...]
Пишет Что такое тематика для Яндекса? | SeoKot - вся правда о поисковиках | дата: 31 июля 2011 в 12:24
[...] extheme [...]
Пишет Платон Щукин Online (служба поддержки яндекса) | SeoKot - вся правда о поисковиках | дата: 3 августа 2011 в 17:29
[...] site:academiaopen.ru extheme [...]