Алгоритм определения тематики сайта
Автор: adminмая 20
Наконец сегодня додумал до логического конца алгоритм определения тематики и начал реализацию. Сюда запишу его, чтобы не забыть детали. Алгоритм построен на теории нейронных сетей, и нужен мне в корыстных целях направленных на яндекс. Ценность алгоритма в том - что это будет первый алгоритм определения тематики сайта, который сможет реализовать почти любой программист. Надеюсь кому-нибудь пригодится.
Этап 1: Определение ключевых слов сайта
1) Получаем страницу
2) Убираем теги, и все кроме букв и пробелов. Знаки препинания заменяем на пробелы. (Цифры удалить!!!)
3) Разбиваем весь текст на слова, то есть делаем одномерный массив слов.
4) удаляем слова меньшие 2 букв
4) Каждое слово прогоняем через стеммер. Я использую алгоритм Портера. Для тех кто не в курсе стеммер - это программа которая отбразывает от слова суффиксы и приставки, оставляя корень. Алгоритм Портера слаб, но пока сойдет. Как найду морфологический словарь - сменю на него.
5) При прогоне через стеммер создаем новый ассоциативный массив, где ключом будет само слово, а значением колличество повторений слова. Например (”Yandex” =>3, “Тиц” =>5) и т.д.
6) Упорядочиваем ассоциативный массив по убыванию колличества повторений.
7) Удаляем все слова повторяющиеся менее трех раз (колличество под вопросом).
В итоге мы получили ключевики сайта с их “тошнотой”. Обычно их на этом этапе 50-100 штук.
9) Проверяем каждый ключевик по базе общих слов не несущих тематику. Например слова: “меня”, “когда”, “сколько” и т.д. Я храню эти слова в отдельной таблице бд и написал отдельный скрипт, который позволяет их сформировать. Обойдя сотню сайтов мы набираем базу самых популярных не имеющих тематику слов.
Этап 2: Создаем тематическую базу
1) Для начала в бд нужно создать три таблицы: “слова”, “тематики” и “веса”.
Поля таблиц:
“Слова”: word_id, word
“Тематики”: theme_id, parent_id, theme
“Веса”: word_id, theme_id, ves
2) Заполняем таблицу тематик. Я для этих целей пользуюсь базой Ашманова (где-то 5000 тематик). Не использую ЯК, потому что сайты в него заносятся вручную, то бишь робот тут не причем. В нашем случае необходимо знать тематику, которую видит робот на обычных сайтов. Я не говорю что тематика по Ашманову совпадет с тем что определил робот яндекса, но нам это и не нужно. Представьте что по Ашманову у нас вышло “кпк” для донора и акцептора, а по яндексу “сотовые телефоны”.Не все ли равно?
3) Самый трудный момент. Выбираем нужную тему, например “интернет-ресуры”. Из найденных в первом этапе ключевиков страницы выбираем относящиеся к этой теме, и проставляем им коэффициенты, насколько сильно они относятся к данной теме (балл от 0 до 1). Позже будем корректировать это значение, сейчас это не суть важно. Это значение и будет синаптической силой. В сумме они дадут активацию нейрона к данной тематике. В реальности это дает потрясающие возможности даже для многозначных слов. Например слово “лук” можно отнести и к кухне и к “охоте”. Это не повлияет на верность определения.
Этот момент трудный, потому что придется обойти множество сайтов, чтобы собрать хотя бы по 10 слов для каждой тематики. На деле десяти слов вполне достаточно. Итого необходимо 50000 слов, чтобы определить тему сайта по Ашманову. Кто-то скажет это много, но в день при нормальной оболочке можно легко собрать тысячу слов. Итого 50 дней пассивного труда.
4) Мы создали семантическое ядро для каждой тематики, и указали с каким весом относится к каждой теме определенное слово.
Этап 3: Узнаем тему неизвестных сайтов и корректируем результаты
1) Поскольку мы первоначально как-то обучили программу. Теперь покажу как ей пользоваться.
Для неизвестного сайта выполняем этап 1 и узнаем ключевые слова с “тошнотой”. В результате полученные примерно 30 ключевиков проверяем по базе к каким темам они относятся и какие коэффициенты имеют.
Примитивный пример:
Текст “Лук и стрелы это лук”.
Лук тошнота 2. Тема “охота” вес 0.7. Тема “кухня” вес 0.6.
Стрелы тошнота 1. Тема “охота” вес 0.8.
Находим активацию нейрона:
К теме охота: 0.7*2+1*0.8=2.2
К теме кухня: 0.6*1=0.6
Поздравляю - тема текста определена. Здесь также можно определить в % насколько текст относится к другим темам.
2) Возможно в прошлом этапе неверно проставлены коэффициенты и их нужно корректировать. Для этого необходим отдельный интерфейс, где выбрав тематику видишь все ключевые слова по ней с их коэффициентами. Изменяя коэффициенты мы усиливаем значение того или иного слова в определенной теме. При анализе множества сайтов мы приходим к стабильному результату.
Результат.
Данный алгоритм не нуждается в обсуждении его необходимости. Это каждый решает сам для себя. Мне плевать с колокольни если он вам не нужен:)
Для тех кто хоть что-то понял о том что я сказал - интересно услышать ваши мысли о его эффективности. У меня он уже почти реализован технически, и скоро начну пробовать. Если будет интерес к нему- прикручу как дополнительную услугу к линкфидатору или сделаю веб-сервис для проверки списка ссылок.
Усиленно читают у меня в блоге:
- Рубрика: yandex, Разработки, мысли вслух
133 коммент.
Пишет Alex Vorn | дата: 20 мая 2009 в 20:10
Intiresno A dlea Googla?
Пишет barabashko | дата: 20 мая 2009 в 20:58
1. Браво.
2. Мне видется это реально работающим алгоритмом, интересно посмотреть как будет он себя вести при реализации, какие возникнут камни. Логически от себя добавить нечего, имхо выстроено правильно, пока мне дыр не видно, буду перечитывать.
Пишет admin | дата: 20 мая 2009 в 21:20
Alex Vorn, для гулга думаю тоже сойдет.
barabashko, спасибо. Если все пойдет отлично, то жизнь станет сказкой. Если первые пробы будут неудачными, то это отличный опыт в изучении поисковых систем и продолжении их исследования.
Пишет Igorrok | дата: 20 мая 2009 в 23:51
Алгоритм очень даже неплохой, только не очень понимаю как находить стоп-слова, чтоб их не учитывать. Из вариантов представляется только оанализ множества сайтов разных тематик и отброса повторяющихся слов.
Пишет admin | дата: 21 мая 2009 в 0:42
Igorrok, я решил это очень простым способом:
1) ввожу адрес сайта, нахожу его ключевики
2) вывожу на экран тошнотные ключевики и рядом ставлю галочку - “стоп-слово” или нет.
Таким образом мне просто нужно проставить галочки возле слов, которые на человеческий взгляд не имеют тематики. Это довольно простая задача, и за пару часов можно набрать тысячу стоп-слов.
Пишет Горный Оптимизатор | дата: 21 мая 2009 в 1:31
Программа нужная и полезная.
Где-то уже есть сборник “бессмысленных” слов.
Думаю не стоит учитывать слова только из 1 буквы. Дело в том, что слова со смыслом начинаются с 2 букв: “уж”,”ёж”, “АП”, “PR”…
Неясно как выставляются веса для нейронов. Это полюбому должно быть автоматизировано.
(если все 5к тематик проставлять самому, пусть и выборочно, проект станет “золотым” из-за трудозатрат, ІМХО)
Видно что над алгоритмом работали, много нюансов, всё сразу охватить сложно
Удачи! ))
Пишет Зайва Игорь Леонидович | дата: 21 мая 2009 в 1:41
Правка:
вес: weight_id, weight_ theme, weight
>> Представьте что по Ашманову у нас вышло “кпк” для донора и акцептора, а по яндексу “сотовые телефоны”.Не все ли равно?
Нет, думаю… для машины даже “кпк” и “как” - разные слова и темы. Читал у одного блоге “как правильно какать” (как правильно писать - как) - повтоил раз 50, наверно, на странице и столько же входящих ссылок. Какая будет тема - “как” ? Это человеку всё равно.
Должен быть приоритет в тематике, например, пишу блог про сео и раз 10 упоминаю “хостинг”, а “раскрутка”, “сео” - меньше. Какая тематика у блога и у топика ? - Должен быть однозначно приоритет тематики, а не просто: “выделяем тупо тошноту и определяем по кол-ву слов”…
Пишет admin | дата: 21 мая 2009 в 1:44
Горный оптимизатор, спасибо большое. Я не задумывался над важностью двухбуквенных слов. Придется править алгоритм.
Веса изначально ставятся на свое усмотрение. Позже корректируются. Иначе невозможно обучить машину точно определять то что ты хочешь. На автомате она будет тупее валенка. Все-таки нужно обучить.
5к тематик проставлять одному человеку нереально. Это задача для фирмы, так что проблем нет.
Пишет admin | дата: 21 мая 2009 в 1:49
>Должен быть приоритет в тематике, например, пишу блог про сео и раз 10 упоминаю “хостинг”, а “раскрутка”, “сео” - меньше. Какая тематика у блога и у топика ?
Мой скрипт выдаст тематику “продвижение сайтов” для ключевиков “хостинг”, “seo”, “раскрутка”. Если пойдут подробности хостинга, такие как колличество площадок на хосте, то наверняка пойдет уклон в хостинг
Пишет Зайва Игорь Леонидович | дата: 21 мая 2009 в 1:59
Погуглил и не нашел ???
“Синаптическая пластичность — это возможность изменения силы синапса (величины изменения трансмембранного потенциала) в ответ на активацию постсинаптических рецепторов”.
Кроме слова “сила” вообще ничего не понял… хорошо бы такие сложные термины, известные только программистам чуток пояснять для прочих Есть Аббр, Акроним и прочие штучки аштэмэл, которыми я очень часто пользуюсь, чего и автору желаю Также, есть Вики - иногда там статейки пишу, тоже ссыль на нее можно или на Академику.
Балы лучше брать 1-100, ибо тематик может быть много тысяч, так удобней будет, а потом, если что делить на подтемы, например, 10.2, 30.5…
>>Например слово “лук” можно отнести и к кухне и к “охоте”. Это не повлияет на верность определения.
Сомневаюсь, ибо нужно создавать словарь в 200.000 слов, каждому привязывать свой айди и затем пирамидально к каждому слову строить матрицу… Затем по нисходящей (вниз по пирамиде вытаскивать релевалентные слова) определять % тематичности и достоверности тематики исходя из всего ресурса, а не одной странички, затем релевалентность данной странички к тематике блога.
Короче, слово “лук”, относимый к нескольким темам нужно связать релевалентными значениями, а не просто выявить плотность слов. Ведь лук можно увязать со словом “стрелять” и “сажать”, а какже “стрелять на кухне из лука”? - какая тема: “боевик”, “кухня” или “охота” ? - уверен, нужно строить пирамидальную матрицу релевалентности.
Афигеть, написал… столько писал, сам только сейчас понял что
Пишет admin | дата: 21 мая 2009 в 2:15
>“Синаптическая пластичность — это возможность изменения силы синапса (величины изменения трансмембранного потенциала) в ответ на активацию постсинаптических рецепторов”.
Я применил более простой термин “синаптической силы”. То что написал ты больше относиться к нейронной системе животного организма.
>>хорошо бы такие сложные термины, известные только программистам чуток пояснять для прочих
Старался по максимуму убирать термины и добавлять их только в нужные места как комментарии. Боюсь подобную тему нельзя упростить.
>Балы лучше брать 1-100, ибо тематик может быть много тысяч, так удобней будет, а потом, если что делить на подтемы, например, 10.2, 30.5…
Теория вероятностей всегда подразумевает вероятность события от 0 до 1. Если надо более точное значение - ставишь 0.883456
>Сомневаюсь, ибо нужно создавать словарь в 200.000 слов, каждому привязывать свой айди и затем пирамидально к каждому слову строить матрицу… Затем по нисходящей (вниз по пирамиде вытаскивать релевалентные слова) определять % тематичности и достоверности тематики исходя из всего ресурса, а не одной странички, затем релевалентность данной странички к тематике блога.
Сам-то понял что сказал?))
>Короче, слово “лук”, относимый к нескольким темам нужно связать релевалентными значениями, а не просто выявить плотность слов. Ведь лук можно увязать со словом “стрелять” и “сажать”, а какже “стрелять на кухне из лука”? - какая тема: “боевик”, “кухня” или “охота” ? - уверен, нужно строить пирамидальную матрицу релевалентности.
Как раз связь слова к тематике идет посредством веса. Здесь нет просто й плотности слов. Здесь идет нейронная сеть. Все зависит от суммарности ключевиков и их весов в тематиках.
Пишет Зайва Игорь Леонидович | дата: 21 мая 2009 в 2:27
У Я. словарь 200.000 насколько мне известно, это писала команда из 30 программистов, которые называют себя “Платоном”, комманда Г. пишет, что их словарь содержит 2 млн. слов. Вполне возможно, что Я. содержит в 10-100 раз больше слов, ибо недавно (неделю-две назад) они внесли также “склонения, количество (стол и столы)” и много чего еще…
То, что написал, лучше бы, конечно, графически показать - тогда понятней станет, про какие матрицы я написал. Может, это чушь, но именно так, сдается мне, работают все поисковики.
Кот, так и свой Яндекс открыть не долго
Пишет admin | дата: 21 мая 2009 в 2:35
>У Я. словарь 200.000 насколько мне известно, это писала команда из 30 программистов, которые называют себя “Платоном”, комманда Г. пишет, что их словарь содержит 2 млн. слов. Вполне возможно, что Я. содержит в 10-100 раз больше слов, ибо недавно (неделю-две назад) они внесли также “склонения, количество (стол и столы)” и много чего еще…
Давай будем более земными. Меня волнуют трудодни которые понесут мои программисты. Не думаю что словарь из 200к слов превзойдет словарь в 10-20к слов. Результат ведь все равно должен быть на лицо. Есть критическая линия успеха и затрат.
Словоформы обойдет стеммер. Слова стол и столы он примет как одно и тоже слово “стол”. Он нормализует форму, но не вполне с логикой человека. Например слово “недвижимость” и “недвижимости” он нормализует как “недвижимост”, и я вполне с ним согласен по программной логике.
Пишет Зайва Игорь Леонидович | дата: 21 мая 2009 в 2:51
>>Не думаю что словарь из 200к слов превзойдет словарь в 10-20к слов.
Конечно, на первом этапе, думаю, даже 1к слов будет достаточно.
Теперь мне более алгоритм и задумка понятна… вроде, разобрались
Пишет Зайва Игорь Леонидович | дата: 21 мая 2009 в 4:05
Кот, меня тут глючит-крючит на поиск, может, есть резон свой вариант попробовать разработать? Создать свой AIO (искусственный интеллект), который бы сам учился и сам создавал базы из миллионов слов ? Ведь, по сути дела, раз ты затронул такую глобальную тему, то, может, есть резон ее развить и дальше, что думаешь? Водь, по сути, схема АИО не такая уж сложная, но весьма глобальная… и мне кажется, что вполне реальная. Наподобие твоей секретарше, только не просто тупого бота, а реального АИО, рабочего прототипа… суть его работы мы уже разобрали, только нужно пойти чуток дальше и автоматизировать…
Можем, если что по скайпу обсудить или по г.аське, если интерес такой будет
Пишет barabashko | дата: 21 мая 2009 в 18:44
чем больше глобальности, тем меньше вариантов это реализовать до РЕЗУЛЬТАТА
а то что пишет Кот, можно реализовать уже сейчас
сам глобальности люблю, но вот выхлоп с них, не доведенных до конца нуль - потому что нужно много усилий, и даже не одного человека
имхо.
Пишет admin | дата: 22 мая 2009 в 0:10
>Кот, меня тут глючит-крючит на поиск, может, есть резон свой вариант попробовать разработать?
Игорь, не в обиду будет сказано, но ты иногда такой бред предлагаешь:) Это как школьники наигравшись в игрушку начинают думать, а давай напишем свою, но “круче”.
barabashko, да ты прав. Скрипт уже реализован за пару дней, имеет базу в 2000 не имеющих тематики слов, и сейчас отлично определяет сайты двух тематик - “интернет-ресуры” и “создание и продвижение сайтов”. Обучение новым тематикам проходит довольно быстро. Одну тематику можно добавить за полчаса.
Пишет Зайва Игорь Леонидович | дата: 22 мая 2009 в 1:31
Кот, я не из обидчивых
Пол часа - куто, думал, что несколько дней надо… %)
Ну, ждем первый прототип…
Пишет ЮС | дата: 23 мая 2009 в 16:33
Кот привет! На сёрче появилась реклама сервиса на подобие линкфидатора (teh.ru). Глянь, может можно какие-то алгоритмы у них позаимствовать полезные. Как говориться, взять лучшее у конкурентов;)
Как, кстати, работа над линкфидатором? когда будет релиз новой версии?
Пишет Зайва Игорь Леонидович | дата: 23 мая 2009 в 16:49
Я уже в течении месяца 10 статей сижу клепаю про AI, случайно наткнулся на один из сайтов сео-офис и еще один подобный, там полно подобных сервисов уже наклёпано… Скоро, видать, мода на подобные костыли к сапе начнется… Надо срочно либо несколько программистов, чтоб круче всех и быстрей всех создать мощный навороченный продукт, либо можно уже совсем не париться и клепать для себя любимого… Конкуренция в ближайшие месяцы может быть просто не здоровой… %)
Пишет seokot | дата: 23 мая 2009 в 20:48
ЮС, спасибо за такую ссылочку!) Глянул, легко приделать могу. Только они не рационально его сделали. У нас будет лучше=)
Пишет ЮС | дата: 28 мая 2009 в 4:55
не за что.
ps Перевёл денежку тебе…жду твой продукт с нетерпением, как и новую версию.
Тогда можно будет не в слепую уже рекомендации давать по улучшениям!;)
Пишет seokot | дата: 28 мая 2009 в 22:13
ЮС, подожди пожалуйста до завтра.
Сейчас sape сменила адреса api и перешла на https протокол никого не предупредив. Надо коды немного подправить.
Завтра же надеюсь выпустить новый релиз, если все будет нормально.
Пишет ЮС | дата: 29 мая 2009 в 2:11
Без проблем, с нетерпением;)
Пишет Первая лаба по поднятию тиц, или обкатка linkfeed | SeoKot - вся правда о поисковиках | дата: 2 июня 2009 в 13:54
[...] ашманов определение тематики сайта тиц [...]
Пишет fresher | дата: 3 июня 2009 в 6:19
Хм… Тематику сайта будешь определять или отдельной страницы? ( zif определяет тематику всего сайта… в этом то и фишка.
Пишет Идеология оптимизатора, или о том, сколько должна стоить ссылка | SeoKot - вся правда о поисковиках | дата: 3 июня 2009 в 22:05
[...] алгоритм портера [...]
Пишет fresher | дата: 4 июня 2009 в 1:24
И еще, не совсем понял на коуй тебе такие извращения, все же можно сделать и проще, по титлам, а вот уже их и проверять по ашманову
Пишет Зайва Игорь Леонидович | дата: 4 июня 2009 в 1:32
fresher, это ерунда, ибо в тайтлах иногда вообще левое пишут… Есть много НЕ сеошников, которые любят вписывать цитаты, какие-то метафоры и фразеологизмы, не имеющие вообще никакого отношения к контенту. Например, на политических блогах могут написать, - “‘Там’ сухо, а у нас опять идут дожди”, подразумевая в виду политические всплески бунтарей - революции, например, - сейчас это модно…
Автору также на заметку… Ибо предложения на серче такие же - учитывать дополнительные коэффициенты важности тегов - тайтлов, кейвордов, дискрипшина и т.д. Поисковики от этой тактики уже года 1.5-2 как отказались и используют их только как замануху (рекламу) и не используют никоим образом для ранжирования в серпе.
Пишет Зайва Игорь Леонидович | дата: 4 июня 2009 в 1:36
Помимо фильма о “Брайтен Бич”, на которой всегда плохая погода (или как там правильно - уже не помню), забыл упомянуть о “гугл-бомбах” и “клоаках” - ГС, которые также используют “левые” якоря и тайты на них - тоже на заметку…
Пишет Интернет-доходы за октябрь | SeoKot - вся правда о поисковиках | дата: 4 июня 2009 в 17:52
[...] алгоритм & портера [...]
Пишет fresher | дата: 4 июня 2009 в 21:42
Зайва Игорь Леонидович - Советаю вам внимательно взглянуть на серп. Если вы считаете что титл - это всего лишь замануха? Наверное вы не совсем в теме. Проверьте титлы с точками, длинные титлы и разные запросы для сайта - как и какие именно выдает кусочки титлов при выдаче яндекс при разных запросах к одному и тому же сайту.. Погрешность титлов глупых скажем на главной страничке не велика. И в дополнению к этому ответьте себе на еще один вопрос - как определяет яндекс тематику - для сайта целиком или для конкретной страницы… Вообщем в дискуссию и красноречие дальше вступать с Вами не имею желание, ибо все темы об этом уже изъедены. Если скрипт уважаемого мною кота без огромной ресурсоемкости будет определять тематику для всего сайта целиком, то я с удовольствием буду пользоваться им…
Пишет Зайва Игорь Леонидович | дата: 4 июня 2009 в 22:22
fresher, конечно же Титл не только замануха, но и сео-шная штука, однако, зная об этом, на личном блоге и других блогах я иногда пренебрегаю названиями и не тольеко я один. Например, в одном из блогов, я назвал топик “Всего по немногу” или другие бестолковые названия. И как вы такое определите по качеству темы, используя указанный неверный алгоритм?
А возьмите, например, титл “говносайты и говнокомменты” и укажите еще где-нибудь в тексте эти слова еще раз, в итоге, ваша тема будет “Говно”, а не сателиты или спам, только потому, что вы это написали в титуле. У себя в одной из тем “АИ и предложения” я частично рассмотрел похожий пример. Это очень тупой и не красивый пример, но, полагаю, суть передал… Понимаете о чем я? Вот так мне литературный каталог скрипт тезки Ашманова выдал:
Техника и наука - 55.0% (хотя ни слова про науку)
Художественная литература - 53.6% (вообще литература - 100%)
Ну, это чушь, конечно… и это очевидно (не учитываются словообразования, т.е. совершенно другие слова). Я написал у себя в блоге кое-что по определению тематики (мысли вслух), но чуть из другой области, но тоже не совсем уверен в правильности. Истина рождается в споре…
Вы, видимо, не совсем правильно меня поняли… Также, Тема Яшей конечно же для сайта определяется, как и ТИЦ и заносится в каталог людьми тоже сайт, а не страница. У Гугла тема определяется, ясное дело, страницы, а не сайта - наоборот, в общем. Я не об этом, а о том, что придавать значимость этим вещам не совсем верно по отношению к тем, кто не сеошник. Год назад, когда я начал клепать стихи - понятия об оптимизации не имел и все делал на глазок, повторяя за другими, а оптимизацией только полгода назад занялся. Стихи не так давно подправил под поисковики (заметьте, недавно только).
Конечно же, я хочу тоже видеть хороший продукт, пользоваться им и понимать, как это всё работает… Меня также интересуют все эти тех. вопросы, как и Кота и если я смогу чем-то ему помочь, хотя бы морально или наблюдениями, то буду только рад.
В скрипте не нуждаюсь (причина банальна - денег нет), а чем всё кончится интересно… - либо выйдет продукт, либо нет (среднеклёпство никому сейчас не нужно). Все зависит от того, будет ли кто прислушиваться к мнениям других или нет (на себя не намекаю); наблюдения на серче этого и не только этого скрипта показывают ошибочные подходы… Это относится и к тёзке и ко всем, кто делает подобные штуки - нужно учиться у всех и всем, следуя логике и здравому смыслу.
Пишет fresher | дата: 4 июня 2009 в 23:00
Уверен что в скором будущем акцент на тематику сильно усилиться, но на данный момент я проверяю всего лишь один момент, работают ли ссылки с данного сайта или нет, и делаю кстати это практически так же как новый сервис, что выше уже упомянут (по НПС)…. Хотя допускаю, что если бы была возможность скажем подобрать из сапы и линкфида тематичные сайты скажем из 10 000 - хотя бы 500 и уже потом их исследовать на работоспособность, и еще чтобы это не сжирало все мои ресурсы, то безусловно был бы очень рад, ибо прриблизился бы к высокому КПД оптимизации
Пишет Промышленные масштабы - это хорошо:) | SeoKot - вся правда о поисковиках | дата: 5 июня 2009 в 16:13
[...] определение тематики сайта [...]
Пишет Размышления насчет релевантности и Тиц | SeoKot - вся правда о поисковиках | дата: 5 июня 2009 в 22:33
[...] алгоритм Портера [...]
Пишет Последние события… | SeoKot - вся правда о поисковиках | дата: 6 июня 2009 в 16:35
[...] сервис для определения тематики [...]
Пишет Яндекс - это большая клоака | SeoKot - вся правда о поисковиках | дата: 12 июня 2009 в 17:16
[...] слова по тематике [...]
Пишет Яндекс против сеошников | SeoKot - вся правда о поисковиках | дата: 22 июня 2009 в 3:16
[...] алгоритм портера [...]
Пишет Тиц очень зависит от Тиц | SeoKot - вся правда о поисковиках | дата: 23 июня 2009 в 16:13
[...] как определить тематику сайта [...]
Пишет Формула для вычисления Тиц | SeoKot - вся правда о поисковиках | дата: 25 июня 2009 в 20:56
[...] алгоритм Стеммер Портера [...]
Пишет На каком блогосервисе поселиться?:) | SeoKot - вся правда о поисковиках | дата: 2 июля 2009 в 19:10
[...] как определить тематику сайта [...]
Пишет Возможны ли конкуренты у Sape? | SeoKot - вся правда о поисковиках | дата: 7 июля 2009 в 15:59
[...] как определяется тематика текста [...]
Пишет Yesvik | дата: 10 июля 2009 в 2:47
Стеммер Портера действительно очень слаб, обрати внимание на phpMorphy. Ещё можно задействовать русские словари от ispell.
Ну и до кучи - посмотри на mystem.
Пишет Andy | дата: 20 июля 2009 в 1:50
Привет, а отдельно твой скрипт определения тематики сайта продается? Отдельно от linkfeedator, имеется ввиду.
Пишет admin | дата: 3 августа 2009 в 13:56
Andy, отдельно скрипт не продается. Могу предоставить в качестве услуги api интерфейс к определителю.
Пишет admin | дата: 3 августа 2009 в 14:03
Yesvik, спасибо за инфу. Гляну.
Пишет Биржи статей, или гавнопанос на сайте | SeoKot - вся правда о поисковиках | дата: 2 сентября 2009 в 18:27
[...] алгоритм Портера [...]
Пишет Яндекс не хочет считать поддомены | SeoKot - вся правда о поисковиках | дата: 3 сентября 2009 в 16:51
[...] определение тематики сайта [...]
Пишет Влад | дата: 3 сентября 2009 в 22:46
А где взять упоминаемую базу Ашманова?
Пишет Тест по приколу на сапе:) | SeoKot - вся правда о поисковиках | дата: 19 сентября 2009 в 3:50
[...] определить тематику сайта [...]
Пишет Размышления о построении сетей сайтов. | SeoKot - вся правда о поисковиках | дата: 15 октября 2009 в 18:39
[...] как клепать сайты в промышленных масштабах [...]
Пишет Новогодний ап тица. | SeoKot - вся правда о поисковиках | дата: 16 октября 2009 в 12:48
[...] алгоритм определение слово или нет [...]
Пишет База пользователей ЖЖ (Livejournal) | SeoKot - вся правда о поисковиках | дата: 17 октября 2009 в 7:00
[...] определить тематику сайта яндекс [...]
Пишет Друзья, а давайте померимся позомерками)) | SeoKot - вся правда о поисковиках | дата: 18 октября 2009 в 6:38
[...] как яндекс определяет тематику сайта [...]
Пишет Абсолютно неверьте средствам вебмастера яндекса | SeoKot - вся правда о поисковиках | дата: 19 октября 2009 в 23:13
[...] как поисковики определяют тематику сайта [...]
Пишет Продвижение блога на wordpress в топы яндекса. | SeoKot - вся правда о поисковиках | дата: 21 октября 2009 в 21:34
[...] определение тематики текста [...]
Пишет Сравнение продвижения и заработков статьями и блогуном | SeoKot - вся правда о поисковиках | дата: 24 октября 2009 в 3:38
[...] как узнать тематику сайта [...]
Пишет Кластеризация бирж статей яндексом | SeoKot - вся правда о поисковиках | дата: 31 октября 2009 в 13:23
[...] алгоритм определения темы текста [...]
Пишет Атрибуты страницы влияющие на продвижение в Google | SeoKot - вся правда о поисковиках | дата: 3 ноября 2009 в 12:05
[...] как узнать определил ли яндекс тематику сайта [...]
Пишет Уникальность текстов в топку? | SeoKot - вся правда о поисковиках | дата: 27 ноября 2009 в 10:47
[...] как узнать тематику сайта [...]
Пишет А каково наше будущее?… | SeoKot - вся правда о поисковиках | дата: 1 декабря 2009 в 23:54
[...] Яндекс.Тематика [...]
Пишет Пора завязывать с ГС | SeoKot - вся правда о поисковиках | дата: 2 декабря 2009 в 21:18
[...] проверка работоспособности донара "2009" seo [...]
Пишет Размышления насчет релевантности и Тиц | SeoKot - вся правда о поисковиках | дата: 21 декабря 2009 в 23:47
[...] определить тематиу сайта [...]
Пишет Mut@NT | дата: 26 декабря 2009 в 13:07
Не намерены ли Вы сделать WEB-сервис определения тематики сайта?
Пишет О бомжах, целях и яндексе вкуче | SeoKot - вся правда о поисковиках | дата: 11 января 2010 в 13:00
[...] определение тематики текста [...]
Пишет Инструкция для мазохиста как попасть в бан яши | SeoKot - вся правда о поисковиках | дата: 12 января 2010 в 19:36
[...] как узнать тематику сайта [...]
Пишет Новый эксперимент по саттелитам | SeoKot - вся правда о поисковиках | дата: 14 января 2010 в 4:07
[...] алгоритм стеммер портера [...]
Пишет Различные анкоры? да нафига париться | SeoKot - вся правда о поисковиках | дата: 17 января 2010 в 19:38
[...] определение тематики сайта [...]
Пишет 5 фильмов, эстафета принята dert88:) | SeoKot - вся правда о поисковиках | дата: 24 января 2010 в 19:56
[...] узнать тематику сайта в яндексе [...]
Пишет 99th | дата: 25 января 2010 в 19:38
Ну что, как прошло?
По поводу “вероятности от 0 до 1″: лучше, имхо, все-таки юзать большие целые (0, 1, 2 .. n). Побыстрее будет.
Пишет Основной и дополнительный индекс Гугла | SeoKot - вся правда о поисковиках | дата: 27 января 2010 в 15:29
[...] узнать тематику сайта яндекс [...]
Пишет Соотношение pr и посещаемости | SeoKot - вся правда о поисковиках | дата: 28 января 2010 в 21:57
[...] как определяется тематика блога [...]
Пишет Тунельная схема и январский апдейт ТИЦ-а яндекса | SeoKot - вся правда о поисковиках | дата: 4 февраля 2010 в 20:43
[...] определение тематики сайта [...]
Пишет Kinak | дата: 6 февраля 2010 в 12:46
Хорошая статейка. Хотел попробовать но не могу найти базу Ашманова. Скиньте кто нить… заранее спасибо.
Пишет Анализатор страниц для покупки ссылок. | SeoKot - вся правда о поисковиках | дата: 6 февраля 2010 в 21:05
[...] как определить тематику своего блога [...]
Пишет Спаммеры тоже сходят с ума… (прикол) | SeoKot - вся правда о поисковиках | дата: 29 марта 2010 в 16:36
[...] алгоритм Stemming [...]
Пишет TV-программа или сокрушительный коктейль блоггера | SeoKot - вся правда о поисковиках | дата: 4 апреля 2010 в 5:02
[...] сайт Стеммер Портера [...]
Пишет Алгоритмы поисковой выдачи Яндекса | SeoKot - вся правда о поисковиках | дата: 4 апреля 2010 в 20:27
[...] как определить тематику сайта яндекс [...]
Пишет Продвижение блога без капиталовложений | SeoKot - вся правда о поисковиках | дата: 5 апреля 2010 в 22:01
[...] как определить тематику сайта [...]
Пишет Интересный сервис Google Alerts | SeoKot - вся правда о поисковиках | дата: 6 апреля 2010 в 12:34
[...] определение тематики сайтов [...]
Пишет Война блогов | SeoKot - вся правда о поисковиках | дата: 6 апреля 2010 в 20:15
[...] определение тематики тексты [...]
Пишет Преображение сайта academiaopen.ru | SeoKot - вся правда о поисковиках | дата: 7 апреля 2010 в 16:28
[...] определение тематики текста [...]
Пишет Защита статей от плагиата (ответ Яндекса) | SeoKot - вся правда о поисковиках | дата: 10 апреля 2010 в 21:11
[...] яндекс тематика [...]
Пишет Я LOVE ЯНДЕКС:) | SeoKot - вся правда о поисковиках | дата: 12 апреля 2010 в 11:00
[...] определение тематики текста [...]
Пишет Барабум для яндекса!:) | SeoKot - вся правда о поисковиках | дата: 13 апреля 2010 в 10:48
[...] определить тематику сайта [...]
Пишет Результат прироста ТИЦ от сквозняков с сайтов и прочая палево тем | SeoKot - вся правда о поисковиках | дата: 15 апреля 2010 в 19:11
[...] как определить тематику яндекс [...]
Пишет О том как яндекс чувствует, что говняцом попахивает и мой новый эксперимент | SeoKot - вся правда о поисковиках | дата: 18 апреля 2010 в 13:57
[...] как определить тематику яндекс [...]
Пишет IDoPda - создай мобильную версию сайта на wordpress или joomla | SeoKot - вся правда о поисковиках | дата: 20 апреля 2010 в 16:51
[...] синаптическая сила [...]
Пишет Кого я читаю | SeoKot - вся правда о поисковиках | дата: 21 апреля 2010 в 15:01
[...] определение тематики сайта [...]
Пишет Яндекс знает какой сайт ГС, а какой СДЛ! Трастовость существует! | SeoKot - вся правда о поисковиках | дата: 23 апреля 2010 в 12:39
[...] определение тематики сайтов [...]
Пишет Что такое тематика для Яндекса? | SeoKot - вся правда о поисковиках | дата: 23 апреля 2010 в 21:02
[...] как определить тематику яндекс [...]
Пишет Запуск Linkfeedator | SeoKot - вся правда о поисковиках | дата: 25 апреля 2010 в 3:27
[...] как определить тематику яндекс [...]
Пишет Seokot vs Яндекс (Раунд первый) | SeoKot - вся правда о поисковиках | дата: 27 апреля 2010 в 1:14
[...] как посмотреть тематику сайта [...]
Пишет А биржы оказались дружелюбными:) | SeoKot - вся правда о поисковиках | дата: 29 апреля 2010 в 14:07
[...] определение тематики предложение [...]
Пишет Копейка - рубль бережет, и новые проекты | SeoKot - вся правда о поисковиках | дата: 4 мая 2010 в 0:56
[...] сервис определяет тематику по яндексу [...]
Пишет Seo и траст как две копейки | SeoKot - вся правда о поисковиках | дата: 5 мая 2010 в 14:53
[...] как определить тематику сайта [...]
Пишет Попробую продолжить | SeoKot - вся правда о поисковиках | дата: 5 мая 2010 в 22:25
[...] Яндекс.тематика [...]
Пишет Некоторые выводы по апу тица от 27 ноября | SeoKot - вся правда о поисковиках | дата: 7 июня 2010 в 16:22
[...] узнать к какой тематике относится сайт [...]
Пишет Поиграем в нострадамуса?)) | SeoKot - вся правда о поисковиках | дата: 6 июля 2010 в 12:43
[...] как определить тематику сайта [...]
Пишет Политика распределения денежных средств | SeoKot - вся правда о поисковиках | дата: 6 июля 2010 в 19:27
[...] определить тематику сайта [...]
Пишет Выводы по моей Parazit CMS | SeoKot - вся правда о поисковиках | дата: 15 сентября 2010 в 14:13
[...] определение тематики текста [...]
Пишет Игорь | дата: 19 сентября 2010 в 4:07
Подскажите пожалуйста, где можно скачать базу тематик Ашманова.
Заранее спасибо за помощь!
Пишет admin | дата: 20 сентября 2010 в 15:35
Нигде:) Мы ручками выдёргивали.
Пишет Всех с новым годом!:) | SeoKot - вся правда о поисковиках | дата: 21 сентября 2010 в 2:23
[...] алгоритм стеммера [...]
Пишет Евгений | дата: 23 ноября 2010 в 20:41
Меняю таблицу словоформ на формулу тиц
Пишет Дружеский обмен постовыми | SeoKot - вся правда о поисковиках | дата: 3 декабря 2010 в 1:49
[...] посмотреть тематику [...]
Пишет Продвижение ключевыми словами сайта в Google. | SeoKot - вся правда о поисковиках | дата: 9 декабря 2010 в 19:54
[...] определение тематики сайта c# [...]
Пишет Сеошник и его команда шаманов пару лет спустя | SeoKot - вся правда о поисковиках | дата: 9 января 2011 в 22:38
[...] скрипт определения тематики сайта google [...]
Пишет А может мы живем не на внутренней стороне, а на внешней? | SeoKot - вся правда о поисковиках | дата: 10 января 2011 в 6:02
[...] как узнать тематику сайта [...]
Пишет Linkfeedатор или что скрыто биржами за кадром. | SeoKot - вся правда о поисковиках | дата: 12 января 2011 в 13:07
[...] определить тему и ключевые слова текста [...]
Пишет Секреты поиска яндекса и установки релевантности страницы | SeoKot - вся правда о поисковиках | дата: 14 января 2011 в 3:33
[...] определить тематику текста [...]
Пишет Доигрался, забанили группу сайтов(( | SeoKot - вся правда о поисковиках | дата: 15 января 2011 в 23:37
[...] как определить тематику сайта [...]
Пишет Яндекс знает о всех сайтах продающих ссылки | SeoKot - вся правда о поисковиках | дата: 11 марта 2011 в 18:24
[...] определение тематики сайта [...]
Пишет Помогите советом как защитить свой продукт | SeoKot - вся правда о поисковиках | дата: 17 марта 2011 в 22:20
[...] как узнать тематику сайта [...]
Пишет Каменск | дата: 18 марта 2011 в 0:55
яндекс скоро всех убъет
Пишет Проект ExTheme | SeoKot - вся правда о поисковиках | дата: 21 марта 2011 в 18:35
[...] определить тему и ключевые слова текста [...]
Пишет Linkfeedator дубль два | SeoKot - вся правда о поисковиках | дата: 22 марта 2011 в 2:12
[...] определение тематики сайта google [...]
Пишет Мои опыты продвижения по НЧ запросам | SeoKot - вся правда о поисковиках | дата: 22 марта 2011 в 14:12
[...] как определить тематику сайта [...]
Пишет Ап выдачи яндекса от 15 сентября и небольшое палево темок=) | SeoKot - вся правда о поисковиках | дата: 23 марта 2011 в 15:55
[...] определить тематику сайта [...]
Пишет Небольшая статистика по биржам и т.д. | SeoKot - вся правда о поисковиках | дата: 23 марта 2011 в 20:42
[...] определение тематики сайта [...]
Пишет Лето - прекрасная пора или сеошники тоже должны отдыхать | SeoKot - вся правда о поисковиках | дата: 9 сентября 2011 в 17:11
[...] как определяется тематика страницы [...]
Пишет Финстрип апрель 2011 от Кота | SeoKot - вся правда о поисковиках | дата: 18 сентября 2011 в 10:01
[...] Стеммер Портера [...]
Пишет Финстрип май 2011 от Кота | SeoKot - вся правда о поисковиках | дата: 19 сентября 2011 в 0:15
[...] яндекс тематика [...]
Пишет Продвижение неизбежно | SeoKot - вся правда о поисковиках | дата: 19 сентября 2011 в 21:40
[...] что такое тематика сайта и как её определить [...]
Пишет Яндекс Снежинск (часть 1.) | SeoKot - вся правда о поисковиках | дата: 3 ноября 2011 в 21:19
[...] скрипт распознать тематику текста [...]
Пишет Алгоритм автоматической покупки ссылок | SeoKot - вся правда о поисковиках | дата: 6 ноября 2011 в 18:26
[...] тематика сайта определение [...]
Пишет Сколько ТИЦ передаёт донор? | SeoKot - вся правда о поисковиках | дата: 10 ноября 2011 в 0:17
[...] база ашманова скачать [...]
Пишет Финстрип за Июнь 2011 от Кота | SeoKot - вся правда о поисковиках | дата: 10 ноября 2011 в 21:58
[...] алгоритм портера [...]
Пишет Жизнь порою прекрасна, порою опасна:) | SeoKot - вся правда о поисковиках | дата: 29 ноября 2011 в 15:09
[...] как google определяет тематику сайта [...]
Пишет рубцовск | дата: 29 декабря 2011 в 15:23
спасибо а то я долго искал как определить тематику сайта
Пишет MAR | дата: 30 ноября 2012 в 21:53
Озадачился той же проблемой. Не слишком много нового появилось в и-нет-е с момента данной публикации.
Посмотрел, сразу “навскидку” поправки:
1) лучше держать словарь в базе (на 10К слов можно взять бесплатно на solarix.ru, там же есть пример как выбирать начальную форму слова)
2) тематика тырится с яндекс- каталога но не на всю глубину (иначе умучаться можно обучать )
3) веса хранить тоже лучше в базе в виде categoryId, wordId, count. Тут слону понятно. сам вес вычисляется / - 1/. тут фишка в том, что мы берём отклонение от равнораспределённого участия слова. Чем равномернее слово используется в разных темах, тем меньше его влияние на результат.
4) стоп- слова можно не хранить, они будут отсекаться способом вычисления весов.
5) ну, я бы применил не просто суммирование, а нейронную сеть с одним вложенным слоем, благо что движков полно.
В остальном, вроде, примерно так и думал.
Пишет MAR | дата: 30 ноября 2012 в 21:56
Как- то формулу определения весов “съел” блог.
Если словами про формулу, то берётся отклонение вероятности по данной теме от равнораспределённой для данного слова.