база стоп-слов

Статус
В этой теме нельзя размещать новые ответы.

zaartix

Постоялец
Регистрация
15 Май 2006
Сообщения
73
Реакции
27
вот собрал с инета разные базы стоп-слов в одну, прикрепил к этому сообщению дамп базы.
 

Вложения

  • 1.txt
    8,5 KB · Просмотры: 228
для тех, кому, как и мне, нужен просто список я выбрал регуляркой только сами стоп-слова.

ТС. Я вот только не понял таких строк.

Код:
(329, 'коотрый'),
(330, 'которая'),
(331, 'которйо'),
(332, 'которой'),
(333, 'который'),
(334, 'которых'),
это ошибка? или учтены опечатки в стоп-словах?
 

Вложения

  • 2.txt
    3,2 KB · Просмотры: 53
Блин, я наверное туплю, но в чём заключается смысл таких стоп-слов. Разве они не могут присутствовать в кеях? Отнюдь.
 
они могут быть в кеях, но не должны быть самими кеями. Например таги тут же на форуме. Кому нужен таг "где"? да никому.
 
они могут быть в кеях, но не должны быть самими кеями. Например таги тут же на форуме. Кому нужен таг "где"? да никому.
Просто мне в голову не могло прийти, что можно насобирать таких кеев. Надо очень постараться наверное :)
 
а у кого есть база стоп слов по теме порно?
 
а у кого есть база стоп слов по теме порно?

Нет таких слов. Стоп-слова это слова, которые в любом языке служат для связки слов, уточнения, выделения. То есть сами они никакого конкретного смысла не несут. Поэтому для любой тематики стоп-слова одинаковые, поскольку встречаются везде.

Пример: "Хотелось бы напиться". "хотелось" и "хотелось бы" все понятно, что означает. А что означает просто "бы" как самостоятельное слово? А ничего. Поэтому и относится к нему как к самостоятельному слово нельзя. То есть глупо на нем делать анкор или таг. Гугл все равно их не воспримет (У него своя база стоп-слов и доступна в инете), а то еще подумает, что не человек писал и вообще труба будет.
 
ессли ввести в яндексе "бы" то он не найдет ни одной страницы с вхождением "бы"
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху