Поисковый движок для сайта

Статус
В этой теме нельзя размещать новые ответы.

dmsoh

Профессор
Регистрация
27 Янв 2007
Сообщения
192
Реакции
44
Посоветуйте полнотекстовый поисковый движок для базы с 200.000 строками, с поддержкой русской морфологи.

Насколько я понял эти возможности уже поддерживает PostgreSQL.
Также можно взять MySQL + Sphinx
 
Скорей всего база работает на мускле, так зачем переносить на постгрес. Можно использовать сфинкс, а также для простейшего поиска подойдет и полнотекстовый индекс. Результаты там тоже будут отсортированы по релевантности.
 
Скорей всего база работает на мускле, так зачем переносить на постгрес. Можно использовать сфинкс, а также для простейшего поиска подойдет и полнотекстовый индекс. Результаты там тоже будут отсортированы по релевантности.

База на этапе создания, поэтому рассматриваю и мусл и пострги. Тут принципиально важно качество морфологии и точность поиска. И если у сфинкса она идет бессловесная как я понимаю, то у PostgreSQL есть возможность подключения словарей Ispell.

И вот еще нашел поисковый механизм у Яндекса



Пока не знаю, на чем остановиться.
 
Я бы остановился на связке mysql+sphynx. А вообще в интернете много на эту тему, например:
 
я бы посоветовал
Единственно - наверное, не дружит с русской морфологией, но русские тексты индексит и ищет по ним.

Sphider is a popular open-source web spider and search engine. It includes an automated crawler, which can follow links found on a site, and an indexer which builds an index of all the search terms found in the pages. It is written in PHP and uses MySQL as its back end database (requires version 4 or above for both).
Features
Spidering and indexing
Performs full text indexing.
Can index both static and dynamic pages.
Finds links in href, frame, area and meta tags, and can also follow links given in javascript as strings via window.location and window.open.
Respects robots.txt protocol, and nofollow and noindex tags.
Follows server side redirections.
Allows spidering to be limited by depth (ie maximum number of clicks from the starting page), by (sub)domain or by directory.
Allows spidering only the urls matching (or not matching) certain keywords or regular expressions.
Supports indexing of pdf and doc files (using external binaries for file conversion).
Allows resuming paused spidering.
Possbility to exclude common words from being indexed.
Searching
Supports AND, OR and phrase searches
Supports excluding words (by putting a '-' in front of a word, any page including the word will be omitted from the results).
Option to add and group sites into categories
Possibility to limit searching to a given category and its subcategories.
Possibility of searcing in a specified domain only.
"Did you mean" search suggestion on mistyped queries.
Context-sensitive auto-completion on search terms (a la Google Suggest)
Word stemming for english (searching for "run" finds "running", "runs" etc)
Administering
Includes a sophisticated web based administration interface
Supports indexing via a web interface as well as from commandline - easy to set up cron jobs.
Comprehensive site and search statistics
Simple template system - easy to integrate into a site

на сайте можно посмотреть демо и скачать последнюю версию.
 
я бы посоветовал [
Sphider is a popular open-source web spider and search engine. It includes an automated crawler, which can follow links found on a site, and an indexer which builds an index of all the search terms found in the pages. It is written in PHP and uses MySQL as its back end database (requires version 4 or above for both).
Судя по описанию это поисковик по сайтам, а БД он использует для хранения индекса - uses MySQL as its back end database
 
Судя по описанию это поисковик по сайтам, а БД он использует для хранения индекса - uses MySQL as its back end database
Да, совершенно верно. Но по сути дела БД и нужна для хранения данных, показываемых на сайте. Да и тема называется Поисковый движок для сайта.
Или я чего-то не понимаю? :)
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху