Поисковый движок для сайта

Тема в разделе "Как сделать...", создана пользователем dmsoh, 8 дек 2009.

Статус темы:
Закрыта.
  1. dmsoh

    dmsoh

    Регистр.:
    27 янв 2007
    Сообщения:
    192
    Симпатии:
    42
    Посоветуйте полнотекстовый поисковый движок для базы с 200.000 строками, с поддержкой русской морфологи.

    Насколько я понял эти возможности уже поддерживает PostgreSQL.
    Также можно взять MySQL + Sphinx
     
  2. Ad1ce

    Ad1ce Постоялец

    Регистр.:
    18 авг 2009
    Сообщения:
    109
    Симпатии:
    25
    Скорей всего база работает на мускле, так зачем переносить на постгрес. Можно использовать сфинкс, а также для простейшего поиска подойдет и полнотекстовый индекс. Результаты там тоже будут отсортированы по релевантности.
     
  3. dmsoh

    dmsoh

    Регистр.:
    27 янв 2007
    Сообщения:
    192
    Симпатии:
    42
    База на этапе создания, поэтому рассматриваю и мусл и пострги. Тут принципиально важно качество морфологии и точность поиска. И если у сфинкса она идет бессловесная как я понимаю, то у PostgreSQL есть возможность подключения словарей Ispell.

    И вот еще нашел поисковый механизм у Яндекса

    http://company.yandex.ru/technology/server/features/

    Пока не знаю, на чем остановиться.
     
  4. Ad1ce

    Ad1ce Постоялец

    Регистр.:
    18 авг 2009
    Сообщения:
    109
    Симпатии:
    25
  5. dandandan

    dandandan

    Регистр.:
    7 авг 2008
    Сообщения:
    996
    Симпатии:
    268
    я бы посоветовал http://www.sphider.eu/
    Единственно - наверное, не дружит с русской морфологией, но русские тексты индексит и ищет по ним.

    Sphider is a popular open-source web spider and search engine. It includes an automated crawler, which can follow links found on a site, and an indexer which builds an index of all the search terms found in the pages. It is written in PHP and uses MySQL as its back end database (requires version 4 or above for both).
    Features
    Spidering and indexing
    Performs full text indexing.
    Can index both static and dynamic pages.
    Finds links in href, frame, area and meta tags, and can also follow links given in javascript as strings via window.location and window.open.
    Respects robots.txt protocol, and nofollow and noindex tags.
    Follows server side redirections.
    Allows spidering to be limited by depth (ie maximum number of clicks from the starting page), by (sub)domain or by directory.
    Allows spidering only the urls matching (or not matching) certain keywords or regular expressions.
    Supports indexing of pdf and doc files (using external binaries for file conversion).
    Allows resuming paused spidering.
    Possbility to exclude common words from being indexed.
    Searching
    Supports AND, OR and phrase searches
    Supports excluding words (by putting a '-' in front of a word, any page including the word will be omitted from the results).
    Option to add and group sites into categories
    Possibility to limit searching to a given category and its subcategories.
    Possibility of searcing in a specified domain only.
    "Did you mean" search suggestion on mistyped queries.
    Context-sensitive auto-completion on search terms (a la Google Suggest)
    Word stemming for english (searching for "run" finds "running", "runs" etc)
    Administering
    Includes a sophisticated web based administration interface
    Supports indexing via a web interface as well as from commandline - easy to set up cron jobs.
    Comprehensive site and search statistics
    Simple template system - easy to integrate into a site

    на сайте можно посмотреть демо и скачать последнюю версию.
     
  6. sw0rdf1sh

    sw0rdf1sh Создатель

    Регистр.:
    2 апр 2007
    Сообщения:
    41
    Симпатии:
    7
    Судя по описанию это поисковик по сайтам, а БД он использует для хранения индекса - uses MySQL as its back end database
     
  7. dandandan

    dandandan

    Регистр.:
    7 авг 2008
    Сообщения:
    996
    Симпатии:
    268
    Да, совершенно верно. Но по сути дела БД и нужна для хранения данных, показываемых на сайте. Да и тема называется Поисковый движок для сайта.
    Или я чего-то не понимаю? :)
     
Статус темы:
Закрыта.