[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: site search engine



Hello!

Поисковых движков немало, вот еще один:
http://sqlite.mobigroup.ru/wiki?name=poisk

Имеющиеся в наличии меня не устроили прожорливостью (во время индексирования жрут ОЗУ и, вдобавок, диск дрючат просто-таки, хотя можно написать фильтры документов, не требующие ни того, ни того), хреновой архитектурой (очень оно надо - через DBUS коннектиться к поисковику!), необходимостью врапперов для использования из программ (предпочитаю легкие и быстрые утилиты, которые и в шелле можно использовать, и из любого языка программирования) и т.д. В общем, оказалось проще сделать стемминг и набор фильтров документов и воспользоваться FTS в SQLite (в постгресе тоже FTS есть, но ох кривой... для поиска мало индекса, дергаются записи из таблицы, так что тормозит неслабо, плюс разве что в наличии стеммеров, которые и самому несложно добавить).

Для поддержки кодировок достаточно соответствующих скриптов преобразования в plain text. Можно их взять из вышеназванного поисковика - при его написании как раз была задача распознавать и индексировать документы разных форматов в разных кодировках, в т.ч. в архивах. 


P.S. Рассылку читаю через веб, так что сообщения, адресованные мне, дублируйте в личку.

--
Best regards, Alexey Pechnikov.
http://pechnikov.tel/

Reply to: