Re: site search engine
Hello!
Поисковых движков немало, вот еще один:
Имеющиеся в наличии меня не устроили прожорливостью (во время индексирования жрут ОЗУ и, вдобавок, диск дрючат просто-таки, хотя можно написать фильтры документов, не требующие ни того, ни того), хреновой архитектурой (очень оно надо - через DBUS коннектиться к поисковику!), необходимостью врапперов для использования из программ (предпочитаю легкие и быстрые утилиты, которые и в шелле можно использовать, и из любого языка программирования) и т.д. В общем, оказалось проще сделать стемминг и набор фильтров документов и воспользоваться FTS в SQLite (в постгресе тоже FTS есть, но ох кривой... для поиска мало индекса, дергаются записи из таблицы, так что тормозит неслабо, плюс разве что в наличии стеммеров, которые и самому несложно добавить).
Для поддержки кодировок достаточно соответствующих скриптов преобразования в plain text. Можно их взять из вышеназванного поисковика - при его написании как раз была задача распознавать и индексировать документы разных форматов в разных кодировках, в т.ч. в архивах.
P.S. Рассылку читаю через веб, так что сообщения, адресованные мне, дублируйте в личку.
--
Best regards, Alexey Pechnikov.
http://pechnikov.tel/
Reply to: