Программы персонального (локального) поиска

Статейка добавлена
10 июля 2007 г.

Полезная вещь Персональный Поиск!

Когда-то раньше когда документов на компьютере у меня было немного, их можно было вручную отсортировать, разложить по своим папочкам и при необходимости довольно быстро найти нужную информацию

Теперь документов огромная куча, не до всех книг дошли руки, лежат горы прочитанных компьютерных журналов и если надо в них найти информацию по той или иной железяке или программе, то понимаешь всю тщетность своих попыток. Времени и терпения не хватит на поиск, проще через интернет найти то что нужно. Но вот появились программы такого класса - поиск на локальных машинах.

Все происходит как в интернете, сначала все файлы индексируются, а потом по запросу выдается список результатов отсортированных по релевантности. Вот я и хочу протестировать шесть програм с рускоязычным поиском и рассказать Вам о них.

Эти програмы не только документы индексируют, а еще и музыку, видео, картинки, но я буду их рассматривать только как поиск по документам.

Для тестирования я проиндексировал две папки с документами на одном диске:

1-я - 6 376 277 277 байт в 47514 файлах,
2-я - 6 327 861 766 байт в 31155 файлах.

Форматы там очень разные и MDB, PDF, CHM, MHT, RTF, DOC, XLS, TXT в разных кодировках, как впрочем и HTM, HTML. Вообщем все вразнобой.

В поиске задавал сначала три отдельных слова потом фразы. Фразы задавал как набор слов и как абсолютное совпадение. За исключением программ где невозможен поиск фраз.

Итак знакомтесь:

Google desktop 5.1.0705


Работает Google полностью через браузер.

Сначала выбираем типы индексируемых файлов, затем папки для поиска. Разным папкам назначить разные типы файлов нельзя. Папку для хранения индекса можно изменить только в реестре.

Плюсы:

Оригинально сделан предпросмотр, нажимаем на плюсик и найденый документ открывается на странице как фрейм.

Минусы:

Во-первых браузер Opera програмой полностью игнорируется, нас пугают что програма может работать некорректно. И действительно при выборе папок они выбираются только на пятый раз. Т.е. быстрее всего четыре раза нажать отмена, на пятый нужную папку. Я считаю что Opera вещь достаточно популярная и отсутствие ее поддержки недочет Гугла.

Во-вторых я для индекса конкретно указал только две папки на диске с документами, а он кроме них проиндексировал каким-то хаотичным образом разные папки на разных логических дисках и разных винчестерах. И браузер здесь уже не причем.

http://desktop.google.com/

Windows desktop Search 3.0


Какая красота появилась в меню пуск после инсталяции.



Для индексации выбираем в настройках папки и выбираем каждому типу файлов свой фильтр индексации. Типы файлов отображаются все, каждому можно присвоить. По умолчанию все уже присвоено но можно поменять.

Плюсы:

Индексация происходит не только в зависимости от действий пользователя, но и от загруженности винчестера.

Минусы:

В предпросмотре нет автоматического перехода к искомому и даже более того нет ручного поиска по предпросмотру. Придется открывать документ в родном приложении. Но зато предпросмотр отображает все как есть в оригинале, хоть и тормозит при разных типах файлов.

http://microsoft.com/

Copernic desktop search 2.02 build 2526


Во вермя инсталяции, спрашивает все необходимое. Интерфейс предельно понятный. Обширные настройки, понятный вид индексируемого. В окне статус индекса ведется подробный лог, все файлы, количество ключевых слов. Поиск начинает вестись с первых введенных букв слова, отображая документы в окне предпросмотра. При выборе документа сразу переходит к заданному слову, есть кнопка найти далее, все слова подсвечены.

Плюсы:

Для каждой папки можно задать тип индексируемых файлов.

В окне предпросмотра очень правильно (с форматированием) отображает формат DOC и XLS. (Этого не может ни один другой поиск, даже Windows Desktop Search, вроде бы своя компания, а не может)

Минусы:

Если выбрать в найденых файлах текстовый в ДОС кодировке, то он будет долго думать (1-10 минут), не отвечая на запросы системы, но в результате откроет хоть и отобразит кракозябрями.

http://go.copernic.com/?dest=cds2homepage&l=ENG&e=CDS2&campaign=

Search Inform desktop free 3.3


Имеет очень точные параметры поиска с учетом морфологии, синонимов (в платной версии).

Понравилась настройка индексов все указывается очень подробно. Набор папок и дисков созздается под своим индексом, который можно монтировать к другим индексам (в платной версии).

В окне предпросмотра можно задать отображение неформатированного текста или оригинальный вид. Корректно отображает кодировки.

Плюсы:

Во время индексации виден прогресс работы, то бишь сколько осталось сделать и очень подробная информация, размер документов/файлов/индекса.

В версии 2.2 был такой плюс - это была едиственная программа которая смогла найти мою фамилию в базе Access. Версия 3.3 уже не может. Почему? Потому что становится более платной?

Минусы:

Ну во-первых с версии три программа при запуске выдает надоедливое окошко с предложением купить другие (платные) версии. Неприятно правда?

Во-вторых это единственная программа которая выкидывает из поиска общие (по ее мнению слова) слова. Такие как Я, ТЫ, МЫ, К, ИЗ, В, ВДОЛЬ и кучу аналогичных.

http://www.searchinform.com/

Yandex desktop search 2.6.0 сборка 874


Поддерживаемые форматы - OpenOffice, EML, MHT, HTML, TXT, ASC, RTF, Word, Exel, PowerPoint, Word2007, Exel2007, RAR, ZIP, SWF, CHM, PDF, DjVu.

Работает как и Гугл через браузер, только настройки в окошке.

Надо сказать еще про результаты поиска, Яндекс находит очень много файлов по сравнению с другими поисковиками благодаря тому, что учитывает словоформы.

Плюсы:

А настоящий плюс это то, что Яндекс действительно смотрит архивы и понимает столько форматов. Еще самый плюс, это конечно результативность, посмотрите на сравнительную таблицу в конце обзора и станет ясно.

Работает тех.поддержка

Минусы:

Когда файл лежит в архиве, то это считается за два результата. Не знаю почему так, жду ответа тех.поддержки.

Это минусы относительные но: база занимает место и индексация происходит довольно долго. Но я так думаю что это того стоит, ведь результат это самое важное.

http://desktop.yandex.ru/

DvyGun smart search beta 2.5.4.9


Интерфейс простой и понятный. В настройках указывается папка для индекса, выбираются типы файлов, и индексируемые папки. Во время индексации показывает сколько байт в скольки элементах индексирует. Все форматы и кодировки в предпросмотре отображаются корректно, хоть и без форматирования. После выбора доккумента в предпросмотре сразу происходит переход к первому искомому слову.

Минусы:

Невозможно получить информацию по базе индекса, сколько чего наиндексировано. Правда я нашел лазейку, если в строке поиска ничего не указывать, то выведутся все документы, и станет ясно сколько их проиндексировано.

Нет возможности искать по фразе. Внимательно прочитал хелп, он кстати на русском и понял что действительно это невозможно, но есть свои комбинации ограничения, расширения поиска.

http://www.dvygun.com/?ref=DVSM

Проверял я еще два поисковика, это Yahoo desktop search 1.2 build 1852je и Ask desktop search 2.1.3 build 7. Но так как они оказались без поддержки русскоязычного поиска, расписывать их не буду.


Привожу таблицу размеров индекса и количества проиндексированных документов:


Google desktop search 5.1.0705

Windows desktop search 3.0

Copernic desktop search 2.02 build 2526

Search Inform desktop free 3.3

Yandex desktop search 2.6.0 сборка 874

DvyGun smart search beta 2.5.4.9
Размер баз в байтах 1 424 874 897 663 493 768 956 124 451 357 187 210 2 883 253 136 4 288 896 566
Количество элементов (документов) в базе 154 908 83 485 36 444 5 193 64 331 73 265

Результаты поиска всех вышеописанных поисковиков (поиск по отдельным солвам / поиск по фразе):


Google desktop search 5.1.0705

Windows desktop search 3.0

Copernic desktop search 2.02 build 2526

Search Inform desktop free 3.3

Yandex desktop search 2.6.0 сборка 874

DvyGun smart search beta 2.5.4.9
Медвед 8 156 411 0 22 184
Интернет 2609 6166 2194 79 10919 7392
Скорость 2010 2237 2573 100 16432 4596
Гонки на выживание 1 / 0 4 / 0 29 / 2 6 / 0 922 / 12 51 / -
Смертельная усталость 0 / 0 6 / 0 114 / 13 12 / 0 6492 / 159 82 / -
Лучший локальный поиск 1 / 0 27 / 0 56 / 0 7 / 0 2115 / 0 938 / -
Синие глаза 31 / 6 104 / 18 379 / 124 89 / 26 10976 / 1112 641 / -
Быстрый компьютер 223 / 6 602 / 7 701 / 7 54 / 0 10504 / 29 4418 / -
Последняя сволочь 3 / 2 33 / 2 182 / 3 46 / 1 4310 / 17 74 / -
Кто нами будет руководить 7 / 2 62 / 2 193 / 2 77 / 0 6757 / 2 97 / -

В итоге мы имеем:

Бесспорный лидер Yandex. Отличные результаты, видно что имеет большой словарь в который включены все словоформы. Слово медвед он не знает, поэтому нашел только с точным совпадением, без всяких Медведь, медведей и т.д. Но если ввести в поиск Медведь, то результат будет 5 463 а не 22.

Второе и третье место делят DVUGun и Copernic, причем с переменным успехом. Не знаю кому какое место дать. Видимо словари различаются по полноте, но поиск достойный и там и там.

Четвертое место я отдам Windows, хоть по некоторым результатам отстает от Search inform.

Search inform как вы понимаете на пятом месте, но опять же у Google в одиночных популярных словах поиск гораздо лучше. За Search inform производители очень хотят денег, как я говорил даже в этой бесплатной версии постоянно выскакивает окно с предложением купить платную. Не надо думать что платная будет лучше искать, просто там тоньше настройки, поиск синонимов, подключение новых индексов. Ну и по форматам он слаб, очень мало проиндексированных документов.

Google подкачал конечно, я не думаю что меня устроит поиск с таким чахлым словарным запасом.


Hosted by uCoz