Организация библиотеки журналов и полнотекстовый поиск на ПК

Аватара пользователя
Ivan110
Сообщения: 4640
Зарегистрирован: Чт мар 22, 2007 12:26 am

Организация библиотеки журналов и полнотекстовый поиск на ПК

Сообщение Ivan110 » Пт июн 01, 2007 9:07 pm

У многих наверное скопились журналы и статьи в большом количестве, что существенно
затрудняет реальный поиск информации. Хочу поделиться своими мыслями как лучше
всё это обустроить. Может у кого-нибудь есть более удобный способ?
Журналы разбиваем по принципу:
C:/Library/JournalName/Year_Volume/Issue/pagenumber.pdf
Например:
C:/Library/Synthesis/2007/11/1589.pdf
Тогда у каждого файла будет однозначное положение на диске.
Лучше у PDF файлов убрать ключ Document Security (если он установлен)
и создать у него заголовое (File-->Document Properties-->Summarry-->Title)
В нашем случае - Synthesis 2007, 11, 1589
Если PDF не текстовый (обычно старые журналы), то лучше по нему пройтись
FineReader-ом и наложить текст под картинку.
Для индексации и последующем полнотекстовом поиске можно воспользоваться
программой dtSearch Desctop. Её преимущества:
- практически не ограниченный размер индекса (2 млн статей показывает 0% заполнения
индекса)
- быстрота поиска (полнотекстовый поиск из 2 млн статей при одной не совпадающей букве
меньше 1 мин)
- использование логических операторов и масок при поиске
- после окончания поиска создаётся отчёт из которого легко открывается любой найденный
документ (причём контекст поиска выделяются)
- может индексировать практически любые документы где есть текст (PDF, DOC, RTF, HTML,
TXT и многие другие)...

Marxist

Сообщение Marxist » Пт июн 01, 2007 9:45 pm

А стандартные референс-менеджеры использовать не проще? работы по организации уж точно меньше.
Кстати, индексы и самим акробатом можно делать

Аватара пользователя
Ivan110
Сообщения: 4640
Зарегистрирован: Чт мар 22, 2007 12:26 am

Сообщение Ivan110 » Пт июн 01, 2007 10:02 pm

Акробатом конечно тоже можно. Но:
объём их слишком мал, попробуйте проиндексировать JACS -
ошибка появиться меньше чем через 50 тыс статей
не индексирует кроме PDF ничего
не позволяет нормально искать контекст если распознавание
сделано не слишком гладко (В dtSearch можно задать сколько
букв в слове распознано не верно )
ну и вообще в акробате он какой-то убогий...

eukar

Сообщение eukar » Сб июн 02, 2007 9:57 am

Ivan110 писал(а):dtSearch
А он бесплатный или как обычно?

Аватара пользователя
Ivan110
Сообщения: 4640
Зарегистрирован: Чт мар 22, 2007 12:26 am

Сообщение Ivan110 » Сб июн 02, 2007 10:27 am

Как обычно, но eMule может его найти и загрузить...
Описание и возиожности можно посмотреть на сайте программы:
http://www.dtsearch.com/

Аватара пользователя
rombach
Сообщения: 1865
Зарегистрирован: Пт май 14, 2004 6:20 pm

Re: Организация библиотеки журналов и полнотекстовый поиск н

Сообщение rombach » Пн июн 04, 2007 12:57 pm

Ivan110 писал(а):У многих наверное скопились журналы и статьи в большом количестве, что существенно
затрудняет реальный поиск информации. ....

Лучше у PDF файлов убрать ключ Document Security (если он установлен)
и создать у него заголовое (File-->Document Properties-->Summarry-->Title)
...
Если PDF не текстовый (обычно старые журналы), то лучше по нему пройтись FineReader-ом и наложить текст под картинку.
Для индексации и последующем полнотекстовом поиске можно воспользоваться программой dtSearch Desctop. Её преимущества:
- практически не ограниченный размер индекса (2 млн статей показывает 0% заполнения индекса)
- быстрота поиска (полнотекстовый поиск из 2 млн статей при одной не совпадающей букве меньше 1 мин)
- использование логических операторов и масок при поиске
- после окончания поиска создаётся отчёт из которого легко открывается любой найденный
документ (причём контекст поиска выделяются)...
Это все, конечно, очень хорошо. У меня только возникло несколько вопросов.
Если люди ленятся открыть и переименовать документ с названием, не дающим никаких указаний на библиографические данные статьи, то не влом ли им будет для каждого пдф еще и убирать ключи, создавать заголовки, затем проходиться FineReader-ом... И так, конечно, не для всех 2 млн статей, но для существенной их части. Это, должно быть, облегчит поиск на определенное количество минут, но я не вижу способов, как с таким заданием справиться в обозримые сроки.
Полнотекстовый поиск это тоже неплохо, но когда в результате запроса выскакивает пять сотен результатов, это тоже не слишком радует. Может, надо составлять лучше запросы, не знаю. Наверное.
В конце концов, тягаться с реферативными сервисами я сам не смогу, да и другим советовать не буду.

Очень хорошо были сделаны последние два номера Synthesis. Можно ли так же сделать со всей подборкой, не меняя названий файлов, и скачав с сайта соответствующие номерам Table of contents c graphical abstracts? Естественно, с минимальными затратами?

Marxist

Сообщение Marxist » Пн июн 04, 2007 1:41 pm

Я вот одного не понимаю: а онлайн не проще искать? я обычно именую файл так, чтобы в названии были год, журнал, первый автор и ключевые слова. Дальше -- онлайн-поиск и локальный поиск по первому автору и году. ПМСМ, так гораздо проще.
Не говоря уже о том, что совершенно не понимаю, зачем иметь локальные журналы целиком -- разве что места на диске не жалко.

Аватара пользователя
rombach
Сообщения: 1865
Зарегистрирован: Пт май 14, 2004 6:20 pm

Сообщение rombach » Пн июн 04, 2007 2:32 pm

Marxist писал(а):Я вот одного не понимаю: а онлайн не проще искать? ...
Я тоже придерживаюсь того мнения, что если есть возможность искать онлайн, то это правильный выбор.
Marxist писал(а):Дальше -- онлайн-поиск и локальный поиск по первому автору и году. ПМСМ, так гораздо проще.
Не могу согласиться. Бывает авторы по нескольку статей в год в одном месте печатают. Как тогда? И вообще, "чтобы в названии были год, журнал, первый автор и ключевые слова" это уже слишком...
Marxist писал(а):Не говоря уже о том, что совершенно не понимаю, зачем иметь локальные журналы целиком -- разве что места на диске не жалко.
Что же касается того, зачем иметь локальные журналы целиком, то если они есть, почему бы и не иметь? Даже если к ним сегодня есть доступ, а уж если нет, так и подавно. Один Гб винта теперь стоит дешевле болванки.

Аватара пользователя
Ivan110
Сообщения: 4640
Зарегистрирован: Чт мар 22, 2007 12:26 am

Сообщение Ivan110 » Пн июн 04, 2007 10:04 pm

Если надо найти конкретную статью по автору то наверное. А если
найти конкретное в-во, метод и т.д. то полнотекстовый поиск незаменим,
не случайно он есть и на ScienceDirect и на ACS...
А в распознавание FineReader-ом нет ничего сложного - там есть
пакетный режим: запустил и гуляй, так же и ключи снимаются - всем
скопом...

Polychemist
Сообщения: 9211
Зарегистрирован: Вт дек 21, 2004 11:42 am

Сообщение Polychemist » Вт июн 05, 2007 5:16 am

Кстати, а как ключи снимаются? Те, что под паролем?
А для бесплатного поиска на неупорядоченном компе есть оффлайн-яндекс, да и гугль, кажется что-то предлагает. Яндекс индексирует и pdf, и оффисные форматы, возможность логических запросов тоже есть. Работает быстро, индексирует незаметно в фоновом режиме.

Аватара пользователя
Ivan110
Сообщения: 4640
Зарегистрирован: Чт мар 22, 2007 12:26 am

Сообщение Ivan110 » Вт июн 05, 2007 7:18 am

Программа для снятия защиты с PDF - PDF Password Remover v2.5,
а по-поводу индексации и поиска: c точки зрения быстроты работы,
гибкости запросов и возможностей DtSearch превосходит Яндех и
Гугл - хотя последние есть в бесплатной версии.

Аватара пользователя
pH<7
Сообщения: 4237
Зарегистрирован: Ср апр 21, 2004 6:48 pm
Контактная информация:

Сообщение pH<7 » Вт июн 05, 2007 10:08 am

Carpe diem

Yojik21
Сообщения: 184
Зарегистрирован: Пн авг 18, 2008 7:23 pm
Контактная информация:

Re: Организация библиотеки журналов и полнотекстовый поиск на ПК

Сообщение Yojik21 » Ср сен 24, 2008 5:25 pm

Я для индексации и полнотекстового поиска использую Архивариус 3.79.
Не с чем сравнивать, но очень доволен. Индексы занимают всего около 10% от размеров pdf.
Поиск в объемах, занимающих десятки гигабайт производится за считанные секунды.
Без сомнения такая или подобная штука должна быть на каждом компьюторе, не говоря уже о тех, где собирается библиотека, иначе зачем ее собирать, если потом найти все равно легче и быстрее где-нибудь на ScienceDirect или на Chemport? :)

По поводу названия исхожу из лаконичности. Считаю, что достаточно принятого сокращенного названия, года, тома (можно и номера) и страницы , но автора, название статьи, ключевые слова и проч. - это перебор. Тот же архивариус весело все это находит.

Аватара пользователя
Jeffry
Сообщения: 2314
Зарегистрирован: Пн май 12, 2008 5:31 pm

Re:

Сообщение Jeffry » Ср сен 24, 2008 6:12 pm

Ivan110 писал(а):Программа для снятия защиты с PDF - PDF Password Remover v2.5
Есть ключи, кодируемые 40 битами, а есть 128 битами. Может быть ещё какие есть. Не всякий ремувер снимет защиту. Надо подбирать по ситуации.
Advanced PDF Password Recovery 4.0: _http://mihd.net/01b5z28
Freeware pdf unlocker 1.0.4: _http://rapidshare.com/files/37460589/Freeware_pdfunlocker.zip.html

Аватара пользователя
AlexDon
Сообщения: 654
Зарегистрирован: Ср май 16, 2007 7:31 pm

Re: Re:

Сообщение AlexDon » Чт сен 25, 2008 4:48 pm

А где же пароль на архив для Advanced PDF Password Recovery 4.0
Jeffry писал(а):
Ivan110 писал(а):Программа для снятия защиты с PDF - PDF Password Remover v2.5
Есть ключи, кодируемые 40 битами, а есть 128 битами. Может быть ещё какие есть. Не всякий ремувер снимет защиту. Надо подбирать по ситуации.
Advanced PDF Password Recovery 4.0: _http://mihd.net/01b5z28
Freeware pdf unlocker 1.0.4: _http://rapidshare.com/files/37460589/Freeware_pdfunlocker.zip.html

Cherep
Сообщения: 23145
Зарегистрирован: Чт окт 30, 2003 9:22 am

Re: Организация библиотеки журналов и полнотекстовый поиск на ПК

Сообщение Cherep » Сб сен 27, 2008 9:32 am

Эээ... я конечно извиняюсь, но пиратскому софту бой.

Аватара пользователя
Yu/2
Сообщения: 540
Зарегистрирован: Сб ноя 15, 2003 12:33 pm

Re: Организация библиотеки журналов и полнотекстовый поиск на ПК

Сообщение Yu/2 » Сб сен 27, 2008 10:13 am

Для пользователей Linux могу посоветовать софтину для индексации и полнотекстового поиска по вашей библиотеке pdf/txt/html/odf/etc - Recoll. Очень шустрая. Однозначно лучше (для меня) чем Beagle и Tracker.

gugu

Re: Организация библиотеки журналов и полнотекстовый поиск на ПК

Сообщение gugu » Сб июн 13, 2009 2:25 pm

Yu/2 писал(а):Для пользователей Linux могу посоветовать софтину для индексации и полнотекстового поиска по вашей библиотеке pdf/txt/html/odf/etc - Recoll. Очень шустрая. Однозначно лучше (для меня) чем Beagle и Tracker.
Спасибо большое за наводку! В самом деле лучшая программа индексации для Линукс из тех, которые я видел.

Аватара пользователя
suprachemister
Сообщения: 4884
Зарегистрирован: Пн май 18, 2009 5:34 pm

Re: Организация библиотеки журналов и полнотекстовый поиск на ПК

Сообщение suprachemister » Вс ноя 01, 2009 2:31 pm

:) ИМХО : я вот использую Google Desctop . За 1 день проиндексировал весь винт, а потом поиск провожу (довольно быстро и неплохо),
внутренности .pdf файлов тоже индексируються...

gugu

Re: Организация библиотеки журналов и полнотекстовый поиск на ПК

Сообщение gugu » Вс ноя 01, 2009 5:43 pm

suprachemister писал(а)::) ИМХО : я вот использую Google Desctop . За 1 день проиндексировал весь винт, а потом поиск провожу (довольно быстро и неплохо),
внутренности .pdf файлов тоже индексируються...
У Гугла есть серьёзные ограничения по количеству индексируемой информации - не более 10000 первых слов на файл, что совершенно не подходит для книг и больших обзоров. Кроме того, у меня Гугл остановился на 200000 (с небольшим) файлов и дальше отказался работать. В общем, пришлось снести и искать другую программу. Сейчас очень неплохо чувствую себя с вышеупомянутой программой Recoll.
Кстати, для пользователей Линукс дружных с командной строкой есть интересный пост на эту тему:
http://mydebianblog.blogspot.com/2009/09/linux.html

Ответить

Вернуться в «Полезные материалы от участников форума»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 7 гостей