Организация библиотеки журналов и полнотекстовый поиск на ПК

Aman
Сообщения: 2
Зарегистрирован: Вт дек 08, 2009 10:50 pm

Re: Организация библиотеки журналов и полнотекстовый поиск на ПК

Сообщение Aman » Вт дек 08, 2009 10:53 pm

Добрый день!
Скажите а дежавю форматы таким образом тоже можно индексировать?
Если к нему прикрепить файл с текстом.

Аватара пользователя
Jeffry
Сообщения: 2442
Зарегистрирован: Пн май 12, 2008 5:31 pm

Re: Организация библиотеки журналов и полнотекстовый поиск на ПК

Сообщение Jeffry » Ср дек 09, 2009 7:08 pm

Заведите себе программу Архивариус 3000 (может быть и поновее есть, уж больше года эту юзаю) и индексируйте (индекс правда займет около десятой части библиотеки). Удобно - поиск по десятку dvd-книжных дисков за несколько секунд. Только все djvu и pdf надо обеспечить ocr.

asp
Сообщения: 122
Зарегистрирован: Вт ноя 11, 2003 11:34 am

Re: Организация библиотеки журналов и полнотекстовый поиск на ПК

Сообщение asp » Чт дек 10, 2009 6:49 am

Aman писал(а):Добрый день!
Скажите а дежавю форматы таким образом тоже можно индексировать?
Если к нему прикрепить файл с текстом.
Дежавю файлы понимает Персональный поиск от Яндекса. (Я им пользуюсь).
Он бесплатен, понимает кучу форматов, есть язык поисковых запросов, индекс небольшой по объёму (124000 книг и статей - 69 Гбайт, индекс - чуть менее 3 Гбайт).
Сейчас стараюсь перевести все пдфки в дежавю (а то место начинает кончаться), конвертирую в пакетном режиме, сканированные пдф жмутся не очень хорошо (1,5), а текстовые раз в 5-6. Эх, если бы кто выкладывает сразу бы пережимали файлы, сколько же трафика сэкономили. :(

Аватара пользователя
antabu
Сообщения: 5992
Зарегистрирован: Пн май 25, 2009 7:00 pm

Re: Организация библиотеки журналов и полнотекстовый поиск на ПК

Сообщение antabu » Чт дек 10, 2009 7:07 am

Aman писал(а):Добрый день!
Скажите а дежавю форматы таким образом тоже можно индексировать?
Если к нему прикрепить файл с текстом.
В чём проблема? Извлечение текста и есть индексация. Для поиска в Total Commander в контекстном меню папки выбираете Найти, в поле Искать файлы вводите маску *.txt, в поле (галочка) С текстом - искомое слово. Для примера, у меня 524 номера журнала ''Химия и Жизнь'', из каждого извлечён текстовый файл в кодировке ANSI, их суммарный вес 165 метров, поиск заданного слова по всем проходит меньше, чем за минуту. И это на втором пентиуме (400МГц), которому больше десяти лет! Внутри найденного файла, открытого просмотрщиком по F3, искомое слово найдётся ещё быстрее. Внутри соответствующего ему djvu файла программа WinDjView находит искомое слово, если текстовый слой представлен в кодировке UTF-8. Проблема как раз в извлечении текста, если он не распознан или в неправильной кодировке.
"Я не видел людей страшней, чем толпа цвета хаки"

Aman
Сообщения: 2
Зарегистрирован: Вт дек 08, 2009 10:50 pm

Re: Организация библиотеки журналов и полнотекстовый поиск на ПК

Сообщение Aman » Пн дек 14, 2009 10:11 pm

Понятно)
значит для начала к всем дежавю необходимо прицепить ocr файл, и тогда разницы не будет что индексировать?
Где то читал что в пдф он изначально есть...

Аватара пользователя
antabu
Сообщения: 5992
Зарегистрирован: Пн май 25, 2009 7:00 pm

Re: Организация библиотеки журналов и полнотекстовый поиск на ПК

Сообщение antabu » Вт дек 15, 2009 1:13 pm

viewtopic.php?f=14&t=34037&start=20
Во вложении 2txt.zip есть извлекатель текста из djvu (только для распознанного текста), который изначально был в комплекте программы DjVuLibre.
Сборка Universal Viewer, настроена на просмотр текстов в djvu и pdf. Для определения кодировки надо пролистать несколько страниц файла. Вьювер позволяет находить текст как внутри файла, так и в заданной папке, производя индексацию на лету, а поэтому медленнее, чем поиск по заранее извлечённым текстам.
UniversalViewer.zip
"Я не видел людей страшней, чем толпа цвета хаки"

Аватара пользователя
mercaptan
Сообщения: 2954
Зарегистрирован: Сб мар 29, 2008 8:42 pm

Re: Организация библиотеки журналов и полнотекстовый поиск на ПК

Сообщение mercaptan » Вт дек 15, 2009 3:10 pm

Спасибо!
:wink:
Some scientists claim that hydrogen, because it is so plentiful, is the basic building block of the universe. I dispute that. I say that stupidity is far more abundant than hydrogen, and THAT is the basic building block of the universe.
-- Frank Zappa

nil
Сообщения: 199
Зарегистрирован: Пт июл 24, 2009 9:19 pm

Re: Организация библиотеки журналов и полнотекстовый поиск н

Сообщение nil » Пт окт 01, 2010 8:15 am

use Copernic desktop search....it does an index of pdf file as well...

Аватара пользователя
Ivan110
Сообщения: 4640
Зарегистрирован: Чт мар 22, 2007 12:26 am

Re: Организация библиотеки журналов и полнотекстовый поиск н

Сообщение Ivan110 » Вс ноя 28, 2010 6:30 pm

Вроде нашёл неплохое решение для хранения и пользование библиотекой,
теперь есть доступ к ней не только на домашнем компе, но и на работе.
Можно даже на улице - на мобильнике. Разместил её на Synology DS210j
(зеркальный RAID 2 по 2 Тв), работает независимо от компьютера как
сетевое хранилище. Установлен сервер Apache/2.2.13 (Unix).
В атачменте video screen capture - как это смотрится если заходить
через интернет.
DemoLib.rar

Finder
Сообщения: 202
Зарегистрирован: Вт июн 12, 2007 11:36 am

Re: Организация библиотеки журналов и полнотекстовый поиск н

Сообщение Finder » Пн ноя 29, 2010 11:15 am

Впечатляет!
Кстати, а сколько SciFinder "весит"?

Аватара пользователя
Ivan110
Сообщения: 4640
Зарегистрирован: Чт мар 22, 2007 12:26 am

Re: Организация библиотеки журналов и полнотекстовый поиск н

Сообщение Ivan110 » Пн ноя 29, 2010 5:17 pm

Его бесмыслено и ненужно закачивать, только ежедневное обновление
>10000 соединений. Там стоит файл настроек удалённого доступа к
SciFinder...

Аватара пользователя
Biginelli
Сообщения: 6011
Зарегистрирован: Сб окт 29, 2005 11:15 pm

Re: Организация библиотеки журналов и полнотекстовый поиск н

Сообщение Biginelli » Пн ноя 29, 2010 5:36 pm

А существует ли, интересно, локальный вариант Бейльштейна, с набором, скажем, до 1998 г., когда начали устраивать все в Сети? Условно говоря, Hauptwerk+все Erganzungwerk+Current Facts 1988-98???
Tyrans descendez au cercueil!!!

Аватара пользователя
гаер*
Сообщения: 2423
Зарегистрирован: Пн июл 12, 2010 5:01 pm

Re: Организация библиотеки журналов и полнотекстовый поиск н

Сообщение гаер* » Пн ноя 29, 2010 10:41 pm

Но ведь crossfirebeilstein локальный существует и включает в себя всё, начиная с хауптверка.

Аватара пользователя
Ivan110
Сообщения: 4640
Зарегистрирован: Чт мар 22, 2007 12:26 am

Re: Организация библиотеки журналов и полнотекстовый поиск н

Сообщение Ivan110 » Вт ноя 30, 2010 1:14 am

Crossfirebeilstein похоже существует только до конца года. По крайней
мере когда в него заходишь вываливается окно, что прекращает
работать 31 декабря 2010г. Формально при большой настойчивости
и наличии свободного времени beilstein можно весь выкачать ( и в
DiscoveryGate и в Reaxys есть выгрузка SDF и RDF)

Аватара пользователя
гаер*
Сообщения: 2423
Зарегистрирован: Пн июл 12, 2010 5:01 pm

Re: Организация библиотеки журналов и полнотекстовый поиск н

Сообщение гаер* » Ср дек 01, 2010 1:08 am

Ivan110 писал(а):Crossfirebeilstein похоже существует только до конца года. По крайней
мере когда в него заходишь вываливается окно, что прекращает
работать 31 декабря 2010г.
Наступит конец года - посмотрим. У меня ничего не вываливается. Ближайшие 89 лет вроде должен работать. Я в компьютерах не разбираюсь.

Аватара пользователя
Ivan110
Сообщения: 4640
Зарегистрирован: Чт мар 22, 2007 12:26 am

Re: Организация библиотеки журналов и полнотекстовый поиск н

Сообщение Ivan110 » Ср дек 01, 2010 10:00 am

Snap1.jpg
У вас нет необходимых прав для просмотра вложений в этом сообщении.

Аватара пользователя
Ivan110
Сообщения: 4640
Зарегистрирован: Чт мар 22, 2007 12:26 am

Re: Организация библиотеки журналов и полнотекстовый поиск н

Сообщение Ivan110 » Чт янв 20, 2011 12:46 am

Пришёл новый год и Beilstein в качестве индивидуального продукта похоже
ушёл вслед за печатным изданием. CrossFire больше не существует - все
лицензии окончены:
Snap1.png
Из DiscoveryGate его тоже убрали.
Остался только Reaxys объединяющей в купе Beilstein, Gmelin и базу
данных патентов
У вас нет необходимых прав для просмотра вложений в этом сообщении.

Аватара пользователя
bromin
Сообщения: 4198
Зарегистрирован: Чт янв 24, 2008 7:38 pm
Контактная информация:

Re: Организация библиотеки журналов и полнотекстовый поиск н

Сообщение bromin » Чт янв 20, 2011 10:20 pm

Ivan110 писал(а):Разместил её на Synology DS210j
(зеркальный RAID 2 по 2 Тв), работает независимо от компьютера как
сетевое хранилище.
Коллега, NASом довольны?
У меня работе WD My Book World Edition II 2 по 2 Тб в зеркале. Грелся паршивец сильно :-( и подвисал при копировании большого объема. По совету умельцев с iXBT вентилятор запитанный от своего же USB на крышку водрузил. Стал заметно прохладнее и виснуть при копировании перестал, хотя из спящего режима не выходит, висит и все. :-(

Аватара пользователя
Ivan110
Сообщения: 4640
Зарегистрирован: Чт мар 22, 2007 12:26 am

Re: Организация библиотеки журналов и полнотекстовый поиск н

Сообщение Ivan110 » Чт янв 20, 2011 11:45 pm

Работает постоянно уже почти год. Никаких проблем не было,
просыпается номально, практически не греется. Можно ставить
дополнительные приложения на UNIX (mail station, форумы и многое другое)
Пока очень доволен.

Аватара пользователя
bromin
Сообщения: 4198
Зарегистрирован: Чт янв 24, 2008 7:38 pm
Контактная информация:

Re: Организация библиотеки журналов и полнотекстовый поиск н

Сообщение bromin » Пт янв 21, 2011 8:32 am

Ivan110 писал(а):Работает постоянно уже почти год. Никаких проблем не было,
просыпается номально, практически не греется. Можно ставить
дополнительные приложения на UNIX (mail station, форумы и многое другое)
Пока очень доволен.
А Вы его с винтами покупали? На сайте синологи написано, что 9 тыр стоит корпус без винтов. Если без винтов какие винты к нему брали? :shuffle: Домой загорелось купить :very_shuffle:

Ответить

Вернуться в «Полезные материалы от участников форума»

Кто сейчас на конференции

Сейчас этот форум просматривают: Starik и 34 гостя