Организация библиотеки журналов и полнотекстовый поиск на ПК
Re: Организация библиотеки журналов и полнотекстовый поиск на ПК
Добрый день!
Скажите а дежавю форматы таким образом тоже можно индексировать?
Если к нему прикрепить файл с текстом.
Скажите а дежавю форматы таким образом тоже можно индексировать?
Если к нему прикрепить файл с текстом.
Re: Организация библиотеки журналов и полнотекстовый поиск на ПК
Заведите себе программу Архивариус 3000 (может быть и поновее есть, уж больше года эту юзаю) и индексируйте (индекс правда займет около десятой части библиотеки). Удобно - поиск по десятку dvd-книжных дисков за несколько секунд. Только все djvu и pdf надо обеспечить ocr.
Re: Организация библиотеки журналов и полнотекстовый поиск на ПК
Дежавю файлы понимает Персональный поиск от Яндекса. (Я им пользуюсь).Aman писал(а):Добрый день!
Скажите а дежавю форматы таким образом тоже можно индексировать?
Если к нему прикрепить файл с текстом.
Он бесплатен, понимает кучу форматов, есть язык поисковых запросов, индекс небольшой по объёму (124000 книг и статей - 69 Гбайт, индекс - чуть менее 3 Гбайт).
Сейчас стараюсь перевести все пдфки в дежавю (а то место начинает кончаться), конвертирую в пакетном режиме, сканированные пдф жмутся не очень хорошо (1,5), а текстовые раз в 5-6. Эх, если бы кто выкладывает сразу бы пережимали файлы, сколько же трафика сэкономили.
Re: Организация библиотеки журналов и полнотекстовый поиск на ПК
В чём проблема? Извлечение текста и есть индексация. Для поиска в Total Commander в контекстном меню папки выбираете Найти, в поле Искать файлы вводите маску *.txt, в поле (галочка) С текстом - искомое слово. Для примера, у меня 524 номера журнала ''Химия и Жизнь'', из каждого извлечён текстовый файл в кодировке ANSI, их суммарный вес 165 метров, поиск заданного слова по всем проходит меньше, чем за минуту. И это на втором пентиуме (400МГц), которому больше десяти лет! Внутри найденного файла, открытого просмотрщиком по F3, искомое слово найдётся ещё быстрее. Внутри соответствующего ему djvu файла программа WinDjView находит искомое слово, если текстовый слой представлен в кодировке UTF-8. Проблема как раз в извлечении текста, если он не распознан или в неправильной кодировке.Aman писал(а):Добрый день!
Скажите а дежавю форматы таким образом тоже можно индексировать?
Если к нему прикрепить файл с текстом.
"Я не видел людей страшней, чем толпа цвета хаки"
Re: Организация библиотеки журналов и полнотекстовый поиск на ПК
Понятно)
значит для начала к всем дежавю необходимо прицепить ocr файл, и тогда разницы не будет что индексировать?
Где то читал что в пдф он изначально есть...
значит для начала к всем дежавю необходимо прицепить ocr файл, и тогда разницы не будет что индексировать?
Где то читал что в пдф он изначально есть...
Re: Организация библиотеки журналов и полнотекстовый поиск на ПК
viewtopic.php?f=14&t=34037&start=20
Во вложении 2txt.zip есть извлекатель текста из djvu (только для распознанного текста), который изначально был в комплекте программы DjVuLibre.
Сборка Universal Viewer, настроена на просмотр текстов в djvu и pdf. Для определения кодировки надо пролистать несколько страниц файла. Вьювер позволяет находить текст как внутри файла, так и в заданной папке, производя индексацию на лету, а поэтому медленнее, чем поиск по заранее извлечённым текстам.
Во вложении 2txt.zip есть извлекатель текста из djvu (только для распознанного текста), который изначально был в комплекте программы DjVuLibre.
Сборка Universal Viewer, настроена на просмотр текстов в djvu и pdf. Для определения кодировки надо пролистать несколько страниц файла. Вьювер позволяет находить текст как внутри файла, так и в заданной папке, производя индексацию на лету, а поэтому медленнее, чем поиск по заранее извлечённым текстам.
"Я не видел людей страшней, чем толпа цвета хаки"
Re: Организация библиотеки журналов и полнотекстовый поиск на ПК
Спасибо!
Some scientists claim that hydrogen, because it is so plentiful, is the basic building block of the universe. I dispute that. I say that stupidity is far more abundant than hydrogen, and THAT is the basic building block of the universe.
-- Frank Zappa
-- Frank Zappa
Re: Организация библиотеки журналов и полнотекстовый поиск н
use Copernic desktop search....it does an index of pdf file as well...
Re: Организация библиотеки журналов и полнотекстовый поиск н
Вроде нашёл неплохое решение для хранения и пользование библиотекой,
теперь есть доступ к ней не только на домашнем компе, но и на работе.
Можно даже на улице - на мобильнике. Разместил её на Synology DS210j
(зеркальный RAID 2 по 2 Тв), работает независимо от компьютера как
сетевое хранилище. Установлен сервер Apache/2.2.13 (Unix).
В атачменте video screen capture - как это смотрится если заходить
через интернет.
теперь есть доступ к ней не только на домашнем компе, но и на работе.
Можно даже на улице - на мобильнике. Разместил её на Synology DS210j
(зеркальный RAID 2 по 2 Тв), работает независимо от компьютера как
сетевое хранилище. Установлен сервер Apache/2.2.13 (Unix).
В атачменте video screen capture - как это смотрится если заходить
через интернет.
Re: Организация библиотеки журналов и полнотекстовый поиск н
Впечатляет!
Кстати, а сколько SciFinder "весит"?
Кстати, а сколько SciFinder "весит"?
Re: Организация библиотеки журналов и полнотекстовый поиск н
Его бесмыслено и ненужно закачивать, только ежедневное обновление
>10000 соединений. Там стоит файл настроек удалённого доступа к
SciFinder...
>10000 соединений. Там стоит файл настроек удалённого доступа к
SciFinder...
Re: Организация библиотеки журналов и полнотекстовый поиск н
А существует ли, интересно, локальный вариант Бейльштейна, с набором, скажем, до 1998 г., когда начали устраивать все в Сети? Условно говоря, Hauptwerk+все Erganzungwerk+Current Facts 1988-98???
Tyrans descendez au cercueil!!!
Re: Организация библиотеки журналов и полнотекстовый поиск н
Но ведь crossfirebeilstein локальный существует и включает в себя всё, начиная с хауптверка.
Re: Организация библиотеки журналов и полнотекстовый поиск н
Crossfirebeilstein похоже существует только до конца года. По крайней
мере когда в него заходишь вываливается окно, что прекращает
работать 31 декабря 2010г. Формально при большой настойчивости
и наличии свободного времени beilstein можно весь выкачать ( и в
DiscoveryGate и в Reaxys есть выгрузка SDF и RDF)
мере когда в него заходишь вываливается окно, что прекращает
работать 31 декабря 2010г. Формально при большой настойчивости
и наличии свободного времени beilstein можно весь выкачать ( и в
DiscoveryGate и в Reaxys есть выгрузка SDF и RDF)
Re: Организация библиотеки журналов и полнотекстовый поиск н
Наступит конец года - посмотрим. У меня ничего не вываливается. Ближайшие 89 лет вроде должен работать. Я в компьютерах не разбираюсь.Ivan110 писал(а):Crossfirebeilstein похоже существует только до конца года. По крайней
мере когда в него заходишь вываливается окно, что прекращает
работать 31 декабря 2010г.
Re: Организация библиотеки журналов и полнотекстовый поиск н
У вас нет необходимых прав для просмотра вложений в этом сообщении.
Re: Организация библиотеки журналов и полнотекстовый поиск н
Пришёл новый год и Beilstein в качестве индивидуального продукта похоже
ушёл вслед за печатным изданием. CrossFire больше не существует - все
лицензии окончены:
Из DiscoveryGate его тоже убрали.
Остался только Reaxys объединяющей в купе Beilstein, Gmelin и базу
данных патентов
ушёл вслед за печатным изданием. CrossFire больше не существует - все
лицензии окончены:
Из DiscoveryGate его тоже убрали.
Остался только Reaxys объединяющей в купе Beilstein, Gmelin и базу
данных патентов
У вас нет необходимых прав для просмотра вложений в этом сообщении.
Re: Организация библиотеки журналов и полнотекстовый поиск н
Коллега, NASом довольны?Ivan110 писал(а):Разместил её на Synology DS210j
(зеркальный RAID 2 по 2 Тв), работает независимо от компьютера как
сетевое хранилище.
У меня работе WD My Book World Edition II 2 по 2 Тб в зеркале. Грелся паршивец сильно и подвисал при копировании большого объема. По совету умельцев с iXBT вентилятор запитанный от своего же USB на крышку водрузил. Стал заметно прохладнее и виснуть при копировании перестал, хотя из спящего режима не выходит, висит и все.
Re: Организация библиотеки журналов и полнотекстовый поиск н
Работает постоянно уже почти год. Никаких проблем не было,
просыпается номально, практически не греется. Можно ставить
дополнительные приложения на UNIX (mail station, форумы и многое другое)
Пока очень доволен.
просыпается номально, практически не греется. Можно ставить
дополнительные приложения на UNIX (mail station, форумы и многое другое)
Пока очень доволен.
Re: Организация библиотеки журналов и полнотекстовый поиск н
А Вы его с винтами покупали? На сайте синологи написано, что 9 тыр стоит корпус без винтов. Если без винтов какие винты к нему брали? Домой загорелось купитьIvan110 писал(а):Работает постоянно уже почти год. Никаких проблем не было,
просыпается номально, практически не греется. Можно ставить
дополнительные приложения на UNIX (mail station, форумы и многое другое)
Пока очень доволен.
Кто сейчас на конференции
Сейчас этот форум просматривают: LittleStone и 27 гостей