Переименование файлов

как найти книгу или статью? не поделится ли кто-нибудь программой? если у вас такой вопрос - значит, вам сюда!
Аватара пользователя
antabu
Сообщения: 5929
Зарегистрирован: Пн май 25, 2009 7:00 pm

Re: Переименование файлов

Сообщение antabu » Чт июн 11, 2009 6:59 pm

При помощи плагина xPDFSearch к TotalCom удаётся вывести в колонки для отображения "заголовок" вида: PII: 0040-4039(88)80018-2 , первую строку вида: Tetrahedron Letters, Vo1.29, No.1, pp 15-18, 1988 (которую можно сделать названием файла при групповом переименовании) и/или первые 1000 символов первой страницы статьи, содержащие её название. Сделать 250 из них названием файла не удаётся - мешают знаки перехода на следующую строку.
"Я не видел людей страшней, чем толпа цвета хаки"

Yojik21
Сообщения: 184
Зарегистрирован: Пн авг 18, 2008 7:23 pm
Контактная информация:

Re: Переименование файлов

Сообщение Yojik21 » Пт июн 12, 2009 10:39 pm

Сейчас попробую сделать что-то попроще в использовании, чем, то, что представил.
Уберу графику и отправлю процесс в фон - должно работать быстрее.

Аватара пользователя
Warfarin
Сообщения: 1069
Зарегистрирован: Пт июн 29, 2007 1:40 am

Re: Переименование файлов

Сообщение Warfarin » Пн июн 15, 2009 12:19 am

antabu, спасибо за наводку. Классный плагин!
Жаль, что на саенсдиректе ДОИ только на странице абстракта статьи прописан, а в оглавлениях выпусков нету, а то бы с Title (PII: 0040-4039(88)80018-2) легко можно было связать

Аватара пользователя
amge
Сообщения: 2021
Зарегистрирован: Вт июл 31, 2007 11:42 am

Re: Переименование файлов

Сообщение amge » Вт июн 16, 2009 3:17 pm

Поделюсь своим опытом, имеющем отношение к данной теме.
Когда-то я тоже пытался писать скрипт, превращающий бессмысленные названия файлов статей в осмысленные, но потом плюнул: слишком велико разнообразие. Сейчас делаем так: вся лаборатория складывает скачанные статьи в одну расшаренную директорию, на эту директорию каждую ночь напускается веб-поисковик, умеющий искать в PDF (у нас -- ht://Dig в связке с xpdf). Результат доступен через браузер, достаточно помнить хоть одно ключевое слово скачанной статьи, и ты ее найдешь. Неохваченными остается лишь очень немного нетекстовых документов без OCR. Выглядит это примерно так:
htdig.png

Аватара пользователя
Warfarin
Сообщения: 1069
Зарегистрирован: Пт июн 29, 2007 1:40 am

Re: Переименование файлов

Сообщение Warfarin » Ср июн 17, 2009 8:12 pm

Скачайте и проиндексируте все, что в этом разделе форума доступно. Будет совсем супер :up: :D

Yojik21
Сообщения: 184
Зарегистрирован: Пн авг 18, 2008 7:23 pm
Контактная информация:

Re: Переименование файлов

Сообщение Yojik21 » Чт июн 18, 2009 12:00 am

amge, Оно то так - это большая экономия времени, но не хочется этот каталог превращать в большую мусорку, тем более когда независимо складывают несколько человек.
Очень скоро будет громадное количество повторов (в том числе и в индексе), а нераспознанные вообще потеряются и будут только место занимать, да и приятнее, когда все структурировано.
Поэтому я даже перед индексированием навожу порядок. Хоть это и занимает почти все свободное время (это огромный минус).

Аватара пользователя
Warfarin
Сообщения: 1069
Зарегистрирован: Пт июн 29, 2007 1:40 am

Re: Переименование файлов

Сообщение Warfarin » Чт июн 18, 2009 12:09 am

Yojik21 писал(а):Поэтому я даже перед индексированием навожу порядок. Хоть это и занимает почти все свободное время (это огромный минус).
Ага, времени отнимает прилично, зато потом еще долго-долго радует глаз и греет душу
Как говорят в спорте "порядок бьет класс" :)

Аватара пользователя
amge
Сообщения: 2021
Зарегистрирован: Вт июл 31, 2007 11:42 am

Re: Переименование файлов

Сообщение amge » Чт июн 18, 2009 6:46 am

Yojik21 писал(а):amge, Оно то так - это большая экономия времени, но не хочется этот каталог превращать в большую мусорку, тем более когда независимо складывают несколько человек.
Очень скоро будет громадное количество повторов (в том числе и в индексе), а нераспознанные вообще потеряются и будут только место занимать, да и приятнее, когда все структурировано.
Поэтому я даже перед индексированием навожу порядок. Хоть это и занимает почти все свободное время (это огромный минус).
На самом деле, из Ваших доводов безусловно могу принять только один: да, приятнее, когда все структурировано.
Громадное количество повторов (на самом деле не громадное, но действительно изрядное) -- с этим бороться совсем легко: есть программы (сам такую делал, это легко), удаляющие дубли (идентичные файлы с разными названиями). Запускать такую программу, скажем раз в неделю (по крону, разумеется) -- и нет проблемы. Остаются, правда, одинаковые по смысловому содержанию, но разные как файлы документы, но, как показывает практика, если речь идет о научных статьях, таких почти нет. PDF-ок без текста тоже очень мало (существенно меньше 1%), к отсканированным статьям почти всегда приложен OCR. Опять же, документы без текста легко автоматически выявлять и перебрасывать а специальную поддиректорию, а потом вручную (их единицы на тысячу) переименовать (индексация идет и по названиям файлов тоже).

Хотя идея выкусывать DOI и затем брать название из интернета смотрится привлекательно. Тоже попробую на досуге.

Maxis
Сообщения: 399
Зарегистрирован: Вс янв 18, 2009 11:05 pm

Re: Переименование файлов

Сообщение Maxis » Чт июн 25, 2009 3:18 pm

A-PDF Rename is an utility program that lets you batch rename multiple PDF document based on content, metadata and file attributes within PDF files. You can batch update multiple PDF files metadata(title, author, subject and keywords) as well as.

http://www.a-pdf.com/rename/index.htm

Аватара пользователя
terrachem
Сообщения: 423
Зарегистрирован: Чт окт 27, 2005 10:58 pm

Re: Переименование файлов

Сообщение terrachem » Пт авг 21, 2009 2:27 am

Marxist писал(а):Изображение
название фрейма радует, хоть затер бы.
Если Госнаркоконтроль сделает подотчетными молоко (в нем варят анашу), воду (растворяют морфин) и воздух (азот и кислород прекурсоры наркотика закись азота), то сбудется великая мечта российской науки....она наконец то сдохнет :mrgreen:

Аватара пользователя
terrachem
Сообщения: 423
Зарегистрирован: Чт окт 27, 2005 10:58 pm

Re: Переименование файлов

Сообщение terrachem » Пт авг 21, 2009 2:41 am

Maxis писал(а):A-PDF Rename is an utility program that lets you batch rename multiple PDF document based on content, metadata and file attributes within PDF files. You can batch update multiple PDF files metadata(title, author, subject and keywords) as well as.

http://www.a-pdf.com/rename/index.htm
....скачад, впечатляет. Сразу отметить хочу - не работает с pdf где страницы вставлены ввиде нередактируемых картинок.
Если Госнаркоконтроль сделает подотчетными молоко (в нем варят анашу), воду (растворяют морфин) и воздух (азот и кислород прекурсоры наркотика закись азота), то сбудется великая мечта российской науки....она наконец то сдохнет :mrgreen:

Аватара пользователя
antabu
Сообщения: 5929
Зарегистрирован: Пн май 25, 2009 7:00 pm

Re: Переименование файлов

Сообщение antabu » Пт авг 21, 2009 12:10 pm

Для ускорения поиска текста в pdf файлах попытался использовать виндовую службу индексирования, но не смог зарегистрировать фильтр. Пришлось индексировать вручную - тупо извлекать текст из этих файлов так, чтобы полученные txt с тем же названием располагались в папке с исходным pdf. Поиск текстовых файлов по ключевым словам внутри папки проходит во много раз быстрее, чем среди pdf. Когда txt файл с заданным текстом найден, достаточно открыть вьювером соответствующий ему pdf и продолжить поиск слова его средствами внутри файла. Из проверенных мною просмотрщиков быстрее всех находит Foxit Reader, но он имеет баг - поиск кириллицы чувствителен к регистру букв. PDFXVwer не имеет этого бага, но ищет медленнее. Gsview критичен к правильности файла.
Конвертеры из прилагаемого набора работают из командной строки, поэтому каждый файл приходится обрабатывать отдельно. Но я придумал способ, как обработать группу файлов. Надо один раз создать bat файл, например, на 99 файлов и использовать его можно многократно. Содержание bat файла может быть, например, таким:
gettext 01.pdf 01
gettext 02.pdf 02
.
.
.
gettext 99.pdf 99
Дальнейшие действия с помощью Total Commander напоминают танец с бубнами.
Надо создать временную папку, скопировать туда индексируемые pdf файлы, конвертер и созданный bat файл. Групповым переименованием заменить названия исходных файлов на номера от 01.pdf. Затем запустить батфайл. После того, как будут получены все выходные текстовые файлы без расширений, надо открыть второе окно коммандера и в нём удалить из временной папки все исходные pdf, а полученным текстовым файлам групповым переименованием присвоить расширения pdf. После этого перейти в первое окно коммандера и произвести откат группового переименования. В результате имеем текстовые файлы с именами исходных файлов и расширениями pdf. Остаётся заменить расширения на txt и забросить их в папку к исходным файлам.
Естественно, файл, из которого извлекается текст, должен иметь текстовый слой. Если он на кириллице, могут быть проблемы с кодировками. Откройте пдф Фокситом и перейдите в режим просмотра текста. Если он отображается неправильно, скорее всего извлеченный текст не будет читаться. В таком случае иногда помогает перекодировщик pdf-recode.exe. Работает из командной строки и не требует указания выходного файла - им будет pdf, помеченный плюсиком, поэтому для перекодирования группы файлов можно временно назначить ассоциацию этой программы с pdf и открывать эти файлы через неё двойным кликом. А иногда помогает конвертер pdftotext.exe с задокументированным файлом xpdfrc.txt. В других случаях (если кодировка правильная) расширение .txt от этого файла следует удалить. pdftotext.exe тоже не требует указания выходного файла в командной строке и может работать с pdf «Открыть с помощью». Выходной текстовый файл от него будет в кодировке UTF-8. Вообще, представленные конвертеры имеют каждый свои особенности. IFilter требует .Net Framework 2.0+ и я с ним не работал. gettext работает субъективно быстрее и текстовый файл получается в кодировке ANSI. Для извлечения текста из djvu, если он там есть, используется djvutxt.exe, но имена файлов должны быть на латинице. Кодировка в выходном файле остаётся той же, что была в исходном файле, но при поиске внутри файла при помощи WinDjView1.0, он не находит кириллицу в кодировке ANSI (Windows).
2txt.zip
"Я не видел людей страшней, чем толпа цвета хаки"

Аватара пользователя
antabu
Сообщения: 5929
Зарегистрирован: Пн май 25, 2009 7:00 pm

Re: Переименование файлов

Сообщение antabu » Пн сен 07, 2009 9:16 am

Для поиска у Microsoft есть продукт Windows Searсh
http://www.microsoft.com/downloads/deta ... layLang=ru
Сам не пользовался.
Для поиска по журналу "Химия и Жизнь" имею извлечённые тексты (кодировка - ANSI), если кому надо - пишите куда залить. Упакованные в zip весят 72 метра, в 7z - 53 метра. Сами номера до 2007 года можно скачать с либрусека.
"Я не видел людей страшней, чем толпа цвета хаки"

birg77out
Сообщения: 24
Зарегистрирован: Пт авг 19, 2011 6:52 pm

Re: Переименование файлов

Сообщение birg77out » Ср мар 08, 2017 6:52 pm

Ссылка на скачивание в первом посте темы не рабочая.

Penicillin
Сообщения: 149
Зарегистрирован: Вт май 25, 2010 11:37 pm

Re: Переименование файлов

Сообщение Penicillin » Вт май 04, 2021 2:37 pm

Could someone kindly reupload this software? Would this software work to rename pdfs for example "doi.pdf" -> pp.pdf?

Ответить

Вернуться в «обмен книгами, статьями, программами»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 15 гостей