LinkProcessor-2015
версия:4.3.1 (3 декабря 2016)
интерфейс: русский
совместимость: Windows XP,
Windows 7
размер: 1.5 Мб
Описание программы
В новой версии программы добавлен функционал, позволяющий загружать файлы по прямым ссылкам, а не только html-страницы.
Также был добавлен модуль, который позволяет извлекать из текста ссылки по определённому шаблону, с помощью него можно, например, вытащить все прямые ссылки на изображения со страницы поиска Гугла по картинкам, чтобы закачать их все сразу менеджером загрузок.
LinkProcessor-2015 может скачивать страницы и сохранять их со всем содержимым: картинками, стилями css и внешними файлами javascript, как это делается в браузерах, - для каждого html-файла создается индивидуальная папка, где расположено соответствующее содержимое страницы. Кроме того, все относительные URL автоматически заменяются на полные, поэтому из сохраненной страницы можно всегда перейти по внешней ссылке, что очень удобно в большинстве случаев. Еще программа встраивает в каждую страницу ссылки для навигации на другие загруженные страницы("первая","последняя",
"вперед","назад"), поэтому, если вы сохранили раздел интересующего вас сайта, состоящий из множества страниц, то при просмотре не придется всякий раз открывать каждую страницу отдельно. Также в директории, куда сохранялись страницы, создаётся файл оглавления index.htm со ссылками на все страницы. Далее весь этот набор страниц
можно объединить в стандартный файл справки, - в программу теперь встроен компиллятор chm-файлов.
Начиная со второй версии программы, добавлена возможность сохранения ссылок в обычном виде,типа http://site.com/folder/page.html без html-тегов <a href=''..........>название ссылки</a> ,то есть,теперь мы имеем простой список со ссылками, который может быть использован в другой программе,либо в самом LinkProcessor'е,в этой версии в программе появился собственный модуль загрузок для скачивания страниц
Программа предназначена для извлечения URL (ссылок) из html страниц,сохраненных на жёстком диске. Для начала,клавишей выбора папки выбираем директорию,где находятся html страницы и нажимаем клавишу ОБРАБОТАТЬ ФАЙЛ(Ы)
Будет произведено сканирование всех файлов в папке,и все найденные ссылки будет предложено сохранить в один файл (по умолчанию - Links.htm) .Программа сканирует файлы в указанной папке с расширениям *.html, *.htm, *. txt и *.php ; если у файлов другие расширения, их следует переименовать, модуль для пакетного переименования файлов имеется в самой программе.
LinkProcessor может извлекать из документов как все найденные ссылки, так и фильтровать их в соответствии с заданными фильтрами-в результате- в конечный файл будут записаны только те url,в которых встречаются те символы или строки,которые были выбраны,а все остальные ссылки будут игнорированы. Полученный список url можно открыть из программы в Notepad' е для дальнейшего редактирования стандартными средствами,или открыть в браузере. Чтобы открыть папку куда был сохранён список ссылок,пользуемся клавишей НАЙТИ ФАЙЛ
Программу можно использовать также для объединения множества разрозненных текстовых/html файлов в один,для этого ставим галку в чекбоксе ОБЪЕДИНИТЬ ВЕСЬ ТЕКСТ и убираем галку ДОБАВЛЯТЬ ПЕРЕВОД СТРОКИ чтобы программа не дописывала тег <br> в конец строки, который используется для форматирования списка ссылок. При этом не имеет значения,какие фильтры заданы,из обрабатываемых файлов будут записываться любые строки и весь текст полностью будет слит в один файл.
ФИЛЬТРЫ СТРОК
LinkProcessor ищет ссылки,анализируя строки,содержащиеся между тегами <a href=******* >*название_ссылки * </a>. Чтобы вытащить ссылки содержащие только какую-либо определённую строку задаём фильтр,из искомой строки и групповых символов. Групповые символы - это символ звездочки '*' и знак вопроса '?'. Звездочка означает любое количество допустимых символов, а '?'- любой одиночный символ.Причём,текст в названии ссылки также анализируется и может быть задан в фильтре поиска. Например задан фильтр *showtopic* ,и программа найдёт все ссылки вида
http://4pda.ru/forum/index.php?showtopic=343700
http://4pda.ru/forum/index.php?showtopic=394344
илифильтр *.jpg
http://wallpapers.com/comps/ image1230 .jpg
http://wallpapers.com/comps/logo_3D .jpg - эти ссылки будут найдены
а вот такие:
http://wallpapers.com/nature/wall_4523 .jpg?getfile.php - будут пропущены. (тут после .jpg есть еще символы,а звёздочка не поставлена!)А это пример,как будет работать фильтр с использованием символа '?'
фильтр задан: *.jp?ghttp://veterock.host.sk/logo.jpeg - эта ссылка будет найдена
http://veterock.host.sk/logo.jpg - эта ссылка будет проигнорирована.
фильтр задан: *My??ass*
http://veterock.host.sk/ docs/MyClass.rar
http://veterock.host.sk/ docs/MyGrass.zip -будут найдены обе ссылки, два знака '?' подразумевают здесь,что в фильтре-шаблоне находятся два любых символа подряд.
если задан фильтр: *загрузить* будут найдены все ссылки вида < a href="http://server.com/some_file.ext"> загрузить что-то там .Все фильтры - регистронезависимы,строчные, или прописные символы - значение не имеет.
Вместе с фильтром поиска нужной строки можно использовать дополнительный отсеивающий фильтрон работает так:
если находится строка соответствующая условию поиска, но содержащая также строку,заданную во втором, исключающем фильтре,то эта ссылка не будет записана в конечный файл, пример:
фильтр совпадений: *pictures*jpg
фильтр исключений:*thumbnail*
из этих двух ссылокhttp://wallpapers.com/pictures /downloads/Background_023.jpg
http://wallpapers.com/ pictures /downloads/thumbnail-Background_023. jpg
будет записана только первая, не содержащая запретного слова thumbnailФильтр исключений настраивается точно также, с использованием групповых символов. По умолчанию он выключен,и если не планируется его использовать,ничего не меняйте в его поле ввода, изначально там записана строка *ыыыыыыыыыы* - это заглушка.Не рекомендуется записывать туда строки вообще без групповых символов, или пытаться использовать этот фильтр отдельно, когда в фильтре совпадений прописано просто дефолтное значение ** - оба фильтра могут работать только в паре, иначе логика работы программы будет нарушена.
Самый оптимальный вариант -это вытащить все ссылки из страниц, используя фильтр совпадений и сохранить их в один файл, а потом в случае необходимости,пройтись по нему еще раз,подключив дополнительно фильтр исключений.
Ссылки извлеченные программой - кликабельны -html теги сохраняются.
Также имеется возможность сохранить ссылки в чистом виде без html-тегов, для этого отмечаем флажком пункт ТОЛЬКО ССЫЛКИ Фильтры поиска также работают, но поиск соответственно производится в пределах URL, поэтому рекомендуется сначала произвести выборку ссылок в html-форматеПАКЕТНОЕ ПЕРЕИМЕНОВАНИЕ ФАЙЛОВ
LinkProcessor работает с расширениями файлов *.html, *.htm, *. txt и *.php, поэтому в него дополнительно встроен
модуль для пакетного переименования файлов
Чтобы им воспользоваться,нажимаем ПЕРЕИМЕНОВАНИЕ ФАЙЛОВ, выбираем папку,по умолчанию в поле НАЧАЛЬНОЕ задана опция: любое .* убираем звёздочку (точка должна остаться!) и пишем вместо неё разрешение тех файлов, которие собирались изменить. В поле КОНЕЧНОЕ ставим нужное нам разрешение,опять же, не забывая оставить точку.
В программе также предусмотрена возможность очистки файла со списком ссылок, из него можно удалить все повторяющиеся ссылки, если их не удалось убрать при первичном сканировании страниц, с помощью фильтров
ГЕНЕРАЦИЯ ССЫЛОКВ программу также встроен модуль генерации ссылок по шаблону, который позволяет автоматически создать на одной странице список ссылок,по такому принципу ссылки генерируются движками многих форумов и новостных порталов. Такую страничку можно скормить программе-загрузчику, например FlashGet или Offline Explorer и скачать все темы какого-нибудь форума сразу, без лишнего мусора.
Страница формируется в *. txt или *.html формате, если поставлен флажок HTML. Принцип работы генератора легко понять, запустив на исполнение встроенный шаблон и просмотрев получившийся на выходе файл.
ЗАГРУЗКА СТРАНИЦС помощью LinkProcessor можно загружать страницы из интернета; жмём кнопку ЗАГРУЗКА, выбираем текстовый файл со ссылками клавишей СПИСОК. По умолчанию,страницы будут загружаться в директорию программы, можно выбрать любую другую клавишей ОБЗОР. Можно задать количество попыток,на случай ошибок скачивания (максимум 10),также можно установить интервал между скачиваниями - до 60-ти секунд, - некоторые сайты могут банить по ip из-за частых запросов.
Cкачанные файлы сохраняются с расширением *.htm с именем в виде возрастающего порядкового номера. Файлы могут быть любого типа,не только страницами, но так как эта прога предназначена в первую очередь для загрузки страниц,я не не включил в неё возможность сохранения с оригинальными расширениями - всё скачивается как *.htm. По этой же причине нет возможности скачивать с ftp://
Ccылки,которые не удалось скачать, записываются в правое окно,их можно сохранить, чтобы попытаться загрузить в другой раз.