1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/kanasimi-work_crawler

В этом репозитории не указан файл с открытой лицензией (LICENSE). При использовании обратитесь к конкретному описанию проекта и его зависимостям в коде.
Клонировать/Скачать
README.cmn-Hant-TW.md 28 КБ
Копировать Редактировать Web IDE Исходные данные Просмотреть построчно История
gitlife-traslator Отправлено 30.11.2024 04:28 fbfce7a

CeJS — инструмент для скачивания веб-романов и комиксов

Инструмент для массового скачивания романов (→ epub) с сайтов, где размещены произведения.

Быстрый просмотр

Поддержка нескольких языков

Приглашаем присоединиться к переводу интерфейса пользователя!

Язык Статус поддержки
Традиционный китайский ✔️
Упрощённый китайский ✔️
Английский ✔️
Португальский бразильский 🚧
Японский 🚧
Корейский 🚧

Поддержка операционных систем

Операционная система Статус поддержки
Windows ✔️
macOS ✔️
UNIX, Linux ✔️

Интерфейс

Интерфейс/вид Статус поддержки
GUI (графический интерфейс пользователя) ✔️
CLI (интерфейс командной строки) ✔️
API (программный интерфейс приложения) ✔️

Особенности

  • Список любимых произведений.
  • Поиск по одному ключу на разных сайтах и скачивание произведений.
  • Возможность переключения между упрощённым и традиционным китайским в романах.
  • Автоматическое скачивание обложек книг и иллюстраций внутри глав.
  • Разделение романов на части.
  • Получение изображений максимально возможного качества и автоматическая проверка целостности скачанных изображений. В случае повреждения изображения происходит повторная загрузка.
  • Поддержка различных платформ: Windows, Linux, Mac.
  • Инструмент использует библиотеку CeJS для создания краулеров, которую можно настроить и сконфигурировать. Примеры использования можно найти в документации инструмента.
  • Для комиксов после завершения загрузки можно автоматически создать сжатые файлы по главам и удалить исходные файлы изображений/очистить временные файлы. Перед каждой загрузкой будет считываться информация из сжатых файлов и обновляться только при наличии проблем с изображениями. (👉 Обратите внимание: необходимо сначала установить 7-Zip версии 18.01 или выше.)

Поддерживаемые сайты

Для романов сначала необходимо установить командную версию 7-Zip. 👉 Обратите внимание: обязательно нужно использовать 7-Zip версии 18.01 и выше, чтобы создавать романы в формате .epub и сжатые главы комиксов. Сайты с произведениями часто обновляются (меняют структуру), что приводит к сбоям в работе инструмента; если возникают проблемы с работой инструмента, пожалуйста, поймите и примите это, обычно требуется изменить исходный код, чтобы восстановить нормальную работу.

Уже написанные инструменты для веб-сайтов с романами и комиксами включают:

Японские веб-романы / японские лайт-новеллы ライトノベル 日本輕小說 日本語のオンライン小説

../novel.ja-JP/*.js, веб-страницы → epub

Сайт Файл инструмента Примечание
Альфаполис AlphaPolis.js Ограничение частоты использования. Невозможно получить арендуемые истории.
Какёму kakuyomu.js
Хаммельн Hameln.js
Почитай! yomou.js Стань писателем
Ночные новеллы noc.js Стань писателем, раздел для мужчин
Полуночные новеллы mid.js Раздел для мужчин на Стань писателем, «не содержит эротики» R18
Лунные новеллы mnlt.js Раздел для женщин на Стань писателем, R18 для взрослых

Веб-романы на упрощённом китайском / романы 中国内地小说 中国簡体字のオンライン小説

../novel.cmn-Hans-CN/*.js, веб-страницы → epub

Сайт Файл инструмента Примечание
Цедиань qidian.js Этот инструмент не может загружать контент VIP-глав
Бицюгэ
Бицюгэ
Бикьюке
Бицюгэ.cc
Бицюгэ.so
Новый Бицюгэ
archive/biquge.js
biqugse.js
xbiquke.js
xbiquge.cc.js
xbiquge.so.js
archive/xbiquge.js
Серия PTCMS
Баи один китайский веб архив/81xsw.js Последняя успешная загрузка контента этого сайта: 2019/1/12. Система PTCMS.
Новый Баи один китайский веб x81zw.js Система PTCMS
Баи один китайский веб zwdu.js Система PTCMS
Восемь восемь читай веб 88dus.js Возможно, PTCMS?
Вершина романа архив/23us.js
архив/23us.com.js
PTCMS? Много пустых/бессмысленных глав. Последнее подключение 29.02.2020
Вершина романа booktxt.js PTCMS
Вершина романа архив/23us.2018.js WMCMS (Weimeng CMS, система управления контентом Weimeng) (неизвестная система управления веб-романами) или PTCMS? С 23:56 09.12.2018 последнее подключение
Роман любви http://www.630book.la/ PTCMS
Бики китайский веб biqizw.js PTCMS
Дымный роман ecxs.js PTCMS? Возможно, ошибки в главах.
Смотри книги, божественный сайт kanshushenzhan.js Некоторые главы были обрезаны. Система Jieqi Web Novel Serialization System
Аромат цветов huaxiangju.js Jieqi Web Novel Serialization System В интернете есть много сайтов с информацией на эту тему. Посмотрите, что нашлось в поиске
--- --- ---
archive/duoduomh.js 採用圣樱漫画管理系统 MHD模板。 Последняя успешная попытка подключения — 23 октября 2019 года.
36漫画网 archive/36mh.js 採用圣樱漫画管理系统 MHD模板。
733漫画网 archive/733mh.js Иногда не удаётся прочитать данные. Содержимое 733mh и 733dm похоже... Возможно, это ранняя версия системы «Цинтяньманьхуа», или [система «Цинтяньсиньманьхуа»][1], или шаблон 3.
50漫画网 archive/50mh.js Последняя успешная попытка подключения — 12 августа 2020 года в 19:58. Используется шаблон DMZJ системы [на основе «Священной сакуры»] и CryptoJS для шифрования.
Oh漫画 archive/ohmanhua.js Используется защита от атак сервиса Cloudflare. Ранее — ONE漫画 (https://www.onemanhua.com/).
哦漫画 archive/omanhua.js Последняя попытка подключения была успешной 3 июля 2019 года в 5:04.
热漫吧 archive/remanba.js С 27 декабря 2016 года в 14:42 последняя попытка подключения была успешной, но с полудня начались проблемы с подключением, которые продолжались до 11 июня 2018 года и не были решены.
三七阅读 archive/37yue.js После последнего успешного подключения 9 июня 2017 года с 10 июня начались проблемы с подключением (404), которые продолжались до 11 июня 2018 года и не были решены.
爱漫画 archive/2manhua.js Многие работы не обновлялись с 3 сентября 2017 года. Последнее успешное подключение было 16 мая 2017 года в 4:43, после чего до 11 июня 2018 года не было восстановлено.
漫画台 archive/manhuatai.2018.js В период с 25 по 28 мая 2019 г. произошли изменения, масштаб изменений был слишком велик, и сайт начал взимать плату, поэтому он больше не поддерживается.
漫画看 mhkan.js Проблемы с трубами? Часто зависает, при загрузке изображений часто возникает статус 522, им трудно пользоваться.
爱看漫画网 ikmhw.js Больше корейских комиксов. Система похожа на tohomh.js. Скорость отклика API для загрузки изображений намного ниже, чем у «Тухаоманьхуа». Похоже, что контент собирается автоматически? Есть небольшое количество отсутствующих изображений и беспорядка.
360漫画 360taofu.js Все последующие разделы были перенесены на 76.js после ноября 2019 года. Есть ограничения по частоте. Некоторые комиксы имеют более высокое качество, но на этом сайте слишком много отсутствующих изображений, беспорядка и пропущенных слов.
网易漫画 archive/163.js С 13 июля 2017 г. этот инструмент не может загружать платный VIP-контент. Сервис был окончательно остановлен 31 декабря 2019 года в 12:00. Большая часть контента была перенесена на [Sina Finance].
76漫画 archive/76.js Последнее успешное подключение — 16 ноября 2019 года в 5:20.
土豪漫画 archive/tohomh.js Невозможно подключиться. Система похожа на dm5.js.
乙女漫画 archive/nokiacn.js Последнее успешное подключение — 15 сентября 2020 года в 6:04. Больше японских комиксов. У некоторых отсутствуют изображения.
知音漫客 archive/zymk.js Похоже, все данные «Знай свой комикс» были перенесены в «Смотри комиксы» (kanman.js). Исполнение

Если вы хотите использовать графический пользовательский интерфейс, выполните work_crawler-master в каталоге start_gui_electron.bat или start_gui_electron.sh.

Все операции должны выполняться в каталоге с инструментами через командную строку.

  1. Убедитесь, что у вас есть название сайта и произведения. Затем в командной строке выполните: (поместите название произведения в кавычки)

    node инструмент.js "название" [option=true] [option=value]
    node инструмент.js "l=имя файла со списком произведений" [option=true] [option=value]

    Например:

    cd comic.cmn-Hans-CN && node qq.js "狐妖小红娘" skip_error=true
    cd novel.cmn-Hans-CN && node free && echo "скачивание бесплатных произведений с сайта 起点中文网"
    cd novel.cmn-Hans-CN && node 23us "斗罗大陆Ⅲ龙王传说" proxy=localhost:8080
    cd comic.cmn-Hans-CN && node 2manhua "大主宰" recheck=true
    cd comic.cmn-Hans-CN && node ikanman "l=ikanman.txt" recheck=true
    cd novel.cmn-Hans-CN && node 630book "267" && echo "через id"
    cd novel.ja-JP       && node yomou "転生したらスライムだった件"

    Выполнение команды в командной строке

  2. Скачанные файлы будут помещены в каталог, указанный в файле конфигурации work_crawler.configuration.js в разделе global.data_directory. Если вы используете метод «ленивой установки» (#метод ленивой установки), то по умолчанию они помещаются в каталог с распакованными инструментами.

  3. Этот инструмент будет последовательно загружать каждый раздел. Для комиксов в основном загружается каждая картинка из каждого раздела параллельно. Нельзя параллельно загружать одно и то же произведение с одного и того же сайта, иначе возникнет конфликт. Если вы хотите параллельно загружать разные сайты или разные произведения, вам нужно открыть ещё одну командную строку для запуска инструмента.

  4. В случае ошибки просто повторите попытку, чтобы продолжить загрузку.

Получение файлов cookie из браузера

  • Если у вас уже есть учётная запись и вы хотите сделать резервную копию на всякий случай, вы можете использовать функцию файлов cookie для имитации входа в систему. Сначала войдите в браузер, откройте страницу отладки браузера и скопируйте файлы cookie в этот инструмент.

    Получение файлов cookie из браузера

Рабочий процесс

  • Этот инструмент загрузит указанные комиксы в определённый каталог (по умолчанию это имя инструмента, например qq), каждый комикс в свой собственный каталог.

    Папка

  • По умолчанию каждый раздел представляет собой сжатый файл.

    Папка внутри работы — по умолчанию каждый раздел является сжатым файлом

  • Если установлено не сжимать разделы изображений, каждый раздел будет отдельной папкой.

    Папка внутри работы — каждый раздел является отдельной папкой

    Папка внутри раздела

  • При продолжении загрузки загрузка будет начинаться с последнего загруженного раздела.

    Продолжение загрузки

  • Если загружаются романы, они будут упакованы в формат epub, который можно импортировать в calibre.

    Романы → список epub

    Романы → epub

Удаление

  • Если вы использовали пакет установки, используйте стандартные методы удаления операционной системы или интерфейс удаления. В противном случае, чтобы удалить этот инструмент, просто сделайте резервную копию ранее загруженных комиксов, а затем удалите всю папку с распакованным инструментом.
  • Папки с загруженными файлами комиксов (папки с изображениями и файлами журналов) необходимо удалить вручную.

Часто задаваемые вопросы

Как начать загрузку с определённого раздела?
  • Используя командную строку, вы можете использовать параметры start_chapter и recheck, чтобы выбрать раздел для начала загрузки.

    Пример команды: node qq название start_chapter=20 recheck

  • В графическом интерфейсе в правом меню «Параметры загрузки» должна быть опция «start_chapter: начало/продолжение загрузки номера раздела».

    Введите номер раздела, затем укажите start_chapter в верхней части recheck и нажмите кнопку «Начать загрузку», чтобы продолжить загрузку.

В папке данных с изображениями или электронными книгами есть файлы, которые не являются изображениями или книгами.
  • Эти файлы JSON используются для записи состояния выполнения программы. Их можно удалить, но если загрузка часто продолжается, это может повлиять на работу программы. Например, необходимо будет повторно искать произведения, проверять состояние загрузки и т. д.

Ошибка при сканировании!

Вероятно, это связано с использованием CeJS-библиотеки «Пакет горы и пакет моря», в которой используются некоторые функции, специально предназначенные для работы с файлами, такие как FileSystemObject, объект WScript. Программа ежедневно проходит тестирование, и загрузка комиксов и романов не использует эти функции, так что вы можете быть спокойны.

Можно ли размещать в каталоге произведений файлы, не связанные с ними?

Файлы, не имеющие отношения к произведениям, могут быть размещены в каталоге произведений, и это не повлияет на работу инструмента.

Примечания

  • Приглашаем энтузиастов присоединиться к разработке и улучшению этого инструмента, а также к расширению веб-сайта!
  • Для уже включённых режимов загрузки обычно требуется от 2 до 4 часов для добавления или обновления инструментов загрузки, чтобы достичь начального рабочего состояния.
  • Загрузка романов осуществляется в однопоточном режиме, чтобы избежать чрезмерной нагрузки на сайт. Комиксы загружаются многопоточно по разделам: после завершения загрузки изображений одного раздела начинается загрузка следующего.
  • Если возможно, вы должны проверить и поддерживать программное обеспечение, которое вам нужно.

Цель

  • Продемонстрировать, как использовать сетевую библиотеку для сканирования веб-сайтов (module) CeJS для массовой загрузки веб-сайтов с романами и комиксами.
  • Показать структуру веб-сайтов романов и комиксов на момент написания программы.
  • Предоставить функцию автономного просмотра романов и комиксов, чтобы улучшить опыт индивидуального просмотра и контролировать среду просмотра.
  • Увеличить контроль над правами чтения, чтобы предотвратить временные проблемы с подключением к веб-странице или невозможность найти произведения, которые были просмотрены в памяти через несколько десятилетий.

Мы будем рады получить отзывы и предложения по улучшению.

Объявление

  • ⚠ Этот инструмент предназначен только для обучения и исследований, строго запрещено распространять или использовать его в любых коммерческих или незаконных целях! Пожалуйста, используйте этот инструмент с осторожностью. Авторские права на скачанный или разделённый контент принадлежат первоначальному автору, пожалуйста, не публикуйте и не распространяйте его. Мы не несём ответственности за любые споры или убытки, вызванные использованием этого инструмента.

Свяжитесь с нами

Свяжитесь с нами на GitHub.

logo

Опубликовать ( 0 )

Вы можете оставить комментарий после Вход в систему

1
https://api.gitlife.ru/oschina-mirror/kanasimi-work_crawler.git
git@api.gitlife.ru:oschina-mirror/kanasimi-work_crawler.git
oschina-mirror
kanasimi-work_crawler
kanasimi-work_crawler
master