1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/wgs123-Gwenson-robot

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

Gwenson-robot, или робот-паук

Это распределённый робот-паук, разработанный на языке JAVA. Он использует список Redis для равномерного сканирования цели и реализует удаление дублирующихся URL и контента. Удаление дублирующегося контента происходит следующим образом: сначала используется word для сегментации слов, затем simhash алгоритм для получения SimHashCode значения. После этого с помощью принципа «ящика» определяется расстояние Хэмминга, что позволяет определить степень сходства. Обратите внимание: используется JDK1.8.

[TOC]

Адрес развёртывания моего проекта

Gwenson, персональный поисковый робот

Какие технологии используются в проекте?

​ spring boot, spring data redis, jsoup, word, mybatis, spring data elasticsearch, spring mvc, bootstrap, JSP и другие.

Описание структуры проекта

Модуль common — это модуль общих инструментов и зависимостей. Его структура:

common └─src └─main └─java └─com └─gwenson └─common ├─dao │ └─redis ├─model └─utils

Модуль search-robot — это основанный на spring boot модуль робота-паука. Его структура:

search-robot └─src └─main ├─java │ └─com │ └─gwenson │ ├─controller │ ├─listener │ └─robot │ ├─cahce │ ├─config │ ├─page │ │ ├─dto │ │ ├─redis │ │ │ └─dao │ │ ├─rule │ │ │ ├─dao │ │ │ └─service │ │ │ └─impl │ │ └─service │ │ └─impl │ ├─proterty │ │ ├─model │ │ ├─redis │ │ │ └─dao └─resources ├─application.properties // запуск конфигурации ├─application-prod.properties // производственная среда ├─application-dev.properties // тестовая среда ├─blacklist.txt // чёрный список ├─whitelist.txt // белый список └─logback.xml // конфигурация журнала logback

Файлы в папке src/main/resouces модуля search-robot:

  • application.properties — необходимый файл конфигурации запуска проекта:
# порт прослушивания проекта
server.port=8081
# путь проекта
# server.context-path=/
# ссылка на конфигурацию среды, prod — производство, dev — тестирование
spring.profiles.active=prod
# класс слушателя после запуска контейнера
context.listener.classes=com.gwenson.listener.ApplicationStartup

# включить прокси IP, true — включить, false — отключить
gwensong.robot.property.start=false
# включить автоматическое сканирование прокси IP по расписанию, true — включить, false — отключить
gwensong.robot.property.autoScheduled=false
# пользовательский список путей прокси IP
# gwensong.robot.property.userDefinedPath=D:/gwenson/property.txt
gwensong.robot.property.userDefinedPath=

# количество таблиц для генерации tableId
database.table.num=64

# установить приоритет сканирования робота, scope: широкий (wide), глубокий (depth)
gwensong.robot.search.scope=depth
# настроить белый список
gwensong.robot.search.whitelistPath=/whitelist.txt
# настроить чёрный список
gwensong.robot.search.blacklistPath=/blacklist.txt

# имя пользователя контроллера web
gwenson.robot.user.username=root
# пароль контроллера web
gwenson.robot.user.password=123456
  • application-prod.properties или application-dev.properties — конфигурация среды запуска, соответствующая spring.profiles.active = prod в application.properties:
profile = prod_envrimont

# настройка кодировки tomcat, по умолчанию UTF-8
server.tomcat.uri-encoding=UTF-8
# журнал доступа tomcat
server.tomcat.accesslog.directory=/gwenson/logs/search-robot/tomcat.log

# REDIS (RedisProperties) 
# имя базы данных
spring.redis.database=0
# адрес сервера хоста redis
spring.redis.host=127.0.0.1
# пароль сервера redis
spring.redis.password=

# порт подключения  redis
spring.redis.port=6379 
# настройки пула ... 
spring.redis.pool.max-idle=8 
spring.redis.pool.min-idle=0  
spring.redis.pool.max-active=-1  
spring.redis.pool.max-wait=-1
spring.redis.timeout=100000

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Описание недоступно Развернуть Свернуть
Apache-2.0
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/wgs123-Gwenson-robot.git
git@api.gitlife.ru:oschina-mirror/wgs123-Gwenson-robot.git
oschina-mirror
wgs123-Gwenson-robot
wgs123-Gwenson-robot
master