Android Crawler сбор новостей фреймворк

Android Crawler — это программа для сбора данных, использующая Retrofit + OkHttp + RxJava + EventBus + GreenDAO + Jsoup + Material Design. Проект вдохновлен webmagic-фреймворком для пауков и реализован с использованием RxJava.

Сборка сайтов

Проект "Идти вперед", сайт новостей
http://fec.mofcom.gov.cn/article/fwydyl/zgzx/

Благодарность за открытый проект (используемые фреймворки)

Возможности

Использование сервиса Android Foreground Service для повышения приоритета и предотвращения освобождения памяти устройством, а также для работы в фоновом режиме.
Использование интерфейса для сбора данных, что позволяет расширять различные правила сбора данных.

Документация

Далее приведены примеры, которые можно адаптировать под свои нужды:``` Обратите внимание на изменение файла gradle/wrapper/gradle-wrapper.properties, `distributionUrl=file:///D:/android/gradle/gradle-2.14.1-all.zip`. Замените его на свой локальный путь к Gradle.


### Проектирование базы данных

**Столбец article**

public class Article { private String title; private String content; private Date time; // раздел private String column; @Id private String url; }


Используется `url` как первичный ключ для отслеживания того, был ли уже собран данный URL.

### Фреймворк для сбора данных

Основной идеей является разделение задач на `schedule` и `processor`.

- `Schedule` отвечает за предоставление URL, в данном примере это страница списка статей, которая возвращает массив URL статей. При реализации `schedule` можно определять поля для сбора информации, а также поддерживать текущую страницу списка. Когда `spider` требует больше URL, он возвращает массив URL. Если список страниц не имеет следующей страницы, `spider` может быть активно остановлен.

- `Processor` анализирует HTML и передает данные `pipeline` для выполнения других задач, таких как сохранение данных в базе данных.
  
  ├── `ISpider.java`
  ├── `Spider.java`
  ├── `SpiderListener.java`
  
  ├─`pipeline`
  │      `GreenDaoPipeline.java`
  │      `IPipeline.java`
  
  ├─`processor`
  │      `ContentProcessor.java`
  │      `IContentProcessor.java`
  │      `IUrlProcessor.java`
  │      `ListProcessor.java`
  
  └─`schedule`
      `CommonSchedule.java`
      `ISchedule.java`**ISpider** — класс управления сборкой данных  
**IContentProcessor**, **IUrlProcessor** — парсеры содержимого HTML  
**ISchedule** — предоставляет очередь URL; при отсутствии URL может активно остановить текущий spider  
**IPipeline** — обеспечивает долговременное хранение данных, записывает данные в базу данных и т.д.Дополнительные сведения см. в документации реализации Spider.

## JavaScript для извлечения JSON строки категории
Перейдите на [сайт](http://fec.mofcom.gov.cn/article/fwydyl/zgzx/) и введите следующее в консоли разработчика:

```js
function getList() {
	var arr = [];
	$('dl.menu').find('dd').each(function () {
		var $this = $(this);
		var text = $this.text();
		var href = $this.find('a').attr('href');
		var node = {};
		node.text = text;
		node.href = href;
		arr.push(node);
	});
	return JSON.stringify(arr);
}
getList();

Результат:

[
  {
    "text": "Политические документы",
    "href": "/article/fwydyl/zcwj"
  },
  {
    "text": "Статистические данные",
    "href": "/article/fwydyl/tjsj"
  },
  {
    "text": "Связанные новости",
    "href": "/article/fwydyl/zgzx"
  }
]

Лицензия

Программа распространяется на условиях лицензии GPL. Подробнее см. основной код проекта.## Дополнительные материалы

Android Service

Полное объяснение Android Service, всё что вам нужно знать о сервисах (часть 1)
http://blog.csdn.net/guolin_blog/article/details/11952435/
Обзор привязки сервиса
http://www.cnblogs.com/feike/archive/2013/01/03/2843023.html
Android_Service(2): сервисы впереди и удалённые сервисы
http://blog.csdn.net/Two_Water/article/details/52084372?locationNum=7
Определение состояния работы сервиса в Android
http://www.cnblogs.com/WebGiant/p/5879541.html
Обзор фонового сервиса загрузки в Android (часть 1)
http://www.2cto.com/kf/201311/255692.html
Как Android Service обновляет UI Activity
http://blog.csdn.net/fengqiangfeng/article/details/7578264
Способы взаимодействия программы с сервисом в Android — методы взаимодействия
http://blog.csdn.net/yihongyuelan/article/details/7216188
Подробное описание и полное обобщение Android Service (startService, bindService)
http://forlan.iteye.com/blog/2260828
Различие между startService и bindService в Android Service
http://blog.csdn.net/zhuangyalei/article/details/47083279

OSCHINA-MIRROR/chinagtech-zouchuqu_crawler_app

Android Crawler сбор новостей фреймворк

Сборка сайтов

Благодарность за открытый проект (используемые фреймворки)

Возможности

Документация

Лицензия

Android Service

Комментарии ( 0 )

Введение

Обновления (1)

Участники

Недавние действия

OSCHINA-MIRROR/chinagtech-zouchuqu_crawler_app .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

Android Crawler сбор новостей фреймворк

Сборка сайтов

Благодарность за открытый проект (используемые фреймворки)

Возможности

Документация

Лицензия

Android Service

Комментарии ( 0 )

Введение

Обновления (1)

Участники

Недавние действия

OSCHINA-MIRROR/chinagtech-zouchuqu_crawler_app