1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/secondriver-tangshi-analyze

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

Программа анализа танковых стихотворений

1. Введение

Программа анализа танковых стихотворений основана на сборе данных с интернет-ресурсов, очистке, хранении, анализе данных и формировании отчетов.

2. Обзор

С развитием Java появились возможности потокового обработки данных (Stream) и методы работы с данными, что стало популярной областью развития в сфере информационных технологий. Изучение простого сбора, очистки, хранения и анализа данных позволяет понять базовый процесс работы с данными.

3. Цели

  • Понимание базовых процессов работы с данными
  • Ознакомление с методами анализа данных
  • Улучшение навыков применения технологии для решения задач

4. Исходные данные

Данные собираются с сайта Классический китайский поэзия.

5. Функциональность

  • Сбор, очистка и хранение данных
  • Анализ данных и визуализация результатов

6. Технологии

  • Потоковое обработка данных (Stream)
  • Разбиение текста на слова и решение связанных задач (ansj)
  • Многопоточность
  • Парсинг веб-страниц (htmlunit)
  • Базы данных и программирование JDBC
  • Визуализация данных (HTML/CSS/JavaScript, echarts, jQuery)
  • Spring Boot для быстрой разработки web приложений и управления объектами и конфигурациями

7. Реализация

8. Результаты анализа

  • Количество созданных стихотворений по авторам

  • Область слов для танковых стихотворений

9. Запуск программы

  • Создание пакета mvn package -Dmaven.test.skip=true создаёт исполняемый файл target/tangshi-analyze-1.0.0.jar.
  • Конфигурирование application.properties
  • Запуск — без запуска парсера java -jar tangshi-analyze-1.0.0.jar
  • Запуск — с запуском парсера java -jar tangshi-analyze-1.0.0.jar crawler-run

10. Участие в разработке

  • Получение исходного кода
    • git clone https://gitee.com/secondriver/tangshi-analyze.git
    • cd tangshi-analyze
  • Импорт базы данных
    • mysql -u имя_пользователя_базы_данных -p
    • source tangshi/tangshi.sql
  • Настройка конфигураций
    • src/main/resources/application.properties
    • spring.datasource.username=имя_пользователя_базы_данных
    • spring.datasource.password=пароль_пользователя_базы_данных
  • Разработка функциональности
    • src/main/java/com/bittech/tangshianalyze/TangshiAnalyzeApplication входная точка программы
    • src/main/java/com/bittech/tangshianalyze/crawler часть парсера
    • src/main/java/com/bittech/tangshianalyze/analyze анализ данных
    • src/main/java/com/bittech/tangshianalyze/web Web интерфейсы

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Программа анализа танских стихов в основном предназначена для сбора танских стихов из интернета, последующей очистки данных, их хранения, анализа и формирования отчётов. Развернуть Свернуть
Unlicense
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/secondriver-tangshi-analyze.git
git@api.gitlife.ru:oschina-mirror/secondriver-tangshi-analyze.git
oschina-mirror
secondriver-tangshi-analyze
secondriver-tangshi-analyze
master