DataHubble

介绍

DataHubble是一种面向大数据交互式分析的智能交互向导系统，集成了列推荐、可视化推荐、方法推荐、用户兴趣分析等多个智能推荐模块接口，为大数据交互式分析提供智能交互向导。

依赖环境

Java 1.8
Mysql 5.7
hadoop 2.9.2
spark 2.4.5
zookeeper 3.4.14
Hive 3.1.2
kylin 2.6.6
anaconda 2.5.0.0
python 2.7 10.other dependencies in 配置说明文档.pdf

部署时可参考：配置说明文档.pdf

主要文件

DataHubble主要包含文件：（1）前端 html 文件夹（2）后端 datahubble_spark文件夹（3）配置说明文档.pdf（4）DataHubble接口文档.md。核心代码位于datahubble_spark/datahubble-core

使用说明：后端jar包部署

  下载代码 git clone https://toscode.gitee.com/daslab/DataHubble.git

 在datahubble_spark目录下面修改全局变量 ip 地址为master或自己的ip地址，修改数据库名,修改表名

（1）注意 anaconda 版本和本机版本的对应 smartinteraction.py3env.path = /root/anaconda3/envs/py3.6/bin/python3

(2) 在 DataHubble/ datahubble_spark / datahubble-core / src / main / java / com / daslab / datahubble / kylin / KylinExecutor.java文件中

private Connection conn;
private Driver driver;
private String user = "ADMIN";
private String pwd = "KYLIN";
private String url = "jdbc:kylin://master:7070/Daslab";
private JSONArray Schema;

jdbc:kylin:// master:7070/bigbench_10t bigbench_10t是kylin里project名字修改为对应的 project 名

```
 将 SparkExecutor.scala中
```

.config("spark.sql.warehouse.dir", "hdfs://master:9000/hive/warehouse/ 改为对应路径的位置如： .config("spark.sql.warehouse.dir", "hdfs://master:9000/hive/warehouse/bigbench_100g.db")

```
将PCA_RandomForest.Py
```

args = ["path", "10.141.212.155", 10010, "", "", "bigbench_1t_sample", "websales_home_myshop_10000"] 修改为对应的 ip 数据集数据库 args = ["path", "10.141.212.155", 10010, "", "", "bigbench_100g", "websales_home_myshop"] kylin_util = KylinUtil('master', '7070', 'ADMIN', 'KYLIN', 'bigbench_100g')

```
  将：HiveConfig.java
```

conn = DriverManager.getConnection("jdbc:hive2://" + MASTER + ":10010/bigbench_10t_sample;auth=none"); 改为： conn = DriverManager.getConnection("jdbc:hive2://" + MASTER + ":10010/bigbench_100g;auth=none"); 对应的数据库名：例如bigbench_100g

若仍有报错原代码可修改为 conn = DriverManager.getConnection("jdbc:hive2://localhost:10010/bigbench_100g;auth=none");

```
mvn打jar包 mvn clean package 
```

打包 smartinteract-core 目标文件夹在 DataHubble/datahubble_spark/datahubble-core/target

anaconda 切换 环境为 py2.7  conda activate py2.7

```
上传jar包  mv XXX.jar XXX-6.2 jar 
```

输入运行命令：nohup /usr/local/spark/bin/spark-submit --master spark://localhost:7077 --class com.daslab.smartinteract.SpringBootApp --driver-memory 8g --executor-memory 8g --total-executor-cores 16 smartinteract-core-0.0.1-SNAPSHOT.jar  > /home/scidb/nohup.out &

将 ipconfiguration.txt 放在root 下  其内容为主机地址

jps 查看 sparksubmit 进程是否存在  后端部署，查看日志 vim /usr/local/apache-kylin-2.6.6-bin-hadoop3/logs/kylin.log

确认报错。在mysql 中创建一个用户 insert into users(uid,category,password,username,created_at,updated_at) values('1','Home & Kitchen','123','user1','2020-09-28 09:22:19','2020-09-28 09:22:19'); 在mysql 中创建 rangetable表

接口文档：

接口文档中详细介绍了本项目对外开放的六个接口，用户可参照其中的示例说明，轻量、方便地体验我们的项目功能。详情请见DataHubble接口文档.md。

OSCHINA-MIRROR/fastDataAnalysis-DataHubble

DataHubble

介绍

依赖环境

主要文件

使用说明：后端jar包部署

接口文档：

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/fastDataAnalysis-DataHubble .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

DataHubble

介绍

依赖环境

主要文件

使用说明 ：后端jar包部署

接口文档：

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/fastDataAnalysis-DataHubble

使用说明：后端jar包部署