注册大数据文件共享步骤帖

本文目的

上一篇理解了数据清单和实际数据存储的关系,接下来可以实际动手生成这个清单,将待处理的数据接入大数据平台。

这篇文章挑取了最好上手的共享目录来完成演示。

开始之前

在开始之前,我们来看两个必要问题:

1. 我可以将数据放在哪里?

• File share—本地磁盘或者网络共享的数据文件夹

• HDFS—HDFS目录

• Hive—阿帕奇hive数据库

• Cloud store—An Amazon Simple Storage Service (S3) bucket, Microsoft Azure Blob container, or Microsoft Azure Data Lake Store containing a directory of datasets.

• Microsoft Azure Data Lake Store( ArcGIS Enterprise 10.6.1开始支持)

2. 哪些数据类型可以放在大数据文件共享里?

• Delimited files (such as .csv, .tsv, and .txt)

• Shapefiles (.shp)

• Parquet files (.gz.parquet)

• ORC files (orc.crc)

测试环境

软件:ArcGIS Enterprise 10.6.1+GeoAnalytics Server 站点 10.6.1

操作系统:Linux

实际操作关键步骤

以共享目录上的数据为例,执行注册大数据文件共享。共享目录较为简单,只需要完成下面三步即可完成注册:

  1. 准备您自己待处理的数据
  2. 允许arcgis server的账户访问数据
  3. 在arcgis manager中注册数据

实际案例实施

实际待处理数据分析:

用户每小时都会产生全省各个温度站的温度记录,一个小时的数据存储在一个csv中。

具体操作步骤:

  1. 准备数据

此处文件路径是/home/arcgis/bigdatafile/tem_csv(图一),其中存放了按照小时记录的csv温度文件(图二)。

注:此处路径是GA集群中机器上的位置,已经挂载在数据服务器上。

               图一

               图二

2.允许arcgis server的账户访问数据

首先,需要在共享目录机器上(数据服务器)创建一个arcgis server账户,密码与GA集群中的arcgis server账户用户名和密码均一致。

其次,将读的权限赋予给arcgis server账户,允许其可以读到包含数据的文件夹。

此处允许arcgis server账户读取文件夹/home/arcgis/bigdatafile即可。

3.在arcgis manager中注册大数据文件共享

登录arcgis server manager,导航到“站点”—>“数据存储”,在注册下拉选项中选择 “大数据文件共享”。见图三。

                              图三

在弹出的窗口中填入以下信息,见图四:

名称:按照您的目的起个名字。

类型:此处选择文件共享。

路径:填入/home/arcgis/bigdatafile,此处tem_csv被识别为一个数据集。

                             图四

如果数据对于arcgis server账户可读,那么我们可以看到“您的大数据文件共享已成功注册,正在生成清单”;否则报错。见图五。

                             图五

等待文件清单生成后,点击“编辑”;可以看到tem_csv已经作为一个数据集被识别到。见图六。

                             图六

选中tem_csv数据集, 可以看到字段列表下,只用col_x来表示当前csv文件中的第几列数据;

从当前这个页面可以看出,csv被识别为表格,而不是被识别为点。见图七。

注:由于被注册数据特殊,所以才导致其被识别为表格,正常应该直接被识别为几何数据集。

                            图七

这是因为被注册的csv文件中没有标示每列的名字,如下图。见图八。

                             图八

此时,我们手动修改字段名称,让每一列的数据都简单易懂,如图九。

                                图九

并指定几何类型为点,如图十。

                                图十

待处理数据csv中的数据是有时间的,时间格式为(见图十一):

                               图十一

根据csv中的时间格式修改记录如下,点击保存。见图十二。

                               图十二

此时,GA的manifest中将tem_csv数据集被识别为有时间属性的点数据集,且空间参考为4326。数据已经被接入到大数据平台中等待处理!

常见问题:

1.如果存储上数据更新了,我该如何通知esri平台?

通过修改文件清单的方式实现删除,添加或者更新。

2.是否可以将存储上的数据直接可视化?

不可以。

参考文档:

http://enterprise.arcgis.com/en/portal/latest/use/what-is-a-big-data-file-share.htm

http://enterprise.arcgis.com/en/server/latest/publish-services/windows/making-your-data-accessible-to-arcgis-server.htm

发表评论

电子邮件地址不会被公开。 必填项已用*标注