结构化数据的定义

结构化数据,也称为定量数据,指符合预定义结构或模型的数据。因为结构化数据的组织结构十分清晰,因此 Machine Learning 算法和人类都可轻松处理这类数据。结构化数据存储在数据库和数据仓库中。

结构化数据的示例包括指标、日期、名称、邮政编码和信用卡号。这类数据能够以条理有序的方式放入到电子表格或关系数据库(例如 SQL、MySQL 和 PostgreSQL)中,为企业提供可轻松访问和解读的信息。

公司可以利用结构化数据,根据其客户的姓名、购买历史和地理位置等数据点解读客户的行为。这让企业可以实现客户关系管理 (CRM),即借助能够用来分析客户行为的关系数据库来管理客户关系。

结构化数据的类型

可以将结构化数据看作数字和值。它是定量数据,采用的形式有 Excel 文件、Web 表单结果、预定系统和 SQL 数据库。其他结构化数据类型包括销售点数据、产品目录和金融交易。结构化数据可用于多种背景和多个各业,包括:

  • 金融服务:银行、会计师和金融机构会使用结构化数据来记录、处理、管理和分析金融数据,例如交易、账号和账户持有人姓名。
  • 旅游业:预订网站、酒店、航空公司和其他交通运输企业会使用结构化数据,包括:顾客和乘客数据;酒店或航班价格;巴士、列车或航班的航程;以及交易。
  • 医疗保健:医疗保健行业会将结构化数据用于患者记录、保险记录以及医疗设备库存。
  • 零售和电子商务:零售和电子商务行业会使用结构化数据来记录和存储产品库存、价格、交易以及用户账户信息。
  • 公共领域:政府会将结构化数据用于多种用途。用途之一就是通过人口调查数据,来收集特定时间点的人口情况。这一结构化数据包括诸如下面这些信息:地理位置、性别、种族、家庭成员数量。

结构化数据、半结构化数据和非结构化数据之间的区别是什么?

结构化数据具有定量性质,由值和数字构成,此类数据组织结构十分清晰,非常易于访问和解读。结构化数据的示例包括日期、时间和客户 ID。

非结构化数据是定性数据,没有内部结构,由文本、视频和图像组成,您需要使用专门工具来对其进行管理和解读。非结构化数据的示例包括客户评价、视频或卫星监测数据,以及产品照片或演示视频。

半结构化数据介于结构化数据和非结构化数据之间。它虽然不像结构化数据那样拥有预定义的结构,但是与非结构化数据相比,管理和解读它会更容易一些。半结构化数据使用元数据来定义数据点,因为元数据支持以更有条理和更标准的方式存储所述数据。半结构化数据的示例包括 JSON、XML、Web 和压缩文件。

如何管理结构化数据

结构化数据要使用关系数据库(例如 Excel 表格)或结构化查询语言 (SQL) 数据库进行管理。关系数据库基于关系模型,会以表格形式来表示数据。它可以支持企业在不同的数据点之间建立关系,并输入、搜索和操控结构化数据。

结构化数据是写时模式,所以在将其放入到数据库之前,必须为结构化数据建立数据模型。要想建立数据模型,需要基于数据定义一个模式。这会生成表格或实体。接下来,您需要建立这些实体间的关系。最后,您需要编写 SQL 脚本来生成关系数据库,以存储您的结构化数据。

有了数据库,您就可以访问并操控结构化数据以满足您的需求了。如要采集餐厅菜单上菜品的数据,我们首先创建不同的表格:

  • 菜品
  • 食材
  • 营养值

然后我们确立数据点之间的关系。最后,我们编写 SQL 脚本。结构化数据的来源包括在线表单、网络日志、传感器数据以及销售点。数据存储完毕之后,就可在算法中使用了,算法会推动 Machine Learning (ML) 搜索和分析数据并生成报告和预测。

通过 Elastic 管理您的结构化数据

结构化数据的优点

结构化数据有多个优点,因为人类和机器都可以轻松地使用、存储和分析此类数据。

结构化数据易于使用
结构化数据组织十分有序,便于 Machine Learning 技术轻松操控和查询。

对于企业用户,结构化数据很容易使用,因为用户无需具备大量的数据科学知识即可使用。只要用户理解数据所涉及的主题,就能访问和分析数据。

此外,有大量工具可用于分析和理解结构化数据。之所以出现这种情况,一方面是因为结构化数据出现得比非结构化数据早,另一方面则因为结构化数据能够提供更准确的结果。

结构化数据易于存储
结构化数据可以存储在关系数据库、NoSQL 数据库、数据仓库、数据湖、内存数据库等中,而且所占空间比非结构化数据少。所以,结构化数据的存储效率更高。

结构化数据易于扩展
由于结构化数据可以存储在数据仓库中,所以您可以很轻松对其进行扩展。数据仓库可以作为业务或企业生成的所有结构化数据的存储库。随着结构化数据的数据量越来越大,企业可以轻松添加存储空间和处理能力。

结构化数据可简化数据挖掘
结构化数据是大数据分析的基础。作为定量数据,结构化数据可让您轻松地进行预测、预估和研究。由于结构化数据可存储在关系数据库中,所以便于您进行查询和生成报告。Machine Learning 算法在爬取数据时会更容易。所以,由于结构化数据的结构化性质,它还能生成更优质、更准确的业务情报。

结构化数据可让别人更容易发现您
您可以通过结构化数据标记在网站代码中使用结构化数据,从而打造丰富的代码片段或丰富的结果;经证明,这样的代码片段或结果能够改善客户互动。通过向网页中添加结构化数据,企业能够提高点击率、转化率和有机流量。

结构化数据的限制

尽管结构化数据能为企业带来很多优势,但它的某些优点也可能会带来限制。

结构化数据的使用受限
结构化数据的预定义结构既是优点,也是限制,因为结构化数据只能用于既定目的。

结构化数据的质量可能不佳
当数据缺失或数据不完整时,数据质量会下降。不能很好地符合模式的数据也会对数据质量造成负面影响。如果不加以解决,这会导致搜索结果或报告不准确。

随着公司的增长,其数据量也会增长,通常这也表示数据会有大量重复,或者数据不再具有相关性。这会导致企业结构化数据的整体质量下降。

管理结构化数据的最佳实践

为了充分利用您的结构化数据,您可以考虑应用下列最佳实践。

采用适应未来需求的数据管理方法
您在制定文件命名规则和编目规则时应该考虑将来和长期的访问问题。确保文件名称易于理解且符合标准,以便您能轻松找到。

使用元数据记录数据沿袭
元数据会描述您的数据的内容、结构、作者和相关许可。仔细记录您的元数据,这能够让您的网站易于被发现,让您跟踪数据从来源到目的地的流动情况,映射数据关系,并最终构建有效的数据管治体系。

保护结构化数据的安全性
结构化数据有可能是极其敏感的信息:信用卡号、账号、医疗信息等。确保结构化数据的安全是管理结构化数据过程中的关键一步。确保结构化数据的安全的措施包括数据备份,以及考虑提供安全性和可观测性工具的存储计划,因为这些工具能够减少网络安全威胁。

选择适合您需求的存储计划
不仅要选择适应未来需求的方法并意识到保护您的数据免遭泄露的重要性,还要选择适用于贵公司规模和要求的存储计划。如果您是小型企业,您的数据量会比大型企业少。针对大型企业的计划可能不适合您的需求。

使用 Elastic 构建可跨数据集搜索的搜索工具

通过 Elastic 管理和处理结构化数据

Elastic Stack 是一个搜索平台,可支持您搜索、分析和可视化从任何来源以任何格式收集的数据。Elastic Stack 由 Elasticsearch、KibanaBeatsLogstash 组成,这些部分协同工作,支持您更好地管理和处理结构化数据和非结构化数据