非结构化数据

非结构化数据

目录导航

概述

相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、 文本、图片、 标准通用标记语言下的子集 XML、 HTML、各类报表、图像和音频/视频信息等等。

非结构化数据库是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息)。

非结构化WEB数据库主要是针对非结构化数据而产生的,与以往流行的关系数据库相比,其最大区别在于它突破了关系数据库结构定义不易改变和数据定长的限制,支持重复字段、子字段以及变长字段并实现了对变长数据和重复字段进行处理和 数据项的变长 存储管理,在处理连续信息(包括全文信息)和 非结构化信息(包括各种 多媒体信息)中有着传统 关系型数据库所无法比拟的优势。

结构化数据即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据

非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等

所谓 半结构化数据,就是介于完全结构化数据(如 关系型数据库、 面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据,HTML文档就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。

数据模型:

结构化数据:二维表(关系型)

半结构化数据:树、图

非结构化数据:无

RMDBS的数据模型有:如网状数据模型、 层次数据模型、关系型

其他:

结构化数据:先有结构、再有数据

半结构化数据:先有数据,再有结构

随着 网络技术的发展,特别是Internet和Intranet技术的飞快发展,使得非结构化数据的数量日趋增大。这时,主要用于管理结构化数据的关系数据库的局限性暴露地越来越明显。因而,数据库技术相应地进入了“后关系数据库时代”,发展进入基于网络应用的非结构化数据库时代。

我国非结构化数据库以北京国信贝斯(iBase)软件有限公司的IBase数据库为代表。IBase数据库是一种面向最终用户的非结构化数据库,在处理 非结构化信息、全文信息、 多媒体信息和海量信息等领域以及Internet/Intranet应用上处于国际先进水平,在非结构化数据的管理和 全文检索方面获得突破。它主要有以下几个优点:

通过从上面的分析后我们可以预言,随着 网络技术和网络应用技术的飞快发展,完全基于Internet应用的非结构化数据库将成为继 层次数据库、 网状数据库和关系数据库之后的又一重点、热点技术。

云计算与非结构化数据

据IDC的一项调查报告中指出:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。非结构化数据,顾名思义,是存储在文件系统的信息,而不是数据库。据报道指出:平均只有1%-5%的数据是结构化的数据。如今,这种迅猛增长的从不使用的数据在企业里消耗着复杂而昂贵的一级存储的存储容量。如何更好的保留那些在全球范围内具有潜在价值的不同类型的文件,而不是因为处理它们却干扰日常的工作?当然你可以采购更多的就地存储设备,但这总会有局限性的。 云存储是越来越多的IT公司正在使用的存储技术。下面的分段解释了一些关于 存储在云中的商业信息的关键要点。    员工面临新挑战 数据如何被管理?

当企业参与到全球经济竞争中,IT员工面临着让分布在全球的员工能够有效访问重要数据的新挑战。全球分布的团队需要共享对大型的文件和数据集的读写访问,但这显然增加了 数据管理的复杂性。另外不断地采用 数据同步功能和精确度的问题都影响企业的工作效率。

云存储业务外包 降低成本是否可行?

随着基于 云存储服务项目的增长,各种类型的企业都有能力将数据存储业务外包。利用这些外包服务,企业能大幅减少存储基础架构成本,在减少人工管理非结构化数据所需时间的同时增加了存储的灵活性,这在以前的企业中从未被使用过。另外,云服务也带来了巨大的经济效益。

云存储有多大 价格是否更合理?

大多数服务提供商对于 云存储的定价都是根据实际使用了多少 存储容量而决定的。支付多少钱就享用多少容量。因此不再需要存储架构师,也不再需要安装和管理存储设备。

如果你使用200TB的 存储容量,你就只需支付200TB存储的这部分钱即可。如果你的公司突然需要在明天增加34TB的存储容量,你不需要增加任何存储设备,只需要在开账单的周期支付存储多增加出来的钱即可。如果其中一部分存储容量只是暂时性的话,你可以轻松地从云中删除不需要的数据,以减少使用的容量,并送交最终的账单。但本地的存储基础设施并没有这些功能。

数据中心安全第一 有害访问强制隔离

如果你曾配置过 数据中心,必须要保证物理安全。未经授权的人通过各种层级的物理安全获得数据的机会是几乎不可能的。检查 存储供应商提供的服务,你会发现这些 数据中心不仅是保障不能出现有害的物理访问,还在于保护通过任何自然和人为操作所产生的灾难

云存储网关发威 恶意访问皆退散

物理安全对于企业去阻止恶意访问来说是非常重要的。越来越多的厂商提供 云存储网关(cloud storage gateway)应用,无论是在传输中还是在静止中都能够保证高级别的 数据安全。网关能够处理前端数据的存储进程。数据实际被 存储在服务商提供的基础设施中,像是Rackspace、AT&T、i365、Amazon S3等等。

备份记录复杂昂贵云存储简单方便

随着备份和 灾难恢复的处理和要求变得越来越复杂、昂贵以及耗费时间。 云存储服务能够大大地减少这种复杂性和成本。当在云中存储一个大数据集的时候,答案可以像复制数据到多重地理分布位置一样的简单。

单一技术非万能 分析思考更有效

像任何技术一样,根本不存一个万能的解决方案, 云存储也是如此。仔细地检查当前的存储基础设施,创建数据的应用以及数据的用户。只有更仔细的分析,才能更加的清楚:基于云的存储通常完美适用于第二层级(Tier 2)的数据,以及那些需要在多个位置共享的数据。

相关百科
返回顶部
产品求购 求购