转载

非结构化数据处理方案

非结构化数据&结构化处理方案

一、非结构化数据处理需求
企业拥有的非结构化数据增长迅速。非结构化数据是计算机或人生成的信息，其中的数据并不一定遵循标准的数据结构（如模式定义规范的行和列），若没有人或计算机的翻译，则很难理解这些数据。常见的非结构化数据有文档、多媒体内容、地图和地理信息、人造卫星和医学影像，还有 Web 内容，如 HTML。
根据数据的创建方式和使用方式的不同，非结构化数据的管理方法大不相同。
1. 大量数据分布于桌面办公系统（如文档、电子表格和演示文稿）、专门的工作站和设备（如地理空间分析系统和医学捕获和分析系统）上。
2. 政府、学术界和企业中数 TB 的文档存档和数字库。
3. 生命科学和制药研究中使用的影像数据银行和库。
4. 公共部门、国防、电信、公用事业和能源地理空间数据仓库应用程序。
5. 集成的运营系统，包括零售、保险、卫生保健、政府和公共安全系统中的业务或健康记录、位置和项目数据以及相关音频、视频和图像信息。

二、 KingbaseES 数据库在处理非结构化数据的优势
2.1 全文索引与检索
虽然数据库中早已支持全文检索操作符，如LIKE操作符，但目前这类操作符很难满足现代信息系统的全文检索需求。它的不足主要体现在以下方面：
? 缺乏语言支撑
例如，通过LIKE操作检索satisfy时不能把和它具有相同词根的satisfies也一并检索出来。
? 不支持结果集rank操作
在实际应用中，全文检索的结果集通常很大。若不对这些结果进行rank操作，则用户很难从中快速挑选出所需的结果。
? 检索性能较差
这些操作符一般缺乏有效的索引支撑，因此它的检索速度用户通常难以接受。
针对上述情况，KingbaseES在文本类型数据上提供了高效的全文索引和检索功能。
KingbaseES的全文检索主要具有以下特征：
? 支持丰富的数据类型
支持CHAR、VARCHAR、TEXT或CLOB类型字段的全文检索。
? 良好的可扩展性
允许用户依据自身应用需求，创建新的数据字典、分词器或rank函数。
? 内置rank函数
除允许用户创建rank函数外，系统内部还提供基于词语相似性、共现性和重要性的通用rank函数。
? 检索文本预处理
在检索前对检索文本进行了如下处理：文本的词语标注、规范化处理(如大小写转换、词根处理)、rank计算、剔除stopword等。
? 高效的全文索引
为优化检索性能，在检索文本上创建了广义倒排索引。
目前，KingbaseES提供了两种检索方式，即传统的数据库SQL检索和全新的全文检索。二者的区别是：前者获得的是精确匹配结果，而后者获得的是非精确匹配结果。因此，在实际应用中，用户可把二者配合使用，即首先可利用全文检索的模糊匹配功能，缩小检索范围，然后在该范围内再使用传统SQL检索的精确匹配功能快速获取所需结果。
2.2 大对象类型
通常，现代信息系统的大量数据是以半结构化或非结构化的数据形式存在。数据库系统若仅能存储和管理表等结构化信息的话，则远远不能满足如今的应用需求。因此，它还应能存储和管理图片、报表、图像、音频和视频等各种半结构化或非结构化的多媒体信息。针对这种情况，KingbaseES内部提供了专门的数据类型（即大对象类型），用于存储和管理这些多媒体数据。
目前，KingbaseES支持两种大对象类型，即二进制大对象(BLOB)和字符大对象(CLOB)类型，单个大对象大小可达到2G。并在这些类型上还提供了包括大对象创建、关闭、删除、读取、写入、截断、导入、导出等操作在内的对外函数接口。
与普通字符串类型相比，KingbaseES大对象类型重点从数据存储、锁资源使用优化、事务管理和逻辑备份与还原等方面进行了特殊处理。

三、综上所述，根据目前所了解到的信息，我们可以将非结构化数据（文档、多媒体内容、地图和地理信息、人造卫星和医学影像，还有 Web 内容）通过KingbaseES支持的两种大对象类型，即二进制大对象(BLOB)和字符大对象(CLOB)类型，单个大对象大小可达到2G。并在这些类型上还提供了包括大对象创建、关闭、删除、读取、写入、截断、导入、导出等操作在内的对外函数接口。

正文到此结束