转载

非结构化数据处理方案



 非结构化数据&结构化处理方案


一、 非结构化数据处理需求
   企业拥有的非结构化数据增长迅速。非结构化数据是计算机或人生成的信息,其中的数据并不一定遵循标准的数据结构(如模式定义规范的行和列),若没有人或计算机的翻译,则很难理解这些数据。常见的非结构化数据有文档、多媒体内容、地图和地理信息、人造卫星和医学影像,还有 Web 内容,如 HTML。
   根据数据的创建方式和使用方式的不同,非结构化数据的管理方法大不相同。 
1. 大量数据分布于桌面办公系统(如文档、电子表格和演示文稿)、专门的工作站和设备 (如地理空间分析系统和医学捕获和分析系统)上。
2. 政府、学术界和企业中数 TB 的文档存档和数字库。
3. 生命科学和制药研究中使用的影像数据银行和库。
4. 公共部门、国防、电信、公用事业和能源地理空间数据仓库应用程序。
5. 集成的运营系统,包括零售、保险、卫生保健、政府和公共安全系统中的业务或健康记录、位置和项目数据以及相关音频、视频和图像信息。


二、 KingbaseES 数据库在处理非结构化数据的优势
2.1 全文索引与检索
虽然数据库中早已支持全文检索操作符,如LIKE操作符,但目前这类操作符很难满足现代信息系统的全文检索需求。它的不足主要体现在以下方面:
? 缺乏语言支撑
例如,通过LIKE操作检索satisfy时不能把和它具有相同词根的satisfies也一并检索出来。
? 不支持结果集rank操作
在实际应用中,全文检索的结果集通常很大。若不对这些结果进行rank操作,则用户很难从中快速挑选出所需的结果。
? 检索性能较差
这些操作符一般缺乏有效的索引支撑,因此它的检索速度用户通常难以接受。
针对上述情况,KingbaseES在文本类型数据上提供了高效的全文索引和检索功能。
KingbaseES的全文检索主要具有以下特征:
? 支持丰富的数据类型
支持CHAR、VARCHAR、TEXT或CLOB类型字段的全文检索。
? 良好的可扩展性
允许用户依据自身应用需求,创建新的数据字典、分词器或rank函数。
? 内置rank函数
除允许用户创建rank函数外,系统内部还提供基于词语相似性、共现性和重要性的通用rank函数。
? 检索文本预处理
在检索前对检索文本进行了如下处理:文本的词语标注、规范化处理(如大小写转换、词根处理)、rank计算、剔除stopword等。
? 高效的全文索引
为优化检索性能,在检索文本上创建了广义倒排索引。
目前,KingbaseES提供了两种检索方式,即传统的数据库SQL检索和全新的全文检索。二者的区别是:前者获得的是精确匹配结果,而后者获得的是非精确匹配结果。因此,在实际应用中,用户可把二者配合使用,即首先可利用全文检索的模糊匹配功能,缩小检索范围,然后在该范围内再使用传统SQL检索的精确匹配功能快速获取所需结果。
2.2 大对象类型
通常,现代信息系统的大量数据是以半结构化或非结构化的数据形式存在。数据库系统若仅能存储和管理表等结构化信息的话,则远远不能满足如今的应用需求。因此,它还应能存储和管理图片、报表、图像、音频和视频等各种半结构化或非结构化的多媒体信息。针对这种情况,KingbaseES内部提供了专门的数据类型(即大对象类型),用于存储和管理这些多媒体数据。
目前,KingbaseES支持两种大对象类型,即二进制大对象(BLOB)和字符大对象(CLOB)类型,单个大对象大小可达到2G。并在这些类型上还提供了包括大对象创建、关闭、删除、读取、写入、截断、导入、导出等操作在内的对外函数接口。
与普通字符串类型相比,KingbaseES大对象类型重点从数据存储、锁资源使用优化、事务管理和逻辑备份与还原等方面进行了特殊处理。


三、 综上所述,根据目前所了解到的信息,我们可以将非结构化数据(文档、多媒体内容、地图和地理信息、人造卫星和医学影像,还有 Web 内容)通过KingbaseES支持的两种大对象类型,即二进制大对象(BLOB)和字符大对象(CLOB)类型,单个大对象大小可达到2G。并在这些类型上还提供了包括大对象创建、关闭、删除、读取、写入、截断、导入、导出等操作在内的对外函数接口。


正文到此结束
Loading...