转载

使用 MapReduce 和 InfoSphere BigInsights 对各种文档类型进行处理和内容分析

企业通常需要分析各种文件类型的大量文档。Apache Tika 是一个免费的开源库，它从各种各样的文档格式（比如 Microsoft® Word、RTF 和 PDF）中提取文本内容。了解如何在 InfoSphere® BigInsights™ 内的 MapReduce 作业中运行 Tika，以便并行分析大量二进制文档。探索如何为了分析大量较小文件而优化 MapReduce。学习创建一个 Jaql 模块，让非 Java 编程人员可以使用 MapReduce 技术来运行可扩展的 MapReduce 作业，从而处理、分析和转换 Hadoop 内的数据。

Sajad Izadi, 合作伙伴支持工程师, IBM

关闭 [x]

使用 MapReduce 和 InfoSphere BigInsights 对各种文档类型进行处理和内容分析 Sajad Izadi 是位于多伦多的 York University 的一名学生，致力于信息技术的研究。作为多伦多的信息管理业务合作伙伴团队的成员，他正在角逐 IBM 的多伦多软件开发实验室的实习机会。他的主要职责包括为业务合作伙伴对 ReadyFor DB2 应用程序执行技术验证，通过开发在 POC 中使用的演示而帮助大数据团队实施合作伙伴支持活动。他的兴趣包括数据库、数据仓库和应用程序开发。他是一位经过认证的 IBM DB2 10.1 管理员和 CCNA。

Benjamin G. Leonhardi, 软件工程师, IBM

关闭 [x]

使用 MapReduce 和 InfoSphere BigInsights 对各种文档类型进行处理和内容分析 Benjamin Leonhardi 是大数据/仓库合作伙伴支持团队的负责人。在这之前，他是德国伯布林根的 IBM 研发实验室的一名 InfoSphere Warehouse 软件开发人员。他还是一名数据挖掘、文本挖掘和挖掘报告解决方案开发人员。

Piotr Pruski, 合作伙伴支持工程师, IBM

关闭 [x]

使用 MapReduce 和 InfoSphere BigInsights 对各种文档类型进行处理和内容分析 Piotr Pruski 是 IBM 的信息管理业务合作伙伴生态系统团队的一位合作伙伴支持工程师。他主要关注的是通过联系和接洽业务合作伙伴，使他们能够使用 IM 产品组合中的产品（比如 InfoSphere BigInsights 和 InfoSphere Streams）来加速销售和合作伙伴的成功。