转载

使用 MapReduce 和 InfoSphere BigInsights 对各种文档类型进行处理和内容分析

企业通常需要分析各种文件类型的大量文档。Apache Tika 是一个免费的开源库,它从各种各样的文档格式(比如 Microsoft® Word、RTF 和 PDF)中提取文本内容。了解如何在 InfoSphere® BigInsights™ 内的 MapReduce 作业中运行 Tika,以便并行分析大量二进制文档。探索如何为了分析大量较小文件而优化 MapReduce。学习创建一个 Jaql 模块,让非 Java 编程人员可以使用 MapReduce 技术来运行可扩展的 MapReduce 作业,从而处理、分析和转换 Hadoop 内的数据。

Sajad Izadi, 合作伙伴支持工程师, IBM

关闭 [x]

使用 MapReduce 和 InfoSphere BigInsights 对各种文档类型进行处理和内容分析 Sajad Izadi 是位于多伦多的 York University 的一名学生,致力于信息技术的研究。作为多伦多的信息管理业务合作伙伴团队的成员,他正在角逐 IBM 的多伦多软件开发实验室的实习机会。他的主要职责包括为业务合作伙伴对 ReadyFor DB2 应用程序执行技术验证,通过开发在 POC 中使用的演示而帮助大数据团队实施合作伙伴支持活动。他的兴趣包括数据库、数据仓库和应用程序开发。他是一位经过认证的 IBM DB2 10.1 管理员和 CCNA。

Benjamin G. Leonhardi, 软件工程师, IBM

关闭 [x]

使用 MapReduce 和 InfoSphere BigInsights 对各种文档类型进行处理和内容分析 Benjamin Leonhardi 是大数据/仓库合作伙伴支持团队的负责人。在这之前,他是德国伯布林根的 IBM 研发实验室的一名 InfoSphere Warehouse 软件开发人员。他还是一名数据挖掘、文本挖掘和挖掘报告解决方案开发人员。

Piotr Pruski, 合作伙伴支持工程师, IBM

关闭 [x]

使用 MapReduce 和 InfoSphere BigInsights 对各种文档类型进行处理和内容分析 Piotr Pruski 是 IBM 的信息管理业务合作伙伴生态系统团队的一位合作伙伴支持工程师。他主要关注的是通过联系和接洽业务合作伙伴,使他们能够使用 IM 产品组合中的产品(比如 InfoSphere BigInsights 和 InfoSphere Streams)来加速销售和合作伙伴的成功。

2015 年 5 月 12 日

  • 使用 MapReduce 和 InfoSphere BigInsights 对各种文档类型进行处理和内容分析 内容
    • 概述:InfoSphere BigInsights、Tika、Jaql 和 MapReduce 类
    • 实现自定义的 MapReduce 类
    • 使用 Jaql 模块而不是 Java 类
    • 归档文件
    • 结束语
    • 下载
    • 参考资料
    • 评论
正文到此结束
Loading...