转载

自然语言的一些资料整理

爬虫部分:

WebCollector是一个无须配置、便于二次开发的JAVA 爬虫框架(内核) ,它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取。

http://www.oschina.net/p/webcollector

分词器:

Ansj中文分词

这是一个 ictclas 的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化

https://github.com/NLPchina/ansj_seg

自然语言处理:

支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析(MaxEnt依存句法分析、CRF依存句法分析)。提供Lucene插件,兼容Lucene4.x。

http://www.hankcs.com/nlp/hanlp.html

原文  http://www.niubua.com/2016/04/15/自然语言的一些资料整理/
正文到此结束
Loading...