转载

大文本文件的字符匹配处理办法

在进行文本处理时，经常会遇到对大文件进行字符串匹配情况。用命令行的 grep/cat 命令处理此类问题时，写法很简单，但效率太低，用高级语言处理此类问题虽然可以获得较高的运行效率，但代码编写复杂度却相当高。

集算器支持大文件字符串匹配和多线程并行计算，代码简洁性能优异，下面通过例子来看一下具体作法。

文件 file1.txt 存储着大量的字符串，现在需要找出以 ”.txt” 结尾的行数据，并输出到 result.txt 中。部分源数据如下：

大文本文件的字符匹配处理办法

集算器代码：

大文本文件的字符匹配处理办法 A1 ：以游标的形式打开文件。函数 cursor 并不会将数据全部读入内存，而是以游标（流）的方式打开文件，因此不会占据内存空间。函数 cursor 使用了默认参数，即：以 tab 为列分割符读入全部的字段，自动命名为 _1 、 _2 、 _3…_n 。对于本案例来说，只有一个字段 _1 。

A2=A1.select(like@c(_1,"*.txt"))

这句代码用来查询出游标 A1 里以“ .txt ”结尾的行数据。函数 select 执行查询，函数 like 进行字符串匹配，其中 _1 表示第一个字段。函数 like 还使用了选项 @c ，这表示匹配时不区分大小写。

值得注意的是， A2 的运算结果是游标，仍然不会占据内存空间。只有遇到 export/fetch/groups 等函数时，集算器引擎才会分配合适的内存缓冲区，并将前面的游标计算自动转化为内存计算。。

A3=file("e://result.txt").export(A2) ，这句代码将最终计算结果写入文件。部分数据如下：

大文本文件的字符匹配处理办法

上面的匹配规则比较简单，如果遇到复杂的情况，那就需要使用正则表达式。比如：找出以“c:/windows”开头，且结尾名不是“.txt”的行数据。

函数 regex 可以进行正则表达式匹配，只需将 A2 改为：

A1.regex@c("^c:////windows.*(?<!////(.txt)$)")

上面代码中，选项 @c 表示不区分大小写。

正则表达式虽然可以实现更复杂的匹配规则，但性能偏低，比如从 2.13G 的文件中找出以“ .txt ”结尾的行数据，在同样环境下测试，用正则表达式需要 206 秒，用普通表达式（ select ）只需要 119 秒。

事实上，普通表达式也可以实现很多逻辑较复杂的匹配规则，而且语法更加直观，学习成本更低。比如 emp.txt 存储着大量的用户信息，每条用户信息分为多个字段，字段之间用 tab 分割，第一行是字段名。现在要找出符合下列条件的数据： EId 字段在 100 以内， Name 字段的首字母是 a ， Birthday 字段大于 1984-01-01 。集算器代码如下：

大文本文件的字符匹配处理办法

函数 cursor 的选项 @t 表示将第一行读为列名，之后就可以使用列名来访问数据。

查询条件是三个，可以分别用 EId>100 、 like@c(Name,"a*") 、 Birthday>=date("1984-01-01") 来表示，条件之间是“与”的逻辑关系，可以用 && 来表示。

前面的算法是串行，改成并行可以进一步提高性能，具体做法是用多个线程并行读取文件，每个线程都用游标访问文件的一部分，并同时进行集合计算，最后再将每个游标的结果合并。

在相同的硬件环境下对 2.13G 的大文进行测试，串行时平均耗时 119 秒，并行时平均耗时 56 秒，性能提高一倍左右。例子中的算法复杂度较低，瓶颈会产生在硬盘读取上，如果进一步加大运算的复杂度，性能提升的幅度将会更大。

集算器并行计算的代码如下：

大文本文件的字符匹配处理办法

A1=4 ， A1 是分段数量，即将文件分成 4 段。分段数量，也就是实际执行时的并行数，一般不要超过 CPU 的核数，否则会形成排队等待，并不能提高性能。实际使用最大并行数量可以在选项中配置。

A2=A1.(file("e://file1.txt").cursor@z(;, ~:A1))

上面的代码按照分段数量生成 4 个游标。其中 A1.(express) 表示按照括号内的表达式依次计算 A1 的成员，括号内可用“ ~ ”来表示当前成员。 A1 一般是集合，比如 [ "file1", " file2" ] 或 [2,3] ， A1 如果是从 1 开始的连续数字，比如 [1,2,3,4] ，则可以简写成 4.( express) ，案例中的代码就是这种情况。

括号内的表达式是 file("e://file1.txt").cursor@z(;, ~:A1) ，其中函数 cursor 使用了选项 @z ，这表示将文件分段，用游标取其中的某一段。 ~:A1 表示文件会被大致分为 4 段 (A1=4) ，当前取第 ~ 段。“ ~ ”是 A1 的当前成员，因此每个游标依次对应第 1 、第 2 、第 3 、第 4 段文件。

另外，之所以是“大致分”，是因为精确分会出现半行数据的情况，而集算器会去头补位，自动取出整行数据。

A3=A2.(~.select(like@c(_1,"*.txt"))) ，这句代码针对 A2 中的每个游标（即 ~ ）进行计算，求出游标中符合条件的行数据。这里的计算结果仍然是四个游标。

A4=A3.conj@xm() ，这句代码将 A3 中的多个游标进行并行合并。

A5=file("e://result.txt”).export(A4) ，将最终计算结果输出到文件中。

集算器脚本不仅能在 IDE 中独立运行，也可以通过 JDBC 接口被 JAVA 程序调用，用法和普通数据库没有区别。单步的计算脚本还可以直接嵌入 JAVA 代码中，而无需脚本文件。比如前面的 A1-A5 是分步计算，其实可以合为一步： file("e://result.txt").export(4.(file("e://file1.txt").cursor@z(;, ~:4)).(~.select(like@c(_1, "*.txt"))).conj@xm())