如何从文本文件中批量抽取数据

在进行文本处理时，有时候需要从多级目录的多个文件中取出某些数据。命令行难以处理较复杂的过程，而高级语言虽然可以实现这种算法，但代码比较难写，再加上可能存在大文件，处理起来会更加困难。集算器支持游标读取大文件、脚本递归调用，易于实现批量文件处理，下面通过例子来看一下具体作法。

目录“D:\files”包含多级子目录，每个目录下都有许多文本格式的文件，从这些文件中读取指定的行（比如第二行），并将这些数据写入新的文件result.txt。目录D:\files的部分结构如下：

如何从文本文件中批量抽取数据

集算器代码：

如何从文本文件中批量抽取数据

首先定义一个参数path，初始值设为“D:\files”，这样就可以从该目录开始抽取数据。如下图：

如何从文本文件中批量抽取数据

[email protected](path)

函数directory用来读出参数path中根目录的文件列表，选项@p表示文件名带全路径，部分结果如下：

如何从文本文件中批量抽取数据

A2=A1.(file(~)[email protected]())

这句代码用来以游标的方式依次打开A1中的文件。A1.(…)表示对A1的成员依次进行计算，~用来表示当前成员，函数file用来建立文件对象，函数cursor表示根据文件对象返回游标对象。

函数cursor的默认分隔符是tab，默认列名是_1,_2…_n，选项@s表示忽略分割符并将文件内容读成单列字符串，列名是_1。值得注意的是，这句代码只是建立游标对象，并没有读入数据，实际的读入动作会在遇到函数fetch时触发。A2的计算结果如下：

如何从文本文件中批量抽取数据

A3=A2.((~.skip(1),[email protected](1)))

这句代码可以从A2的每个文件游标中读取第二行。A2.(…)表示对A2中的每个游标依次计算，(~.skip(1),[email protected](1))表示依次计算括号内的表达式，并返回最后一个表达式的结果。其中~.skip(1)表示跳过一行，[email protected](1)表示从当前位置读取一行（即第二条）并关闭游标，选项@x表示取完数据后自动关闭游标，[email protected](1)就是括号运算符要返回的结果。