internetarchive-transfer-scripts:使用https传输archive.org集合的脚本

时间:2024-06-03 00:45:03
【文件属性】:

文件名称:internetarchive-transfer-scripts:使用https传输archive.org集合的脚本

文件大小:15KB

文件格式:ZIP

更新时间:2024-06-03 00:45:03

Python

Archive.org集合传输脚本 提供的Shell / Python脚本使用将选定的文件类型从Internet存档集合传输到群集(HDFS)。 转移分为两个步骤: 将创建所有要传输文件的列表( ) 在传输文件时,脚本会跟踪已传输的文件,以允许随时重新启动该过程并在停止的地方继续( )。 下载的文件被分离到与它们的文件类型相对应的不同文件夹中。 在传输过程中,指定数量的文件将下载到本地暂存目录中,并max_staging复制到HDFS(默认max_staging 10,在download_files.py max_staging )。 用法 首先,请安装以提供所需的ia命令。 接下来,请根据需要修改以包含路径和所需的文件类型。 download.sh调用python脚本,并应用于启动传输过程。 通过./download.sh 进行调用。


【文件预览】:
internetarchive-transfer-scripts-master
----download_files.py(2KB)
----LICENSE(34KB)
----download.sh(232B)
----README.md(2KB)
----create_filelist.py(636B)

网友评论