文件名称:internetarchive-transfer-scripts:使用https传输archive.org集合的脚本
文件大小:15KB
文件格式:ZIP
更新时间:2024-06-03 00:45:03
Python
Archive.org集合传输脚本
提供的Shell / Python脚本使用将选定的文件类型从Internet存档集合传输到群集(HDFS)。
转移分为两个步骤:
将创建所有要传输文件的列表( )
在传输文件时,脚本会跟踪已传输的文件,以允许随时重新启动该过程并在停止的地方继续( )。
下载的文件被分离到与它们的文件类型相对应的不同文件夹中。
在传输过程中,指定数量的文件将下载到本地暂存目录中,并max_staging复制到HDFS(默认max_staging 10,在download_files.py max_staging )。
用法
首先,请安装以提供所需的ia命令。
接下来,请根据需要修改以包含路径和所需的文件类型。 download.sh调用python脚本,并应用于启动传输过程。
通过./download.sh
【文件预览】:
internetarchive-transfer-scripts-master
----download_files.py(2KB)
----LICENSE(34KB)
----download.sh(232B)
----README.md(2KB)
----create_filelist.py(636B)