autodl下载hf-mirror数据
目录
autodl下载hf-mirror数据
背景
使用工具
服务器:
镜像数据集:
需求介绍
本文的需求是复现下载自动驾驶的transfuser:
项目:
数据集:
开始
步骤0:准备
进入AutoDL的服务器,其中 autodl-tmp 是存放数据的,transfu
AutoDL学术资源加速:
source /etc/network_turbo
更新软件源列表:
sudo apt update
进入数据盘,准备下载数据:
cd autodl-tmp/
本次拟采用:hf-mirror 的方法三(基于
hfd
工具)下载数据集
,需按照以下步骤操作:
步骤 1:下载并配置 hfd
工具
下载
hfd
脚本 :wget https://hf-mirror.com/hfd/hfd.sh chmod a+x hfd.sh # 赋予执行权限
- 这是
hfd
工具的官方脚本,支持高效下载8。
- 这是
设置镜像环境变量 :
export HF_ENDPOINT=https://hf-mirror.com # 临时生效
- 若需永久生效,可将此行写入
~/.bashrc
或~/.zshrc
文件810。
- 若需永久生效,可将此行写入
步骤 2:下载 aria2
依赖安装 :
若使用
aria2
,需提前安装:sudo apt-get install aria2 # Ubuntu/Debian
权限问题 :
- 若下载目录需要权限(如
/root
),需在命令前加sudo
- 若下载目录需要权限(如
步骤 3:执行下载命令
下载数据集 :
./hfd.sh mmahdavi/carla_1.8m --dataset --tool aria2c -x 4 ./hfd.sh mmahdavi/carla_1.8m --dataset --tool aria2c -x 4 --include "Scenario1.zip" # 下载指定文件
说明
参数说明 :
--dataset
- 指定下载类型为数据集(默认是模型)8。
--tool aria2c
- 使用
aria2
多线程下载工具加速(需提前安装aria2
)8。
-x 4
- 指定并行下载线程数(建议设为 4-8)8。
若未安装
aria2
,可省略--tool
参数,默认使用wget
:./hfd.sh mmahdavi/carla_1.8m --dataset
指定下载目录 (可选):
./hfd.sh mmahdavi/carla_1.8m --dataset --local-dir ./carla_data
--local-dir
- 自定义本地存储路径(默认保存到当前目录)8。
数据集完整性验证 :
下载完成后,检查目标目录中的文件是否完整:
ls -l ./carla_data # 查看文件列表 du -sh ./carla_data # 查看总大小
步骤4:解压文件
确保系统已安装
unzip
:
# Ubuntu/Debian
sudo apt-get install unzip
直接解压到当前目录:
unzip Scenario1.zip
或指定解压到目标目录(如
scenario1_data
):
unzip Scenario1.zip -d scenario1_data
下载结果
下载指定文件
下载全部文件
解压数据