出于研究目的,我试图抓取公共Docker注册表(https://registry.hub.docker.com/),并找出1)平均图像有多少层,2)这些层的大小,以了解分布情况。

然而,我研究了API和公共图书馆以及github上的细节,但我找不到任何方法:

检索所有公共存储库/图像(即使有数千个,我仍然需要一个开始列表来迭代) 找出图像的所有层 找到一个图层的大小(所以不是图像,而是单个图层)。

有人能帮我找到找回这些信息的方法吗?

谢谢你!

编辑:有人能验证在Docker注册表中搜索'*'是返回所有的存储库,而不仅仅是任何地方提到'*'的东西吗?https://registry.hub.docker.com/search?q= *


当前回答

我已经通过使用Docker网站上的搜索功能解决了这个问题,其中“*”是一个有效的搜索,返回200k个存储库,然后我爬取每个单独的页面。HTML解析允许我提取每个页面上的所有图像名称。

其他回答

看看用戈朗写的潜水。

非常棒的工具!

要找到一个图像的所有层,并找到一个层的大小,你可以通过“manifest”实验特性从docker hub注册表中显示清单:

docker manifest inspect ubuntu

结果是一个JSON文件(这里只显示了第一行):

{
   "schemaVersion": 2,
   "mediaType": "application/vnd.docker.distribution.manifest.list.v2+json",
   "manifests": [
      {
         "mediaType": "application/vnd.docker.distribution.manifest.v2+json",
         "size": 529,
         "digest": "sha256:10cbddb6cf8568f56584ccb6c866203e68ab8e621bb87038e254f6f27f955bbe",
         "platform": {
            "architecture": "amd64",
            "os": "linux"
         }
      },
      {
         "mediaType": "application/vnd.docker.distribution.manifest.v2+json",
         "size": 529,
         "digest": "sha256:dd375524d7eda25a69f9f9790cd3e28855be7908e04162360dd462794035ebf7",
         "platform": {
            "architecture": "arm",
            "os": "linux",
            "variant": "v7"

不完全是最初的问题,但要找到所有图像的总和而不重复计算共享层,下面是有用的(ubuntu 18):

sudo du -h -d1  /var/lib/docker/overlay2 | sort -h

他们给出了一个很好的答案: https://stackoverflow.com/a/32455275/165865

只需运行下面的图片:

docker run --rm -v /var/run/docker.sock:/var/run/docker.sock nate/dockviz images -t

我已经通过使用Docker网站上的搜索功能解决了这个问题,其中“*”是一个有效的搜索,返回200k个存储库,然后我爬取每个单独的页面。HTML解析允许我提取每个页面上的所有图像名称。