如何使用glob()递归地查找文件?

这是我所拥有的:

glob(os.path.join('src','*.c'))

但是我想搜索src的子文件夹。这样做是可行的:

glob(os.path.join('src','*.c'))
glob(os.path.join('src','*','*.c'))
glob(os.path.join('src','*','*','*.c'))
glob(os.path.join('src','*','*','*','*.c'))

但这显然是有限和笨拙的。

当前回答

如果这可能会引起任何人的兴趣，我已经介绍了前三种建议的方法。我在globbed文件夹中有大约500K个文件(总共)，并且有2K个文件符合所需的模式。

下面是(非常基本的)代码

import glob
import json
import fnmatch
import os
from pathlib import Path
from time import time


def find_files_iglob():
    return glob.iglob("./data/**/data.json", recursive=True)


def find_files_oswalk():
    for root, dirnames, filenames in os.walk('data'):
        for filename in fnmatch.filter(filenames, 'data.json'):
            yield os.path.join(root, filename)

def find_files_rglob():
    return Path('data').rglob('data.json')

t0 = time()
for f in find_files_oswalk(): pass    
t1 = time()
for f in find_files_rglob(): pass
t2 = time()
for f in find_files_iglob(): pass 
t3 = time()
print(t1-t0, t2-t1, t3-t2)

我得到的结果是: os_walk: ~ 3.6秒 rglob ~ 14.5秒 iglob: ~ 16.9秒

平台:Ubuntu 16.04, x86_64(核心i7)，

2020-06-13 17:39:18

其他回答

类似于其他解决方案，但使用fnmatch。Fnmatch而不是glob，因为os。Walk已经列出了文件名:

import os, fnmatch


def find_files(directory, pattern):
    for root, dirs, files in os.walk(directory):
        for basename in files:
            if fnmatch.fnmatch(basename, pattern):
                filename = os.path.join(root, basename)
                yield filename


for filename in find_files('src', '*.c'):
    print 'Found C source:', filename

此外，使用生成器允许您在找到每个文件时处理它，而不是找到所有文件然后处理它们。

2010-02-02 18:44:51

根据其他答案，这是我目前的工作实现，检索根目录中的嵌套XML文件:

files = []
for root, dirnames, filenames in os.walk(myDir):
    files.extend(glob.glob(root + "/*.xml"))

我真的很喜欢python:)

2012-07-28 22:09:23

import os, glob

for each in glob.glob('path/**/*.c', recursive=True):
    print(f'Name with path: {each} \nName without path: {os.path.basename(each)}')

Glob.glob ('*.c'):匹配当前目录下所有以.c结尾的文件 Glob.glob ('*/*.c'):与1相同 Glob.glob ('**/*.c'):只匹配直接子目录中以.c结尾的所有文件，不匹配当前目录 glob.glob('*.c'，recursive=True):与1相同 glob.glob('*/*.c'，recursive=True):与3相同 glob.glob('**/*.c'，recursive=True):匹配当前目录和所有子目录中以.c结尾的所有文件

2020-08-03 05:10:01

从Python 3.4开始，可以在新的pathlib模块中使用Path类之一的glob()方法，它支持**通配符。例如:

from pathlib import Path

for file_path in Path('src').glob('**/*.c'):
    print(file_path) # do whatever you need with these files

更新: 从Python 3.5开始，glob.glob()也支持相同的语法。

2014-11-11 16:08:39

import os
import fnmatch


def recursive_glob(treeroot, pattern):
    results = []
    for base, dirs, files in os.walk(treeroot):
        goodfiles = fnmatch.filter(files, pattern)
        results.extend(os.path.join(base, f) for f in goodfiles)
    return results

Fnmatch提供了与glob完全相同的模式，因此这是glob的绝佳替代品。语义非常接近的Glob。迭代版本(例如生成器)，替换glob。Iglob是一个简单的改编(只在执行过程中产生中间结果，而不是扩展一个结果列表到最后返回)。

2010-02-02 18:39:38

如何使用glob()递归地查找文件?

推荐文章

最新文章

标签