РЕДАКТИРОВАТЬ:

Оказывается, это коллизия хешей из файловой системы ext4.

Я пишу много файлов в папку, без подкаталогов, однако после 2,8 миллионов файлов эта ошибка появляется:

with open(bottleneck_path, 'w') as save_file:
OSError: [Errno 28] No space left on device: '/home/user/path/redacted'

Я проверил длину имени файла, которая составляет всего 149 символов. Размер файла должен быть около 18К.

Моя операционная система Linux.

df -i:

Filesystem                               Inodes   IUsed    IFree IUse% Mounted on
udev                                    4106923     544  4106379    1% /dev
tmpfs                                   4113022     836  4112186    1% /run
/dev/sda2                              28401664 9008557 19393107   32% /
tmpfs                                   4113022      40  4112982    1% /dev/shm
tmpfs                                   4113022       5  4113017    1% /run/lock
tmpfs                                   4113022      16  4113006    1% /sys/fs/cgroup
/dev/sda1                                     0       0        0     - /boot/efi

df -T

Filesystem                             Type      1K-blocks       Used  Available Use% Mounted on
udev                                   devtmpfs   16427692          0   16427692   0% /dev
tmpfs                                  tmpfs       3290420      22136    3268284   1% /run
/dev/sda2                              ext4      447088512  355325584   69029056  84% /
tmpfs                                  tmpfs      16452088      82448   16369640   1% /dev/shm
tmpfs                                  tmpfs          5120          4       5116   1% /run/lock
tmpfs                                  tmpfs      16452088          0   16452088   0% /sys/fs/cgroup
/dev/sda1                              vfat         523248       3684     519564   1% /boot/efi

ду шш

56G

ls | туалет

2892084

Насколько я понимаю, ext4 должен справиться с этим просто отлично.

РЕДАКТИРОВАТЬ:

tune2fs -l /dev /sda2

tune2fs 1.42.13 (17-May-2015)
Filesystem volume name:   <none>
Last mounted on:          /
Filesystem UUID:          cd620466-1f88-400b-acf5-457a9c9544cf
Filesystem magic number:  0xEF53
Filesystem revision #:    1 (dynamic)
Filesystem features:      has_journal ext_attr resize_inode dir_index filetype needs_recovery extent flex_bg sparse_super large_file huge_file uninit_bg dir_nlink extra_isize
Filesystem flags:         signed_directory_hash 
Default mount options:    user_xattr acl
Filesystem state:         clean
Errors behavior:          Continue
Filesystem OS type:       Linux
Inode count:              28401664
Block count:              113587456
Reserved block count:     5679372
Free blocks:              82864623
Free inodes:              25755495
First block:              0
Block size:               4096
Fragment size:            4096
Reserved GDT blocks:      996
Blocks per group:         32768
Fragments per group:      32768
Inodes per group:         8192
Inode blocks per group:   512
Flex block group size:    16
Filesystem created:       Wed Mar  1 15:14:22 2017
Last mount time:          Mon Mar 27 13:20:00 2017
Last write time:          Mon Mar 27 13:20:00 2017
Mount count:              35
Maximum mount count:      -1
Last checked:             Wed Mar  1 15:14:22 2017
Check interval:           0 (<none>)
Lifetime writes:          1813 GB
Reserved blocks uid:      0 (user root)
Reserved blocks gid:      0 (group root)
First inode:              11
Inode size:           256
Required extra isize:     28
Desired extra isize:      28
Journal inode:            8
First orphan inode:       1312056
Default directory hash:   half_md4
Directory Hash Seed:      e186507d-32b5-49c0-8ce1-09bf2a75d816
Journal backup:           inode blocks

С помощью

touch /home/user/path/redacted/somefile_1

выдает ошибку, но та же структура имени файла с другим именем работает нормально. например:

touch /home/user/path/redacted/somefile_2

РЕДАКТИРОВАТЬ: Оказывается, это коллизия хеш-файлов из файловой системы ext4.

2 ответа2

0

Проблема не в том, что есть коллизии хешей - htree может поддерживать коллизии просто отлично. Проблема в том, что ext4 в настоящее время поддерживает только двухуровневое глубокое дерево хешей. Есть патчи для снятия этого лимита:

https://www.spinics.net/lists/linux-ext4/msg55729.html

Обратите внимание, что производительность, когда у вас есть два миллиона каталогов, не будет хорошей. Я рекомендую использовать многоуровневую иерархию каталогов - например, /home /t /y /tytso вместо того, чтобы иметь множество каталогов в /home.

0

Можете ли вы проверить, действительно ли это связано с ОС?

Поскольку вы не задали свой код сценария Python для вопроса, вот сценарий, который создает файлы 3mio с именами файлов по 150 символов каждый. С моей стороны это работает нормально без каких-либо ошибок.

После успешного запуска скрипта:

  • Переместите этот вопрос в stackoverflow, чтобы получить справку по вашему коду.

если скрипт не работает (т.е. после 2,8 млн. файлов):

  • Переместите этот вопрос в unix/linux, чтобы получить справку по Linux OS.

Вам нужно установить target_dir в существующий пустой каталог

#!/usr/bin/env python3
# vim:fenc=utf-8 ts=4 sw=4 sts=4 et:
# -*- coding: utf-8 -*-
import sys

target_dir = "/home/user/sandbox/test/"
no_files = 3000000

sys.stdout.write("start")


def pretty_no(nr, l):
    #  create filename string
    res = str(nr)
    l -= len(res)
    return "0"*l+res

for i in range(0, no_files):
    fn = target_dir+pretty_no(i, 150)
    f = open(fn, "w")
    f.write("hello world!")
    f.close()
    sys.stdout.write("\r%s files" % i)

print("\ndone")

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .