У меня есть файл, который содержит список имен с указанием года их предоставления. Я хотел бы выяснить, как часто каждая буква встречается в каждом имени, но я не знаю, как это сделать. Формат файла:
"Given name","Year","Gender"
"Given name","Year","Gender"
Где "Имя" - это строка, "Год" - это четырехзначное представление номера года, а "Пол" - 1 или 2.
Годы варьируются от 1917 до 2017 года, и насчитывается около 6,5 миллионов уникальных имен, но вычислительная мощность не является проблемой. У меня есть файл, разбивающий имена по слогам, и файл, в котором они рассматриваются как целые имена. Я хотел бы запустить поиск, который возвращает экземпляры каждой данной буквы в абзаце «Имя» для каждого значения года, например, так:
1029000, a, 1917
5140, b, 1917
67043, c, 1917
И повторять каждый год. Я думаю, я мог бы сделать это вручную с помощью grep, но для каждой буквы и года потребовалось бы целую вечность (из-за различных иностранных букв в сумме получается около 50 уникальных знаков, и у меня есть данные за 100 лет, так что в целом из 5000 пробегов было бы необходимо). Может ли кто-нибудь помочь мне с простым сценарием, который позволит мне выполнить это, не ломая голову бездумным повторением?