Вопросы с меткой [parsing]

Руководство по использованию метки parsing отсутствует.

17
голосов
8ответов
7k показов

Автоматический анализ текста цитирования в академических ссылках

Существует ли какое-либо программное обеспечение (или псевдокод), которое может автоматически сканировать фрагмент текста (либо вставленный в инструмент, либо считывать из .doc/.pdf) и ...
12
голосов
7ответов
110k показов

Копирование / вставка данных из SQL Server в Excel разбивает текст на несколько столбцов?

У меня проблема с вставкой данных из таблицы результатов SQL Server 2005 в электронную таблицу Excel 2007. У меня есть запрос в SQL Server, который возвращает 2 столбца (столбец числа и текстовый ...
8
голосов
3ответа
49k показов

Импорт данных JSON в Excel

У меня есть текстовый файл в формате JSON и я хочу прочитать его в Excel. Очень упрощенный пример файла json имеет следующую структуру: { [ { 'a': 10, 'b': 20 }, { 'a': 20, 'b': 22 }, { 'a': 11, 'b': ...
7
голосов
8ответов
1k показов

Удалите файл linux, названный набором символов, отвечающих на оболочку

Я создал файл с именем \;:$"\' для тестирования моего программного обеспечения. Я закончил с ошибкой, потому что я не могу удалить свойство файла. Я пытаюсь найти точную комбинацию символов, чтобы ...
6
голосов
2ответа
19k показов

Powershell: получить исходную символьную строку из имени файла и создать каталог из строки, затем переместить файлы

У меня есть папка со следующими именами файлов: 00150005D201110172338427995.vpf 00150005D201110180005318058.vpf 00150013D201110180014448082.vpf 00150013D201110180022268098.vpf ...
5
голосов
3ответа
23k показов

Как добавить строку в конце всех строк?

Я пытаюсь добавить строку в конце всех строк в текстовом файле, но у меня есть ошибка где-то. Пример: У меня есть это в текстовом файле: begin--fr.a2dfp.net begin--m.fr.a2dfp.net begin--mfr.a2dfp.net ...
4
голоса
3ответа
1k показов

Разбиение файла на строки, на отдельные файлы, каждый из которых основан на первой букве. BASH

Хорошо, у меня есть файл, содержащий тысячи строк. Каждый на своей линии. Я хочу создать скрипт, который позволит мне взять этот файл, назвать его list.txt , взять элементы из каждой строки и ...
4
голоса
1ответ
3k показов

Как я могу разобрать файл XML из командной строки (для GeekTool)?

Я хотел бы найти команду терминала, которая может получить файл по адресу http://api.twitter.com/1/statuses/user_timeline.xml?screen_name=SOMEUSERNAME&count=1, и проанализировать ее, чтобы найти ...
4
голоса
5ответов
28k показов

sed: извлечение значения пары ключ-значение в строке запроса URL

Я пытаюсь использовать sed для извлечения части значения одной из множества пар ключ-значение в строке запроса URL Вот что я пытаюсь: echo 'http://www.youtube.com/watch?v=abc&g=xyz' | sed ...
4
голоса
5ответов
25k показов

Как разбить текстовый файл на несколько текстовых файлов

У меня есть текстовый файл с именем entry.txt который содержит следующее: [ entry1 ] 1239 1240 1242 1391 1392 1394 1486 1487 1489 1600 1601 1603 1657 1658 1660 2075 2076 2078 2322 2323 2325 2740 2741 ...
4
голоса
2ответа
2k показов

Excel не выполняет синтаксический анализ строки в кавычках, содержащей запятую в файле CSV

У меня есть файл CSV, который с кавычкой строки, которая содержит comma . Когда я открываю его в Excel, он по-прежнему использует запятую в строках и анализирует их в разных столбцах. Может ...
4
голоса
2ответа
5k показов

Извлечение списка значений из файла JSON в Excel или текстовый файл

Я хочу извлечь имена пользователей из файла данных JSON. [{"username": "Cobra", "user_id": 146231486, "event_type": 2, "title": null, "class_id": 4211, "war_state" : null, "superpower_expire_date": ...
4
голоса
3ответа
7k показов

Как использовать grep для сопоставления доменных имен?

У меня есть список URL-адресов, таких как: hxxp://url.com/subpage.html hxxp://www.url2.com/index.php hxxp://subdomain.url3.com/somepage.php ... Как я могу использовать grep для сопоставления только ...
4
голоса
1ответ
2k показов

Сценарии оболочки: способ анализа параметров из командной строки

myscript [-a a-arg] [-c c-arg] [-b] [-e] somedirectory Учитывая, что я хочу, чтобы мой сценарий оболочки вызывался из командной строки с использованием указанных выше параметров - где [эти квадратные ...
4
голоса
1ответ
2k показов

Как мне разобрать пути к файлам, разделенные пробелом в строке?

Справочная информация: я работаю в Automator над оболочкой для утилиты командной строки. Мне нужен способ отделить произвольное количество путей к файлам, разделенных одним пробелом, от одной строки, ...
3
голоса
2ответа
1k показов

Точно совпадать (и только) с шаблоном, который я указал в команде grep

Обычно grep ищет все строки, содержащие совпадение с указанным шаблоном / параметром. Я хотел бы соответствовать только шаблону (то есть не всей линии). Итак, если файл содержит строки: We said that ...
2
голоса
0ответов
402 показов

искать слово в файлах .txt и записать несколько строк в новый файл .txt

Пожалуйста, помогите мне создать скрипт для выполнения задачи, как описано ниже. У меня есть 2 файла. A.txt и B.txt Содержание A.txt согласно ниже ITEM name TICKY title nice coffe drink type DRINK ...
2
голоса
3ответа
5k показов

Разбор строки с использованием пакетного скрипта

Как я могу разобрать строку, используя пакетный скрипт? Цель состоит в том, чтобы сохранить в массиве все, что находится под Import: и #head например -> //MPackages/Project/config/abc.txt и ...
2
голоса
3ответа
678 показов

Извлечение ссылок из числового диапазона веб-страниц

Я хотел бы извлечь ссылки из числовой последовательности страниц, как это: http://example.com/page001.html http://example.com/page002.html http://example.com/page003.html ... ...
2
голоса
1ответ
641 показов

Подсчет дубликатов строк из потока

В настоящее время я анализирую журналы apache с помощью этой команды: tail -f /opt/apache/logs/access/gvh-access_log.1365638400 | grep specific.stuff. | awk '{print $12}' | cut -d/ -f3 > ~/logs Вывод ...
2
голоса
1ответ
1k показов

Можно ли получать и анализировать электронную почту, используя сценарии оболочки mailutils+ только на сервере Ubuntu без головы 15.10?

В надежде свести к минимуму количество пакетов, каждый из которых нуждается в собственной конфигурации, мне интересно, есть ли способ получить электронную почту для анализа по сценарию без установки ...
2
голоса
2ответа
4k показов

Разница между исполняемым файлом и форматом файла данных?

Несколько быстрых вещей, как я знаю, такие вопросы часто имеют вредоносную основу. Я не пытаюсь выполнить что-то в формате файла (JPG) Я не пытаюсь просто достичь конечной цели (то есть сделать ...
2
голоса
4ответа
569 показов

Анализ выходных данных командной строки, разделенных подчеркиванием

У меня есть команда, вывод которой выглядит так: some_command Текущее представление: username_token1_token2_token3_4_token4_2 Как я могу разобрать часть "token3_4_token4_2" из строки?
2
голоса
1ответ
524 показов

Что на самом деле делает эта команда grep?

Я пытаюсь освоить grep. Я получил следующую команду из скрипта GeekLet, которую кто-то сделал для получения информации о погоде с какого-либо веб-сайта: curl -s ...
2
голоса
2ответа
71 показов

Получить первые две строки каждого имени файла в каталоге как текстовый файл

Мне нужно очистить строки как здесь (где я читаю в группе имен изображений), где я хочу только первые две строки (в настоящее время я использую, в строке Windows 7 cmd - dir /a /b /p> textfile ...
2
голоса
1ответ
623 показов

Машиночитаемый список файлов в архиве rar

Мне нужен способ получить разборный список всех файлов в архиве .rar без их распаковки , в bash или python. Что я пробовал: rar l *.rar 7z l -slt *.rar Я также посмотрел на patool в python, но, ...
2
голоса
2ответа
850 показов

Пакетное преобразование горит -> TXT

Есть ли в Windows инструмент для пакетного конвертирования папки .lit файлов в другой формат, предпочтительно в простой текст?
2
голоса
3ответа
2k показов

Нотация Excel, которая дает FIND возможность искать несколько строк

Поэтому я работал с таблицей, в которой есть список названий школ. Я извлекаю данные из этой таблицы, чтобы создать список, который ограничивает размер текста в каждой ячейке. Чтобы привести названия ...
2
голоса
1ответ
1k показов

Разбирать входящую почту в Thunderbird?

Мне нужно проанализировать заголовок входящих писем и сделать несколько простых проверок, например, «включает ли это слово / номер». Я знаком с AutoHotkey, Batch, PHP ... Есть идеи? Кажется, я не ...
2
голоса
1ответ
890 показов

Удаление дубликатов музыкальных файлов с сохранением метаданных iTunes

Когда я впервые импортировал большую часть своей библиотеки iTunes, у меня была опция copy files to iTunes Media folder when adding to library , поэтому в основном вся моя музыкальная библиотека была ...
2
голоса
1ответ
3k показов

Разбор и переформатирование строки даты с помощью PowerShell

Дан CSV-файл, содержащий следующую строку: ГОЛОВКА; 1; 49999; 8-10-2017 ;;; .. Мне нужно переформатировать дату, заданную как dm-гггг, в фиксированную длину дд.мм.гггг и / или гггг-мм-дд ...
1
голос
0ответов
785 показов

Как экспортировать DokuWiki без логина машины

Мне нужен плагин для экспорта всей DokuWiki, PDF предпочтительнее. Я попробовал bookcreator, dw2pdf и плагин epub, которые не соответствуют моим требованиям. Было бы хорошо, если бы внутренние ссылки ...
1
голос
1ответ
118 показов

Как xml to xml разобрать

Я пытаюсь автоматизировать этот процесс. У меня есть ссылка на этот XML-файл. у него много параметров, но меня интересуют только 3 его параметра. Я хочу использовать эти 3 параметра и автоматически ...
1
голос
1ответ
1k показов

Как открыть подмножество большого (35MB) файла .xlsx?

У меня Ubuntu 10.04 работает на Dell Optiplex с 4 ГБ памяти и двумя процессорами 3,16 ГГц. Я получил таблицу размером 35 МБ. Он открылся в Gnumeric через 5 минут с ошибками и не открывался в Open ...
1
голос
1ответ
72 показов

Как найти все сайты, соответствующие шаблону website.edu/~ <some_string>?

Лекторы университетов часто имеют свои собственные веб-страницы в университетской области и обмениваются ресурсами там. Если профессора зовут Джон Смит, то его веб-сайт может быть ...
1
голос
1ответ
827 показов

Извлечение данных из PDF-документа в CSV

Я хотел бы преобразовать пачку финансовых документов, идентично отформатированных, в файл CSV. Вот пример: У меня есть программа для оптического распознавания символов, поэтому это не главное. Мне ...
1
голос
1ответ
197 показов

Как правильно убрать вывод строки

Как мне удалить строки, выведенные с помощью strace? Я вижу несколько советов, чтобы использовать printf '%b' для этого, но в некоторых случаях это не работает правильно для меня. Рассмотрим echo -ne ...
1
голос
1ответ
30 показов

Как я могу отключить даты в Calc?

Я вижу, что все электронные таблицы требуют срочного признания вашего 13.12 в качестве даты. В частности, я борюсь с Calc, который, как говорят, использует английский язык для импорта точек в ...
1
голос
1ответ
95 показов

Получение долларовых сумм из DoD Contract Awards

Я просматриваю пресс-релизы Министерства обороны (здесь) в поисках долларов, превышающих 500 миллионов долларов. Каждый документ содержит от 1000 до 15 000 слов, а суммы в долларах соответствуют ...
1
голос
0ответов
824 показов

Получение переменной реестра в пакетном скрипте

Я хочу написать пакетный скрипт (Windows XP), который извлекает определенные пути установки из реестра. Как можно написать такой сценарий? Я написал следующее - я (как вы можете видеть из моего ...
1
голос
3ответа
137 показов

Извлечь несколько разделов страниц из PDF

У меня есть тонна PDF-файлов (прошедшие экзамены), из которых только два раздела страниц (около 8 страниц каждый) имеют отношение к мне. Я хотел бы извлечь два раздела в отдельный файл для каждого из ...
1
голос
3ответа
1k показов

Как мне разобрать строку?

Я новичок в bash, и я создаю сценарий, который просматривает файлы в каталоге и на основе части имени файла, что-то делает с файлом, пока у меня есть это: #!/bin/bash ...
1
голос
0ответов
540 показов

Как извлечь текст с сайтов

Я ищу способ автоматизировать извлечение текста из нескольких веб-сайтов в текстовый документ. При вставке в слово doc мне нужно его вставить, используя "форматирование слиянием". Вот как я хотел бы, ...
1
голос
0ответов
35 показов

Разбор (или преобразование) буферизованного вывода

Если динамическое текстовое приложение CLI не включает параметр для вывода небуферизованного текстового вывода; Какие варианты у меня есть для анализа указанного вывода? Можно ли как-то преобразовать ...
1
голос
2ответа
436 показов

Захват и анализ буфера xterm cut в emacs

Я хотел бы сделать косвенный элемент управления для Emacs (в Ubuntu Linux), чтобы я мог с помощью курсора пролистать некоторый текст в xterm, вырезать его в буфере X Cut, а затем запустить макрос в ...
1
голос
2ответа
69 показов

Как получить имя из другого файла с помощью скрипта Bash?

Я хотел бы извлечь имя из другого предопределенного файла и использовать его в моем сценарии оболочки. Читаемый файл будет в ./docs/description.org а формат (таблица в формате .org ): ...some text | ...
1
голос
0ответов
51 показов

Как проанализировать XML, который может иметь от 0 до N количество узлов, используя Perl

Как обрабатывать XML, который может иметь один или несколько вхождений узла в файле в Perl. В текущем решении, представленном ниже, foreach $FileContainerRec (@{$XmlFile->{FileContainer}}) { ...
1
голос
3ответа
4k показов

Быстрое извлечение пар ключ-значение в командной строке Linux

У меня есть большой (десятки ГБ) текстовый файл с данными в формате key=value;foo=bar;baz=quo формат quo . Количество и порядок ключей может меняться от строки к строке. Мне нужно обработать этот ...
1
голос
2ответа
376 показов

Как я могу разобрать размеры для этой строки в Excel?

Я пытаюсь проанализировать отдельные размеры (длина, высота, ширина) для строки в Excel, но у меня возникают проблемы с определением, какие текстовые формулы использовать. Подробности ниже. Пример ...
1
голос
3ответа
12k показов

Как я могу получить количество строк текстового файла?

Я не хочу, чтобы он удалял все остальное или что-то еще, но просто чтобы быстро сообщить количество строк, в которые включен только что введенный текст. Как я могу быстро найти «количество строк в ...