У меня есть HTML-файл, который содержит много /<| ^, некоторые тексты помимо заголовков мусора, слова и т.д. Я хочу извлечь несколько текстов между набором букв, таких как "nbsp" и труба «|». Я теряю информацию, если использую «delims = nbsp», так как delims считает их "n", "b", "s" и "p". Как я должен подойти к проблеме, и как я могу извлечь множество текстов?
Пример текста:
garbage nbsp; SOME_TEXT_1 | garbage
garbage nbsp; SOME_TEXT_2 | garbage
garbage nbsp; SOME_TEXT_3 | garbage