Если у вас есть доступ к написанию приложений в MONO на вашем Mac, тогда среда выполнения MONO фактически следует за собственными привязками .NET, поскольку в ней есть компонент «веб-браузер».
Этот компонент веб-браузера (как и его оригинальный родной аналог Windows .NET) инкапсулирует системный браузер по умолчанию в качестве элемента управления, который можно использовать визуальным или невизуальным способом.
У него есть такие методы, как «навигация (строка)», которые позволяют вам создать URL из произвольной текстовой строки (например, на основе ваших слов в вашем файле), а также свойство «Document-text», которое позволяет вам захватить содержимое HTML, которое было получено с URL-адреса, по которому вы также перешли.
Получив этот текст, вы можете использовать один из множества доступных наборов инструментов для синтаксического анализа HTML MONO, чтобы собрать нужные вам результаты поиска в нечто вроде массива, с помощью которого вы можете делать многие вещи, такие как вставка в базу данных.
Я написал похожую программу неделю назад или около того, чтобы взять список вопросов с главной страницы переполнения стека, по общему признанию, я написал это для Windows, используя официальный стек .NET, но это очень общий код, поэтому он должен работать на Mac с соответствующим образом установленными зависимостями тоже.