-1

У меня есть относительно большой набор данных (+5000 строк), содержащий имена, адреса электронной почты и другие символы.

Я хочу извлечь только электронные письма без разрыва строк. Моей первой мыслью было отрицательное регулярное выражение в адресах электронной почты, я правильно понял выражение, но совпадение целых строк будет удалено.

Вот образец набора данных:

Qxvpbbj <ftnqfqkfrk@jnmg.twzrsws.bvj>,jplj.kpuof@mycnk.jlq
Vxclvës Wxaunfq <hdyminv.mhlygqn@mnajemi.sv>,"""askn.mgpxn@njemi.psh <mhfc.swsrv@dqefy.gjt>, frtnqzqvri@llgqvph.wx <vcsavrvsrr@ljairox.hw>"""
hucs@grezzmamkd.etl,misa.dhrnv@cdgun.hnt
Pivsvgz Semxmkxnu Ps Glymnzedu <xkaqhfwsk@fsxvhzyekrn.mo>,JPLJ.KPUOF@MYCNK.JLQ

И результат будет выглядеть следующим образом:

ftnqfqkfrk@jnmg.twzrsws.bvj, jplj.kpuof@mycnk.jlq
hdyminv.mhlygqn@mnajemi.sv, mhfc.swsrv@dqefy.gjt, vcsavrvsrr@ljairox.hw   
hucs@grezzmamkd.etl, misa.dhrnv@cdgun.hnt
xkaqhfwsk@fsxvhzyekrn.mo, JPLJ.KPUOF@MYCNK.JLQ

Какой-нибудь совет относительно программного обеспечения или методов, чтобы использовать, чтобы достигнуть того форматирования?

1 ответ1

0

Мне удалось очистить набор данных с помощью программного обеспечения качества данных, DataCleaner. Результаты не идеальны, хотя.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .