Посоветуйте что-то типа парсера HTML

Dimoks · 13.10.2017

Посоветуйте что-то типа парсера HTML

Часто надо совершать разного рода действия...

Например выудить из текстового файла всё что между тегами
<img src=" " />

и например иногда нет зависимости, у некоторых будет alt="", а у некоторых нет...

Или например надо найти в текстовом файле всё что идёт после
id_threads="

И экспортировать это в файл или просто на экран.

Короче, есть что-то универсальное.
Я юзаю Noteapd++ его не хватает и он многое не умеет

Он явно не для этого создавался

...:::Alex:::... · 13.10.2017

Так как нет желания использовать регулярки, юзай jquery или phpquery и выводи куда надо, мне кажется что это проще всего.
Разве что после `id_threads="` уже пиши ручками

Майорка · 13.10.2017

Для этого есть TextPipe аналог Notepad++, но специально созданный для таких целей. Еще, как вариант, если умеете создавать макросы, то можно в Мозиле Файрфокс создать макрос, который все выполнит.

oleglerh · 15.10.2017

Достаточно универсальные только языки программирования.
Я подобные задачи на Python решал.
Из того что я знаю - самый удобный язык, и научиться несложно.

nerve · 21.10.2017

пример файла откуда надо вытащить есть?

zx-spectrum · 22.10.2017

Парсить картинки ?!
Это правильно ! Создадим свой музей!

Das Zugunfall · 24.10.2017

oleozy сказав(ла):
Достаточно универсальные только языки программирования.
Я подобные задачи на Python решал.
Из того что я знаю - самый удобный язык, и научиться несложно.

Когда-то я тоже.
Но сейчас нода в данном кейсе вне конкуренции. Там модулей для этого хоть жопой потребляй.

Тільки зареєстровані користувачі бачать весь контент у цьому розділі

oleglerh · 25.10.2017

Skyggedans сказав(ла):
Когда-то я тоже.
Но сейчас нода в данном кейсе вне конкуренции.

Насколько помню BeautifulSoup в Python хорошо справлялся с парсингом, и не представляю что еще можно улучшить.
К тому же JavaScript как язык по моему значительно хуже чем Python

Part11 · 26.10.2017

Dimoks сказав(ла):
Часто надо совершать разного рода действия...

Например выудить из текстового файла всё что между тегами
<img src=" " />

и например иногда нет зависимости, у некоторых будет alt="", а у некоторых нет...

Или например надо найти в текстовом файле всё что идёт после
id_threads="

И экспортировать это в файл или просто на экран.

Короче, есть что-то универсальное.
Я юзаю Noteapd++ его не хватает и он многое не умеет Он явно не для этого создавался

Любимый язык програмирования + регулярные выражения.
PS сайт для того что-бы потестить регулярное выражение онлайн

Тільки зареєстровані користувачі бачать весь контент у цьому розділі

Dimoks · 26.10.2017

nerve сказав(ла):
пример файла откуда надо вытащить есть?

Нет... Каждый день что-то новое...

Вот вы все пишите про регулярные выражения. Супер. Но они дают мне только поиск.
А как экспортировать результаты этого поиска? Я хочу на выходе получить например текстовый файл, или чтобы в буфер обмена скопировались результаты

Part11 · 26.10.2017

Dimoks сказав(ла):
Нет... Каждый день что-то новое...

Вот вы все пишите про регулярные выражения. Супер. Но они дают мне только поиск.
А как экспортировать результаты этого поиска? Я хочу на выходе получить например текстовый файл, или чтобы в буфер обмена скопировались результаты

Регулярные выражения + язык програмирования = то что нужно. Там все что угодно от замены до копирования+сохранения в файл всё в ваших ~~руках~~ мозгах.
ЗЫ в приведеном выше сайте есть например вкладка List а если надо то и Replace. Для простых небольших задач должно быть с головой.

nerve · 27.10.2017

Dimoks сказав(ла):
А как экспортировать результаты этого поиска? Я хочу на выходе получить например текстовый файл, или чтобы в буфер обмена скопировались результаты

будет пример исходных данных - будет пример поиска и вывода результатов.

Dimoks · 27.10.2017

nerve сказав(ла):
будет пример исходных данных - будет пример поиска и вывода результатов.

Эта страница (где мы сейчас общаемся)
Найти все id юзеров, т.е. всё что после
member.php?u=
И сохранить список id в файл

Вот как мне лучше всего и проще всего это сделать?

nerve · 27.10.2017

смотрим код страницы ctrl+u, выделяем его и сохраняем в файл page.htm
в любом линуксе делаем:
ищем нужную строку, удаляем дубликаты, из найденной строки оставляем только цифры, пишем в файл и смотрим созданный файл.

Код:

# grep '<a class="bigusername" href="member.php?u=' page.htm \
| sort -u | grep -oE '[0-9]+' > id.txt && cat id.txt
1
110042
11
12960
130800
441557
4635
58933
7091

Part11 · 28.10.2017

nerve сказав(ла):
смотрим код страницы ctrl+u, выделяем его и сохраняем в файл page.htm
в любом линуксе делаем:
ищем нужную строку, удаляем дубликаты, из найденной строки оставляем только цифры, пишем в файл и смотрим созданный файл.

Код:

# grep '<a class="bigusername" href="member.php?u=' page.htm \ | sort -u | grep -oE '[0-9]+' > id.txt && cat id.txt 1 110042 11 12960 130800 441557 4635 58933 7091

Вероятно у вас гдето ошибка нет юзера тут с айди 11 вероятно кусок моего ника попал или еще гдето проблема

Part11 · 28.10.2017

Dimoks сказав(ла):
Эта страница (где мы сейчас общаемся)
Найти все id юзеров, т.е. всё что после
member.php?u=
И сохранить список id в файл

Вот как мне лучше всего и проще всего это сделать?

Без выделения уникальных id

Тільки зареєстровані користувачі бачать весь контент у цьому розділі

в Expression вставляем (member.php\?u=)(\d+)
в Text текст страницы
в Tools ->List вставляем $2\n
результат копируешь и сохраняешь в файл

+язык програмирования учить не надо, нет привязки к операционной системе
- меньше возможностей и ручками надо заполнять и сохранять. Нужен интернет(возможно и сохраненная страница заработает лень проверять)

Sitroaik · 28.10.2017

Dimoks сказав(ла):
Часто надо совершать разного рода действия...

Например выудить из текстового файла всё что между тегами
<img src=" " />

и например иногда нет зависимости, у некоторых будет alt="", а у некоторых нет...

Или например надо найти в текстовом файле всё что идёт после
id_threads="

И экспортировать это в файл или просто на экран.

Короче, есть что-то универсальное.
Я юзаю Noteapd++ его не хватает и он многое не умеет Он явно не для этого создавался

Я правильно понял? Нужно из текстового файла с HTML-кодом вытащить перечень всех ссылок на изображения?

Part11 · 28.10.2017

Sitroaik сказав(ла):
Я правильно понял? Нужно из текстового файла с HTML-кодом вытащить перечень всех ссылок на изображения?

как-то так

nerve сказав(ла):
пример файла откуда надо вытащить есть?

Dimoks сказав(ла):
Нет... Каждый день что-то новое...

Вот вы все пишите про регулярные выражения. Супер. Но они дают мне только поиск.
А как экспортировать результаты этого поиска? Я хочу на выходе получить например текстовый файл, или чтобы в буфер обмена скопировались результаты

nerve сказав(ла):
будет пример исходных данных - будет пример поиска и вывода результатов.

Dimoks сказав(ла):
Эта страница (где мы сейчас общаемся)
Найти все id юзеров, т.е. всё что после
member.php?u=
И сохранить список id в файл

Вот как мне лучше всего и проще всего это сделать?

nerve · 28.10.2017

Part11 сказав(ла):
Вероятно у вас гдето ошибка нет юзера тут с айди 11 вероятно кусок моего ника попал или еще гдето проблема

так и есть. не обратил внимание что есть кто-то с цифрами в имени.
вот уточненный вариант

Код:

grep '<a class="bigusername" href="member.php?u=' page.htm \
| sort -u | grep -o '<.*">' | grep -oE '[0-9]+'
1
110042
12960
130800
441557
4635
58933
7091

anton_lyubch · 16.01.2018

Я пользуюсь NetBeans а в нем есть поиск/замена по регулярному выражению.

Посоветуйте что-то типа парсера HTML

Dimoks

Адмін

...:::Alex:::...

Майорка

oleglerh

nerve

zx-spectrum

Das Zugunfall

oleglerh

Part11

Dimoks

Адмін

Part11

nerve

Dimoks

Адмін

nerve

Part11

Part11

Sitroaik

Part11

nerve

anton_lyubch