Посоветуйте что-то типа парсера HTML

Dimoks

Адмін
Статус: Offline
Реєстрація: 15.08.2003
Повідом.: 70228
Посоветуйте что-то типа парсера HTML

Часто надо совершать разного рода действия...

Например выудить из текстового файла всё что между тегами
<img src=" " />

и например иногда нет зависимости, у некоторых будет alt="", а у некоторых нет...

Или например надо найти в текстовом файле всё что идёт после
id_threads="

И экспортировать это в файл или просто на экран.

Короче, есть что-то универсальное.
Я юзаю Noteapd++ его не хватает и он многое не умеет :( Он явно не для этого создавался
 
Так как нет желания использовать регулярки, юзай jquery или phpquery и выводи куда надо, мне кажется что это проще всего.
Разве что после `id_threads="` уже пиши ручками :D
 
Для этого есть TextPipe аналог Notepad++, но специально созданный для таких целей. Еще, как вариант, если умеете создавать макросы, то можно в Мозиле Файрфокс создать макрос, который все выполнит.
 
Достаточно универсальные только языки программирования.
Я подобные задачи на Python решал.
Из того что я знаю - самый удобный язык, и научиться несложно.
 
пример файла откуда надо вытащить есть?
 
Парсить картинки ?!
Это правильно ! Создадим свой музей!
 
Достаточно универсальные только языки программирования.
Я подобные задачи на Python решал.
Из того что я знаю - самый удобный язык, и научиться несложно.

Когда-то я тоже.
Но сейчас нода в данном кейсе вне конкуренции. Там модулей для этого хоть жопой потребляй.
Тільки зареєстровані користувачі бачать весь контент у цьому розділі
 
Когда-то я тоже.
Но сейчас нода в данном кейсе вне конкуренции.
Насколько помню BeautifulSoup в Python хорошо справлялся с парсингом, и не представляю что еще можно улучшить.
К тому же JavaScript как язык по моему значительно хуже чем Python
 
Часто надо совершать разного рода действия...

Например выудить из текстового файла всё что между тегами
<img src=" " />

и например иногда нет зависимости, у некоторых будет alt="", а у некоторых нет...

Или например надо найти в текстовом файле всё что идёт после
id_threads="

И экспортировать это в файл или просто на экран.

Короче, есть что-то универсальное.
Я юзаю Noteapd++ его не хватает и он многое не умеет :( Он явно не для этого создавался
Любимый язык програмирования + регулярные выражения.
PS сайт для того что-бы потестить регулярное выражение онлайн
Тільки зареєстровані користувачі бачать весь контент у цьому розділі
 
пример файла откуда надо вытащить есть?
Нет... Каждый день что-то новое... :)

Вот вы все пишите про регулярные выражения. Супер. Но они дают мне только поиск.
А как экспортировать результаты этого поиска? Я хочу на выходе получить например текстовый файл, или чтобы в буфер обмена скопировались результаты
 
Нет... Каждый день что-то новое... :)

Вот вы все пишите про регулярные выражения. Супер. Но они дают мне только поиск.
А как экспортировать результаты этого поиска? Я хочу на выходе получить например текстовый файл, или чтобы в буфер обмена скопировались результаты

Регулярные выражения + язык програмирования = то что нужно. Там все что угодно от замены до копирования+сохранения в файл всё в ваших руках мозгах.
ЗЫ в приведеном выше сайте есть например вкладка List а если надо то и Replace. Для простых небольших задач должно быть с головой.
 
А как экспортировать результаты этого поиска? Я хочу на выходе получить например текстовый файл, или чтобы в буфер обмена скопировались результаты
будет пример исходных данных - будет пример поиска и вывода результатов.
 
будет пример исходных данных - будет пример поиска и вывода результатов.
Эта страница (где мы сейчас общаемся)
Найти все id юзеров, т.е. всё что после
member.php?u=
И сохранить список id в файл

Вот как мне лучше всего и проще всего это сделать?
 
смотрим код страницы ctrl+u, выделяем его и сохраняем в файл page.htm
в любом линуксе делаем:
ищем нужную строку, удаляем дубликаты, из найденной строки оставляем только цифры, пишем в файл и смотрим созданный файл.
Код:
# grep '<a class="bigusername" href="member.php?u=' page.htm \
| sort -u | grep -oE '[0-9]+' > id.txt && cat id.txt
1
110042
11
12960
130800
441557
4635
58933
7091
 
смотрим код страницы ctrl+u, выделяем его и сохраняем в файл page.htm
в любом линуксе делаем:
ищем нужную строку, удаляем дубликаты, из найденной строки оставляем только цифры, пишем в файл и смотрим созданный файл.
Код:
# grep '<a class="bigusername" href="member.php?u=' page.htm \
| sort -u | grep -oE '[0-9]+' > id.txt && cat id.txt
1
110042
11
12960
130800
441557
4635
58933
7091

Вероятно у вас гдето ошибка нет юзера тут с айди 11 вероятно кусок моего ника попал или еще гдето проблема:D
 
Эта страница (где мы сейчас общаемся)
Найти все id юзеров, т.е. всё что после
member.php?u=
И сохранить список id в файл

Вот как мне лучше всего и проще всего это сделать?

Без выделения уникальных id
Тільки зареєстровані користувачі бачать весь контент у цьому розділі

в Expression вставляем (member.php\?u=)(\d+)
в Text текст страницы
в Tools ->List вставляем $2\n
результат копируешь и сохраняешь в файл

+язык програмирования учить не надо, нет привязки к операционной системе
- меньше возможностей и ручками надо заполнять и сохранять. Нужен интернет(возможно и сохраненная страница заработает лень проверять)
 
Часто надо совершать разного рода действия...

Например выудить из текстового файла всё что между тегами
<img src=" " />

и например иногда нет зависимости, у некоторых будет alt="", а у некоторых нет...

Или например надо найти в текстовом файле всё что идёт после
id_threads="

И экспортировать это в файл или просто на экран.

Короче, есть что-то универсальное.
Я юзаю Noteapd++ его не хватает и он многое не умеет :( Он явно не для этого создавался

Я правильно понял? Нужно из текстового файла с HTML-кодом вытащить перечень всех ссылок на изображения?
 
Я правильно понял? Нужно из текстового файла с HTML-кодом вытащить перечень всех ссылок на изображения?
как-то так
пример файла откуда надо вытащить есть?

Нет... Каждый день что-то новое... :)

Вот вы все пишите про регулярные выражения. Супер. Но они дают мне только поиск.
А как экспортировать результаты этого поиска? Я хочу на выходе получить например текстовый файл, или чтобы в буфер обмена скопировались результаты
будет пример исходных данных - будет пример поиска и вывода результатов.
Эта страница (где мы сейчас общаемся)
Найти все id юзеров, т.е. всё что после
member.php?u=
И сохранить список id в файл

Вот как мне лучше всего и проще всего это сделать?
 
Вероятно у вас гдето ошибка нет юзера тут с айди 11 вероятно кусок моего ника попал или еще гдето проблема:D
так и есть. не обратил внимание что есть кто-то с цифрами в имени.
вот уточненный вариант
Код:
grep '<a class="bigusername" href="member.php?u=' page.htm \
| sort -u | grep -o '<.*">' | grep -oE '[0-9]+'
1
110042
12960
130800
441557
4635
58933
7091
 
Я пользуюсь NetBeans а в нем есть поиск/замена по регулярному выражению.
 
Назад
Зверху Знизу