Харьков Форум
  Харьков Форум > Hi-Tech... > Программирование и создание сайтов

Старый 13.10.2017, 16:27   #1
Dimoks
Админ


 
 
Регистрация: 14.08.2003
Из: Ukraine
Сообщений: 38,057
 
Очкарик Посоветуйте что-то типа парсера HTML

Часто надо совершать разного рода действия...

Например выудить из текстового файла всё что между тегами
<img src=" " />

и например иногда нет зависимости, у некоторых будет alt="", а у некоторых нет...

Или например надо найти в текстовом файле всё что идёт после
id_threads="

И экспортировать это в файл или просто на экран.

Короче, есть что-то универсальное.
Я юзаю Noteapd++ его не хватает и он многое не умеет Он явно не для этого создавался


__________________
Мы больше в этот мир вовек не попадем,
Вовек не встретимся с друзьями за столом
Лови же каждое летящее мгновенье —
Его не подстеречь уж никогда потом
© Омар Хайям
      Вверх
Старый 13.10.2017, 16:42   #2
...:::Alex:::...


 
 
Регистрация: 14.12.2005
Адрес: 8.8.8.4
Из: Ukraine
Сообщений: 8,806
 
По умолчанию
Так как нет желания использовать регулярки, юзай jquery или phpquery и выводи куда надо, мне кажется что это проще всего.
Разве что после `id_threads="` уже пиши ручками


    Вверх
Старый 13.10.2017, 21:26   #3
Майорка

 
 
Регистрация: 7.07.2012
Адрес: мЭстный
Из: Ukraine
Сообщений: 426
 
По умолчанию
Для этого есть TextPipe аналог Notepad++, но специально созданный для таких целей. Еще, как вариант, если умеете создавать макросы, то можно в Мозиле Файрфокс создать макрос, который все выполнит.


__________________
No Money - No Honey!
    Вверх
Старый 15.10.2017, 21:40   #4
oleozy


 
Регистрация: 19.08.2009
Адрес: Харьков
Из: Ukraine
Сообщений: 1,108
 
По умолчанию
Достаточно универсальные только языки программирования.
Я подобные задачи на Python решал.
Из того что я знаю - самый удобный язык, и научиться несложно.


__________________
    Вверх
Старый 21.10.2017, 22:29   #5
nerve


 
 
Регистрация: 23.10.2006
Адрес: Харьков
Из: Ukraine
Сообщений: 1,557
 
По умолчанию
пример файла откуда надо вытащить есть?


__________________
Подпись нарушала какие-то правила форума больше года.
    Вверх
Старый 22.10.2017, 02:08   #6
zx-spectrum

 
Регистрация: 12.08.2008
Адрес: third planet from Sun
Из: Germany
Сообщений: 38
По умолчанию
Парсить картинки ?!
Это правильно ! Создадим свой музей!


__________________
харьков осенний ... харьков в сердце моём ... и ХТЗ
    Вверх
Старый 24.10.2017, 18:55   #7
Skyggedans


 
 
Регистрация: 20.04.2006
Адрес: Город-краб
Из: Ukraine
Сообщений: 18,059
 
По умолчанию
Цитата:
Сообщение от oleozy
Достаточно универсальные только языки программирования.
Я подобные задачи на Python решал.
Из того что я знаю - самый удобный язык, и научиться несложно.
Когда-то я тоже.
Но сейчас нода в данном кейсе вне конкуренции. Там модулей для этого хоть жопой потребляй.
https://www.google.com.ua/search?q=n...hrome&ie=UTF-8


    Вверх
Старый 25.10.2017, 10:24   #8
oleozy


 
Регистрация: 19.08.2009
Адрес: Харьков
Из: Ukraine
Сообщений: 1,108
 
По умолчанию
Цитата:
Сообщение от Skyggedans
Когда-то я тоже.
Но сейчас нода в данном кейсе вне конкуренции.
Насколько помню BeautifulSoup в Python хорошо справлялся с парсингом, и не представляю что еще можно улучшить.
К тому же JavaScript как язык по моему значительно хуже чем Python


__________________
    Вверх
Старый 26.10.2017, 15:58   #9
Part11


 
Регистрация: 22.05.2009
Адрес: земля
Из: Ukraine
Сообщений: 1,801
 
По умолчанию
Цитата:
Сообщение от Dimoks
Часто надо совершать разного рода действия...

Например выудить из текстового файла всё что между тегами
<img src=" " />

и например иногда нет зависимости, у некоторых будет alt="", а у некоторых нет...

Или например надо найти в текстовом файле всё что идёт после
id_threads="

И экспортировать это в файл или просто на экран.

Короче, есть что-то универсальное.
Я юзаю Noteapd++ его не хватает и он многое не умеет Он явно не для этого создавался
Любимый язык програмирования + регулярные выражения.
PS сайт для того что-бы потестить регулярное выражение онлайн https://regexr.com/


    Вверх
Старый 26.10.2017, 16:09   #10
Dimoks
Админ


 
 
Регистрация: 14.08.2003
Из: Ukraine
Сообщений: 38,057
 
По умолчанию
Цитата:
Сообщение от nerve
пример файла откуда надо вытащить есть?
Нет... Каждый день что-то новое...

Вот вы все пишите про регулярные выражения. Супер. Но они дают мне только поиск.
А как экспортировать результаты этого поиска? Я хочу на выходе получить например текстовый файл, или чтобы в буфер обмена скопировались результаты


__________________
Мы больше в этот мир вовек не попадем,
Вовек не встретимся с друзьями за столом
Лови же каждое летящее мгновенье —
Его не подстеречь уж никогда потом
© Омар Хайям
      Вверх
Старый 26.10.2017, 16:20   #11
Part11


 
Регистрация: 22.05.2009
Адрес: земля
Из: Ukraine
Сообщений: 1,801
 
По умолчанию
Цитата:
Сообщение от Dimoks
Нет... Каждый день что-то новое...

Вот вы все пишите про регулярные выражения. Супер. Но они дают мне только поиск.
А как экспортировать результаты этого поиска? Я хочу на выходе получить например текстовый файл, или чтобы в буфер обмена скопировались результаты
Регулярные выражения + язык програмирования = то что нужно. Там все что угодно от замены до копирования+сохранения в файл всё в ваших руках мозгах.
ЗЫ в приведеном выше сайте есть например вкладка List а если надо то и Replace. Для простых небольших задач должно быть с головой.


    Вверх
Старый 27.10.2017, 15:38   #12
nerve


 
 
Регистрация: 23.10.2006
Адрес: Харьков
Из: Ukraine
Сообщений: 1,557
 
По умолчанию
Цитата:
Сообщение от Dimoks
А как экспортировать результаты этого поиска? Я хочу на выходе получить например текстовый файл, или чтобы в буфер обмена скопировались результаты
будет пример исходных данных - будет пример поиска и вывода результатов.


__________________
Подпись нарушала какие-то правила форума больше года.
    Вверх
Старый 27.10.2017, 15:41   #13
Dimoks
Админ


 
 
Регистрация: 14.08.2003
Из: Ukraine
Сообщений: 38,057
 
По умолчанию
Цитата:
Сообщение от nerve
будет пример исходных данных - будет пример поиска и вывода результатов.
Эта страница (где мы сейчас общаемся)
Найти все id юзеров, т.е. всё что после
member.php?u=
И сохранить список id в файл

Вот как мне лучше всего и проще всего это сделать?


__________________
Мы больше в этот мир вовек не попадем,
Вовек не встретимся с друзьями за столом
Лови же каждое летящее мгновенье —
Его не подстеречь уж никогда потом
© Омар Хайям
      Вверх
Старый 27.10.2017, 20:36   #14
nerve


 
 
Регистрация: 23.10.2006
Адрес: Харьков
Из: Ukraine
Сообщений: 1,557
 
По умолчанию
смотрим код страницы ctrl+u, выделяем его и сохраняем в файл page.htm
в любом линуксе делаем:
ищем нужную строку, удаляем дубликаты, из найденной строки оставляем только цифры, пишем в файл и смотрим созданный файл.
Код:
# grep '<a class="bigusername" href="member.php?u=' page.htm \
| sort -u | grep -oE '[0-9]+' > id.txt && cat id.txt
1
110042
11
12960
130800
441557
4635
58933
7091


__________________
Подпись нарушала какие-то правила форума больше года.
    Вверх
Старый 28.10.2017, 10:36   #15
Part11


 
Регистрация: 22.05.2009
Адрес: земля
Из: Ukraine
Сообщений: 1,801
 
По умолчанию
Цитата:
Сообщение от nerve
смотрим код страницы ctrl+u, выделяем его и сохраняем в файл page.htm
в любом линуксе делаем:
ищем нужную строку, удаляем дубликаты, из найденной строки оставляем только цифры, пишем в файл и смотрим созданный файл.
Код:
# grep '<a class="bigusername" href="member.php?u=' page.htm \
| sort -u | grep -oE '[0-9]+' > id.txt && cat id.txt
1
110042
11
12960
130800
441557
4635
58933
7091
Вероятно у вас гдето ошибка нет юзера тут с айди 11 вероятно кусок моего ника попал или еще гдето проблема


    Вверх
Старый 28.10.2017, 10:44   #16
Part11


 
Регистрация: 22.05.2009
Адрес: земля
Из: Ukraine
Сообщений: 1,801
 
По умолчанию
Цитата:
Сообщение от Dimoks
Эта страница (где мы сейчас общаемся)
Найти все id юзеров, т.е. всё что после
member.php?u=
И сохранить список id в файл

Вот как мне лучше всего и проще всего это сделать?
Без выделения уникальных id
https://regexr.com/
в Expression вставляем (member.php\?u=)(\d+)
в Text текст страницы
в Tools ->List вставляем $2\n
результат копируешь и сохраняешь в файл

+язык програмирования учить не надо, нет привязки к операционной системе
- меньше возможностей и ручками надо заполнять и сохранять. Нужен интернет(возможно и сохраненная страница заработает лень проверять)


    Вверх
Старый 28.10.2017, 10:52   #17
Sitroaik
SuperPuperUser


 
 
Регистрация: 29.10.2011
Адрес: Салтовка
Из: Ukraine
Сообщений: 1,620
 
По умолчанию
Цитата:
Сообщение от Dimoks
Часто надо совершать разного рода действия...

Например выудить из текстового файла всё что между тегами
<img src=" " />

и например иногда нет зависимости, у некоторых будет alt="", а у некоторых нет...

Или например надо найти в текстовом файле всё что идёт после
id_threads="

И экспортировать это в файл или просто на экран.

Короче, есть что-то универсальное.
Я юзаю Noteapd++ его не хватает и он многое не умеет Он явно не для этого создавался
Я правильно понял? Нужно из текстового файла с HTML-кодом вытащить перечень всех ссылок на изображения?


    Вверх
Старый 28.10.2017, 11:09   #18
Part11


 
Регистрация: 22.05.2009
Адрес: земля
Из: Ukraine
Сообщений: 1,801
 
По умолчанию
Цитата:
Сообщение от Sitroaik
Я правильно понял? Нужно из текстового файла с HTML-кодом вытащить перечень всех ссылок на изображения?
как-то так
Цитата:
Сообщение от nerve
пример файла откуда надо вытащить есть?
Цитата:
Сообщение от Dimoks
Нет... Каждый день что-то новое...

Вот вы все пишите про регулярные выражения. Супер. Но они дают мне только поиск.
А как экспортировать результаты этого поиска? Я хочу на выходе получить например текстовый файл, или чтобы в буфер обмена скопировались результаты
Цитата:
Сообщение от nerve
будет пример исходных данных - будет пример поиска и вывода результатов.
Цитата:
Сообщение от Dimoks
Эта страница (где мы сейчас общаемся)
Найти все id юзеров, т.е. всё что после
member.php?u=
И сохранить список id в файл

Вот как мне лучше всего и проще всего это сделать?


    Вверх
Старый 28.10.2017, 11:58   #19
nerve


 
 
Регистрация: 23.10.2006
Адрес: Харьков
Из: Ukraine
Сообщений: 1,557
 
По умолчанию
Цитата:
Сообщение от Part11
Вероятно у вас гдето ошибка нет юзера тут с айди 11 вероятно кусок моего ника попал или еще гдето проблема
так и есть. не обратил внимание что есть кто-то с цифрами в имени.
вот уточненный вариант
Код:
grep '<a class="bigusername" href="member.php?u=' page.htm \
| sort -u | grep -o '<.*">' | grep -oE '[0-9]+'
1
110042
12960
130800
441557
4635
58933
7091


__________________
Подпись нарушала какие-то правила форума больше года.
    Вверх
Старый 19.11.2017, 09:29   #20
MuXaH


 
 
Регистрация: 9.10.2009
Адрес: Харькрв
Из: Ukraine
Сообщений: 2,027
 
По умолчанию
https://www.crummy.com/software/BeautifulSoup/bs4/doc/


    Вверх

Опции темы Поиск в этой теме
Поиск в этой теме:

Расширенный поиск

Харьков Форум > Hi-Tech... > Программирование и создание сайтов

Быстрый переход

Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Посоветуйте учебник по html/СSS ramzes_1983 Программирование и создание сайтов 13 2.11.2011 12:07
посоветуйте визуальный html-редактор Lenka-S Программирование и создание сайтов 5 27.01.2010 14:00
То взлет, то посадка. То нефть, то медведь Медиапорт Новости 6 31.08.2009 20:10
Посоветуйте, плиз, прогу типа караоке с возможностью записать то, шо ты напел Alex_Petrov Софт 4 4.08.2009 16:27
То ли купался, то ли переохладился, то ли фурункул, то ли жировик. И вообще не знаю, как тему назвать. олюня Здоровье 4 3.08.2009 16:31


Часовой пояс GMT +2, время: 19:24.


Харьков Форум Powered by vBulletin® Version 3.8.7
Copyright ©2000 - 2017, Jelsoft Enterprises Ltd.