Достаточно универсальные только языки программирования.
Я подобные задачи на Python решал.
Из того что я знаю - самый удобный язык, и научиться несложно.
Насколько помню BeautifulSoup в Python хорошо справлялся с парсингом, и не представляю что еще можно улучшить.Когда-то я тоже.
Но сейчас нода в данном кейсе вне конкуренции.
Любимый язык програмирования + регулярные выражения.Часто надо совершать разного рода действия...
Например выудить из текстового файла всё что между тегами
<img src=" " />
и например иногда нет зависимости, у некоторых будет alt="", а у некоторых нет...
Или например надо найти в текстовом файле всё что идёт после
id_threads="
И экспортировать это в файл или просто на экран.
Короче, есть что-то универсальное.
Я юзаю Noteapd++ его не хватает и он многое не умеетОн явно не для этого создавался
Нет... Каждый день что-то новое...пример файла откуда надо вытащить есть?
Нет... Каждый день что-то новое...
Вот вы все пишите про регулярные выражения. Супер. Но они дают мне только поиск.
А как экспортировать результаты этого поиска? Я хочу на выходе получить например текстовый файл, или чтобы в буфер обмена скопировались результаты
будет пример исходных данных - будет пример поиска и вывода результатов.А как экспортировать результаты этого поиска? Я хочу на выходе получить например текстовый файл, или чтобы в буфер обмена скопировались результаты
Эта страница (где мы сейчас общаемся)будет пример исходных данных - будет пример поиска и вывода результатов.
# grep '<a class="bigusername" href="member.php?u=' page.htm \
| sort -u | grep -oE '[0-9]+' > id.txt && cat id.txt
1
110042
11
12960
130800
441557
4635
58933
7091
смотрим код страницы ctrl+u, выделяем его и сохраняем в файл page.htm
в любом линуксе делаем:
ищем нужную строку, удаляем дубликаты, из найденной строки оставляем только цифры, пишем в файл и смотрим созданный файл.
Код:# grep '<a class="bigusername" href="member.php?u=' page.htm \ | sort -u | grep -oE '[0-9]+' > id.txt && cat id.txt 1 110042 11 12960 130800 441557 4635 58933 7091
Эта страница (где мы сейчас общаемся)
Найти все id юзеров, т.е. всё что после
member.php?u=
И сохранить список id в файл
Вот как мне лучше всего и проще всего это сделать?
Часто надо совершать разного рода действия...
Например выудить из текстового файла всё что между тегами
<img src=" " />
и например иногда нет зависимости, у некоторых будет alt="", а у некоторых нет...
Или например надо найти в текстовом файле всё что идёт после
id_threads="
И экспортировать это в файл или просто на экран.
Короче, есть что-то универсальное.
Я юзаю Noteapd++ его не хватает и он многое не умеетОн явно не для этого создавался
как-то такЯ правильно понял? Нужно из текстового файла с HTML-кодом вытащить перечень всех ссылок на изображения?
пример файла откуда надо вытащить есть?
Нет... Каждый день что-то новое...
Вот вы все пишите про регулярные выражения. Супер. Но они дают мне только поиск.
А как экспортировать результаты этого поиска? Я хочу на выходе получить например текстовый файл, или чтобы в буфер обмена скопировались результаты
будет пример исходных данных - будет пример поиска и вывода результатов.
Эта страница (где мы сейчас общаемся)
Найти все id юзеров, т.е. всё что после
member.php?u=
И сохранить список id в файл
Вот как мне лучше всего и проще всего это сделать?
так и есть. не обратил внимание что есть кто-то с цифрами в имени.Вероятно у вас гдето ошибка нет юзера тут с айди 11 вероятно кусок моего ника попал или еще гдето проблема
grep '<a class="bigusername" href="member.php?u=' page.htm \
| sort -u | grep -o '<.*">' | grep -oE '[0-9]+'
1
110042
12960
130800
441557
4635
58933
7091