Извлечение ссылок из браузера

Статус: Offline
Реєстрація: 05.01.2011
Повідом.: 32
Извлечение ссылок из браузера

Подскажите. Браузер Опера, поисковик Яндекс. Кидаем запрос "Харьков форум" выдается N-миллион страниц. Возможно извлечь все ссылки в виде адресов типа:

1. https://www.kharkovforum.com/
2.
Тільки зареєстровані користувачі бачать весь контент у цьому розділі


и чтобы все это было в текстовом файле? Уверен браузер создает какую-то библиотеку под эти ссылки, но найти ее не могу.
 
нужно распарсить html страницу всего навсего. и по выдирать оттуда линки.
Адрес типа такого
Тільки зареєстровані користувачі бачать весь контент у цьому розділі
ну и т.д.
В цикле от нуля до нужного количества извлекаешь адреса из кода и все нормально.
 
нужно распарсить html страницу всего навсего. и по выдирать оттуда линки.
Адрес типа такого
Тільки зареєстровані користувачі бачать весь контент у цьому розділі
ну и т.д.
В цикле от нуля до нужного количества извлекаешь адреса из кода и все нормально.

думаю ТС спрашивает не про реализацию с помощью программирования, а где же найти заветную "библиотеку со ссылками"
 
А нафига оно надо? Написать простейший парсер. Только, думаю, гугл через пару десятков страниц забанит.
 
А нафига оно надо? Написать простейший парсер. Только, думаю, гугл через пару десятков страниц забанит.
Поставить в потоке загрузки timeout и не забанит. Мало ли насколько глубоко пользователь смотрит результаты поиска.
Конечно нужно будет подождать.
 
Поставить в потоке загрузки timeout и не забанит. Мало ли насколько глубоко пользователь смотрит результаты поиска.
Конечно нужно будет подождать.

у гугла с утра тоже было API, хоть и неподдерживаемое.
ТС надо именно в опере библиотеку ссылок))
 
у гугла с утра тоже было API, хоть и неподдерживаемое.
ТС надо именно в опере библиотеку ссылок))
Прикольная вещь. Старое объявили deprecated, зато сделали новое:
Тільки зареєстровані користувачі бачать весь контент у цьому розділі
Правда, больше 100 запросов в сутки платно.
 
Прикольная вещь. Старое объявили deprecated, зато сделали новое:
Тільки зареєстровані користувачі бачать весь контент у цьому розділі
Правда, больше 100 запросов в сутки платно.

насколько я понял, новое оно для поиска по своему же сайту(ам).
вытащить оттуда нормальную выдачу гугла не получится.
плюньте мне в лицо если это не так.
 
1) можно через XPath выборку делать, чтонить типа "//a/@SRC". Правда HTML нужно вначале привести к нормальному XML, гугл предлагает множество решений для этого, например
Тільки зареєстровані користувачі бачать весь контент у цьому розділі
.
2) RegExp
 
>>Ferox
На быструю руку написал довнлоадер станиц Yandexа на JAVA.
Уже 53 страницы прокачало и все нормально.
Нужно было добавить лишь элемент случайности в timeout.
Код:
import java.io.*;
import java.net.*;
import java.util.Scanner;

public class Test {
	public static void main(String[] args) throws IOException,
			InterruptedException {

		String request = "honda+accord";

		for (int page = 0; page < 1000; page++) {
			URL url = new URL("https://*******.ua/yandsearch?text=" + request
					+ "&p=" + page + "&lr=147rdrnd=518344&tld=ua");
			URLConnection urlConnection = url
					.openConnection(new Proxy(Proxy.Type.HTTP,
							new InetSocketAddress("192.167.0.1", 8080)));
			urlConnection.setDoInput(true);
			urlConnection.setDoOutput(true);

			Scanner in = new Scanner(urlConnection.getInputStream());
			FileWriter writer = new FileWriter(
					new File("page" + page + ".html"));

			while (in.hasNext()) {
				String line = in.nextLine();
				// System.out.print(line + "\n");
				writer.write(line + "\n");
			}
			writer.close();
			System.out.println(page);
			Thread.currentThread().sleep(
					10000 + Math.round(Math.random() * 1000));
		}

	}
}
А, и у меня там прокси сервер.
Самый умный?
 
Уже 53 страницы прокачало и все нормально.

Та ты шо.... :іржач: :іржач: :іржач:

Кстати 1000 страниц в день Яндекс позволяет качать вполне официально. Не через хтмл правда, через хтмл ты 1000 не скачаешь. Только это очень мало.
 
Да, без проблем после регистрации обычным GET запросом выдает читабельный XML, но есть ограничение на 1000 запросов в сутки (10000 ссылок). И если внешний IP поменяется, что лично у меня присутствует, то приходится его "освежать" на странице регистрации.

Естественно, что обычным парсингом страниц больше он не позволит получить. Разве что IP постоянно менять передергиванием модема.
 
Подскажите. Браузер Опера, поисковик Яндекс. Кидаем запрос "Харьков форум" выдается N-миллион страниц. Возможно извлечь все ссылки в виде адресов типа:

1. https://www.kharkovforum.com/
2.
Тільки зареєстровані користувачі бачать весь контент у цьому розділі


и чтобы все это было в текстовом файле? Уверен браузер создает какую-то библиотеку под эти ссылки, но найти ее не могу.

В браузере Опера на боковой панели есть панель Ссылки. На этой панели приведен список всех ссылок, которые есть на странице. При желании эти ссылки можно выделить, скопировать и вставить в текстовый файл.
 
а в настройках увеличивается количество результатов на страницу.
но это не спасает при миллионах результатов.
зы. тс, это не ты ли яндекс паламал?
 
Назад
Зверху Знизу