Извлечение ссылок из браузера

Lu4eg · 15.08.2011

Извлечение ссылок из браузера

Подскажите. Браузер Опера, поисковик Яндекс. Кидаем запрос "Харьков форум" выдается N-миллион страниц. Возможно извлечь все ссылки в виде адресов типа:

1. https://www.kharkovforum.com/
2.

Тільки зареєстровані користувачі бачать весь контент у цьому розділі

и чтобы все это было в текстовом файле? Уверен браузер создает какую-то библиотеку под эти ссылки, но найти ее не могу.

dr_mousefly · 15.08.2011

Lu4eg сказав(ла):
Уверен браузер создает какую-то библиотеку под эти ссылки, но найти ее не могу.

ну раз Вы так уверены, то и обращайтесь в техподдержку браузера.

DaftPunk · 15.08.2011

Lu4eg сказав(ла):
Уверен браузер создает какую-то библиотеку под эти ссылки, но найти ее не могу.

все верно, надо получше поискать

...:::Alex:::... · 15.08.2011

библиотека под ссылки

niello · 15.08.2011

нужно распарсить html страницу всего навсего. и по выдирать оттуда линки.
Адрес типа такого

Тільки зареєстровані користувачі бачать весь контент у цьому розділі

ну и т.д.
В цикле от нуля до нужного количества извлекаешь адреса из кода и все нормально.

Hisp · 15.08.2011

niello сказав(ла):
нужно распарсить html страницу всего навсего. и по выдирать оттуда линки.

И так миллион страниц, ога.
Один другого краше.

На ~~гугле~~ яндексе апи забанили?

kosyak · 15.08.2011

niello сказав(ла):
нужно распарсить html страницу всего навсего. и по выдирать оттуда линки.
Адрес типа такого
Тільки зареєстровані користувачі бачать весь контент у цьому розділі
ну и т.д.
В цикле от нуля до нужного количества извлекаешь адреса из кода и все нормально.

думаю ТС спрашивает не про реализацию с помощью программирования, а где же найти заветную "библиотеку со ссылками"

dr_mousefly · 15.08.2011

kosyak сказав(ла):
думаю ТС спрашивает не про реализацию с помощью программирования, а где же найти заветную "библиотеку со ссылками"

справа от кнопки "сделай все за меня".

reflect · 15.08.2011

А нафига оно надо? Написать простейший парсер. Только, думаю, гугл через пару десятков страниц забанит.

niello · 15.08.2011

reflect сказав(ла):
А нафига оно надо? Написать простейший парсер. Только, думаю, гугл через пару десятков страниц забанит.

Поставить в потоке загрузки timeout и не забанит. Мало ли насколько глубоко пользователь смотрит результаты поиска.
Конечно нужно будет подождать.

dr_mousefly · 15.08.2011

niello сказав(ла):
Поставить в потоке загрузки timeout и не забанит. Мало ли насколько глубоко пользователь смотрит результаты поиска.
Конечно нужно будет подождать.

у гугла с утра тоже было API, хоть и неподдерживаемое.
ТС надо именно в опере библиотеку ссылок))

reflect · 16.08.2011

dr_mousefly сказав(ла):
у гугла с утра тоже было API, хоть и неподдерживаемое.
ТС надо именно в опере библиотеку ссылок))

Прикольная вещь. Старое объявили deprecated, зато сделали новое:

Тільки зареєстровані користувачі бачать весь контент у цьому розділі

Правда, больше 100 запросов в сутки платно.

dr_mousefly · 16.08.2011

reflect сказав(ла):
Прикольная вещь. Старое объявили deprecated, зато сделали новое:
Тільки зареєстровані користувачі бачать весь контент у цьому розділі
Правда, больше 100 запросов в сутки платно.

насколько я понял, новое оно для поиска по своему же сайту(ам).
вытащить оттуда нормальную выдачу гугла не получится.
плюньте мне в лицо если это не так.

Ferox · 16.08.2011

Hisp сказав(ла):
И так миллион страниц, ога.

Поисковые системы не выдают больше 1000 страниц по одному запросу.

niello сказав(ла):
Поставить в потоке загрузки timeout и не забанит.

Не знаешь о чем говоришь - молчи.

Klez · 16.08.2011

1) можно через XPath выборку делать, чтонить типа "//a/@SRC". Правда HTML нужно вначале привести к нормальному XML, гугл предлагает множество решений для этого, например

Тільки зареєстровані користувачі бачать весь контент у цьому розділі

.
2) RegExp

niello · 16.08.2011

>>Ferox
На быструю руку написал довнлоадер станиц Yandexа на JAVA.
Уже 53 страницы прокачало и все нормально.
Нужно было добавить лишь элемент случайности в timeout.

Код:

import java.io.*;
import java.net.*;
import java.util.Scanner;

public class Test {
	public static void main(String[] args) throws IOException,
			InterruptedException {

		String request = "honda+accord";

		for (int page = 0; page < 1000; page++) {
			URL url = new URL("https://*******.ua/yandsearch?text=" + request
					+ "&p=" + page + "&lr=147rdrnd=518344&tld=ua");
			URLConnection urlConnection = url
					.openConnection(new Proxy(Proxy.Type.HTTP,
							new InetSocketAddress("192.167.0.1", 8080)));
			urlConnection.setDoInput(true);
			urlConnection.setDoOutput(true);

			Scanner in = new Scanner(urlConnection.getInputStream());
			FileWriter writer = new FileWriter(
					new File("page" + page + ".html"));

			while (in.hasNext()) {
				String line = in.nextLine();
				// System.out.print(line + "\n");
				writer.write(line + "\n");
			}
			writer.close();
			System.out.println(page);
			Thread.currentThread().sleep(
					10000 + Math.round(Math.random() * 1000));
		}

	}
}

А, и у меня там прокси сервер.
Самый умный?

Ferox · 16.08.2011

niello сказав(ла):
Уже 53 страницы прокачало и все нормально.

Та ты шо.... :іржач:

Кстати 1000 страниц в день Яндекс позволяет качать вполне официально. Не через хтмл правда, через хтмл ты 1000 не скачаешь. Только это очень мало.

Achenar · 16.08.2011

Да, без проблем после регистрации обычным GET запросом выдает читабельный XML, но есть ограничение на 1000 запросов в сутки (10000 ссылок). И если внешний IP поменяется, что лично у меня присутствует, то приходится его "освежать" на странице регистрации.

Естественно, что обычным парсингом страниц больше он не позволит получить. Разве что IP постоянно менять передергиванием модема.

aZtec · 18.08.2011

Lu4eg сказав(ла):
Подскажите. Браузер Опера, поисковик Яндекс. Кидаем запрос "Харьков форум" выдается N-миллион страниц. Возможно извлечь все ссылки в виде адресов типа:

1. https://www.kharkovforum.com/
2.
Тільки зареєстровані користувачі бачать весь контент у цьому розділі

и чтобы все это было в текстовом файле? Уверен браузер создает какую-то библиотеку под эти ссылки, но найти ее не могу.

В браузере Опера на боковой панели есть панель Ссылки. На этой панели приведен список всех ссылок, которые есть на странице. При желании эти ссылки можно выделить, скопировать и вставить в текстовый файл.

vovoshka · 19.08.2011

а в настройках увеличивается количество результатов на страницу.
но это не спасает при миллионах результатов.
зы. тс, это не ты ли яндекс паламал?