библиотека для парсинга сайтов grab

Статус: Offline
Реєстрація: 31.03.2006
Повідом.: 570
библиотека для парсинга сайтов grab

всем привет!

хочу поделится инфой про python библиотеку для парсинга любой информации с сайтов.

она называется grab(документация
Тільки зареєстровані користувачі бачать весь контент у цьому розділі
)

библиотека grab будет вам полезна, если вам нужно:

  1. извлечь данные с сайта
  2. работать с api веб-сервиса
  3. автоматизировать работу с сайтом, например, написать регистратор аккаунтов

её можно установить как под unix так и под windows

очень проста в понимании даже если вы ни разу не кодили на питоне.

кого заинтересовала данная либа, контакты автора:

skype: lorien.name
email: lorien@lorien.name
jabber комната: datalab@conference.jabber.ru


пример работы с библиотекой:
Тільки зареєстровані користувачі бачать весь контент у цьому розділі


спасибо большое автору за проделанную работу!

еще раз ссылки:

документация
Тільки зареєстровані користувачі бачать весь контент у цьому розділі


контакты автора:
skype: lorien.name
email: lorien@lorien.name
jabber комната: datalab@conference.jabber.ru

p.s. у кого есть вопросы, пишите в тему
 
Пару раз делал парсинг контента сайтов, использовал simple_html_dom на php.

Почитал описание либы преложенной ТСом - мне нравится, хочу попробовать.
Видимо придется окунуться в питон, мне ого уже не однократно пытался навязывать один хороший человек...

ТС, у вас есть реализованные примеры с использование Grab?
 
Пару раз делал парсинг контента сайтов, использовал simple_html_dom на php.

Мне кажется, что чего то типа simple_html_dom или аналогов (их масса) вполне достаточно. Вполне юзабельно и решить можно все вопросы. Мне больше нравится phpQuery. Но это видимо из за того, что я его пощупал уже после плотного знакомства с jQuery. Сходу все понятно и все включено :)
 
applek есть такие примеры
 
Самая классная библиотека, по-моему, BeautifulSoup. Очень удобно. Парсит в том числе невалидный HTML.

А если требуется отправлять формы, например — то помимо отправки запросов с помощью httplib/urllib/urllib2 можно ещё использовать Mechanize.
 
Останнє редагування:
Красть грешно. Покайтесь.
 
Назад
Зверху Знизу