Лапша из витых пар на моих ушах, помогите снять.

Статус: Offline
Реєстрація: 24.11.2007
Повідом.: 139
Лапша из витых пар на моих ушах, помогите снять.

Суть вопроса: заказали мы сайт у одной малоуважаемой конторы, которую не буду называть, что-бы неназванным не было обидно. Программное обеспечение сайта должно собирать информацию с сайтов определенных газет, каталогизировать её, переводить в удобный формат (наверное текстовый) и предоставлять полученную и преобразованную информацию пользователям нашего сайта. Пользователь нашего сайта должен иметь возможность найти нужную информацию с помощью поисковой системы. Когда пришло время сдачи-приемки работы, выяснилось что одна газета "обрабатывается" 5-6 часов, что делает бессмысленной всю нашу затею с сайтом. На мой вопрос "почему так долго?", мне сказали, что процедура - следующая: компьютер, территориально расположенный у нас скачивает с сайта газеты очередной номер газеты, преобразовывает данные очередного номера, модифицирует всю базу данных этой газеты, и закачивает всю базу данных во всемирную сеть. Понятно, что с каждым новым номером база разростается всё больше и все больше времени потребуется для перекачки информации.
Мой первый вопрос к Вам: верный ли их алгоритм работы, и можно ли сделать по другому? Объем информации с одного номера газеты составляет единицы мегабайт. Такое количество информации должно перекачиваться за считанные секунды или даже доли секунды.
Впрос номер два: может ли кто из Вас сделать подобный сайт, истественно с "продвинутой" поисковой системой?
ЛЯ-ЛЯ по данной теме приветствуется. Конкретные предложения в ЛС.
 
мне кажется что проще было сделать динамично расширяемую БД, которая лежит на сервере сайта, и в эту базу добавлять новые газеты, таким образом не нужно каждый раз загружать всю базу по новой
 
а зачем закачивать всю базу данных во всемирную сеть???
 
я не понял. 1 номер газеты в тексте занимает несколько мегабайт? Газета наверное выпускается в 3-х томнике.

делов то награбить страниц с сайтов газет. и положить себе в базу.

конечно ваша база будет рости постоянно, но не такими темпами и не по 5-6 часов обрабатываться
 
а RSS у газет нет?
 
Ну как бы неясны изначальные вводные данные. Если стоял вопрос "выкачать весь архив газеты", то для некоторых газет со знатными архивами он может действительно долго качаться.
Если стоял вопрос "начать собирать с даты запуска"- то действительно странно.

Относительно RSS - во многих случаях он не подходит для начального выкачивания из-за того что ограничен одним-двумя десятками последних записей. Но для поточного выкачивания - вполне.
 
Ребята в вопросах "RSS" я простак, в простонародье - "лох", так что многие Ваши вопросы я оставлю без ответа. Насчет ТЗ Вы правы, я специально этот вопрос не затрагивал ранее. Я планирую на первом этапе заказать именно всеоблемъющее ТЗ по нашим пожеланиям. Данное ТЗ, естественно, будет нами согласовано, скреплено подписями и оплачено. Далее будет привлечен исполнитель (или исполнители) для выполнения работ согласно требований ТЗ. Оплата - по этапам, по мере выполнения работ.
Для "Capricorn": "Объём несколько мегабайт" на номер - это и есть та лапша, частично снятая с моих УХ; если вы заметили - лапши поменьшало. 5-6 часов на номер при новой шустрой ЭВМ (как раньше писали) и меня "убили".
PS: поработаем.
 
На мой вопрос "почему так долго?", мне сказали, что процедура - следующая: компьютер, территориально расположенный у нас скачивает с сайта газеты очередной номер газеты, преобразовывает данные очередного номера, модифицирует всю базу данных этой газеты, и закачивает всю базу данных во всемирную сеть. Понятно, что с каждым новым номером база разростается всё больше и все больше времени потребуется для перекачки информации.

а смысл туда-сюад гонять?? не проше ли сразу на сервере такое проворачивать??
 
Алґоритм:
Написаним скриптом: Відвідуються сайти визначених газет
Копіюються статті так як вони є там.
Отримані дані парсяться (обробляються) Розбиваються (дата, заголовок, основний текст... шо там ще є ... малюнки...)
Потім шматки складаються, як вам треба і встромляються у Вашу БД.
Алгоритм 2:
З вашої БД інший скрипт це може бути навіть безкоштовна CMS аля джомла, друпал, вордпрес, чи шо вам заманеться, дістає, додані в БД описаним вище скриптом, дані і ґенерує сторінки Вашої газети.
Шо не зрозуміло?
 
Мой первый вопрос к Вам: верный ли их алгоритм работы, и можно ли сделать по другому?
открываем ТЗ и проверяем соблюдены ли все требования. если да, то алгоритм верный.

нет ТЗ или оно на том же уровне, что и Ваш опус? берем биту и резиновую зину и айда в Администрацию Президента.
еще говорят сеппука помогает

Впрос номер два: может ли кто из Вас сделать подобный сайт, истественно с "продвинутой" поисковой системой?
ЛЯ-ЛЯ по данной теме приветствуется. Конкретные предложения в ЛС.
в легкую сделаем за $10000.
сразу предупреждаем, что со столь конкретными требованиями, как "истественно с "продвинутой" поисковой системой" результат явно не будет соответствовать Вашим ожиданиям.
но нам пофиг.
 
Уважаемый dr.., прочитайте мой пост #9! Там расписана предполагаемая полследовательность работ. Для особо одаренных повторю:
1- составление наемным специалистом ТЗ, по нашим пожеланиям, в частности и по "продвинутой поисковой системе";
2- согласование ТЗ;
3- создание сайта в соотвтствии с ТЗ.
А 10 000$ я считаю - мало, просИте миллион или три!
Прювет Пофигистам!
 
Останнє редагування:
Fujik, просто при формулировании списка задач сделайте особый акцент на ТЗ. Кстати, разработка подробного ТЗ у многих исполнителей может оказаться платной услугой. Получив от исполнителя ТЗ - не спешите под него подписываться. Внимательно вычитайте его сами, проконсультируйтесь у знакомого специалиста - всё ли там есть, что вам необходимо. Не бойтесь задавать вопросы по ТЗ исполнителю или попросить его что-то туда внести, что вам кажется важным. Однако и цена в процессе формирования ТЗ может меняться.

А вот после согласования ТЗ и оценки разработки именно по нему - вступает в силу то, что описал маусфлай.
 
2 gnum. В том же девятом посте сказано "Данное ТЗ, естественно, будет нами согласовано, скреплено подписями и оплачено." (цитата), с другой стороны нигде нет упоминания о том, что что ТЗ будет разрабатывать исполнитель работ по сайту. Наоборот, я планировал поручить разрботку ТЗ другому специалисту, для того что бы он не делал для себя поблажек.
 
Разумный вариант.
 
Благодарю за понимание!
 
2 gnum. В том же девятом посте сказано "Данное ТЗ, естественно, будет нами согласовано, скреплено подписями и оплачено." (цитата), с другой стороны нигде нет упоминания о том, что что ТЗ будет разрабатывать исполнитель работ по сайту. Наоборот, я планировал поручить разрботку ТЗ другому специалисту, для того что бы он не делал для себя поблажек.

Ну вообщето в серьезных проектах разработчикам дают уже готовое ТЗ.
А кто его составлял - заказчик или сторонняя контора - дело десятое.
 
1- составление наемным специалистом ТЗ, по нашим пожеланиям, в частности и по "продвинутой поисковой системе";
2- согласование ТЗ;
3- создание сайта в соотвтствии с ТЗ.
1. Просунута система пошуку це як? Вам що свій ґууґл на сайті потрібен? ТАк є можливість додати форму пошуку від ґууґла на свій сайт... це Вам для цього потрібно ТЗ? :D
2.
Если вы любите свое время вы должны избегать:
Длительных переговоров с участием большого количества людей. /Совершенно очевидно, что половина из присутствующих просто теряет свое время/.
3. Якщо Ви не знаєте, чого Ви хочете, то це за Вас ніхто не визначить.
 
Уважаемый Dr, Вы "попали в точку "Гууугл" - мой идеал, но я - реалист, и можно сделать попроще. Главное найти необходимую статью, (объяление, рекламу) по ключевым словам с минимумом "мусора".
Извините, вызывают, ухожу с форума.
 
Назад
Зверху Знизу