Автор Тема: Парсинг сайта www.spurweite-n.de  (Прочитано 889 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн BR95009

  • Ветеран
  • *****
  • Сообщений: 625
  • Репутация: +35/-1
  • Аналог. Озвучиваю сам!
    • www.br95009.ru
  • Откуда: Москва
  • Имя: Дима
Парсинг сайта www.spurweite-n.de
« : 21 Октября 2022, 22:19:48 »
Спарсил себе базу данных по Эпохе 3 DB по всем локам, пассажирским и товарным вагонам. И по служебным тоже.

На выходе получился excel файла со всеми полями и со ссылками на фото. Готовый список, что бы импортировать в свою базу данных. И список ссылок на картинки, что бы также скачать все картинки в нужные папки.

Зачем все это нужно? Сам сайт не удобный, так как там картинок не видно. А тут все модели нужной мне эпохи и приписки под рукой в экселе со всеми данными диске лежат.  Включая среднюю цену на модель на ебее.

Делаем столбец "В моей коллекции", пишем туда 1, делаем фильтр по нему, и можно вести коллекцию.

Если кому интересны эксель файлы по 3-й эпохе ДБ, дам ссылку. Если кому то нужны другие эпохи/приписки, могу научить как парсить, там просто.

Можно вообще весь сайт спасрить, те получить всю базу данных по всем моделям в N. 
IIm, G, H0, H0m, H0e, N. MMH0. WWW.BR95009.RU

Оффлайн VSergN

  • Ветеран
  • *****
  • Сообщений: 3691
  • Репутация: +179/-6
  • JNR, DRG, Z
  • Откуда: Москва
  • Имя: Сергей
Re: Парсинг сайта www.spurweite-n.de
« Ответ #1 : 22 Октября 2022, 00:01:30 »
Интересно!  ;D
А каков размер получившегося exel-файла?
Не совсем понял, где хранятся/должны храниться картинки, на которые указывают упомянутые ссылки?

Оффлайн BR95009

  • Ветеран
  • *****
  • Сообщений: 625
  • Репутация: +35/-1
  • Аналог. Озвучиваю сам!
    • www.br95009.ru
  • Откуда: Москва
  • Имя: Дима
Re: Парсинг сайта www.spurweite-n.de
« Ответ #2 : 22 Октября 2022, 06:53:41 »
Интересно!

Файл с локами  -130 кб, файл с товарными - 350 кб. Остальное пока в процессе.

Посмотрите файлы. ТЫЦ

По ссылкам на картинки есть 2 варианта.

1) Открыть файл в Гугл таблицах, то с попомощью функции imag() картинка вставляется прямо в ячейку. (тыц)
2) Скачать по списку себе на диск с помощью wget.exe (сам вгет и пример использования - там же на яндекс диске). Вчера скачал товарные вагоны все ДБ3 - 2 гига папка получилась. 1 гиг -локи.

... и добавил:
А, и можно еще отметить, что спарсить можно любой сайт в таблицу для импорта в базу данных, например DM-toys, modelbahn fokus или lippe.
« Последнее редактирование: 22 Октября 2022, 16:19:22 от BR95009 »
IIm, G, H0, H0m, H0e, N. MMH0. WWW.BR95009.RU

Оффлайн Vatato

  • Ветеран
  • *****
  • Сообщений: 3004
  • Репутация: +52/-0
  • улыбайтесь, это всех раздражает...
  • Откуда: Tbilisi, Georgia
  • Имя: Вахтанг
Re: Парсинг сайта www.spurweite-n.de
« Ответ #3 : 22 Октября 2022, 13:37:05 »
А можно научить?
С уважением В.Э.
N scale (DC/DCC) немножко HO, Z, T-gauge

Оффлайн BR95009

  • Ветеран
  • *****
  • Сообщений: 625
  • Репутация: +35/-1
  • Аналог. Озвучиваю сам!
    • www.br95009.ru
  • Откуда: Москва
  • Имя: Дима
IIm, G, H0, H0m, H0e, N. MMH0. WWW.BR95009.RU

Оффлайн VSergN

  • Ветеран
  • *****
  • Сообщений: 3691
  • Репутация: +179/-6
  • JNR, DRG, Z
  • Откуда: Москва
  • Имя: Сергей
Re: Парсинг сайта www.spurweite-n.de
« Ответ #5 : 22 Октября 2022, 16:39:20 »
Файл с локами  -130 кб, файл с товарными - 350 кб. Остальное пока в процессе.

Посмотрите файлы. ТЫЦ

Спасибо!

(Интерес представляет общий размер вместе со ВСЕМИ картинками.)

Я когда-то делал такое же в MS Access.
Получилось вроде бы удобно, но вскоре забросил,... ибо оффлайн-база нуждается в постоянном и регулярном отслеживании Web-сточника и соответствующей корректировке.
Если этого не делать - база быстро теряет актуальность и всё равно начинаешь снова пользоваться Web-базой...

Оффлайн Vatato

  • Ветеран
  • *****
  • Сообщений: 3004
  • Репутация: +52/-0
  • улыбайтесь, это всех раздражает...
  • Откуда: Tbilisi, Georgia
  • Имя: Вахтанг
Re: Парсинг сайта www.spurweite-n.de
« Ответ #6 : 22 Октября 2022, 18:45:48 »
С уважением В.Э.
N scale (DC/DCC) немножко HO, Z, T-gauge

Оффлайн Serm

  • Старожил
  • ****
  • Сообщений: 365
  • Репутация: +46/-0
  • Откуда: Москва
  • Имя: Сергей
Re: Парсинг сайта www.spurweite-n.de
« Ответ #7 : 22 Октября 2022, 19:35:48 »
Соглашусь с Сергеем (VSergN). Локальная база не обновляется и устаревает. Как вариант, это решение, когда нет постоянного доступа к интернету, да и исходная база иногда бывает недоступна, хотя поднимают её довольно оперативно.
Сам веду в экселе базу своей коллекции с готовыми составами, входящими ценами и т.д.
Дмитрию (BR95009) респект за идею и реализацию!

Оффлайн BR95009

  • Ветеран
  • *****
  • Сообщений: 625
  • Репутация: +35/-1
  • Аналог. Озвучиваю сам!
    • www.br95009.ru
  • Откуда: Москва
  • Имя: Дима
Re: Парсинг сайта www.spurweite-n.de
« Ответ #8 : 22 Октября 2022, 22:31:36 »
Устаревает-да. Но всегда можно новинки до парсить. :)
IIm, G, H0, H0m, H0e, N. MMH0. WWW.BR95009.RU