eConti - программирование в вопросах и ответах

Вопросы по теме 'scrapy'

Сервер Websocket с twisted и Python, выполняющий сложные задания в фоновом режиме
Я хочу закодировать сервер, который обрабатывает клиентов Websocket, при этом mysql выбирает через sqlalchemy и одновременно очищает несколько веб-сайтов (scrapy). Полученные данные должны быть рассчитаны, сохранены в базе данных и затем отправлены...

Как получить информацию о Python Scrapy Crawler?
Я использую инструмент Python Scrapy для извлечения данных с веб-сайтов. Я запускаю Scrapy из своего php-кода, используя proc_open() . Теперь мне нужно поддерживать что-то вроде Dashboard. Есть ли способ в Scrapy получить такие данные Crawler,...
21.12.2023

scrapy - Как вставить иерархические элементы в базу данных?
Я спрашиваю о структуре scrapy . Я очищаю бизнес-страницу. Сначала я добавляю Brand Item (у меня есть таблица Brands) с названием компании, затем я хочу добавить несколько бизнес-мест (таблица BusinessLocations), но мне нужна база данных BrandId,...
19.11.2023

не может импортировать модули scrapy в качестве библиотеки
Я пытаюсь запустить пауков из скрипта Python, следуя документу scrapy: http://doc.scrapy.org/en/latest/topics/practices.html from twisted.internet import reactor from scrapy.crawler import Crawler from scrapy import log, signals from...
07.12.2023

скребок python не может давать предметы
мой spider.py выглядит так: class CSpider(scraper.Spider): name = 'craig' start_urls = ['http://geo.craigslist.org/iso/us/ca'] def parse(self, response): # get url_list for url in url_list: yield...

Искатель Scrapy игнорирует DOWNLOADER_MIDDLEWARES при запуске как скрипт
Я хочу получить данные, используя Scrapy , с нескольких разных сайтов и выполнить некоторый анализ. на этих данных. Поскольку и сканеры, и код для анализа данных относятся к одному и тому же проекту, я бы хотел хранить все в одном репозитории Git....

Извлечение данных из таблиц с помощью scrapy
Я извлекаю данные с этого веб-сайта: http://www.tablebuilder.singstat.gov.sg/publicfacing/createDataTable.action?refId=1907&exportType=csv Я использую scrapy для извлечения данных о ВВП, которые в нем указаны. Мой код выглядит следующим образом:...
17.11.2023

Кажется, что Scrapy установлен, но не может быть импортирован в оболочке python.
Я использовал команду: sudo pip install scrapy для установки скраппи внутри виртуальной среды. После этого я использовал команду: scrapy --version и получил следующий экран: Но когда я пытаюсь импортировать scrapy в оболочку python, я...

Пустой список с scrapy и Xpath
Я начинаю использовать scrapy и xpath, чтобы очистить какую-то страницу, я просто пробую простые вещи с помощью ipython, я получаю ответ на некоторых страницах, например в IMDB, но когда я пытаюсь на других, таких как www.bbb.org, я всегда получаю...

MongoDB InvalidDocument: невозможно закодировать объект
Я использую scrapy для удаления блогов, а затем сохраняю данные в mongodb. Сначала я получил исключение InvalidDocument. Для меня очевидно, что данные не в правильной кодировке. Поэтому, прежде чем сохранять объект, в моем MongoPipeline я проверяю,...

ScrapyRT против Scrapyd
Мы уже давно пользуемся Scrapyd сервисом . Он обеспечивает удобную оболочку вокруг проекта scrapy и его пауков, позволяя управлять пауками через HTTP API: Scrapyd — это сервис для запуска пауков Scrapy. Это позволяет вам развертывать...

Как разделить вывод из списка URL-адресов в scrapy
Я пытаюсь создать CSV-файл для каждого очищенного URL-адреса из списка URL-адресов в scrapy. Я понимаю, что изменю pipe.py, однако все мои попытки пока не увенчались успехом. Я не понимаю, как я могу передать очищаемый URL-адрес в конвейер и...
12.11.2023

Отправить полезную нагрузку запроса с помощью python scrapy
Я пытаюсь очистить веб-сайт, где я могу найти URL-адрес с почтовым запросом с параметрами полезной нагрузки, как показано ниже. Я не уверен, как сделать это в словаре в полезной нагрузке и отправить его в formdata. Весь приведенный ниже код...

Ошибка требований при попытке развернуть в Scrapy Cloud
Я пытаюсь развернуть своего паука в Scrapy Cloud с помощью shub, но продолжаю сталкиваться со следующей ошибкой: $ shub deploy Packing version 2df64a0-master Deploying to Scrapy Cloud project "164526" Deploy log last 30 lines: ---> Using cache...

Можно ли очистить все текстовые сообщения из Whatsapp Web с помощью Scrapy?
Я экспериментировал с очисткой веб-страниц с помощью Scrapy, и мне было интересно получить все текстовые сообщения из всех чатов в Whatsapp, чтобы использовать их в качестве обучающих данных для проекта машинного обучения. Я знаю, что есть веб-сайты,...

Очистка веб-сайта, содержащего метод _dopostback, написанный со скрытым URL-адресом
Я новичок в Scrapy . Я пытаюсь очистить этот веб-сайт в asp, который содержит различные профили. В нем 259 страниц. Для навигации по страницам внизу есть несколько ссылок, например 1,2,3 .... и т. Д. Эти ссылки используют _dopostback...

Оболочка Scrapy выдает пустой список, даже если xpath правильный в chrome. Почему?
Выполнено в оболочке Scrapy url = "https://www.daraz.com.np/smartphones/?spm=a2a0e.11779170.cate_1.1.287d2d2b2cP9ar" fetch(url) r = scrapy.Request(url = url) fetch(r) response.xpath("//div[@class='ant-col-20 ant-col-push-4...
22.11.2023

Python Scrapy — сохранение «категории» для каждой записи на основе первой веб-страницы
Я ищу рецепты на BBC food . Логика следующая: На главной странице около 20 кухонь -› в каждой кухне обычно ~20 рецептов на 1-3 страницах на каждую букву. -› в каждом рецепте около 6 вещей, которые я собираю (ингредиенты, рейтинг и др.) Поэтому...
10.11.2023

Переходит на следующую страницу, но не очищает ее элементы с помощью Selenium и Scrapy
Я пытаюсь очистить все страницы с помощью Selenium и нажать кнопку «Следующая страница». Однако URL-адрес не меняется при переходе на следующую страницу. Я могу перейти на все страницы, но я получаю только элементы, очищенные от первой страницы, и...

Новые материалы

ИИ для общего блага, часть вторая
В нашем последнем блоге мы исследовали возможности ИИ для общего блага, указав на несколько инициатив по поиску действенных решений для продвижения справедливых и беспристрастных систем ИИ. По..

Время расцвета закончилось
Большую часть своей карьеры в индустрии программного обеспечения программисты работали с головой в песок. Успех в отрасли требует навыков презентации и обучения других. Ценность улучшенных..

Будущее сельского хозяйства: новый уровень производительности с современными технологиями
По мере роста населения мира растет и спрос на продукты питания. Фермеры сталкиваются с растущим давлением необходимости повышать урожайность и максимизировать производительность, манипулируя..

Состояние совместной фильтрации в 2022 году, часть 1
ResBeMF: Улучшение прогнозируемого охвата совместной фильтрации на основе классификации (arXiv) Автор: Анхель Гонсалес-Прието , Авраам Гутьеррес , Фернандо Ортега , Рауль Лара-Кабрера..

Зачем изучать PYTHON в 2022 году !
Python — востребованный, доступный язык программирования с активным, постоянно растущим сообществом пользователей. Для тех, кто хочет сменить профессию в мире технологий с помощью..

Решение капч с помощью Puppeteer
Это руководство предназначено для текстовых кодов, а не для reCAPTCHA Google (см. конец этого сообщения). Требования: Антикапча или любой другой сервис по разгадыванию капчи. Модуль..

7 встроенных библиотек Python, которые необходимо знать
7 встроенных библиотек Python, которые необходимо знать Стандартная библиотека Python значительно упрощает жизнь программистов, предоставляя широкий набор функций. Мы выбираем несколько..