Puppeteer can’t find elements when Headless TRUE

Question

I&#8217;m facing some problems with Puppeteer, I want to extract a list of items and succeed when headless is FALSE but not when TRUE. First thing first, I want to get those elements before mapping on it. Here&#8217;s my script, maybe you can reproduce it, it is really basic. Answer For starters, I&#8217;d pr…

Accepted Answer

For starters, I&#8217;d prefer page.waitForSelector(yourSelector) over page.waitForNetworkIdle();. In most cases, it&#8217;s a more direct guarantee that the data you want is on the page, whereas network idle can block waiting for all sorts of requests that are totally irrelevant to the data you&#8217;re trying to scrape. Another option is page.waitForResponse(predicate).Some websites check the headers to block scrapers. You can try adding a user agent header as described in the Puppeteer GitHub issue Different behavior between { headless: false } and { headless: true } #665:const puppeteer = require("puppeteer"); // ^19.6.3const baseUrl = "https://www.interencheres.com/recherche/lots?search=";const searchTerm = "Apple";const searchUrl = baseUrl + encodeURIComponent(searchTerm);let browser;(async () => {  browser = await puppeteer.launch();  const [page] = await browser.pages();  const ua =    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36";  await page.setUserAgent(ua);  await page.goto(searchUrl, {waitUntil: "domcontentloaded"});  await page.waitForSelector(".sale-item");  const elements = await page.$$(".sale-item");  console.log(elements.length); // => 48})()  .catch(err => console.error(err))  .finally(() => browser?.close());Using puppeteer-extra as described in Why does headless need to be false for Puppeteer to work? is another option you can try. It also anonymizes the user agent headers.

Advertisement

Answer