I am using lxml to scrape html. This code works. lxml.html.parse( http://google.com/ ) This

Question

0

Asked: May 29, 20262026-05-29T23:38:44+00:00 2026-05-29T23:38:44+00:00

I am using lxml to scrape html. This code works. lxml.html.parse( http://google.com/ ) This

0

I am using lxml to scrape html. This code works.

lxml.html.parse( "http://google.com/" )

This code does not.

lxml.html.parse( "http://google.com" )

Why does the slash at the end of the URL matter? Thank you.

To be clear, here is the error log that python is giving me from the latter code.

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/home/davidfaux/epd-7.2-2-rh5-x86/lib/python2.7/site-packages/lxml/html/__init__.py", line 692, in parse
    return etree.parse(filename_or_url, parser, base_url=base_url, **kw)
  File "lxml.etree.pyx", line 2953, in lxml.etree.parse (src/lxml/lxml.etree.c:56204)
  File "parser.pxi", line 1533, in lxml.etree._parseDocument (src/lxml/lxml.etree.c:82287)
  File "parser.pxi", line 1562, in lxml.etree._parseDocumentFromURL (src/lxml/lxml.etree.c:82580)
  File "parser.pxi", line 1462, in lxml.etree._parseDocFromFile (src/lxml/lxml.etree.c:81619)
  File "parser.pxi", line 1002, in lxml.etree._BaseParser._parseDocFromFile (src/lxml/lxml.etree.c:78528)
  File "parser.pxi", line 569, in lxml.etree._ParserContext._handleParseResultDoc (src/lxml/lxml.etree.c:74472)
  File "parser.pxi", line 650, in lxml.etree._handleParseResult (src/lxml/lxml.etree.c:75363)
  File "parser.pxi", line 588, in lxml.etree._raiseParseError (src/lxml/lxml.etree.c:74665)
IOError: Error reading file 'http://google.com': failed to load HTTP resource

Report

Leave an answer
Cancel reply

You must login to add an answer.

Need An Account,

1 Answer

Editorial Team · Answer 1 · 2026-05-29T23:38:45+00:00

Editorial Team

2026-05-29T23:38:45+00:00Added an answer on May 29, 2026 at 11:38 pm

Because without the slash, Google isn’t sending you a page, it’s sending you a redirect. In fact, it’s redirecting you to the URL with the slash! The body of the redirect is probably empty.

0

Reply
Share
Share

- Report

Sign Up

Sign In

Forgot Password

The Archive Base Latest Questions

I am using lxml to scrape html. This code works. lxml.html.parse( http://google.com/ ) This

Leave an answerCancel reply

1 Answer

Leave an answer
Cancel reply