织梦CMS - 轻松建站从此开始!

亿万先生-亿万先生mr007-亿万先生老虎机

当前位置: 主页 > 亿万先生 >

python中使用lxml解析中文网页出现编码问题,如何

时间:2017-07-27 09:47来源:未知 作者:admin 点击:
问题 爬取IT之家网页 http://it.ithome.com/category... 在使用requests.get得到网页后用lxml解析,但是打印出来后中文无法正常显示, 而打印requests.get得到的内容却可以正常显示。求原因及解决方

问题

爬取IT之家网页http://it.ithome.com/category...
在使用requests.get得到网页后用lxml解析,但是打印出来后中文无法正常显示,
而打印requests.get得到的内容却可以正常显示。求原因及解决方法(BeautifulSoup可正常解析)。

代码

# coding: utf-8
import requests
from lxml import etree
from io import StringIO

init_url = 'http://it.ithome.com/category/31_4.html'
init_page = requests.get(init_url).text
print init_page.encode('utf-8')


parser = etree.HTMLParser()
html = etree.parse(StringIO(init_page), parser)
result = etree.tostring(html, pretty_print=True, method="html")
print result


news_titles = html.xpath('//div[@class="block"]/h2')
print len(news_titles)
for news_title in news_titles:
    print news_title.text

输出结果

  • 使用print init_page.encode('utf-8')能正常输出

  • 使用print result无法正常显示中文

织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
栏目列表
推荐内容