今天是小編分享python入門教程第七講,講述關于python的字符串與令人頭疼的
字符編碼,徹底搞懂字符編碼二,decode()與encode()兩個方式的利用。
13入門系列教程七徹底搞懂字符編碼一
chardet模塊功能:可以檢拆字符串編碼,查抄是否有該模塊,報錯信息提醒沒有該模塊
若是沒有該chardet模塊的可以用pip install chardet安裝
以下是安裝環境
這兩個decode()、encode()
decode()功能:將其他編碼字符轉化為Unicode編碼字符。 encode()功能:將Unicode編碼字符轉化為其他編碼字符。
其實亂碼素質上就是當前系統編碼與所供給的字符編碼紛歧致導致的。接下來舉一個用的比力的多的例子
在windows系統下利用python2獲取百度首頁的title
首頁利用的字符編碼是utf-8,而我們當前windows系統的默認字符編碼是gbk,我們來測試一下直接提取會不會呈現亂碼問題。
import re,urllib2
html = urllib2.urlopen('http://www.baidu.com/').read()
title = re.findall(r'<title>(.*?)</title>',html)[0]
怎么解決亂碼呢?
gbk_title = title.decode('utf-8').encode('gbk')
0 篇文章
如果覺得我的文章對您有用,請隨意打賞。你的支持將鼓勵我繼續創作!