Strip HTML in Python

Ada banyak cara yang digunakan untuk melakukan penghilangan tag HTML. Nah, salah satunya akan saya kasih contoh dengan menggunakan bahasa pemrograman Python. Dalam Python sendiri, ada beberapa cara, seperti :

namastr = 'aku anak indonesia  <font size=20> click di sini  </font> '
HTMLtag = re.compile('<.*?>')
HTMLtag.sub('', namastr)

maka hasilnya kurang lebih seperti ini

aku anak indonesia     click di sini

Namun, cara tersebut masih meninggalkan sisa-sisa seperti karakter unik &nbps dkk. Klo mau bersih lagi, pakai yang ini..

class MLStripper(HTMLParser.HTMLParser):
    def __init__(self):
        self.reset()
        self.fed = []
    def handle_data(self, d):
        self.fed.append(d)
    def get_fed_data(self):
        return ''.join(self.fed)
x = MLStripper()
x.feed(namastr)
x.get_fed_data()

selanjutnya, untuk mnghilangkan whitespace sisa-sisa tag yang udah hilang, caranya ada di postingan sebelumnya..ok,,
selamat mencoba..

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s