nge-NUTCH

wah, udah lama ndak update blog..padahal sebenarnya banyak banget yang ingin ditulis dan disampaikan.. tapi insya Allah akan rutin update blog lagi setelah selesai skripsi..

nah, ngomong2 soal skripsi, ini adalah salah satu bahan skripsiku.. NUTCH. yaitu aplikasi open source yang berfungsi untuk melakukan crawling, ya semacam google gitu lah, mesin pencari berdasarkan keyword tertentu. nah, kali ini akan saya sampaikan langkah2 ng-nutch dan setting2 yang diperlukan.

1. anda harus menyiapkan dependency dari nutch, seperti :
– JDK, penulis menggunakan JDK yang ada di repository ubuntu 9.04
– Tomcat, penulis menggunakan apache-tomcat-6.0.24
– Nutch, penulis pake yang nutch-1.0

2. instal JDK nya
3. lakukan penyesuaian : sudo gedit /etc/environment
4. isi dengan ini :

PATH=”/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/lib/jvm/java-6-sun/bin:bin_safe”
JAVA_HOME=”/usr/lib/jvm/java-6-sun/”
CATALINA_HOME=”/opt/apache-tomcat-6.0.24/”
NUTCH_JAVA_HOME=”/usr/lib/jvm/java-6-sun/”

5. instal tomcatnya dengan mengkopi ke folder /opt
6. copy folder nutch-1.0 ke opt

7. lakukan beberapa konfig yaitu :

– masuk ke direktori nutch n buat direktori baru yaitu urls
– masuk ke urls, lalu buat file seed.txt dan isi file tersebut dengan alamat url yang mau di crawl, contoh : http://www.agastya.wordpress.com
– keluar dari urls, lalu ketik : gedit conf/crawl-urlfilter.txt.
– ganti MY.DOMAIN.NAME itu dengan +^http://([a-z0-9]*\.)*apache.org/
– edit file conf/nutch-site.xml, lalu isi dengan ini.. :
<property>
<name>http.agent.name</name>
<value>penyakit</value>
</property>
– Value tidak boleh kosong, di contoh ini di isi dengan penyakit, sebenarnya masih banyak lagi parameter yang harus di setting, namun untuk tahapan pembelajaran cukup http.agent.name saja yg kita seting. Bila ingin lebih detail, dapat mencari tutorial pada web aselinya si nutch.

8. konfig udah selesai, sekarang cara jalanin nutch nya..๐Ÿ™‚

– ketik : bin/nutch inject crawl/crawldb urls
ini adalah untuk melakukan inject seed yang ada di urls ke database crawl
– ketik : bin/nutch generate crawl/crawldb crawl/segments
melakukan generate segments. FYI, segmen2 ini adalah tempat hasil crawling nantinya, dan setiap crawl akan menghasilkan segmen.
– membuat sebuah direktori di crawl/segments, untuk menyimpan urlyg nanti di fetch. kita akan menyimpan nama segment ini dalam sebuah variabel (misalnya : s1), contohnya : s1=`ls -d crawl/segments/2* | tail -1`
– cek variabel yg telah di buat : echo $s1
– nge-run fetcher pada segmen : bin/nutch fetch $s1
note : tahapan ini biasanya memakan waktu yang cukup lama..sama kayak download, tergantung berapa banyak link web yang akan di crawl. ,
– Bila proses di atas selesai, update databases dengan data yg baru saja kita fetch :
bin/nutch updatedb crawl/crawldb $s1
sampai tahap ini, kegiatan crawling telah selesai. lakukan berulang dg alamat web yang berbeda, sesuai kebutuhan.

9. selanjutnya ialah membuat index dari kumpulan data yang kita peroleh, caranya :
bin/nutch invertlinks crawl/linkdb crawl/segments/*
kemudian
bin/nutch index crawl/indexes crawl/crawldb crawl/linkdb crawl/segments/*
10. selesai.. sekarang kita bisa search kayak google, caranya :

SEARCHING!!!!!
Simplest way to verify the integrity of your crawl is to launch NutchBean from command line:
bin/nutch org.apache.nutch.searcher.NutchBean apache
– After you have verified that the above command returns results you can proceed to setting up the web interface. Assuming youโ€™ve unpacked Tomcat as ~/opt/tomcat, then the Nutch war file may be installed with the commands:
rm -rf ~/opt/tomcat/webapps/ROOT*
cp nutch*.war ~/opt/tomcat/webapps/ROOT.war
– The webapp finds its indexes in ./crawl, relative to where you start Tomcat, so use a command like:
~/opt/tomcat/bin/catalina.sh start
– Then visit http://localhost:8080/ and have fun!
More detailed tutorials are available on the Nutch Wiki.

11. selesai..selamat mencoba, mogaย  bermanfaat..
related links, lucene.apache.org, mahardi.wordpress.com

2 thoughts on “nge-NUTCH”

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s