Pengembangan Database Genbank UAI-Bioinformatics Menggunakan Sistem Terdistribusi

Ade Jamal, Denny Hermawan, Muhammad Nugraha

Abstract


AbstrakTelah dilakukan penelitian tentang pengolahan terdistribusi data genbank menggunakan Hadoop Distributed Filesystem (HDFS) dengan tujuan mengetahui efektifitas pengolahan data genbank khususnya pada pencarian sequens dengan data masukan yang berukuran besar. Penelitian dilakukan di Laboratorium Jaringan Universitas Al Azhar Indonesia dengan menggunakan 6 komputer dan satu server dimana dalam Hadoop menjadi 7 node dengan rincian 1 namenode, 7 datanode, 1 secondary namenode. Dengan eksperimen HDFS menggunakan 1 node, 2 node, 4 node, 6 node, dan 7 node dibandingkan dengan Local Filesystem. Hasil menunjukan proses pencarian sequens data genbank menggunakan 1 – 7 node pada skenario eksperimen pertama dengan output yang menampilkan hasil 3 field (Locus, Definition, dan Authors), skenario eksperimen kedua dengan output yang menampilkan hasil 3 field (Locus, Authors, dan Origin), dan skenario eksperimen ketiga menggunakan HDFS dan LFS dengan output yang menampilkan seluruh field yang terdapat dalam data genbank (Locus, Definition, Accesion, Version, Keywords, Source, Organism, Reference, Authors, Title, Journal, Pubmed, Comment, Features, dan Origin). Evaluasi menunjukan bahwa proses pencarian sequens data genbank menggunakan HDFS dengan 7 node adalah 4 kali lebih cepat dibandingkan dengan menggunakan 1 node. Sedangkan perbedaan waktu pada penggunaan HDFS dengan 1 node adalah 1.02 kali lebih cepat dibandingkan dengan Local Filesystem dengan 4 core processor.

 

Abstract - A research on distributed processing of GenBank data using Hadoop Distributed File System GenBank (HDFS) in order to know the effectiveness of data processing, especially in the search sequences with large input data. Research conducted at the Network Laboratory of the University of Al Azhar Indonesia using 6 computers and a server where the Hadoop to 7 nodes with details 1 namenode, 7 datanode, 1 secondary namenode. With HDFS experiments using 1 node, node 2, node 4, node 6, and 7 nodes compared with the Local Filesystem. The results show the search process of data GenBank sequences using 1-7 nodes in the first experiment scenario with an output that displays the results of 3 fields (Locus, Definition, and Authors), a second experiment scenario with an output that displays the results of 3 fields (Locus, Authors, and Origin) , and the third experiment scenarios using HDFS and LFS with output that displays all the data fields contained in GenBank (Locus, Definition, Accesion, Version, Keywords, Source, Organism, Reference, Authors, Title, Journal, Pubmed, Comment, Features, and Origin). Evaluation shows that the search process of data GenBank sequences using HDFS with 7 nodes is 4 times faster than using one node. While the time difference in the use of HDFS with one node is 1:02 times faster than the Local File System with 4 core processor.

 

Keywords –  genbank, sequens, distributed computing, Hadoop, HDFS


Full Text:

PDF


DOI: http://dx.doi.org/10.36722/sst.v2i3.138

Refbacks

  • There are currently no refbacks.


LP2M (Lembaga Penelitian dan Pengembangan Masyarakat)

Universitas AL-AZHAR INDONESIA, Lt.2 Ruang 207

Kompleks Masjid Agung Al Azhar

Jl. Sisingamangaraja, Kebayoran Baru

Jakarta Selatan 12110

Visitor