DO_SIMPLIFY : AN EASIEST WAY TO SIMPLIFY
YOUR TEXT AND PARAGRAPH
Syafwan Almadani Azra, Januarta Sebayang, Briyan Adityatama
Program Studi Teknik Informatika, Fakultas Informatika Telkom University
, ,
Abstrak—Padanan kata yang terdapat pada suatu teks dapat menerapkan metode lexical simplification yang digunakan
membingungkan sehingga membuat pembaca sulit untuk memahami untuk mengurangi kompleksitas sintaks. Output dari
makna dari kata tersebut. Do_Simplify merupakan aplikasi berbasis Do_simplify ini akan menghasilkan kosakata yang memiliki
desktop yang dapat melakukan penyederhanaan teks yang berguna makna yang sekiranya mudah dimengerti oleh pembaca.
untuk mengurangi linguitas kompleks dalam suatu teks yang rumit
Metode yang diterapkan yaitu menggunakan lexi-cal
menjadi kosakata yang mudah dipahami oleh pembaca. Metode yang
diterapkan yaitu menggunakan lexical simplification dibantu dengan simplification dibantu dengan tools WordNet dan Brown
tools WordNet dan Brown Corpus. Menyelesaikan permasalahan Corpus.
linguitas menggunakan Metode lexical simplification setidaknya ada tiga
proses utama yang harus dilakukan. Pertama, analisis kompleksitas Batasan masalah yang terdapat pada sistem ini, antara lain
dilakukan untuk memilih kata dalam teks yang dianggap sulit untuk sistem dibangun menggunakan bahasa pemrograman python,
dimengerti oleh target pembaca. Selanjutnya, proses pencarian data yang diinput hanya berupa teks (bukan file), dan teks
substitusi dilakukan untuk mengganti kata yang susah tersebut dengan yang dapat di-proses hanya teks berbahasa inggris.
kata lain yang lebih dapat dipahami tetapi tentu tidak mengubah
makna bacaan. Terakhir, proses yang perlu dilakukan adalah
Manfaat yang diharapkan dari penulisan ini ialah
pemeringkatan substitusi berdasarkan konteks dalam teks. Hasil dari
sistem akan dibandingkan dengan perangkat lunak penyederhanaan menghasilkan sistem penyederhanaan teks secara otomatis
teks berbasis web yang sering digunakan, yaitu Rewordify (RW) dan yang dapat mengurangi linguitas dan kompleksitas pada
Simplish (SL). Terdapat beberapa hasil perbandingan dari sistem yang kosakata sehingga pembaca dari berbgai umur dapat
dibangun dan sistem yang sudah ada yang menunjukkan sistem tidak memahami isi cerita teks yang dibacanya.
tahu bahwa kata kerja tersebut seharusnya dijadikan ke dalam bentuk
lampau seperti pada kalimat asalnya. 2 Landasan Teori
Kata kunci: Text Simplification, Lexical Simpli-fication, WordNet, 2.1 Text Simplification
Brown Corpus, do_Simplify
Text Simplification atau biasanya disebut dengan
penyederhanaan teks merupakan proses transformasi suatu
1 Latar Belakang
teks menjadi lenih sederhana agar dapat dimengerti oleh
pembaca atau target user. Text Simplification ditandai dengan
Kemampuan membaca dan memahami suatu teks agar dapat
gaya sederhana pada suatu teks dengan kosakata yang sedikit
mengerti isi yang disampaikan didalamnya sudah menjadi hal
dan mudah dipahami. Text Simplification memiliki kelebihan
yang wajib dipelajari seseorang sejak dini. Namun, terdapat
antara lain:
beberapa kata pada suatu teks yang membingungkan sehingga
Memfasilitasi akses informasi kepada target user dengan
membuat pembaca sulit untuk memahami makna dari kata
level literasi yang rendah;
tersebut. Akibanya, terjadi penurunan minat baca yang bisa
berdampak pada semakin sedikitnya penyerapan kata yang Membuat artikel berita agar mudah diakses bagi target
masuk kedalam memori otak. Kosakata yang digunakan tidak user penyandang cacat yang membutuhkan kebutuhan
jarang membuat pusing karena menggunakan bahasa yang khusus saat membaca;
rumit dan berputarputar, sehingga banyak sekali pembaca Memudahkan akses konten dengan bahasa yang mudah
yang cepat jenuh dengan cara bercerita teks yang tidak padat dimengerti oleh peserta didik;
dan tidak jelas dalam bercerita. Oleh karena itu, diperlukan Komplesitas transformasi teks lebih tinggi bagi target user
sistem yang dapat melakukan penyederhanaan teks. yang tidak terbiasa dengan makna dari suatu kata yang
rumit.
Sistem ini dinganun bertujuan untuk menyederhanakan teks
berbahasa inggris yang nanti nya akan berguna untuk Dua jenis simplifikasi yang dianggap membantu, yaitu:
mengatasi masalah pada kompleksnya linguitas pada suatu penyederhanaan kosakata dan penyederhanaan struktur
teks dan diharapkan sistem ini juga dapat membantu anak- sintaksis. Penyederhanaan kosakata atau Simplification of
anak dalam memahami sebuah teks atau paragraf dalam Vocabulary terkait pada konten leksikal atau kata yang
berbahasa inggris yang mana banyak dikeluhkan. Penulis juga menyediakan semantic-denotatif dimana fungsinya untuk
, mengartikulasikan tata bahasa yang akurat yang dapat mewakili word senses. Sinonim (syn same, onyma name)
digunakan untuk merakit leksikal. Penggunaan leksikal yang adalah relasi simetris antara bentuk kata
memiliki makna tidak rumit dilihat dari frekuensi b. Antonimi (lawan kata) adalah hubungan simetris semantik
penggunaannya. Frekuensi penggunaan dalam pengenalan antara bentuk kata, terutama penting dalam memaknai dari
leksikal merupakan langkah yang tepat untuk penyederhanaan kata sifat dan kata keterangan.
teks menggantikan kosakata yang rumit dipahami. c. Hyponymy (sub-nama) dan kebalikannya, hypernymy
(Super-nama), adalah hubungan transitif antara synsets.
Penyederhanaan struktur sintaksis atau Simplification of Karena biasanya hanya ada satu hypernym, hubungan
Syntactic Structures terkait pada frase dan elemen kalimat semantik ini mengatur makna kata benda menjadi struktur
yang harus diserhanakan agar lebih dipahami oleh target user. hirarkis.
Pada jenis ini, kita bisa mengukur panjang segmen diskursif d. Meronym (part- name) dan kebalikannya, holonymy
(diukur sebagai jumlah kata per segmen), penyederhanaan (Whole-name), adalah hubungan semantik kompleks.
(frase atau kalimat per segmen), dan bahkan secara kompleks WordNet membedakan komponen, substantif bagian, dan
(lebih dari satu). Salah satu pola kalimat kompleks yang perlu bagian anggota.
ditangani adalah sebagai berikut : [ 𝑋 [ 𝑋1 [ 𝑋2 ] ] ] e. Troponymy (cara-nama) adalah verba apa hyponymy
dimana pola tersebut merupakan segmen diskursif seperti adalah untuk kata benda, meskipun dihasilkan hierarki
kalimat atau frase atau kelompok kalimat. Tujuan utama dari yang lebih dangkal.
proyek ini adalah untuk mengidentifikasi fenomena dan
kategori yang menghambat proses penyederhanaan linguistik 2.4 Brown Corpus
[1].
The Brown Corpus of Standard American English merupakan
2.2 Lexical Simplification korpora yang modern, dapat dibaca oleh computer, dan
merupakan korpora umum. Korpora ini disusun oleh W.N.
Lexical simplification merupakan sub bagian dari text Francis dan H. Kucera, Brown University, Providence, RI.
simplification yang berguna untuk mengurangi kompleksitas
dari suatu teks atau pragraf dengan cara mengganti kata kata Korpus terdiri dari satu juta kata teks bahasa Inggris Amerika
kompleks dengan sinonim yang lebih sederhana dan mudah dicetak pada tahun 1961. Teks untuk korpus dijadikan sampel
dimengerti, yang dapat mem-bantu non-native speaker, anak- dari 15 kategori teks yang berbeda untuk membuat corpus
anak dan orang yang mempunyai gangguan dalam memahami referensi standar yang baik. Saat ini, corpus dianggap kecil,
teks. dan sedikit tanggal, namun masih digunakan. Banyak
kegunaannya terletak pada kenyataan bahwa corpus Brown
Penyederhanaan leksikal dominan pada rule-based yaitu telah disalin oleh compiler corpus lainnya. LOB corpus
bergantung pada set substitusi, yang terdiri dari sebuah kata (British English) dan Kolhapur Corpus (India Inggris) adalah
kompleks dan sinonim yang lebih sederhana. Dalam dua contoh dari corpora dibuat untuk mencocokkan corpus
membangun sebuah rule substitusi melibatkan identifikasi Brown. Ketersediaan corpora yang sangat mirip dalam
sinonim, biasanya menggunakan Word-Net untuk satu set struktur adalah resourse berharga bagi para peneliti yang
yang telah ditetapkan dari kata-kata kompleks. Kemudian tertarik dalam membandingkan varietas bahasa yang berbeda,
diganti dengan sinonim yang lebih sederhana dengan misalnya.
menggunakan beberapa frekuensi atau berdasarkan panjang
heuristics. Keku-rangan dari metode ini yaitu sistem re-call Untuk waktu yang lama, Brown dan LOB corpora hampir
yang rendah dan kesalahan klas-ifikasi kata-kata sederhana hanya mudah tersedia komputer dibaca corpora. Banyak
menjadi lebih kompleks [2]. penelitian dalam bidang linguistik korpus karena itu telah
dibuat dengan menggunakan data ini. Dengan mempelajari
2.3 WordNet data yang sama dari sudut yang berbeda, di berbagai jenis
penelitian, peneliti dapat membandingkan temuan mereka
Wordnet merupakan sistem referensi lexical online yang tanpa harus memperhitungkan variasi pertimbangan
memuat relasi antarkata dalam bahasa Inggris dan didesain kemungkinan disebabkan oleh penggunaan data yang berbeda.
berdasarkan memori lexical manusia. WordNet mempunyai Di Universitas Freiburg, Jerman, peneliti menyusun versi baru
sekitar 95.600 bentuk kata yang berbeda ( 51.500 kata-kata dari LOB dan Brown corpora dengan teks-teks dari 1991. Ini
sederhana dan 44.100 collocations ) disusun dalam beberapa pasti akan menjadi sumber daya berharga untuk studi
70.100 word meaning , atau set sinonim. Perbedaan antara perubahan bahasa dalam perspektif diakronis dekat.
WordNet dengan kamus lain yaitu WordNet membagi lexicon
dalam lima kategori yaitu nouns, verbs, adjectives, ad-verbs, The Brown corpus terdiri dari 500 teks, masing-masing terdiri
dan function words. Beberapa semantic relation pada dari lebih dari 2.000 kata. Teks-teks itu sampel dari 15
WordNet [3]: kategori teks yang berbeda. Jumlah teks dalam setiap kategori
a. Sinonim merupakan relasi dasar WordNet, karena bervariasi [4].
WordNet menggunakan set sinonim (synsets) untuk
YOUR TEXT AND PARAGRAPH
Syafwan Almadani Azra, Januarta Sebayang, Briyan Adityatama
Program Studi Teknik Informatika, Fakultas Informatika Telkom University
, ,
Abstrak—Padanan kata yang terdapat pada suatu teks dapat menerapkan metode lexical simplification yang digunakan
membingungkan sehingga membuat pembaca sulit untuk memahami untuk mengurangi kompleksitas sintaks. Output dari
makna dari kata tersebut. Do_Simplify merupakan aplikasi berbasis Do_simplify ini akan menghasilkan kosakata yang memiliki
desktop yang dapat melakukan penyederhanaan teks yang berguna makna yang sekiranya mudah dimengerti oleh pembaca.
untuk mengurangi linguitas kompleks dalam suatu teks yang rumit
Metode yang diterapkan yaitu menggunakan lexi-cal
menjadi kosakata yang mudah dipahami oleh pembaca. Metode yang
diterapkan yaitu menggunakan lexical simplification dibantu dengan simplification dibantu dengan tools WordNet dan Brown
tools WordNet dan Brown Corpus. Menyelesaikan permasalahan Corpus.
linguitas menggunakan Metode lexical simplification setidaknya ada tiga
proses utama yang harus dilakukan. Pertama, analisis kompleksitas Batasan masalah yang terdapat pada sistem ini, antara lain
dilakukan untuk memilih kata dalam teks yang dianggap sulit untuk sistem dibangun menggunakan bahasa pemrograman python,
dimengerti oleh target pembaca. Selanjutnya, proses pencarian data yang diinput hanya berupa teks (bukan file), dan teks
substitusi dilakukan untuk mengganti kata yang susah tersebut dengan yang dapat di-proses hanya teks berbahasa inggris.
kata lain yang lebih dapat dipahami tetapi tentu tidak mengubah
makna bacaan. Terakhir, proses yang perlu dilakukan adalah
Manfaat yang diharapkan dari penulisan ini ialah
pemeringkatan substitusi berdasarkan konteks dalam teks. Hasil dari
sistem akan dibandingkan dengan perangkat lunak penyederhanaan menghasilkan sistem penyederhanaan teks secara otomatis
teks berbasis web yang sering digunakan, yaitu Rewordify (RW) dan yang dapat mengurangi linguitas dan kompleksitas pada
Simplish (SL). Terdapat beberapa hasil perbandingan dari sistem yang kosakata sehingga pembaca dari berbgai umur dapat
dibangun dan sistem yang sudah ada yang menunjukkan sistem tidak memahami isi cerita teks yang dibacanya.
tahu bahwa kata kerja tersebut seharusnya dijadikan ke dalam bentuk
lampau seperti pada kalimat asalnya. 2 Landasan Teori
Kata kunci: Text Simplification, Lexical Simpli-fication, WordNet, 2.1 Text Simplification
Brown Corpus, do_Simplify
Text Simplification atau biasanya disebut dengan
penyederhanaan teks merupakan proses transformasi suatu
1 Latar Belakang
teks menjadi lenih sederhana agar dapat dimengerti oleh
pembaca atau target user. Text Simplification ditandai dengan
Kemampuan membaca dan memahami suatu teks agar dapat
gaya sederhana pada suatu teks dengan kosakata yang sedikit
mengerti isi yang disampaikan didalamnya sudah menjadi hal
dan mudah dipahami. Text Simplification memiliki kelebihan
yang wajib dipelajari seseorang sejak dini. Namun, terdapat
antara lain:
beberapa kata pada suatu teks yang membingungkan sehingga
Memfasilitasi akses informasi kepada target user dengan
membuat pembaca sulit untuk memahami makna dari kata
level literasi yang rendah;
tersebut. Akibanya, terjadi penurunan minat baca yang bisa
berdampak pada semakin sedikitnya penyerapan kata yang Membuat artikel berita agar mudah diakses bagi target
masuk kedalam memori otak. Kosakata yang digunakan tidak user penyandang cacat yang membutuhkan kebutuhan
jarang membuat pusing karena menggunakan bahasa yang khusus saat membaca;
rumit dan berputarputar, sehingga banyak sekali pembaca Memudahkan akses konten dengan bahasa yang mudah
yang cepat jenuh dengan cara bercerita teks yang tidak padat dimengerti oleh peserta didik;
dan tidak jelas dalam bercerita. Oleh karena itu, diperlukan Komplesitas transformasi teks lebih tinggi bagi target user
sistem yang dapat melakukan penyederhanaan teks. yang tidak terbiasa dengan makna dari suatu kata yang
rumit.
Sistem ini dinganun bertujuan untuk menyederhanakan teks
berbahasa inggris yang nanti nya akan berguna untuk Dua jenis simplifikasi yang dianggap membantu, yaitu:
mengatasi masalah pada kompleksnya linguitas pada suatu penyederhanaan kosakata dan penyederhanaan struktur
teks dan diharapkan sistem ini juga dapat membantu anak- sintaksis. Penyederhanaan kosakata atau Simplification of
anak dalam memahami sebuah teks atau paragraf dalam Vocabulary terkait pada konten leksikal atau kata yang
berbahasa inggris yang mana banyak dikeluhkan. Penulis juga menyediakan semantic-denotatif dimana fungsinya untuk
, mengartikulasikan tata bahasa yang akurat yang dapat mewakili word senses. Sinonim (syn same, onyma name)
digunakan untuk merakit leksikal. Penggunaan leksikal yang adalah relasi simetris antara bentuk kata
memiliki makna tidak rumit dilihat dari frekuensi b. Antonimi (lawan kata) adalah hubungan simetris semantik
penggunaannya. Frekuensi penggunaan dalam pengenalan antara bentuk kata, terutama penting dalam memaknai dari
leksikal merupakan langkah yang tepat untuk penyederhanaan kata sifat dan kata keterangan.
teks menggantikan kosakata yang rumit dipahami. c. Hyponymy (sub-nama) dan kebalikannya, hypernymy
(Super-nama), adalah hubungan transitif antara synsets.
Penyederhanaan struktur sintaksis atau Simplification of Karena biasanya hanya ada satu hypernym, hubungan
Syntactic Structures terkait pada frase dan elemen kalimat semantik ini mengatur makna kata benda menjadi struktur
yang harus diserhanakan agar lebih dipahami oleh target user. hirarkis.
Pada jenis ini, kita bisa mengukur panjang segmen diskursif d. Meronym (part- name) dan kebalikannya, holonymy
(diukur sebagai jumlah kata per segmen), penyederhanaan (Whole-name), adalah hubungan semantik kompleks.
(frase atau kalimat per segmen), dan bahkan secara kompleks WordNet membedakan komponen, substantif bagian, dan
(lebih dari satu). Salah satu pola kalimat kompleks yang perlu bagian anggota.
ditangani adalah sebagai berikut : [ 𝑋 [ 𝑋1 [ 𝑋2 ] ] ] e. Troponymy (cara-nama) adalah verba apa hyponymy
dimana pola tersebut merupakan segmen diskursif seperti adalah untuk kata benda, meskipun dihasilkan hierarki
kalimat atau frase atau kelompok kalimat. Tujuan utama dari yang lebih dangkal.
proyek ini adalah untuk mengidentifikasi fenomena dan
kategori yang menghambat proses penyederhanaan linguistik 2.4 Brown Corpus
[1].
The Brown Corpus of Standard American English merupakan
2.2 Lexical Simplification korpora yang modern, dapat dibaca oleh computer, dan
merupakan korpora umum. Korpora ini disusun oleh W.N.
Lexical simplification merupakan sub bagian dari text Francis dan H. Kucera, Brown University, Providence, RI.
simplification yang berguna untuk mengurangi kompleksitas
dari suatu teks atau pragraf dengan cara mengganti kata kata Korpus terdiri dari satu juta kata teks bahasa Inggris Amerika
kompleks dengan sinonim yang lebih sederhana dan mudah dicetak pada tahun 1961. Teks untuk korpus dijadikan sampel
dimengerti, yang dapat mem-bantu non-native speaker, anak- dari 15 kategori teks yang berbeda untuk membuat corpus
anak dan orang yang mempunyai gangguan dalam memahami referensi standar yang baik. Saat ini, corpus dianggap kecil,
teks. dan sedikit tanggal, namun masih digunakan. Banyak
kegunaannya terletak pada kenyataan bahwa corpus Brown
Penyederhanaan leksikal dominan pada rule-based yaitu telah disalin oleh compiler corpus lainnya. LOB corpus
bergantung pada set substitusi, yang terdiri dari sebuah kata (British English) dan Kolhapur Corpus (India Inggris) adalah
kompleks dan sinonim yang lebih sederhana. Dalam dua contoh dari corpora dibuat untuk mencocokkan corpus
membangun sebuah rule substitusi melibatkan identifikasi Brown. Ketersediaan corpora yang sangat mirip dalam
sinonim, biasanya menggunakan Word-Net untuk satu set struktur adalah resourse berharga bagi para peneliti yang
yang telah ditetapkan dari kata-kata kompleks. Kemudian tertarik dalam membandingkan varietas bahasa yang berbeda,
diganti dengan sinonim yang lebih sederhana dengan misalnya.
menggunakan beberapa frekuensi atau berdasarkan panjang
heuristics. Keku-rangan dari metode ini yaitu sistem re-call Untuk waktu yang lama, Brown dan LOB corpora hampir
yang rendah dan kesalahan klas-ifikasi kata-kata sederhana hanya mudah tersedia komputer dibaca corpora. Banyak
menjadi lebih kompleks [2]. penelitian dalam bidang linguistik korpus karena itu telah
dibuat dengan menggunakan data ini. Dengan mempelajari
2.3 WordNet data yang sama dari sudut yang berbeda, di berbagai jenis
penelitian, peneliti dapat membandingkan temuan mereka
Wordnet merupakan sistem referensi lexical online yang tanpa harus memperhitungkan variasi pertimbangan
memuat relasi antarkata dalam bahasa Inggris dan didesain kemungkinan disebabkan oleh penggunaan data yang berbeda.
berdasarkan memori lexical manusia. WordNet mempunyai Di Universitas Freiburg, Jerman, peneliti menyusun versi baru
sekitar 95.600 bentuk kata yang berbeda ( 51.500 kata-kata dari LOB dan Brown corpora dengan teks-teks dari 1991. Ini
sederhana dan 44.100 collocations ) disusun dalam beberapa pasti akan menjadi sumber daya berharga untuk studi
70.100 word meaning , atau set sinonim. Perbedaan antara perubahan bahasa dalam perspektif diakronis dekat.
WordNet dengan kamus lain yaitu WordNet membagi lexicon
dalam lima kategori yaitu nouns, verbs, adjectives, ad-verbs, The Brown corpus terdiri dari 500 teks, masing-masing terdiri
dan function words. Beberapa semantic relation pada dari lebih dari 2.000 kata. Teks-teks itu sampel dari 15
WordNet [3]: kategori teks yang berbeda. Jumlah teks dalam setiap kategori
a. Sinonim merupakan relasi dasar WordNet, karena bervariasi [4].
WordNet menggunakan set sinonim (synsets) untuk