September 2013 ~ Imu Pengetahuan

TUTORIAL INTERNET

Berskala besar , internasional open source panen dari Internet menimbulkan banyak tantangan dalam penggunaan dan terjemahan pengkodean warisan yang telah jengkel akademisi dan peneliti selama bertahun-tahun . Berhasil mengatasi tantangan ini hanya akan semakin penting sebagai persentase relatif situs Web tumbuh dalam kaitannya dengan bahasa Inggris yang konvensional.

Tantangan utama dalam internasionalisasi dan dukungan sumber asing " encoding . " Encodings menentukan tugas sewenang-wenang nomor ke simbol ( karakter atau ideogram ) bahasa tertulis di dunia yang dibutuhkan untuk transfer elektronik dan manipulasi . Salah satu pengkodean pertama kali dikembangkan pada tahun 1960 adalah ASCII ( angka , ditambah az , AZ ) , yang lain dikembangkan dari waktu ke waktu untuk berurusan dengan karakter unik lainnya dan banyak simbol dari(terutama) Bahasa Rusia.

Beberapa bahasa memiliki banyak pengkodean karakter dan beberapa pengkodean , misalnya Cina dan Jepang , memiliki sistem yang sangat kompleks untuk menangani sejumlah besar karakter yang unik . Dua pengkodean yang berbeda dapat kompatibel dengan menetapkan jumlah yang sama untuk dua simbol yang berbeda , atau sebaliknya . Jadi yang disebut Unicode berangkat untuk mengkonsolidasikan pengkodean yang berbeda , semua menggunakan rencana kode yang terpisah ke dalam sistem tunggal yang bisa mewakili semua bahasa yang ditulis dalam pengkodean karakter yang sama . Ada beberapa teknik Unicode sedikit dan format , yang paling umum adalah UTF -8.

Internet awalnya dikembangkan melalui upaya di Amerika Serikat yang didanai oleh ARPA (kemudian DARPA ) dan NSF , yang dimulai sejak tahun 1960-an . Pada saat adopsi komersial pada awal 1990-an melalui Firman protokol Wide Web , itu hampir seluruhnya didominasi oleh bahasa Inggris berdasarkan ini warisan AS dan munculnya bahasa Inggris sebagai lingua franca masyarakat teknis dan penelitian .

Namun, dengan pematangan Internet sebagai repositori informasi global dan sarana untuk sesaat e -commerce , komunitas online saat ini sekarang mendekati 1 miliar pengguna dari semua negara yang ada . Internet telah menjadi semakin multi-bahasa .

Efisien dan otomatis sarana untuk menemukan , search, query , mengambil dan memanen konten dari Internet sehingga membutuhkan pemahaman tentang bahasa manusia sumber dalam penggunaan dan sarana untuk mengkodekan mereka untuk transfer elektronik dan manipulasi . Tutorial ini memberikan pengenalan singkat dengan topik ini .

Internet Gunakan Bahasa

Yoshiki Mikami, yang menjalankan Observatory Bahasa PBB, memiliki cara yang menarik untuk merangkum bahasa dunia. Angka terkininya, ditambah beberapa statistik BrightPlanet lainnya

Ada hampir 7.000 bahasa hidup diucapkan hari ini, meskipun sebagian besar memiliki beberapa speaker dan banyak yang menjadi punah. Sekitar 347 (atau sekitar 5%) dari bahasa di dunia memiliki setidaknya satu juta pembicara dan account untuk 94% dari populasi dunia. Dari jumlah ini, 83 bahasa account untuk 80% dari populasi dunia, dengan hanya 8 bahasa dengan lebih dari 100 juta penutur terhitung sekitar 40% dari total populasi. Sebaliknya, sisanya 95% dari bahasa digunakan oleh hanya 6% dari penduduk dunia. [2]

Prevalensi ini ditunjukkan oleh fakta bahwa Deklarasi Universal PBB tentang Hak Asasi Manusia (DUHAM) hanya telah diterjemahkan ke dalam bahasa-bahasa pada umumnya dengan 1 juta atau lebih speaker.

Item yang tersisa pada tabel di atas bahasa enumerasi yang dapat diwakili secara elektronik, atau "dikodekan." Tentu saja, bahasa asli tidak selalu sama dengan penggunaan internet, dengan mendominasi bahasa Inggris karena multilingualisme, ditambah fakta bahwa negara-negara kaya atau pengguna dalam negara menunjukkan akses internet yang lebih besar dan penggunaan.Angka-angka yang komprehensif terbaru untuk menggunakan bahasa internet dan prevalensi dari situs Web Global Reach untuk akhir 2004, dengan hanya angka persentase yang ditunjukkan untuk kemudahan membaca bagi negara-negara dengan lebih besar dari nilai 1,0%.

Penutur bahasa Inggris memiliki hampir peningkatan lima kali lipat dalam penggunaan internet dibandingkan populasi belaka akan menyarankan, dan tentang peningkatan delapan kali lipat dalam persen halaman web Inggris. Namun, berbagai upaya sensus dari waktu ke waktu telah menunjukkan penurunan mantap dalam prevalensi Inggris (data tidak ditampilkan.)

Hampir semua bahasa Eropa menunjukkan prevalensi internet lebih tinggi dari penduduk yang sebenarnya akan menyarankan, bahasa Asia menunjukkan sebaliknya. (Bahasa Afrika bahkan kurang terwakili dibandingkan populasi akan menyarankan,. Data tidak ditampilkan).

Penetrasi internet tampaknya menjadi sekitar 20% dari populasi global dan berkembang pesat. Hal ini tidak mungkin bahwa persentase pengguna Web dan halaman Web yang ditulis dalam akan terus berkumpul untuk persentase penduduk yang nyata. Dengan demikian, dari waktu ke waktu dan mungkin dalam masa mendatang, pengguna dan halaman harus lebih dekat perkiraan angka persentase yang ditunjukkan di kolom paling kanan pada tabel di atas.

Script Keluarga

            Hal lain awal yang berguna untuk memahami bahasa dan hubungannya dengan internet adalah publikasi UN 2005 dari KTT Dunia tentang Masyarakat Informasi. Laporan hlm 113 dapat ditemukan di http://www.uis.unesco.org/template/pdf/cscl/MeasuringLinguisticDiversity_En.pdf. [5]

            Bahasa memiliki kedua bentuk representasional dan makna. Bentuk representasi ditangkap oleh script, font atau ideogram. Makna yang ditangkap oleh semantik. Dalam media elektronik, itu adalah bentuk representasi yang harus ditransmisikan secara akurat. Tanpa pengiriman akurat bentuk, adalah mustahil untuk memanipulasi bahasa itu atau memahami maknanya.Representasi bentuk sesuai dalam apa yang mungkin disebut keluarga skrip. Script keluarga tidak ketat huruf atau karakter bahkan tepat atau cocok simbol. Mereka mewakili pendekatan ditulis serupa dan beberapa karakteristik bersama.Misalnya, Inggris dan Jerman dan sepupu Romantis nya bahasa berbagi abjad sangat mirip, tetapi tidak identik,. Demikian pula, yang disebut CJK (Cina, Jepang, Korea) berbagi pendekatan yang sama untuk menggunakan ideogram tanpa spasi antara bukti atau tanda baca.

            Perhatikan bahwa bahasa Inggris dan bahasa-bahasa Romawi jatuh dalam keluarga aksara Latin, yang CJK dalam Hanzi. Kategori "lain" adalah menangkap-semua, termasuk Yunani, Ibrani, banyak bahasa Afrika, dan lain-lain yang besar. Namun, selain Yunani dan Ibrani, bahasa yang paling spesifik dari kepentingan global termasuk dalam keluarga bernama lain. Juga mencatat bahwa karena perbedaan sumber, bahwa jumlah total pengguna tidak tabel sebelumnya sama.

Set Karakter dan Encodings

            Dalam rangka mengambil keuntungan dari kemampuan komputer untuk memanipulasi teks ( misalnya , menampilkan , mengedit , menyortir, mencari dan efisien mengirimkannya) , komunikasi dalam bahasa tertentu perlu diwakili dalam beberapa jenis encoding . Encodings menentukan tugas sewenang-wenang nomor ke simbol bahasa tertulis di dunia. Dua pengkodean yang berbeda dapat kompatibel dengan menetapkan jumlah yang sama untuk dua simbol yang berbeda , atau sebaliknya . Dengan demikian , banyak dari apa yang menawarkan internet sehubungan dengan keanekaragaman bahasa datang ke pengkodean yang tersedia untuk teks .

            Yang paling banyak digunakan adalah pengkodean American Standard Kode untuk Informasi Interchange ( ASCII ) , kode yang dibuat selama tahun 1950 dan 1960-an di bawah naungan dari American National Standards Institute ( ANSI ) untuk standarisasi teknologi teletype . Pengkodean ini terdiri dari 128 karakter tugas ( 7 - bit ) dan cocok terutama untuk Amerika Utara Inggris . [ 6 ]

            Secara historis , bahasa lain yang tidak cocok dalam ASCII 7 - bit character set ( az , AZ ) cukup banyak menciptakan set karakter mereka sendiri , kadang-kadang dengan standar lokal dan penerimaan kadang-kadang tidak . Beberapa bahasa memiliki banyak pengkodean karakter dan beberapa pengkodean , terutama Cina dan Jepang , memiliki sistem yang sangat kompleks untuk menangani sejumlah besar karakter yang unik . Kelompok lain sulit adalah bahasa Hindi dan keluarga bahasa Indic , dengan speaker yang angka ke dalam ratusan juta . Menurut salah satu University of Southern California peneliti , hampir setiap situs web Hindi bahasa memiliki pengkodean sendiri . [ 7 ]

            Internet Assigned Names dan Authority ( IANA ) organisasi memelihara daftar induk sekitar 245 standar charset ( " set karakter " ) encoding dan 550 alias terkait untuk sama digunakan dalam satu cara atau lain di Internet [ 8 ] [ 9 ] Beberapa . dari pengkodean elektronik diciptakan oleh vendor besar dengan saham di transfer elektronik seperti IBM , Microsoft , Apple dan sejenisnya . Standar lain hasil dari standar yang diakui organisasi seperti ANSI , ISO , Unicode dan sejenisnya . Banyak dari standar tanggal kembali sejauh 1960 , banyak orang lain yang khusus untuk negara-negara tertentu .

            Perkiraan sebelumnya menunjukkan pada kisaran 40 sampai 250 bahasa per bernama jenis pengkodean . Meskipun tidak ada perkiraan yang dikenal ada, jika kita menganggap 100 bahasa untuk masing-masing pengkodean IANA yang terdaftar , mungkin ada di urutan 25.000 atau kombinasi bahasa - encoding begitu spesifik mungkin di Internet didasarkan pada " standar . " Ada mungkin ribuan pengkodean bahasa tertentu juga masih ada.

            Apapun angka , jelas sangat penting untuk mengidentifikasi secara akurat pengkodean tertentu dan bahasa yang terkait untuk setiap halaman web tertentu atau database situs . Tanpa akurasi ini , adalah mustahil untuk elektronik query dan memahami isi .

            Seperti bisa diduga , topik ini juga sangat luas . Untuk titik awal yang sangat komprehensif pada semua topik yang berkaitan dengan pengkodean dan rangkaian karakter , silakan lihat I18N ( yang merupakan singkatan dari " internasionalisasi " ) situs web Guy di http://www.i18nguy.com/unicode/codepages.html .

Unicode

            Pada akhir 1980-an , ada dua upaya independen untuk menciptakan satu set karakter tunggal terpadu . Salah satunya adalah proyek ISO 10646 dari International Organization for Standardization ( ISO ) , yang lain adalah Proyek Unicode diselenggarakan oleh konsorsium ( awalnya sebagian besar AS) produsen perangkat lunak multi -bahasa . Untungnya , para peserta dari kedua proyek menyadari pada tahun 1991 bahwa dua karakter yang berbeda set bersatu tidak masuk akal dan mereka bergabung dengan upaya untuk membuat tabel kode tunggal , sekarang disebut sebagai Unicode . Sementara kedua proyek masih ada dan mempublikasikan standar masing-masing secara mandiri , Konsorsium Unicode dan ISO / IEC JTC1/SC2 telah sepakat untuk menjaga tabel kode Unicode dan ISO 10646 standar kompatibel dan dikoordinasikan .

            Unicode menetapkan untuk mengkonsolidasikan pengkodean yang berbeda , semua menggunakan rencana kode yang terpisah ke dalam sistem tunggal yang dapat mewakili semua bahasa tertulis dalam pengkodean karakter yang sama . Unicode adalah pertama set tabel kode untuk menetapkan nomor integer untuk karakter , juga disebut titik kode . Unicode kemudian memiliki beberapa metode untuk bagaimana urutan karakter tersebut atau nilai integer masing-masing dapat direpresentasikan sebagai urutan byte , umumnya diawali dengan " UTF . "

            Dalam UTF - 8 , metode yang paling umum , setiap titik kode 0-127 disimpan dalam satu byte . Hanya kode poin 128 dan di atas disimpan menggunakan 2 , 3 atau sampai dengan 6 byte . Metode ini memiliki keuntungan bahwa teks bahasa Inggris tampak persis sama dalam UTF - 8 seperti yang terjadi pada ASCII , sehingga ASCII adalah sesuai sub - set . Karakter yang lebih tidak biasa seperti huruf beraksen , huruf Yunani atau CJK ideogram mungkin perlu beberapa byte untuk menyimpan titik kode tunggal.

            Metode tradisional toko -it -in - dua - byte untuk Unicode disebut UCS - 2 ( karena memiliki dua byte ) atau UTF - 16 ( karena memiliki 16 bit ) . Ada sesuatu yang disebut UTF - 7 , yang banyak seperti UTF - 8 tetapi jaminan bahwa agak tinggi akan selalu menjadi nol . Ada UTF - 4 , yang menyimpan setiap titik kode dalam 4 byte , yang memiliki properti yang bagus bahwa setiap titik kode tunggal dapat disimpan dalam jumlah yang sama byte. Ada juga UTF - 32 yang menyimpan kode titik di 32 bit tetapi membutuhkan kapasitas penyimpanan yang lebih . Apapun, UTF - 7 , -8 , -16 , -32 dan semua memiliki sifat mampu menyimpan titik kode dengan benar .

            BrightPlanet , bersama dengan banyak orang lain , telah mengadopsi UTF - 8 sebagai metode standar Unicode untuk memproses semua data string . Ada alat yang tersedia untuk mengkonversi hampir semua pengkodean karakter yang ada ke dalam UTF - 8 encoded string yang . Jawa memasok alat ini seperti halnya Dasar Technolgy , salah satu mitra BrightPlanet dalam pengolahan bahasa.

Sementara negara-negara lebih banyak mengadopsi Unicode dan sampel hasil mengindikasikan meningkatnya penggunaan persentase, itu tidak berarti lazim. Secara umum, Eropa telah lambat untuk merangkul Unicode dengan banyak pengkodean warisan masih digunakan, mungkin situs Arab telah mencapai tingkat 50%, dan penggunaan Asia yang bermasalah. [11] sampel lain menunjukkan bahwa pengkodean UTF-8 dibatasi sampai 8,35% dari semua halaman Web Asia. Beberapa negara, seperti Nepal, Vietnam dan Tajikistan melebihi kepatuhan 70%, sementara yang lain seperti Suriah, Laos dan Brunei berada di bawah bahkan 1%. [12] Menurut Pass proyek Archive, yang juga digunakan Dasar Tech RLI untuk deteksi encoding, Cina situs yang didominasi oleh GB-2312 dan Big 5 pengkodean, sedangkan shift-JIS yang paling umum untuk Jepang.

Mendeteksi dan Berkomunikasi dengan Encodings Legacy

Ada dua masalah utama ketika berhadapan dengan pengkodean non-Unicode, mengidentifikasi apa pengkodean adalah encoding dan mengkonversi itu untuk string Unicode, biasanya UTF-8. Mendeteksi pengkodean adalah proses yang sulit, BasisTech yang RLI melakukan pekerjaan yang sangat baik. Konversi string non-Unicode ke string Unicode dapat dengan mudah dilakukan dengan menggunakan alat yang tersedia dalam JDK Jawa, atau menggunakan RCLU perpustakaan BasisTech itu.

            Java SDK encoding / decoding mendukung 22 Eropa dasar, dan 125 bentuk internasional lainnya (sebagian besar non-Eropa), untuk 147 Total. Jika bentuk ecoded tidak ada dalam daftar ini, dan belum Unicode, perangkat lunak tidak bisa bicara ke situs tersebut tanpa konverter khusus atau adaptor. Lihat http://java.sun.com/j2se/1.5.0/docs/guide/intl/encoding.doc.html

            Tentu saja, untuk menghindari klasik "sampah masuk, sampah keluar" (GIGO) masalah, deteksi akurat harus dibuat dari sumber yang jenis pengkodean, harus ada converter untuk tipe yang menjadi kanonik, bentuk internal (seperti UTF-8 ), dan konverter lain harus ada untuk mengubah bahwa bentuk kanonik kembali ke pengkodean asli sumber itu. Kombinasi yang ada Dasar Tek RLI dan Java SDK menghasilkan kombinasi yang valid bahasa / encoding 89 pasang (dengan kombinasi valid ditunjukkan pada Bold Red di atas.)

            Untungnya, kombinasi yang valid ada muncul untuk mencakup seluruh bahasa yang lazim dan jenis encoding. Harus ada kesenjangan, detektor khusus dan konverter mungkin diperlukan. Seperti peristiwa bergerak maju, keluarga bahasa India mungkin yang paling bermasalah untuk ekspansi dengan alat standar.

Pengolahan Bahasa sebenarnya

Pengkodean deteksi, dan penyimpanan yang tepat yang dihasilkan dan identifikasi bahasa, hanyalah langkah penting pertama dalam pemrosesan bahasa yang sebenarnya. Alat tambahan dalam analisis morfologi atau mesin terjemahan mungkin perlu diterapkan untuk memenuhi kebutuhan analis yang sebenarnya. Alat ini berada di luar lingkup Tutorial ini.

Titik kunci, bagaimanapun, adalah bahwa semua proses bahasa asing dan analisis dimulai dengan akurat deteksi encoding dan berkomunikasi dengan host situs dalam pengkodean aslinya. Langkah-langkah ini adalah sine qua non dari pengolahan.

Metodologi contoh untuk Internet Dukungan Bahasa Asing

            Kami sekarang dapat mengambil informasi dalam Tutorial ini dan menyajikan apa yang mungkin disebut metodologi contoh untuk deteksi awal bahasa dan pengolahan. Skema metodologi ini diberikan dalam diagram berikut:

            Diagram ini menunjukkan bahwa pengkodean sebenarnya untuk dokumen Web asli atau form pencarian harus dideteksi, diubah menjadi standar "kanonik" bentuk untuk penyimpanan internal, tetapi berbicara dalam bentuk pengkodean asli sebenarnya ketika mencari itu. Encoding software deteksi dan utilitas dalam Java SDK dapat membantu proses ini sangat.

            Dan, sebagai proliferasi bahasa dan bentuk warisan tumbuh, kita bisa mengharapkan utilitas seperti untuk merangkul pelebaran terus set encoding

Imu Pengetahuan

This is default featured slide 1 title

This is default featured slide 2 title

This is default featured slide 3 title

This is default featured slide 4 title

This is default featured slide 5 title

Thursday, September 12, 2013

Sunday, September 1, 2013

Tutorial internet

Blog Archive