PembentukanKolej dan universiti

Apa yang Corpus Linguistik?

Hanya beberapa dekad yang lalu untuk mengautomasikan penyelidikan linguistik, saintis hanya boleh impikan. kerja itu dilakukan dengan tangan, ia menarik sebilangan besar pelajar, ada besar kemungkinan "cuai" kesilapan, dan yang paling penting - semua ini mengambil, lama lama.

Dengan perkembangan teknologi komputer telah menjadi mungkin untuk menjalankan penyelidikan mengenai perintah magnitud lebih cepat, dan hari ini salah satu yang paling meyakinkan dalam kajian bahasa ialah linguistik corpus. Ciri-ciri utamanya ialah penggunaan sejumlah besar maklumat teks, maklumat ke dalam pangkalan data tunggal, dengan cara yang khas dan dipanggil badan yang ditandakan.

Setakat ini, terdapat banyak bangunan yang dibuat dengan tujuan yang berbeza berdasarkan pelbagai bahan linguistik yang merangkumi dari berjuta-juta untuk berpuluh-puluh bilion unit leksikal. arah ini diiktiraf sebagai yang cerah dan menunjukkan kemajuan yang ketara ke arah tujuan permohonan dan penyelidikan. Pakar-pakar, satu cara atau urusan lain dengan bahasa semula jadi, ia adalah disyorkan untuk berkenalan dengan badan teks sekurang-kurangnya pada peringkat asas.

Sejarah corpus linguistik

Pembentukan trend ini adalah kerana penciptaan Amerika Syarikat pada badan Brown pada awal 60-ies abad yang lalu. Koleksi ini termasuk teks-teks semua 1 juta bentuk perkataan, dan hari ini badan saiz ini akan sama sekali tidak mampu ditandingi. Ini adalah sebahagian besarnya disebabkan oleh kadar perkembangan teknologi komputer, serta permintaan yang semakin meningkat untuk sumber penyelidikan baru.

Pada 90-an linguistik corpus muncul ke satu disiplin penuh dan bebas, koleksi teks telah disediakan dan ditanda untuk berpuluh-puluh bahasa. Dalam tempoh ini ia dibuat, sebagai contoh, British National Corpus 100 juta token.

Dengan pembangunan kawasan ini linguistik, jumlah teks menjadi lebih dan lebih (dan mencapai berbilion-bilion unit kamus), dan susun atur menjadi lebih pelbagai. Setakat ini, ruang Internet boleh didapati bangkai menulis dan bercakap bahasa, berbilang bahasa dan sastera seni atau akademik pembelajaran berorientasikan, serta banyak spesies lain.

Apakah perumahan

jenis badan dalam linguistik badan yang diperuntukkan di beberapa sebab. Intuitif, asas untuk klasifikasi boleh menjadi bahasa teks (Russian, German), mod akses (sumber terbuka, tertutup, komersial), genre bahan sumber (fiksyen, dokumentari, akademik, kewartawanan).

cara yang menarik menjana bahan-bahan bahasa pertuturan. Sejak rakaman sengaja ucapan tersebut untuk membentuk persekitaran tiruan untuk responden, dan bahan yang terhasil tidak boleh dipanggil "spontan", linguistik korpus moden telah pergi dengan cara yang lain. Seorang sukarelawan dilengkapi dengan mikrofon, dan pada siang hari yang dihasilkan rekod semua perbualan, di mana ia mengambil bahagian. Orang di sekeliling, sudah tentu, mungkin tidak tahu bahawa dalam perjalanan perbualan sehari-hari menyumbang kepada pembangunan sains.

Kemudian menerima rekod yang disimpan dalam pangkalan data dan disertai dengan dicetak jenis teks transkrip. Oleh itu, ia menjadi mungkin markup diperlukan untuk mewujudkan oral harian perumahan bersuara.

permohonan

Mana mungkin penggunaan bahasa, dan mungkin penggunaan bangunan teks. Kaedah untuk memohon badan kapal dalam linguistik mungkin:

  • Mewujudkan program menentukan kunci, digunakan secara meluas dalam politik dan perniagaan untuk mengesan maklum balas positif dan negatif daripada pengundi dan pelanggan masing-masing.
  • Sambungan sistem maklumat kepada kamus dan penterjemah untuk meningkatkan prestasi mereka.
  • Pelbagai tugas-tugas penyelidikan yang menyumbang kepada pemahaman unit bahasa, sejarah perkembangan dan ramalan dalam perubahan dalam masa terdekat.
  • Pembangunan sistem dapatan semula maklumat berdasarkan morfologi, sintaksis, semantik dan lain-lain ciri-ciri.
  • Pengoptimuman sistem bahasa yang berbeza dan lain-lain.

Penggunaan bangunan

antara muka sumber sama dengan enjin carian biasa, dan meminta pengguna untuk memasukkan perkataan atau gabungan perkataan untuk mencari asas maklumat. Selain bentuk pertanyaan yang tepat boleh menggunakan versi yang dipertingkatkan, yang membolehkan untuk mencari maklumat teks pada mana-mana kriteria linguistik.

asas carian mungkin:

  • keahlian kumpulan tertentu bahagian ucapan;
  • ciri tatabahasa;
  • semantik;
  • mewarnai gaya dan emosi.

Anda juga boleh menggabungkan kriteria carian untuk urutan perkataan, sebagai contoh, untuk mencari semua kejadian bagi kata kerja dalam tegang, orang pertama yang hadir tunggal, yang datang selepas kata depan "di" dan kata nama dalam kes akusatif. Penyelesaian kepada apa-apa tugas yang mudah membawa pengguna beberapa saat dan hanya memerlukan beberapa klik tetikus dalam bidang yang dinyatakan.

Proses mewujudkan

Pencarian sendiri boleh dijalankan pada semua subcorpus dan satu pilihan khusus, bergantung kepada keperluan dalam mencapai matlamat tertentu:

  1. Langkah pertama adalah untuk menentukan yang teks membentuk asas bagi kes itu. Untuk tujuan praktikal, ia sering digunakan kewartawanan, berita, komen dalam talian. Projek penyelidikan ialah penggunaan pelbagai jenis pakej, tetapi teks yang perlu dipilih menurut beberapa alasan yang sama.
  2. Pengumpulan menyebabkan teks tertakluk kepada rawatan awal, terdapat pembetulan kesilapan, jika ada, yang disediakan oleh penerangan bibliografi dan luar linguistik teks.
  3. Dihapuskan semua maklumat bukan teks: Membersihkan grafik, gambar, jadual.
  4. Adalah peruntukan token, yang biasanya bersuara, untuk proses seterusnya.
  5. Akhirnya, ia dijalankan morfologi, sintaksis dan tanda-tanda lain yang diperoleh kepelbagaian unsur-unsur.

Hasil daripada semua transaksi yang dibuat oleh struktur sintaktik dengan diedarkan di dalamnya kepelbagaian unsur-unsur, setiap yang dikenal pasti sebahagian daripada ucapan, tatabahasa dan, dalam beberapa kes, sifat-sifat semantik.

Kesukaran dalam mewujudkan bangunan

Ia adalah penting untuk memahami bahawa tidak cukup untuk meletakkan bersama-sama satu set perkataan atau ayat untuk badan. Dalam satu tangan, koleksi teks perlu seimbang, iaitu, mewakili pelbagai jenis teks dalam bahagian tertentu. Pada yang lain - kandungan kandang hendaklah dijarakkan dengan cara yang istimewa.

Masalah pertama diselesaikan oleh perjanjian: contohnya, dalam koleksi merangkumi 60% daripada teks sastera, 20% daripada dokumentari, peratusan tertentu diberikan representasi bertulis daripada bahasa yang dituturkan, undang-undang, kerja-kerja saintifik, dan lain-lain sesuai resipi badan seimbang hari ini tidak wujud ...

Soalan kedua, mengenai susun atur kandungan, menyelesaikan mencabar. Terdapat program-program khas dan algoritma yang digunakan untuk automatik menandakan teks, tetapi mereka tidak memberikan hasil yang sempurna, boleh menyebabkan gangguan dan memerlukan kerja semula manual. Peluang dan cabaran dalam menangani masalah ini diterangkan secara terperinci dalam kertas V. P. Zaharova linguistik corpus.

Teks markup dilaksanakan di beberapa peringkat, yang kita daftarkan di bawah.

tagging morfologi

Dari sekolah, kita ingat bahawa dalam bahasa Rusia, terdapat bahagian-bahagian yang berbeza bersuara, dan setiap daripada mereka mempunyai ciri-ciri sendiri. Sebagai contoh, kata kerja telah kategori kecenderungan dan masa di mana tiada kata. penutur asli tanpa teragak-agak menolak kata nama dan kata kerja konjugat, tetapi untuk menandakan badan sebanyak 100 juta. token kerja kasar tidak akan berfungsi. Semua operasi yang perlu boleh melaksanakan komputer, bagaimanapun, untuk ini, ia perlu diajar.

tagging morfologi, komputer mesti "memahami" setiap perkataan sebagai bahagian tertentu ucapan mempunyai ciri-ciri tatabahasa tertentu. Sejak Rusia (dan bahasa-bahasa lain) mengendalikan beberapa peraturan biasa, ia adalah mungkin untuk membina prosedur automatik untuk analisis morfologi, melabur di dalam kereta untuk beberapa algoritma. Walau bagaimanapun, terdapat pengecualian kepada peraturan, dan juga pelbagai komplikasi. Hasilnya, analisis komputer bersih hari ini adalah jauh dari ideal, dan juga 4 ralat% menghasilkan nilai 4 Juta. Perkataan pada badan 100 juta. Units, yang memerlukan kerja semula manual.

buku terperinci menerangkan masalah itu Zaharova V. P. "Corpus Linguistik".

anotasi sintaktik

Menghuraikan atau menghuraikan - prosedur yang menentukan hubungan perkataan dalam ayat. Menggunakan satu set algoritma adalah mungkin untuk menentukan teks subjek, predikat, tambahan, pelbagai gilir bersuara. Mengetahui perkataan adalah urutan utama, dan yang - bergantung kepada, kita berkesan boleh mendapatkan maklumat daripada teks dan mengajar mesin untuk mengeluarkan sebagai tindak balas kepada permintaan carian hanya maklumat yang menarik kami.

Dengan cara ini, enjin carian moden menggunakan ini untuk memberi nombor tertentu dan bukannya teks panjang sebagai tindak balas kepada pertanyaan yang berkaitan seperti "berapa banyak kalori dalam epal" atau "jarak dari Moscow ke St Petersburg." Walau bagaimanapun, untuk memahami walaupun asas-asas proses yang dihuraikan oleh keperluan untuk berunding dengan "Pengenalan kepada Corpus Linguistik" atau tutorial asas yang lain.

markup semantik

Semantik dengan perkataan - adalah, dalam bahasa yang mudah, makna. pendekatan meluas digunakan untuk analisis semantik yang tag perkataan atribusi, mencerminkan milik kepada satu set kategori semantik dan subkategori. maklumat tersebut adalah berharga untuk mengoptimumkan algoritma menganalisis nada teks, rumusan automatik dan tugas-tugas lain kaedah linguistik corpus.

Terdapat beberapa "root" pokok itu, yang mewakili perkataan yang abstrak dengan semantik sangat luas. Sebagai satu cabang nod pokok terbentuk, yang mengandungi lebih dan lebih khusus elemen leksikal. Sebagai contoh, perkataan "makhluk" boleh dikaitkan dengan konsep seperti "manusia" dan "haiwan". Perkataan pertama akan terus diperluas ke dalam profesion yang berbeza, dari segi kekeluargaan, kewarganegaraan, dan yang kedua - di kelas dan jenis haiwan.

Penggunaan sistem dapatan semula maklumat

Bidang penggunaan linguistik corpus meliputi pelbagai bidang aktiviti. Mencorakkan digunakan untuk penyediaan dan pembetulan kamus, mewujudkan sistem terjemahan automatik, menganotasi, mendapatkan semula fakta, menentukan nada dan pemprosesan teks lain.

Di samping itu, sumber itu secara aktif digunakan dalam kajian bahasa dan mekanisme berfungsi bahasa secara umum dunia. Akses kepada jumlah yang besar maklumat pra-disediakan memudahkan kajian pesat dan menyeluruh trend bahasa pembangunan, dan perubahan neologisms pembentukan stabil kelajuan pertuturan nilai unit leksikal dan lain-lain.

Sejak kerja dengan apa-apa amaun data yang besar memerlukan automasi, hari ini terdapat interaksi rapat antara komputer dan korpus linguistik.

Russian National Corpus

Kes ini (singkatan NKRYA) termasuk beberapa subcorpus, membolehkan penggunaan sumber untuk pelbagai tugas.

Bahan-bahan di dalam pangkalan data dibahagikan NKRYA:

  • untuk penerbitan dalam 90-an dan 2000-an media ', dalam dan luar negeri;
  • rakaman ucapan;
  • aktsentologicheski ditanda teks (iaitu, tanda-tanda tekanan);
  • ucapan dialek;
  • puisi;
  • Bahan dengan tanda sintaktik dan lain-lain.

Sistem maklumat juga termasuk Subcorpus dengan terjemahan selari kerja-kerja dari Rusia ke bahasa Inggeris, bahasa Perancis dan bahasa-bahasa lain (dan sebaliknya).

Juga di dalam pangkalan data terdapat satu bahagian teks sejarah, yang mewakili ucapan bertulis di Rusia dalam tempoh yang berbeza perkembangannya. Terdapat juga sebuah badan latihan, yang boleh berguna untuk warga asing dalam menguasai bahasa Rusia.

Russian National Corpus terdiri daripada 400 juta unit leksikal, dan dalam banyak cara lebih awal daripada sebahagian besar daripada bahasa badan Eropah.

prospek

Fakta memihak kepada pengiktirafan trend ini adalah adanya menjanjikan makmal linguistik corpus di universiti Rusia, dan juga asing. Dengan penggunaan dan penyelidikan dalam rangka maklumat dan carian ini sumber melibatkan pembangunan kawasan-kawasan tertentu dalam bidang teknologi tinggi, sistem soal menjawab, tetapi ia dibincangkan di atas.

pembangunan selanjutnya corpus linguistik diramalkan di semua peringkat, dari teknikal dan dari segi pelaksanaan algoritma baru yang mengoptimumkan proses mencari dan memproses maklumat, memberi kuasa kepada komputer, RAM lebih, dan kepada pengguna, kerana pengguna lebih dan lebih banyak cara untuk menggunakan jenis sumber dalam harian mereka kehidupan dan bekerja.

Kesimpulannya

Di pertengahan abad yang lalu pada tahun 2017 seolah-olah masa depan yang jauh, di mana kapal angkasa mengembara di alam semesta dan robot melakukan semua kerja untuk rakyat. Malah, sains adalah penuh dengan "kawasan putih" dan membuat percubaan terdesak untuk menjawab soalan-soalan manusia selama berabad-abad mengganggu. Soalan berfungsi bahasa sini menduduki tempat kehormatan, dan kabinet dan pengkomputeran linguistik boleh membantu kita untuk menjawab mereka.

Pemprosesan set data yang besar dapat mengesan corak, sebelum ini tidak boleh diakses, meramalkan pembangunan ciri-ciri bahasa tertentu untuk mengesan pembentukan perkataan dalam masa hampir nyata.

Pada tahap yang praktikal, kandang global yang dapat dilihat, sebagai contoh, sebagai alat yang berpotensi untuk menilai mood orang ramai - Internet adalah sentiasa dikemaskini setiap hari asas pelbagai teks yang dicipta oleh pengguna sebenar: Komen dan ulasan, dan barang-barang, dan banyak lain-lain bentuk pertuturan.

Di samping itu, bekerja dengan badan-badan menyumbang kepada pembangunan perkakasan yang sama, yang terlibat dalam mencari maklumat, kita sudah biasa dengan perkhidmatan "Google" atau "Yandex", terjemahan mesin, kamus elektronik.

Kami yakin boleh menegaskan bahawa linguistik korpus menjadikan hanya langkah pertama, dan dalam masa terdekat akan berkembang.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 ms.birmiss.com. Theme powered by WordPress.