FfurfiantColegau a phrifysgolion

Beth yw Corpus Ieithyddiaeth?

Dim ond ychydig ddegawdau yn ôl i awtomeiddio ymchwil ieithyddol, gallai gwyddonwyr yn unig breuddwydio. Cafodd y gwaith ei wneud â llaw, mae'n denu nifer fawr o fyfyrwyr, mae tebygolrwydd sylweddol "ddiofal" camgymeriadau, ac yn bwysicaf oll - yn cymryd hyn i gyd a, amser hir hir.

Gyda datblygiad technoleg gyfrifiadurol wedi dod yn bosibl i gynnal ymchwil ar y drefn maint yn gyflymach, a heddiw yn un o'r cyfeiriadau mwyaf addawol yn yr astudiaeth o iaith yn ieithyddiaeth corpws. Ei brif nodwedd yw y defnydd o symiau mawr o wybodaeth testun, gwybodaeth i mewn i un gronfa ddata, mewn ffordd arbennig a elwir yn y corff wedi'i farcio.

Hyd yma, mae yna nifer o adeiladau a grëwyd gyda gwahanol bwrpasau ar sail deunydd ieithyddol amrywiol yn rhychwantu o filiynau i degau o biliynau o unedau geirfaol. Mae'r cyfarwyddyd yn cael ei gydnabod yn addawol ac yn dangos cynnydd sylweddol tuag at y dibenion cais ac ymchwil. Arbenigwyr, un ffordd neu'r delio arall gyda iaith naturiol, argymhellir i gael gyfarwydd â'r corff o destunau o leiaf ar lefel sylfaenol.

Hanes ieithyddiaeth corpws

Mae ffurfio duedd hon yn ganlyniad i yr Unol Daleithiau greu ar gorff Brown yn gynnar 60-au y ganrif ddiwethaf. Mae'r casgliad yn cynnwys y testunau o bob 1 filiwn o ffurfiau geiriau, a heddiw byddai'r corff o'r maint hwn yn hollol anghystadleuol. Mae hyn yn bennaf oherwydd y cyflymder y datblygiad technoleg gyfrifiadurol, yn ogystal â'r galw cynyddol am adnoddau ymchwil newydd.

Yn y 90au ieithyddiaeth corpws i'r amlwg i mewn disgyblaeth llawn ac annibynnol, casgliad o destunau wedi cael eu llunio a'u farcio ar gyfer dwsinau o ieithoedd. Yn y cyfnod hwn y cafodd ei greu, er enghraifft, mae'r British Corpus Cenedlaethol 100 miliwn o docynnau.

Gyda datblygiad y maes hwn o ieithyddiaeth, cyfrolau testun yn dod yn fwy a mwy (ac yn cyrraedd biliynau o unedau geiriadur), ac mae'r cynllun yn dod yn fwy amrywiol. Hyd yn hyn, gall y gofod Rhyngrwyd i'w cael carcasau ysgrifenedig ac iaith, amlieithog, a llenyddiaeth artistig neu academaidd dysgu-oriented, yn ogystal â llawer o rywogaethau eraill a siaredir.

Beth yw'r tai

Gall mathau corff yn y ieithyddiaeth corff yn cael ei ddarparu ar gyfer nifer o resymau. Reddfol, gall y sail ar gyfer y dosbarthiad fod yn iaith testun (Rwsieg, Almaeneg), y dull mynediad (ffynhonnell agored, ar gau, masnachol), mae'r genre y deunydd ffynhonnell (ffuglen, dogfen, academaidd, newyddiaduraeth).

ffordd ddiddorol yn cynhyrchu deunyddiau o iaith lafar. Ers y recordiad yn fwriadol araith o'r fath i greu amgylchedd artiffisial ar gyfer ymatebwyr, ac ni allai y deunydd sy'n deillio yn cael ei alw "digymell", ieithyddiaeth corpws modern wedi mynd y ffordd arall. Mae gwirfoddolwr wedi'i gyfarparu gyda meicroffon, a chynhyrchu cofnod o bob sgwrs, lle mae'n cymryd rhan yn ystod y dydd. Mae pobl o gwmpas, wrth gwrs, efallai na yn gwybod bod yng nghwrs sgwrs bob dydd yn cyfrannu at ddatblygu gwyddoniaeth.

Derbyniodd cofnod storio yn y gronfa ddata yn ddiweddarach ac yn cyd-fynd yn ôl math printiedig trawsgrifiad testun. Felly, mae'n dod yn angenrheidiol i greu tai lleferydd dyddiol llafar markup posibl.

cais

Lle bynnag y bo'n bosibl y defnydd o iaith, ac efallai y defnydd o destunau adeiladau. Dulliau i gymhwyso'r gragen mewn ieithyddiaeth fod yn:

  • Creu rhaglen penderfynu ar y allweddol, yn cael ei defnyddio'n eang mewn gwleidyddiaeth a busnes i gadw golwg ar ymatebion cadarnhaol a negyddol o bleidleiswyr a chwsmeriaid, yn y drefn honno.
  • system gwybodaeth Cysylltiad i geiriaduron a chyfieithwyr i wella eu perfformiad.
  • Mae amrywiaeth o dasgau ymchwil sy'n cyfrannu at ddealltwriaeth o'r uned iaith, hanes ei datblygiad a rhagweld newidiadau yn y dyfodol agos.
  • Datblygu systemau adalw gwybodaeth yn seiliedig ar y nodweddion morffolegol, cystrawennol, semantig ac eraill.
  • Optimization o'r gwahanol systemau ieithyddol ac eraill.

Defnydd o adeiladau

rhyngwyneb adnoddau tebyg gyda beiriant chwilio nodweddiadol, ac yn annog y defnyddiwr i fynd i mewn gair neu gyfuniad o eiriau i chwilio am y sail wybodaeth. Ar wahân yn ffurfio y gall yr union ymholiad yn defnyddio'r fersiwn gwell, sy'n caniatáu i chwilio am wybodaeth destunol ar bron unrhyw feini prawf ieithyddol.

Efallai y sylfaen chwilio fod yn:

  • aelodaeth o grŵp penodol o rannau ymadrodd;
  • nodweddion gramadegol;
  • semanteg;
  • lliwio arddull ac emosiynol.

Gallwch hefyd gyfuno meini prawf chwilio am ddilyniant o eiriau, er enghraifft, i ddod o hyd pob digwyddiad o'r ferf yn yr amser presennol person, cyntaf unigol, sy'n dod ar ôl y arddodiad "yn" a'r enw yn yr achos accusative. Yr ateb i dasg mor syml yn cymryd y defnyddiwr ychydig eiliadau ac yn gofyn dim ond rhai cliciau llygoden yn y meysydd a nodwyd.

Mae'r broses o greu

Gall y chwiliad ei hun yn cael ei wneud ar yr holl subcorpus ac un a ddewiswyd yn benodol, yn dibynnu ar anghenion o ran cyflawni nod arbennig:

  1. Y cam cyntaf yw i ddiffinio pa destunau ffurfio'r sail ar gyfer yr achos. At ddibenion ymarferol, mae'n cael ei ddefnyddio yn aml, straeon newyddion newyddiadurol, sylwadau ar-lein. Mae'r prosiect ymchwil yn y defnydd o amrywiaeth eang o fathau o pecyn, ond dylai'r testun gael eu dewis yn ôl rhywfaint o dir cyffredin.
  2. Mae'r casgliad sy'n deillio o destunau destun pretreatment, mae cywiro gwallau, os o gwbl, a baratowyd gan disgrifiad llyfryddol ac all-ieithyddol y testun.
  3. Ei ddileu yr holl wybodaeth nad yw'n destun: Clears graffeg, lluniau, tablau.
  4. A yw dyraniad o docynnau, sef yn nodweddiadol lleferydd, ar gyfer prosesu pellach.
  5. Yn olaf, mae'n cynnal lluosogrwydd morffolegol, cystrawennol a marciau eraill a gafwyd o elfennau.

Canlyniad yr holl drafodion a wnaed gan strwythur cystrawennol gyda dosbarthu'n ynddo lluosogrwydd o elfennau, pob un ohonynt yn cael ei nodi yn rhan o lleferydd, gramadegol ac, mewn rhai achosion, y priodoleddau semantig.

Anawsterau wrth greu adeiladau

Mae'n bwysig deall nad yw hynny'n ddigon i lunio set o eiriau neu frawddegau ar gyfer y corff. Ar y naill law, dylai casgliad o destunau fod yn gytbwys, hynny yw, yn cynrychioli gwahanol fathau o destunau mewn rhai cyfrannau. Ar y llaw arall - dylai cynnwys y lloc yn cael gofod mewn ffordd arbennig.

Y broblem gyntaf yw datrys gan gytundeb: er enghraifft, yn y casgliad yn cynnwys 60% o destunau llenyddol, 20% o raglenni dogfen, mae canran benodol yn cael ei roi sylwadau ysgrifenedig o'r iaith lafar, deddfwriaeth, gweithiau gwyddonol, ac ati Nid corff perffaith yn gytbwys rysáit heddiw yn bodoli ...

Yr ail gwestiwn, ynghylch y cynllun cynnwys, datrys heriol. Mae rhaglenni arbennig ac algorithmau a ddefnyddir ar gyfer marcio yn awtomatig o destunau, ond nid ydynt yn rhoi canlyniad perffaith, achosi tarfu ac yn gofyn ailweithio llaw. Cyfleoedd a heriau wrth ddelio â'r broblem hon yn cael eu disgrifio'n fanwl mewn papur V. P. Zaharova o ieithyddiaeth corpws.

markup testun yn cael ei weithredu ar sawl lefel, yr ydym yn rhestru isod.

tagio morffolegol

O'r ysgol, rydym yn cofio bod yn yr iaith Rwsieg, mae gwahanol rannau ymadrodd, ac mae gan bob un ohonynt ei nodweddion ei hun. Er enghraifft, y ferf wedi categorďau o ogwydd a'r amser y dim enw. siaradwr brodorol heb oedi yn gwrthod enwau a berfau cyfun, ond i nodi corff 100 miliwn. tocynnau llafur llaw ni fydd yn gweithio. Gall yr holl weithrediadau angenrheidiol gweithredu y cyfrifiadur, fodd bynnag, ar gyfer hyn mae angen ei haddysgu.

tagio morffolegol, rhaid i'r cyfrifiadur "deall" pob gair fel rhan benodol o araith cael rhai nodweddion gramadegol. Ers y Rwsia (ac unrhyw iaith arall) yn gweithredu nifer o reolau rheolaidd, mae'n bosibl adeiladu gweithdrefn awtomatig ar gyfer y dadansoddiad morffolegol, buddsoddi yn y car ar gyfer nifer o algorithmau. Fodd bynnag, mae yna eithriadau i'r rheol, yn ogystal ag amrywiaeth o ffactorau cymhlethdod. O ganlyniad, mae dadansoddiad cyfrifiadurol net o heddiw yn bell o fod yn ddelfrydol, a hyd yn oed 4% gwall yn cynhyrchu gwerth o 4 mln. Geiriau ar y corff o 100 miliwn. Unedau, sy'n gofyn ailweithio llaw.

Llyfr manwl yn disgrifio'r broblem Zaharova V. P. "Corpus Ieithyddiaeth".

anodi cystrawennol

Dosrannu neu dosrannu - gweithdrefn sy'n penderfynu ar y berthynas o eiriau mewn brawddeg. Gan ddefnyddio set o algorithmau yn bosibl i benderfynu ar y testun pwnc, predicate, ychwanegiadau, yn troi lluosog o lleferydd. Cael gwybod pa eiriau yw'r prif ddilyniant, ac sydd - dibynnol, gallwn dynnu gwybodaeth yn effeithiol o destun ac i ddysgu y peiriant i gyhoeddi mewn ymateb i gais chwilio dim ond y wybodaeth ddiddorol ni.

Gyda llaw, peiriannau chwilio modern yn defnyddio hyn i roi allan niferoedd penodol yn lle testunau hir mewn ymateb i ymholiadau perthnasol fel "faint o galorïau mewn afal" neu "y pellter o Moscow i St Petersburg." Fodd bynnag, er mwyn deall hyd yn oed y pethau sylfaenol y broses a ddisgrifir gan yr angen i ymgynghori â'r "Cyflwyniad i'r Corpus Ieithyddiaeth" neu tiwtorial sylfaenol eraill.

marcio semantig

Mae semanteg y gair - yw, mewn termau syml, yr ystyr. dull yn eang yn berthnasol i'r dadansoddiad semantig o priodoliad geiriau tagiau, yn adlewyrchu ei perthyn i set o gategorïau semantig ac is-gategorïau. Mae gwybodaeth o'r fath yn werthfawr ar gyfer gwneud y gorau o algorithmau dadansoddi tôn testun, summarization awtomatig a dulliau thasgau eraill o ieithyddiaeth corpws.

Mae nifer o "gwraidd" y goeden, yn cynrychioli gair haniaethol gyda semanteg eang iawn. Fel cangen o nodau coed yn cael eu ffurfio, sy'n cynnwys mwy a mwy penodol elfennau geirfaol. Er enghraifft, efallai y bydd y gair "creadur" fod yn gysylltiedig â chysyniadau megis "dynol" a "anifail". Bydd y gair cyntaf yn parhau i gangen y tu allan i wahanol broffesiynau, termau carennydd, cenedligrwydd, a'r ail - ar ddosbarthiadau a mathau o anifeiliaid.

Mae'r defnydd o systemau adalw gwybodaeth

Ardaloedd o ddefnydd o ieithyddiaeth corpws yn cwmpasu meysydd amrywiol o weithgaredd. Cwt yn cael eu defnyddio ar gyfer paratoi a chywiro geiriaduron, creu systemau cyfieithu awtomataidd, anodi, adalw ffeithiau, penderfynu ar y dôn a phrosesu testun arall.

Yn ogystal, mae adnoddau o'r fath yn cael eu defnyddio yn weithredol yn yr astudiaeth o ieithoedd a dulliau o gweithredu o iaith yn gyffredinol byd. Mynediad i symiau mawr o wybodaeth a baratowyd ymlaen llaw yn hwyluso astudiaeth cyflym a chynhwysfawr o'r tueddiadau o ieithoedd datblygu, a newid cyflymder lleferydd neologisms ffurfio sefydlog gwerthoedd unedau geirfaol ac eraill.

Ers i'r gwaith gyda symiau mor fawr o ddata yn gofyn awtomeiddio, heddiw mae rhyngweithio agos rhwng y cyfrifiadur a'r corpws ieithyddiaeth.

Russian Corpus Cenedlaethol

Mae'r achos hwn (cryno NKRYA) yn cynnwys nifer o subcorpus, gan ganiatáu i'r defnydd o adnodd ar gyfer amrywiaeth eang o dasgau.

Mae'r deunyddiau yn y gronfa ddata yn cael eu rhannu NKRYA:

  • at gyhoeddiadau yn y 90au a'r 2000au y cyfryngau ', yn y wlad a thramor;
  • cofnodi lleferydd;
  • aktsentologicheski marcio destunau (hy, y marciau o straen);
  • yn arddangos amrywiaeth tafodieithol;
  • barddoniaeth;
  • Deunyddiau gyda marciau cystrawennol ac eraill.

Mae'r system hefyd yn cynnwys gwybodaeth Subcorpus gyda chyfieithiadau cyfochrog o weithiau o Russian i'r Saesneg, Almaeneg, Ffrangeg a llawer o ieithoedd eraill (ac i'r gwrthwyneb).

Hefyd yn y gronfa ddata yna adran o destunau hanesyddol, yn cynrychioli yr araith a ysgrifennwyd yn Rwsia mewn gwahanol gyfnodau o ei ddatblygiad. Mae yna hefyd gorff hyfforddi, a all fod yn ddefnyddiol i ddinasyddion tramor yn meistroli'r iaith Rwsieg.

Rwsia Corpus Cenedlaethol yn cynnwys 400 miliwn o unedau geirfaol, ac mewn sawl ffordd o flaen rhan sylweddol o ieithoedd cyrff Ewrop.

rhagolygon

Ffaith o blaid y gydnabyddiaeth y duedd hon yw argaeledd addawol ieithyddiaeth corpws labordy mewn prifysgolion Rwsia, yn ogystal â thramor. Gyda'r defnydd o ac ymchwil yn y fframwaith o wybodaeth a chwilio adnoddau yn golygu datblygu ardaloedd penodol ym maes technolegau uchel, systemau cwestiwn ateb, ond mae'n cael ei drafod uchod.

Datblygiad pellach o ieithyddiaeth corpws ragwelir ar bob lefel, yn amrywio o technegol ac o ran gweithredu o algorithmau newydd sy'n gwneud y gorau y prosesau o chwilio a phrosesu gwybodaeth, grymuso cyfrifiaduron, mwy o RAM, ac i ddefnyddwyr, gan fod defnyddwyr yn fwy a mwy o ffyrdd i ddefnyddio'r math hwn o adnodd yn eu dyddiol bywyd a gwaith.

I gloi

Yng nghanol y ganrif ddiwethaf yn 2017 yn ymddangos yn y dyfodol pell, lle mae gofod yn teithio trwy'r bydysawd a robotiaid gwneud yr holl waith ar gyfer y bobl. Yn wir, gwyddoniaeth yn gyforiog o "mannau gwyn" ac yn gwneud ymdrechion anobeithiol i ateb y cwestiynau y ddynoliaeth am ganrifoedd darfu. Cwestiynau weithredol iaith yma yn meddiannu lle o anrhydedd, a gall cabinet a chyfrifiannol ieithyddiaeth yn ein helpu i'w hateb.

Gall prosesu o setiau data mawr canfod patrymau, oedd gynt yn anhygyrch, rhagfynegi datblygiad nodweddion iaith penodol i olrhain ffurfio geiriau mewn amser bron yn real.

Ar lefel ymarferol, gall y llociau byd-eang gael eu gweld, er enghraifft, fel arf posibl i asesu hwyliau cyhoeddus - mae'r Rhyngrwyd yn diweddaru'n gyson amrywiol destunau bob dydd a grëwyd gan ddefnyddwyr go iawn: mae hyn sylwadau ac adolygiadau, ac erthyglau, a llawer o fathau eraill o araith.

Yn ogystal, gan weithio gyda chyrff yn cyfrannu at ddatblygiad yr un caledwedd, sydd yn cymryd rhan mewn adfer gwybodaeth, yr ydym yn gyfarwydd â'r gwasanaeth "Google" neu "Yandex", cyfieithu peiriant, geiriaduron electronig.

Gallwn honni hyderus fod y ieithyddiaeth corpws yn gwneud dim ond y camau cyntaf, ac yn y dyfodol agos yn ffynnu.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 cy.birmiss.com. Theme powered by WordPress.