ҮүсэхКоллеж, их сургуулиуд

Корпус хэл шинжлэл гэж юу вэ?

Хэдхэн жилийн өмнө хэл шинжлэлийн судалгаа автоматжуулах, эрдэмтэд зөвхөн мөрөөдөж болох юм. ажил хамгийн гол нь, гараар хийсэн энэ нь оюутнуудын тооны татаж ихээхэн магадлалтай "хайхрамжгүй" алдаа байгаа юм, - энэ бүгд нь урт, удаан хугацааг зарцуулсан.

компьютерийн технологийн хөгжлийн хурдтай хэмжээний тулд судалгаа хийх боломжтой болсон нь байна, өнөөдөр хэл судалгаанд хамгийн их ирээдүйтэй чиглэлийн нэг нь корпус хэл шинжлэл юм. Үүний гол онцлог нь онцгой байдлаар нэг санд текст мэдээлэл, мэдээллийн их хэмжээний ашиглах, бөгөөд эрс бие гэж нэрлэдэг.

Одоогийн байдлаар дүрмийн нэгжийн хэдэн арван тэрбум саяын хамарсан янз бүрийн хэл материалын үндсэн дээр янз бүрийн зорилгоор бий болгосон олон барилгууд байдаг. Энэ чиглэл нь ирээдүйтэй гэж хүлээн зөвшөөрөх, програм, судалгааны зорилгоор чиглэсэн томоохон ахиц дэвшил харуулж байна. Мэргэжилтнүүд, нэг арга буюу байгалийн хэл өөр наймаа, энэ нь наад зах нь анхан шатны түвшинд эх бичвэрийг бие нь танилцах нь зүйтэй.

корпус хэл шинжлэлийн түүх

Энэ чиг хандлага үүсэх өнгөрсөн зууны эхээр 60-аад онд Браун биед үед АНУ-ын бий болж байна. цуглуулах үг хэлбэр бүгд 1 сая текстийг агуулдаг бөгөөд өнөөдөр энэ хэмжээ нь биеийн нийт өрсөлдөх чадваргүй болно. Энэ нь компьютерийн технологийн хөгжлийн хурдац, түүнчлэн шинэ судалгаа нөөц өсөн нэмэгдэж буй эрэлт хэрэгцээнд ихээхэн холбоотой юм.

корпус хэл шинжлэл бүрэн, бие даасан сахилга руу гарч 90-ээд онд эх бичвэрийг цуглуулга дээр зурсан болон хэлний хэдэн арван тэмдэглэгдсэн байна. Энэ хугацаанд энэ нь, бий болсон Жишээ нь, Их Британийн үндэсний корпус 100 сая жетон.

хэл шинжлэлийн энэ салбарт хөгжүүлэх нь текст хэмжээ илүү их, илүү болж байна (мөн толь бичиг нэгжийн тэрбум хүрэх) болон зохион байгуулалт улам олон болж байна. Одоогийн байдлаар, Интернэт зай бичсэн гулууз мах олсон болон ярианы хэл, олон хэлний болон сургалтын чиглэсэн урлаг, эрдэм шинжилгээний ном зохиол, түүнчлэн бусад олон зүйл болно.

орон сууц гэж юу вэ

Биеийн хэл шинжлэл дэх Биеийн төрлийн хэд хэдэн шалтгааны улмаас үзүүлж болно. Хар ухаанаар ангиллын үндэс текст хэл (Орос, Герман), хандалтын горим (нээлттэй эх үүсвэр, хаалттай арилжааны), эх сурвалж материал (уран зохиол, баримтат кино, эрдэм шинжилгээний, сэтгүүл зүйн) -ийн Төрөл зүйл байж болох юм.

Сонирхолтой арга ярианы хэлний материалыг үүсгэдэг. Ийм үг хэлэх санаатай бичлэг оролцогчдын хувьд хиймэл орчинг бүрдүүлэх оноос хойш, мөн үр дүнд материал "гэж аяндаа" гэж нэрлэдэг байж чадахгүй, орчин үеийн корпус хэл шинжлэл нь бусад арга алга байна. A сайн дурын микрофон тоноглогдсон, бүх яриа, түүнийг оролцож тухай тэмдэглэл үйлдвэрлэсэн өдрийн турш байна. Хүмүүс орчим Мэдээж, өдөр тутмын ярианы явцад шинжлэх ухааны хөгжилд хувь нэмэр оруулдаг гэдгийг мэдэхгүй байж болно.

Дараа нь мэдээллийн санд хадгалагдсан дээд амжилтыг хүлээн авч хэвлэх текст хуулга төрөл дагалдаж байна. Тиймээс энэ нь аман өдөр тутмын ярианы орон сууц бий болгох хэрэгтэй боломжтой тэмдэглэгээний болдог.

програм

хэлний хэрэглээ, магадгүй барилга судар ашиглах Боломжтой. Арга зүй Хэл шинжлэл дэх их бие хэрэглэх байж болох юм:

  • түлхүүрийг тодорхойлох хөтөлбөрийг бий болгох, өргөн тус тус сонгогчдын болон хэрэглэгчдийн эерэг болон сөрөг хариу явхад улс төр, бизнест ашиглаж байна.
  • Тэдний үйл ажиллагааг сайжруулах, толь бичиг, хэлний орчуулагчид холбох мэдээллийн систем юм.
  • хэлний нэгж, ойрын үед өөрчлөлт, түүний хөгжил, урьдчилан түүхийн ойлгоход хувь нэмэр оруулах судалгаа шинжилгээний ажлууд нь олон янзын.
  • , Морфологи syntactic, семантик болон бусад шинж чанар дээр суурилсан мэдээллийн буцаах системийн хөгжил.
  • өөр өөр хэл систем болон бусад оновчтой болгох.

Барилгын ашиглах

Ердийн хайлтын систем нь ижил нөөцийн интерфэйс, мэдээллийн бааз хайх үгсийн нэг үг эсвэл хослолыг орж хэрэглэгчийг хүлээх. Үүнээс гадна яг хайлтын сайжруулсан хувилбар, бараг ямар ч хэлний шалгуур дээр текстэн мэдээлэл олж авах боломжийг олгодог ашиглаж болно үүсгэдэг.

хайлт суурь байж болно:

  • үг хэлэх хэсэгт нь тодорхой бүлгийн гишүүнчлэлтэй байх;
  • дүрмийн онцлог;
  • семантик;
  • найруулгын болон сэтгэл санааны будах.

Та бас хайлтын шалгуурыг үгсийн дараалал нь, жишээ нь, одоогийн цаг, эхний ганц "-д" угтвар үг болон заахын тийн ялгал тохиолдолд нэр үг дараа ирдэг хүний дотор үгийн бүх тохиолдлуудыг олох хослуулж болно. Ийм энгийн ажил шийдэл хэрэглэгч хэдэн секунд зарцуулдаг ба тодорхой чиглэлээр цөөн хэдэн хулганы товшихыг шаарддаг.

бий болгох үйл явц

Хайлтын өөрөө бүх subcorpus дээр хийж болно, нэг тусгайлан сонгосон нь тодорхой зорилгод хүрэх хэрэгцээнээс хамааран:

  1. Хамгийн эхний алхам бол тухайн хэлээр үйлдсэн эх бичвэрүүд тохиолдолд үндэс суурь тодорхойлох явдал юм. практик зорилгоор, энэ удаа сэтгүүл зүйн, мэдээ түүх, онлайн санал ашиглаж байна. судалгааны төсөл багц төрлийн янз бүрийн ашиглах явдал юм, гэхдээ текст зарим нэг нийтлэг газарт дагуу сонгогдсон байх ёстой.
  2. урьдчилан боловсруулах өртөж эх бичвэрийг үр дүнд цуглуулах, энд текст ном зүйн болон нэмэлт хэлний тайлбар бэлтгэсэн алдааны залруулга, ямар ч тохиолдолд юм.
  3. арилгаж байгаа бүх төрийн бус текстэн мэдээлэл: график, зураг, хүснэгтийг арилгана.
  4. жетон, ихэвчлэн цаашид боловсруулах, үг яриа байдаг нь хуваарилах явдал юм.
  5. Эцэст нь хэлэхэд, энэ элемент, морфологи syntactical болон бусад тэмдэглэгээ авсан олонхийг хийсэн байна.

элемент бүр нь зарим тохиолдолд, семантик шинж нь, үг хэлэх, дүрмийн хэсгийг тодорхойлж байгаа олон ургальч тэнд тархсан нь syntactic бүтцийн хийсэн бүх гүйлгээний үр дүн.

барилга бий бэрхшээл

Энэ нь хамтад нь биед үг, өгүүлбэрийг тавих нь хангалттай биш юм ойлгох нь чухал юм. Нэг талаас, эх бичвэр нь цуглуулах, өөрөөр хэлбэл, тэнцвэртэй байх нь тодорхой хувь хэмжээгээр эх бичвэрийг өөр өөр төрлийн төлөөлөх ёстой. бусад дээр - хашаа агуулга нь тусгай аргаар зайтай байх ёстой.

Эхний асуудал нь гэрээний дагуу шийдвэрлэж байна: жишээ нь, цуглуулах уран зохиолын эх бичвэрийг 60%, баримтат 20% -ийг багтаасан, тодорхой хувийг ярианы хэл, хууль тогтоомж, шинжлэх ухааны ажил, гэх мэт өнөөдөр төгс жор тэнцвэртэй байгууллага байхгүй байгаа нь бичигдсэн төлөөллийг өгсөн байна ...

агуулга зохион тухай хоёр дахь асуулт, тулгамдсан шийдвэрлэх. тусгай хөтөлбөр, автомат эх бичвэрийг тэмдэглэгээ ашиглаж алгоритмууд байдаг, гэхдээ тэдгээр нь тасалдал үүсгэж болох нь төгс үр дүнг өгч, гарын авлага давирхайг шаарддаггүй. Энэ асуудлыг шийдвэрлэхэд боломж ба сорилтууд корпус хэл шинжлэлийн нэг цаасан дээр V. П. Zaharova нарийвчлан тайлбарласан байгаа.

Text Markup нь хэд хэдэн түвшинд бид дор жагсааж хийгддэг.

морфологи шошголох

сургууль, бид орос хэл, үг хэлэх өөр өөр хэсгүүд байдаг гэдгийг санаж, тэдний тус бүр өөрийн гэсэн шинж чанартай байдаг. Жишээ нь, үйл үг налуугийн ангилал, цаг хугацаа ямар ч нэр үг байна. ямар ч эргэлзээгүйгээр уугуул дарга тэмдэг нэрийн болон коньюгат үйл үг буурдаг, харин 100 сая биеийг тэмдэглэж байна. авлагын хөдөлмөрийн ажил байх болно Токенс. Шаардлагатай бүх үйл ажиллагаа нь компьютер, гэхдээ энэ нь зааж байх хэрэгтэй учир нь энэ бол гүйцэтгэх болно.

Морфологи шошголох, компьютерийн үг бүр нь тодорхой дүрмийн онцлог бүхий үг хэлэх нь тодорхой нэг хэсэг нь "ойлгох" хэрэгтэй. ОХУ-ын (болон бусад аль ч хэл дээр) оноос хойш тогтмол дүрэм нь хэд хэдэн үйл ажиллагаа явуулдаг, энэ алгоритм нь хэд хэдэн машинд хөрөнгө оруулалт, морфологи шинжилгээний автомат журмыг бий болгох боломжтой юм. Гэсэн хэдий ч, дүрэм, түүнчлэн янз бүрийн хүндрэл хүчин зүйлээс жич зөвшөөрөл байхгүй. Үүний үр дүнд өнөөдөр цэвэр компьютер дүн шинжилгээ хийх гарын авлага сайжруулалт шаардлагатай 100 сая. нэгжийн биед Үг, хол тийм сайн тохиромжтой нь юм, тэр ч байтугай 4% алдаа 4 сая утгыг өгнө..

Сараар дэлгэрүүлэн ном асуудлыг Zaharova V. П. "корпус хэл шинжлэл" тайлбарладаг.

syntactic сэдэвт эрдмийн ажлын аннотаци

Ийм салгалт хийх, эсвэл магадлах - нь өгүүлбэрт үгсийн харилцааг тодорхойлдог журам. алгоритм багц ашиглан сэдэв, үндсэн, нэмэлт, үг хэлэх олон ээлжээр текстийг тодорхойлох боломжтой юм. олж мэд үндсэн дараалал, ямар юм нь үг - хамааралтай, бид үр дүнтэй текст мэдээллийг гаргаж болох бөгөөд хайлтын хүсэлтийн хариуд бидэнд сонирхолтой нь зөвхөн мэдээлэл гаргах машиныг зааж байна.

Дашрамд хэлэхэд, орчин үеийн хайлтын систем энэ ашиглах гэх мэт холбогдох лавлагаа хариуд урт текстийг оронд тодорхой тоо гарч өгөх буюу "хичнээн илчлэг алим нь", "Москва-аас хол Санкт-Петербург" гэжээ. Гэсэн хэдий ч, бусад үндсэн заавар "корпус хэл шинжлэлийн танилцуулга" лавлах хэрэгтэй дурдсан үйл явцын ч үндсийг ойлгох.

семантик тэмдэглэгээний

үг семантик - энгийн хувьд, утга юм. Түүний семантик категориуд, Дэд ангилал нь багц хамаарах тусгасан үг холбогдлыг хаягууд семантик дүн шинжилгээ хийх, өргөнөөр хэрэглэх арга. Ийм мэдээллийг алгоритмууд текст ая, автомат хураангуйг болон корпус хэл шинжлэлийн бусад үүрэг аргыг шинжлэх оновчтой болгох нь чухал ач холбогдолтой юм.

нь маш өргөн утга нь хийсвэр үгийг төлөөлж модны "үндэс", хэд хэдэн байдаг. мод цэг салбар үүсдэг учраас илүү их, илүү тодорхой дүрмийн элементүүдийг агуулсан. Жишээ нь, үг нь "амьтан", "хүн" болон "амьтан" гэх мэт ойлголтуудыг холбоотой байж болох юм. анги, малын төрөл - эхний үг өөр өөр мэргэжил, ураг төрлийн хувьд, үндэс угсаа, хоёр гарч салбар хэвээр байх болно.

Мэдээллийн сэргээх систем ашиглах

корпус хэл шинжлэлийн ашиглах газар нутгийн үйл ажиллагааны янз бүрийн талбаруудыг хамрах болно. , Гэр толь бэлтгэх, засвар ашиглаж байгаа автомат орчуулга систем, бичиж тэмдэглэх баримтыг татаж, ая болон бусад текст боловсруулах тодорхойлох бий.

Үүнээс гадна, ийм нөөц идэвхтэй дэлхийн хэл, ерөнхий хэл ажиллагаатай механизм судалгаанд ашиглаж байна. Урьдчилан бэлтгэсэн мэдээлэл их хэмжээний боломж хөгжлийн хэлний хандлага шуурхай, цогц судалгаа эрхэлдэг, тогтвортой үүсэх neologisms ярианы хурд өөрчлөлт дүрмийн нэгж, бусдыг үнэлдэг.

мэдээллийн ийм их хэмжээний ажлын автоматжуулалт шаарддаг учраас, өнөөдөр тэнд компьютер, корпус хэл зүй хоорондоо нягт харилцан байна.

ОХУ-ын үндэсний корпус

Энэ хэрэг (товчилсон NKRYA) ажлуудын янз бүрийн хувьд нөөц ашиглах боломжийг subcorpus хэд хэдэн орно.

мэдээллийн санд материал NKRYA хувааж болно:

  • хэвлэл мэдээллийн 90-ээд оны болон 2000-аад оны, дотоод, гадаадын аль алинд нь хэвлэл байх;
  • үг хэлэх бичлэг,
  • aktsentologicheski текстүүдийг тэмдэглэгдсэн (жишээ, стресс тэмдэг);
  • аялгуу яриа,
  • яруу найраг,
  • syntactic болон бусад тэмдэглэгээ бүхий материал.

Мэдээллийн систем нь мөн англи, герман, франц, бусад олон хэл (болон эсрэгээр) руу орос-аас ажлын зэрэгцээ орчуулгын хамт Subcorpus багтана.

Мөн мэдээллийн санд өөрийн хөгжлийн янз бүрийн үеүдэд орос хэл дээр бичсэн үг хэлэх төлөөлж түүхэн эх бичвэрийг нэг хэсэг нь тэнд байна. сургалтын байгууллага, орос хэлийг эзэмших гадаадын иргэдийн хувьд ашигтай байж болох ч бас байдаг.

ОХУ-ын Үндэсний корпус 400 сая дүрмийн нэгж эзэлж, болон өмнө, Европ, Америк байгууллагын хэлээр нэлээд хэсэг нь олон талаараа.

хэтийн төлөв

Энэ чиг хандлага нь хүлээн зөвшөөрөх талд баримт, гадаад байдлаар ОХУ-ын их, дээд сургуулийн лабораторийн корпус хэл шинжлэл амлаж бас боломж юм. Энэ мэдээлэл болон хайлтын нөөцийн хүрээнд ашиглах, судалгаа нь өндөр технологи, асуулт-хариулт системийн чиглэлээр тодорхой газар нутгийн хөгжлийг дагуулж, гэхдээ энэ нь дээр дурдсан байдаг.

корпус хэл шинжлэлийн цаашдын хөгжил, техникийн авсан болон мэдээллийг хайх, боловсруулах, компьютер эрх мэдэл олгох үйл явцыг оновчтой шинэ алгоритм, их хэмжээний санах ой хэрэгжүүлэх нөхцөл, мөн хэрэглэгч хүртэл бүх түвшинд таамаглаж байгаа хэрэглэгчид өөрсдийн өдөр тутмын онд нөөцийн энэ төрлийн ашиглах нь илүү, илүү арга зам байгаа учраас амьдрал, ажил.

Эцэст нь хэлэхэд

сансрын хөлөг орчлон замаар аялах болон роботууд ард түмний төлөө бүх ажлыг хийх хаана 2017 онд өнгөрсөн зууны дунд, холын ирээдүйг бололтой. Үнэн хэрэгтээ, шинжлэх ухаан "цагаан толбо" болон хөндөх зууны турш хүн төрөлхтний асуултанд хариулахын тулд аргаа барсан оролдлогууд хийж дүүрэн байна. хэлний үйл ажиллагаа асуултууд энд нэр нь байр эзэлж, мөн Засгийн газрын болон тооцооллын хэл шинжлэл тэдэнд хариулахад бидэнд тусалж чадна.

их хэмжээний өгөгдөл багц боловсруулах, өмнө нь боломжгүй, хэв маягийг нээх болно бараг бодит цаг хугацаанд үгсийн үүсэхээс хянах тодорхой хэлний онцлог хөгжлийг таамаглаж байна.

практик түвшинд, дэлхийн хашлага, жишээ нь, олон нийтийн сэтгэл санааг үнэлэх боломжит арга хэрэгсэл болгон харж болно - Интернэт бодит хэрэглэгчдийн үүсгэсэн нь байнга шинэчилж өдөр тутмын янз бүрийн хэлээр үйлдсэн эх бичвэрүүд нь: энэ санал, шүүмж, өгүүллүүд болон үг яриа нь бусад олон хэлбэр.

Үүнээс гадна, байгууллагуудтай хамтран ажиллаж адил тоног төхөөрөмж, мэдээллийн сэргээх оролцож байна хөгжилд хувь нэмэр оруулах, бид үйлчилгээний "Google" буюу "Yandex", машин орчуулга, электрон толь мэддэг юм.

Бид итгэлтэйгээр корпус хэл шинжлэл зөвхөн эхний алхам болгож болохыг нотлох болно, ойрын үед цэцэглэн хөгжиж байна.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 mn.birmiss.com. Theme powered by WordPress.