ښوونه او روزنه:, پوهنتونونه او پوهنتونونه
د قول اردو ژبی څه دی؟
څو لسيزې دمخه، ساينس پوهان يوازې د ژبنيکي څيړنو د اتوماتلو خوب کولاى شي. دا کار په مینځ کې ترسره شوی، ډیر شمیر زده کونکي په دې کې ښکیل وو، د "ناببرۍ له امله" د تېروتنې احتمال شتون درلود، او تر ټولو مهم - دا ټول ډیر ډیر وخت ونیول.
د کمپیوټری ټکنالوجۍ پرمختیا سره، دا ممکنه شوه چې مطالعات د چټکتیا چټکتیا ترسره کړي، او نن د ژبې مطالعې کې ترټولو ډیر ژمنې سیمې قول اردو ژبی دی. د دې اصلي ځانګړتیا د لویو متناسب معلوماتو کارول دي، په یوه ډېټابیس کې ګډ شوي، په ځانګړې توګه نښه شوې او بدن یې نوموي.
تراوسه پورې، د بیلابیلو موخو لپاره ډیری ودانۍ شتون لري، د بیلابیلو ژبني موادو په اساس چې د ملیونونو څخه د لسګونو ملیاردونو لیکس یونټونو پوښښ کوي. دا الرښود د تطبیق او څیړنې موخو په ترلاسه کولو کې د پام وړ پرمختګ ښودلو په توګه پیژندل کیږي. متخصصین چې یو څوک د طبيعي ژبې سره معامله کوي، دا سپارښتنه کیږي چې تاسو خپل ځان د متن متن سره واقف کړئ، لږترلږه په بنسټیزه کچه.
د قول اردو ژبی تاریخ
د دې لارښود جوړښت د 1960 په لومړیو کې د براون کورپس په متحده ایالاتو کې د رامنځته کولو سره تړلی دی. د متنونو مجموعه یوازې یو ملیون لفظي بڼه لري، او نن د دې حجم قول اردو په بشپړه توګه نامناسب وي. په پراخه پیمانه، دا د کمپیوټر ټیکنالوژیو د پرمختګ سرعت او همدارنګه د نوو څیړنو سرچینو لپاره د مخ پر ودې غوښتنو له کبله دی.
په 1990 لسیزه کې د قول اردو ژبپوهنه په بشپړ او خپلواکه نظم کې جوړه شوې وه، د متنونو مجموعه ډیری لسګونو ژبو لپاره جوړه شوې وه. د دې دورې په جریان کې، د بیلګې په توګه، د بریتانیا ملي قول اردو د 100 میلیونو کارولو لپاره رامینځته شوه.
لکه څنګه چې د ژبپوهنیزې پرمختیا دغه لیکه، د متنونو کچه خورا نوره شوه (او د ملیاردونو محصلینو ته رسیدلي)، او مارکپټ له مینځه وړل خورا زیات او متفاوت دي. نن ورځ، په انټرنیټ ځای کې، تاسو د لیکل شوي او ویناوې وینا، څوګونه زده کړه او تدریس، د هنري او یا اکادمیک ادبياتو، او همداراز ډیری نور ډولونه یې موندلی شئ.
بدن څه دي؟
د کابینې ژبپوهنې کې د قضیې ډولونه د ډیری دلیلونو لپاره وړاندې کیدی شي. دا په ډاګه کوي چې د طبقه بندی لپاره اساس کیدای شي د متنونو (روسی، جرمن)، د لاسرسي طریقه (د خلاصې سرچینې، تړل، تجارتي) ژبه وي، د سرچینو موادو ډول (افسانه، مستند، اکاډمیک، ژورناليزم).
یوه زړه پورې لاره د توکیو نسل نسل دی چې د زباني وینا استازیتوب کوي. څرنګه چې د دغه ډول وینا اراده ریکارډ به د ځواب ويونکو لپاره مصنوعي شرایط رامنځته کړي، او نتیجه شوي مواد نشي کولی "سپړنی" بلل شي، د عصري قواو ژبپوهنه یو بل الره راوړي. رضاکار د مایکروفون سره سمبال دی، او په ورځ کې، هغه ټولې خبرې اترې چې په هغه کې یې ګډون کوي ثبت شوي دي. د خلکو شاوخوا، البته، نه پوهیږي چې د کورنۍ د خبرو اترو پرمهال دوی د ساینس پرمختګ کې مرسته کوي.
وروسته، د رسیدلو موخې ریکارډونه په ډیټابیس کې زیرمه شوي او د لیږد متن ډول سره سم د چاپ شوي متن سره. په همدې توګه، د شفاهي ورځني بیان د بدن جوړولو لپاره اړین مارکپ ممکن ممکن شي.
کاریال
چیرې چې د ژبې کارول ممکنه وي، دا هم د متن بکسونو کارول ممکن دي. په ژبپوهنه کې د لارو چارو د پلي کولو موخه دا ده:
- د ټیک ارزیابی پروګرامونو رامینځ ته کول، په فعال ډول په سیاست او سوداګرۍ کې کارول کیږي ترڅو په ترتیب سره رایه ورکوونکو او مشتریانو مثبت او منفي نظرونه تعقیب کړي.
- د دوی د فعالیت د ښه کولو لپاره لغاتونو او ژباړونکو ته د معلوماتو سیسټم سره نښلول.
- د څیړنې یو لړ دندې چې د ژبې د جوړښت په پوهیدو کې مرسته کوي، په نږدې راتلونکي کې د هغې د پراختیا او د هغې د وړاندیزونو تاریخ.
- د مورفولوژیکي، مصنوعی، سیمینټ او نورو ځانګړتیاوو پر بنسټ د معلوماتو د بیا رغونې د سیسټمونو پراختیا.
- د ژبو د مختلفو سیسټمونو کار کول، او نور.
د کورونو کارول
د سرچینې انټرنیټ د عادي سرچینې ماشین ته ورته دی او د دې لپاره چې کاروونکي د معلوماتو اساساتو له لارې د لټون لپاره د کلمو یو ځای یا د کلمو یو ترکیب ته مراجعه وکړي. د یوې سمې پوښتنې په بڼه، تاسو کولی شئ پراخ شوی نسخه وکارئ، کوم چې تاسو ته د هرې ژبني معیار معیار لپاره د متن معلوماتو موندلو اجازه درکوي.
د لټون لپاره اساس کیدی شي:
- د بیان د برخو د یوې ځانګړې ډلې سره تړاو؛
- ګرامیکي نښه؛
- سيمتيک؛
- مصنوعي او احساساتي رنګ.
سربیره پردې، تاسو د کلمو د ترتیب لپاره د لټون معیار سره یوځای کولی شئ: د بیلګې په توګه، په اوسنۍ زمانه کې د فعل ټولې پیښې ومومئ، لومړی سړی، یو واحد، وروسته د "ج" او نښې په تورونو پیښو کې تعقیب. د دې ساده کار کولو حل د کاروونکو لپاره څو ثانوي لیږدوي او یوازې په ځانګړو ساحو کې ځینې کلکس ته اړتیا لري.
د جوړولو پروسه
د پلټنې پلټنه پخپله په ټولو سبسورپسونو کې، او په یو، په ځانګړي توګه غوره شوي، دواړه اړتیاوې د ځانګړي هدف ترلاسه کولو پر مهال ترسره کیدی شي:
- لومړی، دا معلومه شوه چې متنونه به د قضیې اساس جوړ کړي. د عملي موخو لپاره، ډیری وخت د ژورنالیست، ورځپاڼې توکي، آنلاین تبصره کارول کیږي. د څیړنې په پروژو کې، یو ډول ډول ډولونه کارول کیږي، مګر متن باید د ځینو مشترکو ځمکو په اساس وټاکل شي.
- د متن پایله د وړاندې کولو وړاندیز کوي، غلطي سمه شوې، که شتون ولري، د متن بولي او د ژبې اضافي اضافي ژبي چمتوالی چمتو شوی.
- ټول غیر متناسب معلومات پاک شوي دي: ګرافیک، انځورونه، میزونه حذف شوي.
- د دوی پروسس لپاره د ټوک انتخاب دی، معمولا د کلمو استازیتوب کوي.
- په پاى کې، د پايلو عناصرو مورفولوژيکي، مطابقت لرونکي او نور نښه نښه احساس شوې ده.
د ټولو عملیاتو ترسره کولو نتیجه یو مصنوعی جوړښت دی چې د هغه عناصرو سره چې په وینا یې ویشل شوي وي، د هر یو لپاره د بیان یوه برخه تعریف شوې، ګرامريک، او په ځینو مواردو کې، سیمینټ ځانګړتیاوې.
د قول اردو په ودانیو کې ستونزې
دا مهمه ده چې پوه شي چې دا قضيه د ډیری کلمو یا جملو جمع کولو لپاره کافي ندي. له یوې خوا، د متنونو مجموعه باید متوازنه وي، دا د، په ځینو حاکمیتونو کې د مختلفو ډولونو ډولونو استازیتوب کولو لپاره دي. له بلې خوا، د قضیې محتوی باید په ځانګړې توګه نښه شوې وي.
لومړۍ مسله د موافقت لیک له لارې حل شوې ده: د بیلګې په توګه، 60٪ هنر متن، د مستندانو 20٪ شامل دي، یو مشخص تن د زباني وینا، مقننه عملونو، ساینسي کارونو او لیکنو لیکل شوي استازیتوب ته ورکول کیږي. د متوازن بدن لپاره مثالی رییس نن شتون نلري.
دویمه پوښتنه، د محتوياتو د نښه کولو په اړه، د حل کولو لپاره خورا ستونزمنه ده. ځانګړي پروګرامونه او الګوریتمونه چې د اتوماتیک نښه کولو لپاره کارول کیږي، مګر دوی 100٪ پایلې نه ورکوي، دوی کولی شي ناکامۍ المل شي او لارښود بیاکتنه ته اړتیا ولري. د دې ستونزې په هوارولو کې امکانات او ستونزې د ژبې د ژبپوهنې په زاراروف کې په تفصیل سره تشریح شوي.
د متن نښه مارک په ډیری کچو ترسره کیږي، کوم چې موږ به لاندې لسټ وټاکو.
د مورفولوژیکي نښه کول
د ښوونځي د بنچ څخه، موږ په یاد ولرئ چې په روسیه کې د بیان بیلابیل برخې دي، او هر یو یې خپل ځانونه لري. د مثال په توګه، فعل د مزاج او وخت کټګوري لري چې نوم ندی شتون لري. اصلي مباحثې د اسمعیلونو کمولو او د فعلونو منلو ته اندیښنه نه لري، مګر لارښود کار په 100 میلیونو ټکو کې قضیه په نښه نکوي. ټول اړین عملیاتونه د کمپیوټر لخوا ترسره کیدی شي، مګر، د دې لپاره باید دا تدریس شي.
د مورفولوژيکي نښه کولو لپاره د کمپیوټر لپاره "د هرې کلمې" د وینا د یوې ځانګړې برخې په توګه د ګرامري ځانګړتیاوو لرونکي وي. څرنګه چې په روسیه کې یو شمیر منظم قواعد شتون لري (لکه د بلې ژبې په څیر)، دا ممکن وي چې د ماشینولوژیک تحلیل لپاره د اتوماتيک پروسیجر جوړول د ماشین په ځینو الګوریتمونو پانګونه وکړي. په هرصورت، د قواعدو استثناوې، او همدارنګه بیلابیلو پیچلو فکتورونو شتون لري. د پایلې په توګه، نن ورځ خالص کمپیوټر تحلیل د مثالی څخه ډیر دی، او حتی 4٪ غلطی د هر یو قضیه 100 ملیون واحدونو ته ورکوي، د لارښود بیاکتنه ته اړتیا لري.
په تفصیل سره دا ستونزه د زاخاروف وی پی "کورپس لوژستیک" لخوا بیان شوې.
نښې نښانې
Parsing or parsing هغه طرزالعمل دی چې د جملې سره د جملې تړاو تعبیروي. د یو لړ الګوریتمونو په مرسته، دا ممکن شي چې په متن کې موضوع، ابتدايي، اضافې، د وینا بیلابیلې بڼې تعریف شي. په ترتیب کې کومې کلمې اصلي دي او کوم تړاو لري، موږ کولی شو معلومات په مؤثر توګه معلومات له متن څخه واخلو او ماشین یې وروزو ترڅو یوازې هغه معلوماتو ته اشاره وکړو چې د پلټنې د پوښتنې په ځواب کې زموږ ګټو ته اشاره کوي.
د لارې په توګه، د عصري پلټونکو انجنونو دا کار د دې لپاره کاروي چې د ځانګړو ارقامو چمتو کولو په ځای د اوږد متنونو په ځای د ورته پوښتنو په ځواب کې لکه "په مڼه کې څومره کیلوریز" یا "د مسکو څخه پیټرینګ څخه فاصله". په هرصورت، د بیان شوي پروسې اصلي اساسونه هم پوه شئ، تاسو به "د کارپوه ژبپوهنې پېژندنې" یا نورو اساسي ښوونې مرستې سره ځان ځان پوه کړئ.
سیمینټل مارک اپ
د کلمې سمنټیکونه په ساده اصطالحاتو کې، معنی لري. په سمارټ تحلیل کې یوه پراخه تطبیق شوې طریقه د کلمې سره ټکي منسوبوي، د هغه نیمګړتیاوو وېش او ضمیمې پورې اړه لري چې منعکس کوي. دا ډول معلومات د الګوریتم اصلاحاتو لپاره ارزښت لري د متن ټیکې، د اتوماتیک خلاصې او نورو کارونو تحلیل لپاره د کومو ژبپوهنیزو لارو کارول.
د ونې یو شمیر "ریښې" شتون لري، د خلاصې کلمو استازیتوب کوي، چې خورا پراخه سیمانیکونه لري. لکه څنګه چې د ونې څانګې، نوډونه جوړ شوي چې په زیاتیدونکي ډول ځانګړي لیکسیکي عناصر لري. د مثال په توګه، "شی" کلمه د داسې مفکورو سره "من" او "حیوان" سره تړاو لري. لومړنۍ کلمه به د مختلفو مسلکونو، د مینځلو شرایطو، تابعیت شرایطو او دوهم نسلونو ته چانس ورکړل شي - د حيواناتو ټولګي او نوعیت ته.
د معلوماتو د ترلاسه کولو سیسټم پلي کول
د قول اردو ژبیانو کارول د فعالیت مختلف ډولونه پوښلی. قضیې د لغاتونو ترتیب او سمولو لپاره کارول کیږي، د اتوماتیک ژباړونکي سیسټمونه جوړول، خلاصول، د واقعیت استخراج کول، د کلي او نورو کلمو پروسس کول ټاکل.
برسېره پر دې، دا سرچینې د نړۍ د ژبو په مطالعې او د ژبې د فعالیتونو میکانیزم په فعاله توګه کارول کیږي. د چمتو شوي معلوماتو لویه برخه ته لاسرسۍ د ژبې په پراختیا کې د رجحاناتو عملیاتي او جامع څیړنه، د نیولوجيزمونو جوړښت او د بیان د با ثباته خبرو بدلون، د لیکس یونټونو په ارزښتونو کې بدلون،
کله چې د ډیرو ډیرو معلوماتو سره کار کول د اتوماتیک ته اړتیا لري، نن ورځ د کمپیوټر او کورپوهنه ژبې نږدې نږدې اړیکه ده.
د روسیې ملي ودانۍ
دا ودانۍ (NKRY لنډیز) یو شمیر فرعي پورونه شامل دي چې د پراخو مختلفو دندو لپاره د سرچینو کارولو اجازه ورکوي.
د NKRN په اډه کې توکي اختصاص شوي دي:
- د 90 او 2000 کلونو په رسنیو کې خپریدو په اړه کورني او بهرني؛
- د شفاهي وینا ریکارډ
- په عادي توګه نښه شوې نښې (د مثال په توګه فشار په نښه کولو سره)؛
- د ژبې وینا؛
- جعلي کارونه؛
- توکي د نښې نښانې سره.
د معلوماتو سیسټم د روسیې څخه انګریزي، جرمني، فرانسوي او ډیرو نورو ژبو (او برعکس) ته د روسیې څخه متوازي ژباړونکي سره د Subcorps په ګډون شامل دي.
همدارنګه په ډیټابیس کې د تاریخي متنونو یوه برخه ده چې د روسیې په لیکل شوي وینا کې د هغې د پراختیا په مختلفو مواردو کې استازیتوب کوي. دلته یو تعلیمي ودانۍ هم شته، کوم چې د روسیې د زده کړې په برخه کې د بهرنیو اتباعو لپاره ګټور وي.
د روسي ژبې ملی کور 400 میلیونه ژبي یونټونه لري او په ډیری برخو کې د اروپا د ژبې ودانیو یوه مهمه برخه راټیټوي.
امکانات
حقیقت دا دی چې په روسی پوهنتونونو او همداراز په بهرنیو هیوادونو کې د ژبې ژبپوهنې لابراتوارونه د دې لارښوونو په پیژندلو کې یو حقیقت دی. د معلوماتو او سرچینو په نظر کې نیولو سره د غوښتنلیک او څیړنې سره، د لوړ ټیکنالوژۍ، د پوښتنو ځواب سیسټمونو کې د ځینو ساحو پراختیا په دې کې شامله ده، مګر دا پورته بحث شوی.
د ژبې د ژبې ژبی نور پرمختګ په ټولو کچو کې وړاندیز شوی، په تخنیکي توګه، د نوی الورتوریتم معرفي کولو لپاره چې د معلوماتو لټون کولو او پروسس کولو بهیرونو، د کمپیوټرونو وړتیاوې پراخول، رام کې زیاتوالی او د ورځې سره پای ته رسولو لپاره، هره ورځ کاروونکي په هره ورځ کې د دې ډول منابعو کارولو لپاره الره الره پیدا کوي ژوند او کار.
په پای کې
د تیرې پیړۍ په منځ کې، 2017 یو دوره راتلونکي وو، په کوم کې چې د سپوږمکۍ سپوږمکۍ کائنات او روبوټونه د خلکو لپاره ټول کار ترسره کوي. په واقعیت کې، ساینس په "سپینو ځایونو" کې ځای لري او د هغو پوښتنو ځوابولو لپاره سختې هڅې کوي چې د پیړیو لپاره ستونزمن انسانیت لري. د ژبې د کار کولو پوښتنې دلته دلته د معزز ځای نیولو لپاره، او د کورپسیولر او کمپیوټر ژبپوهنی کولای شي له موږ سره د هغوی ځواب لپاره مرسته وکړي.
د ډیرو ډاټا سیسټمونو پروسس کول تاسو ته اجازه درکوي چې هغه نمونې کشف کړئ چې مخکې یې شتون نلري، د ځینو ژبو ځانګړتیاو پراختیا ته وړاندیز کوي، په ریښتینې وخت کې د کلمو جوړول.
په عملي سطحه کچه، قول اردو کیدای شي د عامه احساساتو ارزولو لپاره د احتمالي وسیله په توګه وکارول شي - انټرنیټ د اصلي کاروونکو لخوا جوړ شوي ډیری نصوصونو ډیټابیس ډیټابیس دی: دا تبصرې، او بیاکتنې، مقالې، او د بیان ډیری ډولونه دي.
برسېره پردې، د قول اردو سره کار د ورته تخنیکي وسیلو په جوړولو کې مرسته کوي چې د معلوماتو په لټون کې برخه واخلي، کوم چې موږ په ګوګل یا Yandex خدمتونه، ماشین ژباړه، برقی لغاتونه په اړه پوهیږي.
دا په ډاډ سره ډاډه کیدی شي چې قول اردو ژبپوهان یوازې لومړی ګامونه اخلي، او په نږدې راتلونکې کې به په چټکۍ سره وده ومومي.
Similar articles
Trending Now