BildningHögskolor och universitet

Vad är Korpuslingvistik?

Bara några decennier sedan att automatisera språkforskning, kunde forskarna bara drömma om. Arbetet gjordes för hand, det lockar ett stort antal studenter, det finns en betydande sannolikhet "slarviga" misstag, och viktigast av allt - allt detta tog en lång, lång tid.

Med utvecklingen av datorteknik har blivit möjligt att bedriva forskning om storleksordning snabbare och idag en av de mest lovande riktningar i studiet av språket är en korpuslingvistik. Dess huvudsakliga funktion är användningen av stora mängder textinformation, information i en enda databas, på ett speciellt sätt och kallade den markerade kroppen.

Hittills finns det många byggnader som skapats med olika ändamål på basis av olika språkliga material som spänner från miljoner till tiotals miljarder lexikala enheter. Denna riktning är erkänd som en lovande och visar betydande framsteg mot ansökan och forskningsändamål. Experter, ett eller annat sätt handel med naturligt språk, rekommenderas att bekanta sig med kroppen av texter åtminstone på en grundläggande nivå.

Historia av korpuslingvistik

Bildandet av denna trend beror på skapandet av USA vid Brown kroppen i början av 60-talet av förra seklet. Samlingen innehåller texterna till alla miljoner av ordformer, och idag kroppen av denna storlek skulle vara helt konkurrenskraftiga. Detta beror till stor del på takten i utvecklingen av datorteknik, liksom den växande krav på nya forskningsresurser.

På 90-talet korpuslingvistik framkommit i en fullständig och oberoende disciplin, har en samling av texter tagits fram och markerade för dussintals språk. Under denna period den skapades, till exempel British National Corpus 100 miljoner tokens.

Med utvecklingen av detta område av lingvistik är textvolymer blir mer och mer (och nå miljarder ordbok enheter), och layouten blir mer varierande. Hittills kan Internet utrymme hittas slaktkroppar skrivna och talade språket, flerspråkig, och lärande orienterad konstnärlig eller vetenskaplig litteratur, liksom många andra arter.

Vilka är höljet

Kroppstyper i kroppen lingvistik kan tillhandahållas av flera skäl. Intuitivt kan grunden för klassificeringen vara en textspråk (ryska, tyska), åtkomstläget (öppen källkod, stängd, kommersiella), genre av källmaterialet (fiktion, dokumentär, akademisk, journalistik).

Intressant sätt genererar material talat språk. Eftersom avsiktlig inspelning av sådant tal att skapa en artificiell miljö för de svarande, och det resulterande materialet kunde inte kallas "spontan", har moderna korpuslingvistik gått åt andra hållet. En volontär är utrustad med en mikrofon, och under dagen producerade ett register över alla samtal, i vilka landet deltar. Människor runt, naturligtvis, kanske inte vet att i samband med vardagliga samtal bidrar till utvecklingen av vetenskapen.

Senare fick rekord lagras i databasen och åtföljs av tryckt text avskrift typ. Således blir det möjligt uppmärkning som behövs för att skapa en muntlig dagligt tal bostäder.

ansökan

Där det är möjligt att använda språket, och kanske användningen av byggnader texter. Metoder för att tillämpa skrovet i lingvistik kan vara:

  • Skapa ett program bestämma nyckeln, används ofta i politik och näringsliv för att hålla koll på positiva och negativa svar väljare och kunder, respektive.
  • Anslutnings informationssystem för att ordböcker och översättare för att förbättra sina resultat.
  • En mängd olika forskningsuppgifter som bidrar till förståelsen av språket enheten, historien om dess utveckling och förutsägelse av förändringar inom en snar framtid.
  • Utveckling informationssökning system baserade på morfologiska, syntaktiska, semantiska och andra funktioner.
  • Optimering av de olika språksystem och andra.

Användning av byggnader

liknande resurs gränssnitt med en typisk sökmotor, och uppmanar användaren att ange ett ord eller en kombination av ord för att söka efter informationsbasen. Bortsett bildar den exakta fråga kan använda den förbättrade versionen, som gör det möjligt att hitta textinformation på nästan alla språkliga kriterier.

sökbasen kan vara:

  • tillhörighet till en viss grupp av delar av tal;
  • grammatiska funktioner;
  • semantik;
  • stilistisk och emotionell färg.

Du kan också kombinera sökkriterier för en sekvens av ord, till exempel för att hitta alla förekomster av verbet i presens, första person singular, som kommer efter prepositionen "på" och substantiv i ackusativ fallet. Lösningen på en sådan enkel uppgift tar användaren några sekunder och kräver bara några musklick i de angivna områdena.

Processen för att skapa

Sökandet i sig kan utföras på alla subcorpus och ett specifikt valt beroende på behoven för att uppnå ett visst mål:

  1. Det första steget är att definiera vilka texter utgör grunden för ärendet. Av praktiska skäl är det ofta används journalistiska, nyheter, online kommentarer. Forskningsprojektet är användningen av en mängd olika förpackningstyper, men texten bör väljas i enlighet med några gemensamma nämnare.
  2. Den resulterande samlingen av texter som utsatts för förbehandling, det finns korrigering av fel, om några, som utarbetats av bibliografisk och extra-lingvistiska beskrivningen av texten.
  3. Elimineras alla icke-textinformation: Raderar grafik, bilder, tabeller.
  4. Är en fördelning av polletter, som normalt tal, för vidare bearbetning.
  5. Slutligen, bar den morfologiska, syntaktiska och andra märkningar erhållna flertal element.

Resultatet av alla transaktioner som gjorts av en syntaktisk struktur med fördelat däri ett flertal element, vilka vardera är identifierade ordklass, grammatisk och, i vissa fall, de semantiska attribut.

Svårigheter att skapa byggnader

Det är viktigt att förstå det räcker inte att sätta ihop en uppsättning av ord eller meningar för kroppen. Å ena sidan bör en samling texter vara balanserad, det vill säga representerar olika typer av texter i vissa proportioner. Å andra - ska innehållet i inneslutningen vara fördelade på ett speciellt sätt.

Det första problemet är löst genom ett avtal, till exempel, i samlingen omfattar 60% av litterära texter, 20% av dokumentärer, är en viss procent fått en skriftlig presentation av det talade språket, lagstiftning, vetenskapliga arbeten, etc. perfekt recept balanserad kropp idag finns inte ...

Den andra frågan, om innehållet layout, lösa utmanande. Det finns speciella program och algoritmer som används för automatisk märkning av texter, men de ger inte ett perfekt resultat, kan orsaka störningar och kräver manuell omarbetningar. Möjligheter och utmaningar i att hantera detta problem beskrivs i detalj i en artikel V. P. Zaharova av korpuslingvistik.

Text Markup genomförs på flera nivåer, som vi listan nedan.

morfologisk märkning

Från skolan, minns vi att i det ryska språket, det finns olika delar av tal, och var och en av dem har sina egna egenskaper. Till exempel har verbet kategorier lutning och den tidpunkt då ingen substantiv. en infödd talare utan att tveka minskar substantiv och verb konjugat, men att markera kroppen på 100 miljoner. symboliska manuellt arbete kommer inte att fungera. Alla nödvändiga operationer kan utföra datorn, men för detta behöver läras.

Morfologisk taggning, datorn måste "förstå" varje ord som en viss ordklass har vissa grammatiska funktioner. Eftersom den ryska (och något annat språk) driver ett antal vanliga regler, är det möjligt att bygga en automatisk procedur för morfologisk analys, investera i bilen för ett antal algoritmer. Det finns dock undantag från regeln, liksom olika komplicerande faktorer. Som ett resultat, är nettodatoranalys av idag långt ifrån idealisk, och även 4% fel ger ett värde av 4 miljoner. Ord på kroppen på 100 miljoner. Enheter som kräver manuell omarbetningar.

Detaljerad bok beskriver problemet Zaharova V. P. "korpuslingvistik".

syntaktisk annotering

Analysera eller tolka - en procedur som bestämmer förhållandet mellan ord i en mening. Med hjälp av en uppsättning av algoritmer är möjligt att bestämma texten i ämnet, predikat, tillägg, flera varv av tal. Ta reda på vilka ord är huvudserien, och som - beroende kan vi på ett effektivt sätt extrahera information från text och lära maskinen att ge svar på en sökfråga endast informationen intressant oss.

Förresten, moderna sökmotorer använda detta för att ge ut särskilda nummer i stället för långa texter som svar på relevanta frågor som "hur många kalorier i ett äpple" eller "avståndet från Moskva till S: t Petersburg." Men för att förstå även grunderna i den process som beskrivs av behovet av att konsultera "Introduktion till Corpus Linguistics" eller någon annan grundläggande handledning.

semantisk uppmärkning

De semantik av ordet - är, enkelt uttryckt, innebörden. Allmänt gäller inställning till den semantiska analysen av ett ord skrivning taggar, vilket återspeglar hans tillhör en uppsättning av semantiska kategorier och underkategorier. Sådan information är värdefull för att optimera algoritmer analysera text ton, Textsammanfattning och andra uppgifter metoder korpuslingvistik.

Det finns ett antal "root" av trädet, vilket motsvarar en abstrakt ord med ett mycket brett semantik. Som en gren av trädet noder bildas, som innehåller fler och mer specifika lexikala element. Exempelvis kan ordet "varelse" vara associerade med sådana begrepp som "mänskliga" och "djur". Det första ordet kommer att fortsätta att filial ut i olika yrken, släktskap termer, nationalitet, och den andra - på klasser och typer av djur.

Användningen av informationssökningssystem

Områden för användning av korpuslingvistik täcker olika verksamhetsområden. Höljen används för utarbetande och rättning av ordböcker, skapa automatiserade översättningssystem, textning, hämta fakta, bestämmer tonen och andra textbearbetning.

Dessutom är sådana resurser används aktivt i studiet av världsspråk och mekanismer för fungerande språk i allmänhet. Tillgång till stora volymer av förberedda informationen underlättar snabb och omfattande studie av de trender utvecklingsspråk och stabila bildnings neologismer tal hastighetsändring värden lexikala enheter och andra.

Eftersom arbetet med sådana stora mängder data kräver automation, idag finns ett nära samspel mellan datorn och korpuslingvistik.

Russian National Corpus

Detta fall (förkortat NKRYA) innehåller ett antal subcorpus, vilket gör användningen av en resurs för en mängd olika arbetsuppgifter.

Materialen i databasen delas NKRYA:

  • publikationer i media av 90-talet och 2000-talet, både inhemska och utländska;
  • inspelning tal;
  • aktsentologicheski markerade texter (dvs markeringarna av stress);
  • dialekt tal;
  • diktning;
  • Material med syntaktiska och andra markeringar.

Informationssystemet ingår även Subcorpus med parallella översättningar av verk från ryska till engelska, tyska, franska och många andra språk (och vice versa).

Även i databasen finns det en del av historiska texter, som representerar den skrivna tal på ryska i olika perioder av sin utveckling. Det finns också en utbildningsorgan, vilket kan vara användbart för utländska medborgare att behärska det ryska språket.

Russian National Corpus omfattar 400 miljoner lexikala enheter, och på många sätt inför en betydande del av språken i Europa kroppar.

utsikter

Faktum är till förmån för erkännandet av denna trend är att det finns lovande laboratorie korpuslingvistik i ryska universitet, liksom utländska. Med hjälp av och forskning inom ramen för denna information och söka resurser innebär utvecklingen av vissa områden inom högteknologi, svar på frågor system, men det diskuteras ovan.

Vidareutveckling av korpuslingvistik förutses på alla nivåer, från teknisk och när det gäller genomförandet av nya algoritmer som optimerar processerna för att söka och bearbeta information, att ge datorer, mer RAM-minne, och till konsument, eftersom användarna är fler och fler sätt att använda denna typ av resurs i sitt dagliga liv och arbete.

Sammanfattningsvis

I mitten av förra århundradet i 2017 verkade avlägsen framtid, där rymdskepp färdas genom universum och robotar gör allt arbete för folket. I själva verket är vetenskap fylld med "vita fläckar" och gör desperata försök att besvara frågorna om människan i århundraden störande. Frågor fungerande språk här intar en hedersplats, och skåp och datorlingvistik kan hjälpa oss att besvara dem.

Behandling av stora datamängder kan upptäcka mönster, tidigare otillgängliga, förutsäga utvecklingen av specifika språkfunktioner för att spåra bildandet av ord i nästan realtid.

På en praktisk nivå, kan de globala kapslingar ses till exempel som ett potentiellt verktyg för att bedöma den offentliga humör - Internet är en ständigt uppdaterad daglig basis olika texter som skapats av riktiga användare: Det här kommentarer och recensioner och artiklar, och många andra former av tal.

Dessutom, som arbetar med organ bidrar till utvecklingen av samma hårdvara, som är inblandade i informationssökning, vi är bekanta med tjänsten "Google" eller "Yandex", maskinöversättning, elektroniska ordböcker.

Vi kan tryggt hävda att korpuslingvistik gör bara de första stegen, och inom en snar framtid kommer att blomstra.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 sv.birmiss.com. Theme powered by WordPress.