DİLBİLİM ÇALIŞMALARINDA VERİTABANLARI VE DERLEME SÖZLÜĞÜ VERİTABANI

Author:

Year-Number: 2019-39
Yayımlanma Tarihi: null
Language : null
Konu : Dilbilim
Number of pages: 194-205
Mendeley EndNote Alıntı Yap

Abstract

Veritabanı kavramı yerine son yıllarda büyük veri daha sık kullanılsa da verinin hazırlanması ve bir ortamda tutulması açısından önemini korumaktadır. Dilbilim çalışmalarında malzeme olarak kullanılan metinlerin derlenmesi ve sayısallaştırılmasıyla ilgilenen dilbilim alanı derlem dilbilim olarak bilinmekte ve derlem dilbilimde sayısallaştırılan metinlerden dilbilimsel örüntülerin çıkarılıp kaydedilmesi ve kullanıcı sorgularına hazır biçime dönüştürülmesi için kullanılan yapılar çeşitli mimariler biçiminde bulunan veritabanlarına dayanmaktadır. Günümüzde veri kavramı, sonuç ve buna dayanarak bilgi çıkarımı süreçlerinin temel ögesi durumundadır. Yapılandırılmış ya da yarı yapılandırılmış metin verileri hemen tüm dilbilimsel çalışma süreçlerinin üzerine dayandığı malzemedir. Dağınık bir veri kümesinden yapılandırılmış veritabanlarına uzanan veriyi hazırlama ve ön işleme aşamaları, veriden elde edilecek faydalı bilgiyi ya da sonucun sağlamlığını büyük oranda etkilemektedir. Bu çalışmada genel olarak veri ve veritabanı kavramıyla dilbilim açısından verinin elde edilebilirliğinden yapılandırılmasına kadarki süreçler hakkında bilgi verilip Derleme Sözlüğü veritabanının mimarisi ve hazırlama aşamaları üzerinde durulacaktır.

Keywords

Abstract

In recent years, instead of the concept of database big data is used more frequently, but it is essential to keep the data and to keep an environment. The linguistics field, which deals with the compilation and quantification of the texts used as materials in linguistic studies, is known as the corpus linguistics, and the structures used to extract and record linguistic patterns from the texts digitized in the corpus linguistics and to convert them into the ready format for user queries are based on the databases in the form of various architectures. Today, the concept of data is the result of the result and the information extraction process. Structured or semi-structured text data is the material on which almost all linguistic study processes are based. The preparation and preprocessing of data from a scattered dataset to structured databases greatly influences the useful information or the robustness of the result. In this study, data and database concept and linguistics will be given information about the processes from the availability of the data to its structuring, and the architecture and preparation stages of the Derleme Sözlüğü database will be emphasized.

Keywords