Logo tr.artbmxmagazine.com

Veri ve metin madenciliği

İçindekiler:

Anonim

Veri Madenciliğinin ne olduğundan bahsedin ve adımların her birinin kısa bir açıklamasını ve bu tekniği kullanmanın amacını verin.

GİRİŞ

Günümüzde ticari kuruluşlar, mümkün olan en verimli şekilde ele almaları gereken pek çok bilgiye sahipler, ele alınması gereken bilgiler arasında satışlar, müşteriler, tahsilatlar, hastane olması durumunda hastalar, tedaviler vb. Organizasyonun hangi dönüşte olduğuna bağlı olarak, organizasyonların bilgilerini daha iyi değerlendirmek ve kontrol etmek için kişisel bilgisayarlar, USB bellekler, CD'ler, flash bellekler gibi bilgisayar ve depolama ekipmanları kullanılır. vb, bu cihazlardan birini satın almak için yatırım etkisi yıllar geçtikçe daha ucuz hale geldiğinden, bu cihazların kullanımının yapıldığı gibi,ancak bu bilgi sistemleri insanın kendisinden çok daha güvenilir hale geldiği için aynı şey yapılır.

Bilgi sistemleri içerisinde depolanan tüm bu bilgiler, operasyonel veri tabanları olarak adlandırılan, ismini alan kuruluşların çalışmalarında kullanılan veri tabanlarında bulunur, çünkü bunlar aracılığıyla kuruluşlar gerçekleştirir. Müşterilere mal sevkiyatı, öğrenci kaydı, hasta tedavisi, toplama prosedürleri ve diğerleri gibi farklı faaliyetler.

Bu işlemler yapıldıktan sonra, bir arıtma yapılır ve yukarıda sıralanan tüm görevler olan birincil kaynaklardan elde edilen bilgiler özetlenir, bilgilerin toplanması, saflaştırılması ve özetlenmesi olarak adlandırılan şeye aktarılır. bir metafor demek için veri ambarları, şirketin içinde bulunduğu durum ve geçmişten nasıl bir şeyler öğreneceği konusunda bir fikre sahip olmak için kullanılan periyodik fotoğraflar olabilir.

Bu yolla girişimciler, şirketin gidişatını kontrol etmek için ideal göstergelere sahip olabilirler, çünkü hedeflere ulaşmak için ilgi ve endişe kaynağı olarak görülebilecekleri birçok durumda araştırma ve keşif fırsatı bulabilirler. iş hedefleri.

Veri madenciliği kısa bir süre önce böyle ortaya çıktı ve bu, kuruluşların üst düzey yöneticilerinin çalıştıkları şirket için en iyi kararları vermelerine yardımcı oldu. Veri madenciliği, kuruluş tarafından bilgi sistemlerinde depolanan bilgiler içinde kapsamlı bir görevi yerine getirmekle görevli, önceden oluşturulmuş bir dizi algoritma olan bir dizi "madenci" aracılığıyla çalışır. Bu algoritmaların aradığı malzeme, şirketler tarafından bilinmeyen, ilgi çekici olabilecek bir dizi eğilim, anormallik, sapma veya durumdan başka bir şey değildir. Bu algoritmalar veya madenciler, yöneticilerin kuruluşu daha kolay bir şekilde yönetmelerine ve böylece doğru yola girmelerine yardımcı olur.

Madenciler, “veritabanlarına ek olarak, yapay zeka (benzer durumlarda grupları bulma, yeni olayları bilinen kategorilerde sınıflandırmaya yönelik prosedürler, vb.) Ve istatistikleri kullanır. Ancak, verilerin bir örneğini alan ve onu inceleyen ikincisinden farklı olarak, veri madenciliği tüm verileri inceler. Ne kadar çok veri analiz edilirse, o kadar doğru olur ve algılama ve tahmin gücü artar. " (Martínez Luna, 2011)

Yukarıdakilerin tümü, veri madenciliğinin neyi içerdiğine göre anlatılmıştır, ancak aynı şekilde şirketlerin başlangıçta belirlediği istenen hedeflere ulaşmalarına yardımcı olabilecek başka bir madencilik türü vardır.

İnsan olarak bizler için bilgi, nereye gittiğimizi ve aynı zamanda hırslarımızı belirleyen varoluşumuzun temellerinden biridir. İnsan ırkının ürettiği bilgilerin çoğu yazılı biçimdedir ve doğal dil olarak adlandırılabilir, bunlar gazete, dergi, kitap, teknik rapor vb. Bununla birlikte, tüm insanlar bibliyografik içerikleri kullanma konusunda aynı beceriye sahip değildir, bu, yaşamımız boyunca tüm insanların ihtiyaç duyduğu en geleneksel görevlerin etkileşimde bulunmak olduğunu bu şekilde söyleyebiliriz. biraz fayda sağlamak için yazılmış. İyi bir okuyucunun ve bilgi arayanın sahip olması gereken beceriler şunlar olacaktır:

  • Gerekli bilgileri bulun Farklı bilgi kaynaklarını karşılaştırın ve sonuçlar çıkarın Metinleri yönetin, örneğin tercüme edin, düzenleyin vb. (Montes ve Gómez, 2011)

Bilgi yönetimi konusundaki eksikliklerimizi gözlemlerken, hesaplamalı dilbilim, kelime işlemede bize yardımcı olmak için çok güçlü bir araç haline gelir, çünkü bu teknik aracılığıyla bilgi analizi otomatik olarak gerçekleştirilebilir, böylece problemler çözülür. çoğu insan var.

Veri madenciliği bir veri kümesi içinde bir dizi örüntü aradığı gibi, metin madenciliği de aynı faaliyeti gerçekleştirir, ancak veri olarak bir bilgisayar sistemine beslenebilecek metinleri alır, buna ek olarak analiz edilebilecek metinlerin her biri arasındaki sapmaları ve ilişkileri tespit edebilme görevi.

VERİ MADENCİLİĞİ

Dijital çağın devrimi ile bilgiyi işleyebilme süreçleri geçmişe göre daha verimli hale geldi, dijital sistemlerdeki bilgi işleminin temelde beş adımdan oluştuğunu söylüyoruz:

  • Yakalama İşlem Deposu Dağıtma İletimi

Bilgi işlem kullanımıyla, dünyanın dört bir yanındaki büyük kuruluşlar, deneyimle elde edilen büyük miktarlarda tarihsel verileri topluyor, ancak bilgi hesaplamalı bilgi sistemlerinde büyümeye devam ediyor ve bu miktarları daha da büyütüyor.

Bununla birlikte, bu büyük miktardaki bilgileri yönetmek biraz karmaşıktır ve bu nedenle veri madenciliği doğmuştur, "şu anda depolanabilen bilgi patlamasını anlamlandırma girişimi olarak ortaya çıkmaktadır" (Mitra & Acharya, 2003)

Böylelikle, teknolojinin kullanımıyla, bilginin iyi bir multimedya işlemesine izin veren nispeten basit bir arayüzde görüntüler, videolar, metinler ve sayısal veriler gibi farklı veri türlerini depolamak mümkündür.

Bu tür bir bilgi karışımı yoluyla, elde edilen bilgileri analiz etmek için geleneksel istatistiksel süreçlerin yetersiz olduğu söylenebilir, çünkü istatistiksel teknikler, tüm evrenini kullanan veri madenciliğinin aksine, örneklerin kullanımına odaklanır. daha iyi bir takdir ve çözüme sahip olmak için veriler.

Bu şekilde, veri madenciliğinin ne olduğunun tanımına ulaşıyoruz, bu da “arama programları ve modellerin ve ilişkilerin tanımlanması yoluyla büyük veritabanlarından ilgili bilgileri keşfetmeyi, çıkarmayı ve depolamayı amaçlayan süreçtir. Bu aracın çeşitli teknikleriyle keşfedilebilecek bir açıklaması olan küresel rakamlar, eğilimler, sapmalar ve diğer görünüşte kaotik göstergeler. " (Ángeles Larrieta ve Santillán Gómez, 2001)

Veri madenciliği, kuruluşların üst düzey yöneticilerinin yönettikleri iş hakkında daha iyi bilgi sahibi olabilmeleri için, yukarıda belirtildiği gibi, önceden belirlenmiş kalıpları tespit etmek için veri tabanlarında bulunan bilgilerin değerinden yararlanabilmek için şirketler içinde kullanılır ve böylece daha verimli karar verme süreçleri gerçekleştirir.

DİĞER BİLGİ YÖNETİM TEKNİKLERİ İLE İLGİLİ VERİ MADENCİLİĞİ KULLANIMININ AVANTAJLARI

Veri madenciliği, kuruluşların veri tabanlarında yer alan bilgileri yönetme ihtiyaçlarından doğar, bu prosedür, bilgi yönetimi için kullanılan diğer süreçlere göre bir dizi avantaja sahiptir, örneğin:

  • Veri madenciliği, üst düzey işletme yöneticilerine, çoğu durumda kuruluş içinde var olduğu bilinmeyen bir dizi ilişki ve bilgi sağlar.Veri madenciliği, şirketlerin, şirketlerin gidişatını takip edecekleri yolları seçmelerine yardımcı olur. veri madenciliği yoluyla yalnızca şirketin bildiği bilgiler bilineceğinden, pazar rakiplerine karşı rekabet avantajı elde etmenin yanı sıra, bizler de insan olarak kalıpları ve anormallikleri bir şekilde tespit etme yeteneğine sahibiz. Yüzeysel olarak konuşmak gerekirse, bu nedenle veri madenciliği kullanarak, basit takdirimizle ilk bakışta bulmanın zor olduğu kalıpları daha iyi bir şekilde algılamak mümkün olacaktır.

VERİ MADENCİLİĞİNİN YAPISI

Şimdi, veri madenciliğinin yapısı hakkında konuşursak, temelde veritabanında bulunan büyük miktarda bilgi içinde arama faaliyetlerini yürütmek için bir algoritma veya bazı bilgisayar programlarının kullanılmasından ibarettir.

Bu programların ve algoritmaların kullanımı, kuruluşların tarihsel verilerinde bir şekilde gizlenmiş olan eğilimleri ve kalıpları tespit edebilmek içindir.

Bu programlar, daha önce madenci dediğimiz şeydir, bu madenciler, programlar veya algoritmalar, çeşitli veri keşif tekniklerinin kullanıldığı kullanıcılar tarafından oluşturulur, kullanılabilen teknikler şunlardır:

  • Küme İlişkiler Sınıflandırmalar Görselleştirmeler Sinir ağları Genel algoritmalar Sapma tespiti

Yukarıda bahsedilen yöntemlerin tümü, daha fazla verime sahip olabilmeleri için çok büyük bir veritabanı gerektirir.

Bu programlar, daha önce elde edilen bilgileri derleme ve dolayısıyla geçmiş verilerde seçim ve arama faaliyetlerini gerçekleştirme işlevine sahiptir, yukarıdakileri yaptıktan sonra ilginç bir şey bulunursa kullanıcıya gösterilir.

"Madencilerin" diğer bilgi arama yöntemlerine göre bir avantajı vardır, bu da arama yapmak için herhangi bir özel yazılıma ihtiyaç duymamalarıdır. Bu arama faaliyetleri, veri ve bilgileri yakalamak için kullanılan şirket sunucularında ve tüm PC ağında gerçekleştirilir.

VERİ MADENCİLİK DÖNGÜSÜ

Veri madenciliği, döngü bittikten sonra elde edilen sonuçlar döngüye geri beslenebildiğinden, dört adım içeren bir döngü üzerinde çalışır.

  1. Öncelikle veri madenciliği sürecini gerçekleştirecek kullanıcılar aynı şekilde kurum, firma veya işletmenin yaşadığı sorunları tespit etmeli, firmaya bir nevi katma değer verebilecek verileri bulmalı ve konumlandırılmalıdır. Bilginin son derece değişken olduğu şirket alanları Yukarıdakiler yapıldıktan sonra, kullanıcı, elde edilen tarihsel verileri analiz etmek için kullanılacak en iyi algoritmayı tespit etme göreviyle karşı karşıya kalacaktır, böylece madencilik programları verimli bir şekilde çalışabilir. Önceden belirlenmiş arama kriterlerine göre, veri madenciliği süreci ile elde edilen bilgilerin karar verme sürecine dahil edilmesi, elde edilen bulguların karar verme sürecine dahil olan komiteye sağlanması,Aynı şekilde, tespit edilen sorunların bilgisi, doğru bir çözümün uygulanabilmesi için ilgili alanlara verilmelidir.Son olarak, elde edilen sonuçların bir ölçümü, karar vermekle sorumlu kişi veya komiteye verilir. önceden belirlenmiş arama kriterlerine göre bulunan sorunlara göre.

VERİ MADENCİLİĞİNİN KULLANIM VE UYGULAMALARI

Veri madenciliği kullanılarak gerçekleştirilebilecek en önemli görevlerden bazıları şunlardır:

  • Ticaret ve bankacılık: müşteri segmentasyonu, satış tahmini, risk analizi. Tıp ve eczane: hastalıkların teşhisi ve tedavilerin etkinliği Güvenlik ve dolandırıcılık tespiti: yüz tanıma, biyometrik tanımlamalar, ağlara erişim vb. Sayısal olmayan bilgi erişimi: metin madenciliği, web madenciliği, görüntü, video, ses ve metin arama ve multimedya veritabanlarından tanımlama. Astronomi: yeni yıldızların ve galaksilerin tanımlanması. Jeoloji, madencilik, tarım ve balıkçılık: farklı ürünler veya balıkçılık veya uydu görüntülerinin veri tabanlarında keşif için kullanım alanlarının belirlenmesi. Çevre Bilimleri:doğal ve / veya yapay ekosistemlerin (kanalizasyon arıtma tesisleri) işleyen modellerinin gözlemlerini, yönetimlerini ve / veya kontrollerini iyileştirmek için belirlenmesi. Sosyal bilimler: kamuoyu akışlarının incelenmesi. Şehir planlaması: sosyodemografik değerlere dayalı olarak çatışmalı mahalleleri belirleyin. (Riquelme, Ruíz ve Gilbert, 2006)

METİN MADENCİLİĞİ

Metin madenciliği, kelime işlemeye odaklanan araştırma alanının en yeni kısmıdır. Metin madenciliğine verilebilecek tanım, veri madenciliğine çok benzer, çünkü ikisi de aynı şeyi arıyor, ancak farklı bilgi türlerine bağlı.

Metin madenciliği, “bir metin koleksiyonunda ilginç örüntüleri ve yeni bilgileri keşfetme sürecidir; yani metin madenciliği, koleksiyondaki herhangi bir metinde açıkça bulunmayan ancak birkaçının içeriğini ilişkilendirmekten kaynaklanmaktadır (Hearst, 1999)

Metin madenciliği süreci temelde iki aşamadan oluşur:

  • İşleme aşaması: İlk aşamada, manipüle edilebilen metinler, daha fazla analiz kolaylığı sağlayacak şekilde yapılandırılmış bir dizi temsillere dönüştürülür. Keşif aşaması : Bu aşamada ara temsillerin analizi yapılır, ilgi duyulan metinler içinde ilginç örüntüleri keşfetmek ve bulmak ve yeni bilgiler elde etmek için bu görev gerçekleştirilir.

Metin işleme aşamasında kullanılan prosedürlere göre elde edilecek içerik temsilinin türüdür. Veri madenciliğinde kelime işlemede kullanılabilecek stratejiler aşağıdaki gibidir.

Ön aşama

Soruşturma

Temsil türü Keşif türleri
1. Sınıflandırma

2. Tam metin

3. Bilgi çıkarma

4. Vektör temaları

5. Sözcük dizisi

6. Veri tablosu

7. Tematik seviye

8. Dil kalıpları

9. Varlıklar arasındaki ilişkiler

Şekil 1.1 Metin madenciliğinin durumu (Montes ve Gómez, 2011)

Şekil 1.1'de görülebileceği gibi, metin analizi için var olan üç yöntem türü, sonuçların sunumunda bir şekilde sınırlıdır, bu da bazı daha karmaşık şeyleri keşfetmeyi ve bunlara ilişkin bilgiye sahip olmayı çok zorlaştırır. onlar yapabilir:

  1. Uzlaşı Eğilimlerinden Sapmalar

Bununla birlikte, yukarıda belirtilenleri daha iyi anlamak için, analiz edilen metinlerin daha iyi bir temsiline sahip olabileceğiniz kavramsal grafiklerden yararlanmanız önerilir.

Yine de, kavramsal grafiklere göre bilginin analizi, metinlerin sözdizimsel analizi ve anlambilimsel analizi ile ilgili iki tür problemi beraberinde getirir. Kavramsal grafiğe dönüştürülen bazı metin örnekleri şunlardır:

  • Bilimsel makalelerin bölümleri Tıbbi kayıtların bölümleri Yasal davaların bölümleri

Bununla birlikte, kavramsal grafiklerin doğru yorumlanmasına izin veren, metin madenciliğinin bu tür bilgilerin işlenmesinde temel bir parça olabileceği ve kullanılan parametrelere göre ona mümkün olan en iyi anlamı veren hiçbir yöntem yoktur. metin madenciliği işlemi için kullanma.

SONUÇLAR

Görüldüğü üzere veri madenciliği, bir şirketin yönlerini yorumlayabilmek için çok önemli bir araçtır, zamanla elde edilen tarihsel verileri dikkate alarak, bu tür madencilik, ilgili bir problemle ilgili var olan eğilimleri keşfedebilecektir. organizasyon veya veri madenciliği döngüsünün kullanımıyla keşfedilen belirli özel bilgilerin bilgisi ile size bir tür avantaj sağlayabilir; metin madenciliği, veri madenciliği ile hemen hemen aynı şeyi sağlar, ancak geniş bir metin setinden başlayarak yeni bilgilerin keşfi.

REFERANSLAR

  1. Ángeles Larrieta, MI ve Santillán Gómez, AM (2001). Veri madenciliği: kavram, özellikler, yapı ve uygulamalar. (1999). Çözülen Tet Data Mining Proc. of ACL 99: Hesaplamalı Dilbilim Derneği'nin 37. Yıllık Toplantısı. Maryland: Maryland Üniversitesi Martínez Luna, GL (Ekim 2011). Veri Madenciliği: Samanlıkta İğne Nasıl Bulunur? (UANL, Ed.) Ingenierías, XIV (53), 63. Erişim tarihi 23 Mart 2016 Mitra, S. ve Acharya, T. (2003). Veri madenciliği: multimedya, yazılımsal hesaplama ve biyoinformatik. John Wiley & Sons.Montes y Gómez, M. (2011). Metin Madenciliği: Yeni Bir Hesaplamalı Zorluk. México, DF: Instituto Politécnico Nacional, Riquelme, JC, Ruíz, R., & Gilbert, K. (2006). Veri madenciliği: kavramlar ve eğilimler. Yapay Zeka, 10 (29).

TEŞEKKÜRLER

Orizaba Teknoloji Enstitüsü'nde okuduğum İdari Mühendislik Yüksek Lisansının İdari Mühendisliğinin Temelleri konusuna çok özel bir şekilde teşekkür etmek istiyorum, ancak esas olarak hocam Dr. Fernando Aguirre y Hernandez'e araştırma ve okuma isteğini teşvik ettiği için teşekkür etmek istiyorum. farklı ilginç konular hakkında.

Orijinal dosyayı indirin

Veri ve metin madenciliği