Logo tr.artbmxmagazine.com

Madencilik: veriler, metinler, duygular

İçindekiler:

Anonim

İlk insanlar birbirleriyle iletişim kurmaya başladığından beri, çevrelerinde ortaya çıkan her şeyden her zaman haberdar olma ihtiyacı ortaya çıkmaya başladığından, aynı zamanda bu bilgileri ellerinde tutmanın bir yolunu aradılar ve kesin faaliyetler, bunlar bir toplumda, bir organizasyonda veya hatta bir ülkede kişisel veya grup eylemi içindir.

Geçmişte, verilere, bilgilere, bir tür istatistiklere erişebilmek, diğerlerinin yanı sıra, yalnızca kitaplarla, metinlerle, diğer insanlarla konuşarak, kendi deneyimlerimizle ya da en talihli olanlarla mümkündü. diğer araçların yanı sıra pratik olarak çok fazla bilgi kaydetmelerine ve hatta çoğunu aktarmalarına izin vermeyen ilk bilgisayarlar. Kişinin ihtiyaç duyduğu veriyi veya bilgiyi bulmak çok zaman ve çaba gerektirdiğinden, tüm bunlar bilgiye erişme ve paylaşma sürecini büyük ölçüde engelledi.

Bugün, dünyanın neresinde olursa olsun herkes için çok kolay olduğu için, veri ve bilginin yaratılma, üretilme ve dağıtılma şekli daha iyiye doğru değişti. Belli bir ülkenin ekonomisi, bir ürünün pazarlanması, ortaya çıkan ve yaşam tarzımızı kolaylaştıran yeni teknolojiler hakkında birçok şeyin yanı sıra bilgi bulabiliriz; Bu bilgiler büyük veri tabanlarında saklanır.

Ve evet, her ne kadar her şey mükemmel gibi görünse de, herhangi bir bilgiyi pratik olarak bir tıklama mesafesinde bulmak çok kolaydır, bu, milyonlarca veri üretildiğinden hangisinin en iyi veya en güvenilir bilgi olduğunu seçmeyi biraz zorlaştırır. güncel.

Veri madenciliğini çeşitli durumlarda dinlememiz çok yaygındır, ki bu da kişinin veya kuruluşun ihtiyaç duyduğu verileri ve bilgileri gerektiği anda daha iyi bir şekilde seçebilmek için çok etkili bir araçtır. Benzer şekilde, bu araçtan, veri madenciliği ile aynı temelleri paylaşan, yalnızca başka yönlere yöneldikleri metin ve duyarlılık madenciliği olan diğerleri ortaya çıkar.

Anahtar kavramlar.

"Madencilik (Veriler, Metinler, Duygular)" konulu okuma sürecini kolaylaştırmak için, okuyucunun bilmesi önemli görülen bazı tanımlara atıfta bulunulacaktır:

Veri madenciliği

"Verinin belirli bir bağlamdaki davranışını açıklayan tekrarlayan kalıpları, eğilimleri veya kuralları bulmak amacıyla büyük veritabanlarının otomatik veya yarı otomatik olarak araştırılmasına izin veren teknikler ve teknolojiler kümesidir." (Sinnexus, 2016)

Metin madenciliği

"Koleksiyonun herhangi bir metninde açıkça bulunmayan, ancak birkaçının içeriğini ilişkilendirmekten doğan bilgileri keşfetmekten sorumlu süreçtir." (Rochina, 2017)

Duygu madenciliği

"Kaynaklardan öznel bilgileri belirlemek ve çıkarmak için doğal dil işleme, metin analizi ve hesaplamalı dilbilimin kullanılmasını ifade eder." (Wikipedia, 2018)

Veri madenciliğinin kökeni

Veri madenciliği, uzun yıllardır kullanılmadığı için nispeten yeni sayılabilecek bir konudur. Veri madenciliğinin kilit kısımları, başka bir deyişle, doğru çalışmasına izin veren unsurlar, diğerlerinin yanı sıra istatistik, otonom öğrenme, yapay zeka gibi farklı alanların araştırılmasında daha çok zaman önce kullanılmıştır.. Günümüzde veri madenciliği aracı, geçmişte olduğundan çok daha kapsamlı olan güçlü bilgi arama motorlarının ve veritabanlarının iyileştirilmesi sayesinde önemli ölçüde ilerlemiştir.

Veri madenciliği kavramı ile ilgili ilk fikirler, veri mühendisliği çalışması sayesinde 50'li yılların on yılında geldi. O sırada kendini bilgi işlem yapmaya adamış olanlar, belirli ürünler, süreçler ve diğer şeylerin yanı sıra, farklı türlerde bilgi listeleri oluşturmuş olanlar, tüm bu bilgiler organizasyonda ana bilgi olarak hizmet veren bir tür bilgisayarda saklanıyordu. ve yöneticilerin belirli bir konuda en iyi kararı vermelerine yardımcı oldu.

Bütün bunlarla birlikte, bilgi işlemeye adanmış ilk sistemler şirketin yöneticileri veya başkanları için tasarlandı, ne yazık ki, bu sistemler çok ağırdı ve bilgi işlemle aşina olmayanlar için de fazla bilgi kaydedilemedi. Anlaşılması kolay değildi.

1960'larda, ilk veritabanı yönetim sistemleri oluşturuldu, ancak henüz bu kavramlara aşina olmayan biri için tam olarak "sindirilebilir" değillerdi.

Zaten 80'lerde, önceki veritabanı sistemlerinin sahip olduğu rahatsızlıkları gideren Veri Ambarı adı verilen sistem oluşturuldu. Veri Ambarı'nın varlığı, konuyla ilgili uzmanların tüm bunlara yeni bakış açıları geliştirmesini sağladı, bu analizler otonom hale geldi ve bazı bilgilerin kaldırılmasına fırsat verdi.

Veri tabanları ve veri madenciliği tarihi, (Martínez, 2010)

Veri tabanları ve veri madenciliği tarihi, (Martínez, 2010)

Veri madenciliği

Günümüzde dijital kültürün beraberinde getirdiği devrim, veri ve bilginin yakalanması, depolanması ve işlenmesinin nispeten kolay bir iş olduğu yeteneğini vermiştir, ayrıca tüm bu prosedürü yapmanın fiyatı da nispeten çok düşüktür. birkaç yıl öncesine mal oldu.

Bilgisayar sistemlerinde veya dijital veri tabanlarında depolanan verilerin hacmi ve çeşitliliğindeki artış son yıllarda hayal bile edilemeyecek şekilde artmıştır.

Bir organizasyonun kurulmasından veya oluşturulmasından bu yana biriken tüm veriler, şirketin kendisinin hafızası işlevi görmeli ve benzer şekilde, yakın gelecekte belirli verileri veya bilgileri önceden haber vermek için yararlı olmalıdır.

Herhangi bir şirket tarafından üretilen büyük hacimli verileri analiz etme sürecini yürütmek için, verileri ve bilgileri yönetmeye yönelik geleneksel prosedürlerin yanı sıra farklı istatistiksel metodolojiler artık yeterli değildir veya başka bir deyişle, ihtiyaç vardır.

Bir kuruluşun bir karar vermesi gerektiğinde, bu her zaman bazı veri kaynaklarında toplanan geçmiş olaylarla ilgili bilgi veya verilere dayanacaktır. Bu bilginin otomatik veya yarı otomatik olabilen ilgili veri tabanından çıkarılması, şu anda çok fazla ilgi çekmeye başladı, bu nedenle bunu verimli bir şekilde yapabilmek için farklı prosedürler geliştirildi, bu araçlardan biri Veri madenciliği.

Veri madenciliğinin temel amacı, kuruluşun karar verirken çalışanlara çeşitli kolaylıklar sağlayacak bir veritabanından edindiği bilgileri tespit etmektir.

Veri madenciliği, yapay zeka, grafik görselleştirme, veri tabanları ve istatistiksel analizin farklı yarı otomatik tekniklerini birleştirir, böylece kuruluş, tek başına madencilik yapamayacağından, toplanan tüm verilere ve bilgilere dayanarak bazı bilgiler elde edebilir. şirket için bir değeri temsil ediyor. Veri madenciliği, veri analizi teknolojisi araçlarının gelişiminde en tepede olabilir.

Veri madenciliği kavramı (veya İngilizce adıyla DataMining) bir tepe benzetmesinden ve bir organizasyonda depolanan devasa miktardaki veriden gelir. Bu veriler tepenin içinde, kayalar ve çalılar arasında saklı; Derinlemesine kazarsanız, önemli değere sahip "mücevherler" olarak sınıflandırılabilecek farklı kayalar bulabilirsiniz, başka bir deyişle, verileri derinlemesine araştırırsanız, bilgi oluşturmak için çok değerli olabilecek bilgileri bulabilirsiniz.

Veri madenciliği gerektiren süreç

Doğru bir veri madenciliği yapabilmenin ilk adımı, ne tür verilerin arandığını belirlemektir. Bunun için hangi verilerin gerekli olduğunu, nerede bulunabileceğini ve nasıl elde edileceğini düşünmelisiniz.

Elimizde olduktan sonra, ihtiyaç duydukları veya izin verdikleri formatta veritabanlarında saklanarak hazırlanmalılar veya bir depo oluşturma seçeneği de var (madenciliğin en karmaşık kısımlarından biridir. veri). Veriler, veri tabanı tarafından kabul edilen formatta zaten depolandığında, sadece gerekli olan verilerin seçimi devam eder ve organizasyon için çok önemli olmayanlar silinir.

Neyi başarmak veya bulmak istediğimiz konusunda net olmalıyız (bu, veri madenciliği kullanarak veri analizine devam etmeden önce yapılmalıdır), ayrıca hangi araçları veya süreçleri de aklımızda tutmalıyız. sürece devam etmek için hayati öneme sahiptirler. Kullanmaya karar verdiğimiz aracı kullandıktan sonra, organizasyon için gerçekten yararlı olup olmadıklarına karar verebilmek ve daha sonra olası kullanım için sınıflandırabilmeniz için, elde edilen sonuçların nasıl deşifre edileceği konusunda bir fikriniz olmalıdır.

Kuruluşun şu anki anı için yararlı olan veriler ve bilgiler olduğundan, tartışılan durum hakkında mümkün olan en iyi kararı vermek için bunlar tartışılacak ve analiz edilecektir.

Veri madenciliği ile elde edilen verilere dayanarak karar verildikten sonra, ne olduğunu değerlendirmeye devam ediyoruz, bunu başarmak için sonuçlar gözlemlenmeli ve çalışılmalı, faydalar varsa ve neydi? geri bildirim olarak sürecin toplam bir değerlendirmesini yapabilmek için toplam maliyet. Bu geri bildirim dönemi boyunca, veriler değişme eğiliminde olacaktır, yeni araçların veya metodolojilerin bulunması mümkündür ve açık bir şekilde bir sonraki veri madenciliği döngüsünün yeniden planlanması gerekecektir.

Sentez yoluyla, veri madenciliği süreci aşağıdaki adımları içermelidir:

  • Verileri işleyin Duruma en uygun özellikleri seçin Gerekli veri ve bilgileri kaldırmak için bir algoritma seçin Analiz, yorumlama ve değerlendirme

Veri madenciliği süreci, (Egonzales, 2008)

Veri madenciliği teknikleri

(Ahumada, 2016) 'ya göre veri madenciliği teknikleri genellikle tahmin edici, tanımlayıcı ve yardımcı olarak sınıflandırılır ve aşağıdaki gibidir:

  • Regresyon, Varyans ve kovaryans analizi, Zaman serileri, Boyesyen yöntem, Genetik algoritmalar.

Ad hoc sınıflandırma:

  • Ayrımcı, karar ağaçları ve sinir ağları.

Post hoc sınıflandırması:

  • ClusterinSegmentation
  • Bağımlılık İlişkilendirmesi Çok boyutlu ölçeklendirme Boyut azaltma Keşif analizi
  • SQL ve sorgu aracı.

Veri madenciliği ne yapar?

Doğası gereği veri madenciliği bir süreçtir, bu nedenle bir model ayarlaması dahil edilmeli veya standartlar belirli verilere göre belirlenmelidir. Genellikle, bu ayarlamalar istatistiksel bir sınıfa aittir, çünkü bolluk, modelin belirli bir hataya sahip olabilmesi için verilecektir.

Veri madenciliği, tahmin etme (halihazırda bilinen verilere dayalı olarak) ve açıklama (oluşturulmuş modellere dayalı olarak) işlevine sahip olacak algoritmalar gerektirir. Bu görevlerden bazıları aşağıdaki gibidir:

  • Bu görev, verileri tanımlamak için kategori gruplarını tanımlamayı amaçlamaktadır. Bu kategoriler dışlayıcı veya ayrıntılı olabilir, benzer şekilde hiyerarşik bir temsile dayalı olabilir ve hatta çakışmalara izin verebilir.
  • Veri madenciliği, önceden belirlenmiş sınıfların herhangi birindeki bazı verileri haritalama, başka bir deyişle kataloglama yeteneğine sahiptir ve bu, belirli verileri çok daha kısa sürede bulmaya hizmet edecektir.
  • Veri madenciliğinin bu bileşeni, bir veri alt kümesinin biraz sıkıştırılmış açıklamalarını bulmamıza yardımcı olan bir yöntemin bulunmasına dayanır. Daha karmaşık süreçler, anlama kuralları, çok değişkenli görselleştirme ve çeşitli değişkenler arasındaki işlevsel ilişkileri yorumlama becerisini içerir. Yukarıda belirtilen süreçlerin, verilerin interaktif bir şekilde analizinde ve incelenmesinde ve otomatik raporların oluşturulmasında kullanılması çok yaygındır.
  • Bu görevin temel amacı, değişkenler arasındaki bağımlılıkların tanımlandığı bir model bulmaktır. Bu modellerde iki seviye bulabiliriz, bunlar:
    • Yapısal düzey: Bu düzeyi, değişkenlerin yerel olarak birbirine bağlı olduğu bir grafik olarak bulmamız çok yaygındır Nicel düzey: Bu bağımlılıkların “boyutunun” ne olacağını sayısal ölçekler yardımıyla detaylandırır.

Olasılıklı bağımlılık ağları, modelin yapısal tasarımının ve olasılıklarının ne olacağını belirlemek için koşullu bağımsızlıktan yararlanmalıdır.

  • Bu görevin temel amacı, bir veri için haritalama konumuna ulaşmak ve onu gerçek bir değere sahip bir tahmin değişkeni haline getirmektir. Bu göreve verilebilecek bazı örnekler şunlardır: Mikrodalga ile analiz edilen belirli bir ormanın bir bölümünde ne kadar biyokütle olduğunu tahmin etmek; Aynı şekilde, önceki bir teşhisin sonuçlarına dayanarak, bir hastanın ölmeme olasılığını hesaplama becerisine sahiptir.

Metin madenciliği

Veri madenciliği, teknik olarak genç bir araştırma ve kelime işleme alanıdır. Veri madenciliği ile aynı şekilde yorumlanır, başka bir deyişle yeni çekici modellerin veya standartların öngörüldüğü ve yeni bilgilerin üretilebildiği bir metodolojidir, ancak veri işgal etmek yerine büyük miktarda metin kullanılacaktır.

Söyleyebileceğimiz kadarıyla, metin madenciliğinin temel amacı, bazı metinlerde açıkça belirtilmeyen yeni bilgiler bulmaktır.

Metin madenciliğinin aşamaları (Gómez, 2001)

Benzer şekilde, veri madenciliği aşağıdaki görevleri yerine getirme eğilimindedir:

  • Verileri ve bilgileri alın, yani kuruluşun aradığına en uygun metinleri seçin Bazı metinlerde gömülü olan ve gözden kaçan değerli bilgileri çıkarın, bunlar şunlar olabilir: gerçekler, anahtar kelimeler, önemli olaylar, Veri madenciliğine benzer bir metodolojiye sahip olarak, metin madenciliği aynı zamanda şirket için yeni bilgiler yaratmak için gerekli verileri bulmak ister.

(Nuño & Machado) 'ya göre metin madenciliği tarafından kullanılan bazı teknikler şunlardır:

  • Metin sınıflandırması Bilgileri alın ve temel metinleri çıkarın Makine öğrenimi Doğal dil işleme

Metin madenciliği süreci

Yukarıda bahsedildiği gibi, metin madenciliği nispeten genç bir tekniktir, sürecinde değişiklik gösterebilir ve farklı durumlara göre biçimlendirilebilir, bize rehberlik edecek yerleşik bir metodoloji hala yoktur.

Ancak, aşağıdaki adımlardan yararlanabilirsiniz:

Metin madenciliğinin adımları, elde edilen bilgilerle kendi ayrıntıları (Gómez, 2001)

Duygu madenciliği

Veri madenciliği, doğal dil işleme, hesaplamalı dilbilim ve metin madenciliğinin bir dizi teknik uygulamasıdır ve ana amacı, ortak çalışanlar veya başka herhangi bir kişi tarafından geliştirilen içerikten içsel bilgilerin çıkarılmasıdır, örneğin: ürünleri değerlendirmek için var olan farklı sosyal ağlarda, bloglarda veya yorum gruplarında günden güne gerçekleştirilir.

Duygu madenciliği, farklı kullanıcılar tarafından üretilen öğelerde örtük olan öznel öğelerin analizi ile belirli bir ilişki taşıyan çeşitli çalışma alanlarını kapsar. Bu nedenle, duygu madenciliği yapılabilecek iki tür görev bulabilir.

Polarite karakterizasyonu

Bir görüşün olumlu veya olumsuz olarak sınıflandırılıp sınıflandırılamayacağını, kullanıcı için yararlı olup olmayacağını tespit edebilmekle ilgilidir. Ayrıca, belirlenmiş bir aralıkta sayısal bir değer üretme olasılığı vardır.

Özelliklere göre duygu çalışması.

Bazı kullanıcıların yazdığı görüşte öngörülen ürün veya hizmetin farklı özelliklerini bulma yeteneğini vurgular.

Tez önerisi.

Kuruluşun daha iyi yönetimi için Córdoba - Orizaba bölgesindeki KOBİ'ler içinde veri madenciliği uygulayın.

Amaç.

Kuruluş içindeki bilgi akışını optimize edin, yararlı olanı olmayandan ayırın ve böylece karar verme sürecini hızlandırın.

Teşekkürler.

Ailem, bana her geçen gün devam etmem için tüm destek ve cesaretleri verdikleri için, Orizaba Teknoloji Enstitüsü ve CONACYT'e kapılarını bana açtıkları ve İdari Mühendislik Yüksek Lisans Derecesi ile çalışmalarıma devam etmeme izin verdikleri için ve Doktor Fernando Aguirre y Hernández'e teşekkür ediyorum. atanmış makalelerin her birini yürütmek için beni İdari Mühendisliğin Temelleri seminerinde bilginizle motive edin.

Sonuç.

Organizasyonlar ve içlerinde çalışan herhangi bir ortak çalışan, büyük hacimli bilgi, madencilik, her türden (veriler, metinler veya duygular) olabilen, tanımlama, seçim, işleme için çok gerekli olan belirli araçları ve becerileri sağlayacaktır. bilgi üretebilmek için toplanan verilerin incelenmesi ve değerlendirilmesi ve daha sonra bunların içinde çalışan kuruluşlar ve işbirlikçiler için son derece yararlı olabilecek bilgiler haline getirilmesi.

Madencilik, şirketin geleceği ile ilgili farklı kararlar verirken çok yardımcı olabilir, çünkü bunların yardımı ile üretilen tüm bilgiler, fikirleri daha iyi yapılandırmak ve bunların doğruluğu, böylece en iyi kararı verirken hiç şüphe kalmasın.

Aynı şekilde, teknolojik bir strateji olarak çalışır, her tür madencilik, organizasyonlarda çeşitli süreçleri, özellikle yukarıda açıklanan karar verme sürecini optimize ettiği için rekabet avantajını artırır.

Kaynakça.

Ahumada, AM (7 Nisan 2016). Gestiopolis. Https://www.gestiopolis.com/mineria-datos-textos-sentimientos-2/#autores adresinden alındı

Egonzales. (4 Nisan 2008). Monografları. Http://www.monografias.com/usuario/perfiles/egonzalez/monografias adresinden alınmıştır.

Gómez, MM (2001). Metin Madenciliği: Yeni Bir Hesaplamalı Zorluk. Ulusal Politeknik Enstitüsü, 2-13.

Martínez, BB (2010). BUAP. Http://bbeltran.cs.buap.mx/Ceneval.html adresinden alındı

Nuño, RR ve Machado, EF (nd). Galeon.com. Http://textmining.galeon.com/ adresinden erişildi.

Orallo, JH, Quintana, MJ ve Ramírez, CF (2014). Veritabanları ve Yazılım Mühendisliğinde Otomatik Bilgi Çıkarma. Valencia Politeknik Üniversitesi.

Rochina, P. (25 Nisan 2017). INESEM dijital dergisi. Https://revistadigital.inesem.es/informatica-y-tics/text-mining/ adresinden alındı

Sinnexus. (2016). Sinnexus. Https://www.sinnexus.com/business_intelligence/datamining.aspx adresinden erişildi.

Vikipedi. (18 Nisan 2018). Vikipedi, bedava ansiklopedi. Https://es.wikipedia.org/wiki/An%C3%A1álisis_de_sentimiento adresinden alındı

Madencilik: veriler, metinler, duygular