Logo tr.artbmxmagazine.com

Veri, metin ve duyarlılık madenciliği

İçindekiler:

Anonim

Veri madenciliği, büyük miktarda veriyi keşfederek yeni ve önemli ilişkileri, eğilimleri ve kalıpları keşfetme süreci olarak tanımlanabilir.

Çeşitli bilgisayar araçlarının kullanımının yanı sıra büyük miktarda bilgiye sahip olmak, verilerin analizini Veri madenciliği veya veri madenciliği olarak bilinen şeyde çerçevelenmiş farklı özel tekniklerin uygulanmasına yönlendirmiştir.

veri madenciliği-den-metinler-ve-duygular-ana

Veri madenciliğinde kullanılan teknikler, büyük bir veritabanında bulunan bilgilerde düzenli bir şekilde depolanan bilgiyi otomatik olarak keşfetmeyi amaçlamaktadır. Temel amaç, kalıpların, sinir ağlarının, bulanık mantığın, genetik algoritmaların ve diğer birçok gelişmiş veri analizi tekniklerinin tanınmasına izin veren teknolojileri kullanarak verileri analiz ederek kalıpları, profilleri ve eğilimleri bulmaktır.

Günümüzde veri madenciliği, finans ve bankacılık düzeyinde, piyasaların ve işletmelerin analizinde, hem kamu hem de özel sağlık alanında, eğitim düzeyinde, endüstriyel süreçlerde, finans ve bankacılık düzeyinde birçok bilim alanında kullanılmaktadır. tıp, biyoloji ve biyomühendisliğin yanı sıra telekomünikasyon ve farklı alanlarda. (Perez Lopez ve Santín González, 2007)

Bu yazıda, veri madenciliği kavramını, uygulamalarını ve organizasyonlarda karar verme için önemini gözden geçireceksiniz.

Veri madenciliği nedir?

Veri madenciliği, farklı veritabanlarında bulunan geçerli, ayrıntılı ve çok yararlı bilgileri çıkarmak ve elde etmek için kullanılan bir teknikler grubu olarak anlaşılır. Gelecekteki eğilimleri ve davranışları tahmin etmeye yardımcı olduğu ve kuruluşlar için güçlü bir araç haline getirdiği için karar verme için çok yararlıdır.

İngilizce olarak bilinen veri madenciliği veya Veri madenciliği, madencilik endüstrisinde yeryüzüne yükselen patlamalar yaparak mineralleri topraktan çıkarmak için kullanılan prosedürleri anlatır. Aynı tekniğin ardından veri madenciliği, veritabanlarını onlardan gizli bilgileri çıkarmak için patlatır.

Veri madenciliği, çeşitli algoritmik araçlar ve teknikler kullanarak, belirli bir olasılıkla geleceği tahmin etmek ve durumları tahmin etmek için veritabanlarındaki gizli ilgi kalıplarını arar. Bu şekilde, ne kadar uzman olursa olsun herkesin kolayca bulamayacağı öngörülebilir bilgiler bulunabilir. Veri madenciliği herhangi bir donanım ve yazılım platformunda uygulanabilir ve çevrimiçi bilgi sistemlerine entegre edilebilir. (Reinosa ve Maldonado, 2012)

Veri madenciliğinin tarihçesi

Veri madenciliği yeni bir şey değil, istatistikçiler o dönemde veri balıkçılığı, veri madenciliği veya veri arkeolojisi terimlerini kullandıklarında altmışlı yıllardan beri yapılıyor; Seksenlerin ilerleyen yıllarında insanlar, İngilizce'deki kısaltması ile veri madenciliğinin bir parçası olan verilerden bilgi çıkarma işlemi anlamına gelen KDD terimi hakkında konuşmaya başladılar. O yıldan itibaren, veri madenciliği ile ilgili hizmetler sağlamaya adanmış birkaç şirket oluşturuldu ve yavaş yavaş diğerleri ortaya çıktı; Şimdiye kadar veri madenciliğine adanmış yüzden fazla şirket var. (Felix, 2002)

Osco Drugs of American Stores için bir çalışma yürüten NCR şirketinin bir çalışanından bilinen 1992 veri madenciliği uygulama başarı öyküsü var. Bu çalışma sonucunda gece 5-7 saatleri arasında birbiriyle akraba olmayan ancak aynı anda taşınan iki ürünün satın alınmasının daha sık gerçekleştiği görülmüştür: çocuk bezi ve biralar. Bu daha sonra, o sırada çocuk bezi satın almaya gönderilen birçok ebeveynin de bazı kutu bira taşıdıkları sonucuna varmıştır. seçim veya dürtü ile.Bu, veri madenciliği kullanılırken bulunabilecek beklenmedik sonuçların ve kuruluşunuzun bu keşiflere dayanarak verebileceği kararların bir örneğidir. Kuruluşun elde edilen sonuçları kullanmak için çevik olması çok önemlidir, bu nedenle, olması gerektiği gibi kullanılmadığı sürece veri madenciliği tek başına yararlı değildir. (Reinosa ve Maldonado, 2012)

İş zekası

Veri madenciliğinin kökeni, belirli bir konuda karar almak için bilgi toplamak olan bilgi sistemlerinde yatar. Yeni yazılım ve donanımların ortaya çıkmasıyla birlikte kuruluşlar bilgisayarlaşır ve bilgi sistemleri, yönetim için bilgi sistemleri olarak adlandırılan satış, üretim, insan kaynakları ve diğerleri gibi şirketin temel süreçlerini desteklemeye başladı.. Zamanla ve şirketlerin karar almalarına yardımcı olacak bir temele ihtiyaç duyduktan sonra; EIS ve OLAP gibi DSS (Karar destek sistemi) adı verilen bu ihtiyaçları ve veri madenciliğinin farklı teknik araçlarını karşılayan araçlar ortaya çıktı.

EIS (Yönetici bilgi sistemleri), şirket yöneticilerinin faaliyetlerin durumuna ve bunların yönetimine erişmesine olanak tanıyan bir dizi araç ve bilgi sistemidir. Şirkette meydana gelen herhangi bir değişikliğin anında raporlanmasını sağlar, bunun için kuruluşun günlük durumunu temel göstergeler aracılığıyla analiz eder. Düzenli olarak talep edilen bilgi türleri genellikle haftalık satışlar, kısmi bakiyeler ve stokların seviyesidir ve aynı zamanda elektronik tablolarda grafiklerle temsil edilir. (Perez Lopez ve Santín González, 2007)

OLAP'ler (Çevrimiçi analitik işleme), yeni veriler üretmek için verileri işleme ve dönüştürme kolaylığı sağlar. OLAP'ın amacı, büyük miktarda veri sorgusunu kolaylaştırmaktır.

Veri madenciliği araçları, gelecekteki davranışları tahmin etmek için kalıpları ve eğilimleri çıkarmayı amaçlamaktadır. Veri madenciliği verileri analiz ederken, OLAP ve EIS bilgiye erişimi kolaylaştırır, böylece daha etkili bir analiz yapılabilir, bu da veri madenciliğini destekledikleri anlamına gelir.

Her bir aracın kullanımı, kuruluşun amacına bağlı olacaktır, bunun için aşağıdaki tabloda görebileceğimiz gibi temel bir sorudan başlamalıdır: (Braga, Valencia ve Carvajal, 2009)

Yukarıda belirtilen sistemlerin çalışabilmesi için, araçların uygulanmasına izin veren bir alana yönelik bir bağlam veya çalışma alanını tanımlayan, iç veya dış geçmiş verilerden oluşan bir koleksiyon olan bir veri ambarı veya Depo olması gerekir. karar vermeye yardımcı olmak için verileri tanımlama, özetleme ve analiz etme.

Verileri yüklemek veya beslemek için, verilerin okunmasından, yeni verilerin birleştirilmesinden, anahtarların oluşturulmasından vb. Sorumlu olan ETL (Çıkarma, dönüştürme, Yükleme) adlı bir sistem kullanılır. Aşağıdaki görüntü, bu sistemlerin nasıl çalıştığını açıklamaktadır

Veri madenciliği teknikleri

Veri madenciliği teknikleri tahmini, açıklayıcı ve yardımcı olarak sınıflandırılır ve aşağıdaki resimde göründüğü gibi düzenlenir.

Bir veri madenciliği modelini nasıl oluşturursunuz?

Veri madenciliği uygulamak için aşağıdaki altı adım izlenebilir:

  • Sorunun tanımlanması Veri hazırlama Veri araştırması Modellerin oluşturulması Modellerin araştırılması ve doğrulanması Modellerin uygulanması ve güncellenmesi

Aşağıdaki şekilde bu adımları görebilirsiniz

Görüldüğü gibi bu döngüsel bir süreçtir, yani bulunan veriler modelin oluşturulması için yeterli değilse veya modeller önerilen amaçlar için yeterli değilse. Yeni bir model oluşturmak için aynı adımlar daha sonra tekrarlanmalıdır.

Problemi tanımla

Bir madencilik modeli oluşturmak için yapılacak ilk şey, sorunu tanımlamak ve verilerin onu çözmek için nasıl kullanılabileceğini düşünmektir.

Bu noktada, iş gereksinimleri analiz edilir, sorunun kapsamı tanımlanır, modelin nasıl değerlendirileceği ve veri madenciliği projesinin özel hedeflerinin belirlenmesi. Bunun için şu sorular sorulabilir:

  • Ne arıyorsun? Ne tür ilişkiler bulmaya çalışıyorsunuz? Sorun, politikaların çözmeye çalıştığı sorunu çözmeyi yansıtıyor mu? Veri madenciliği modelinden ne yapmak istiyorsunuz? Tahminler, ilginç kalıplar veya ilişkilendirmeler mi arıyorsunuz? Hangi sonucu tahmin etmek istiyorsunuz? Hangi verilere sahipsiniz ve her sütunda ne tür bilgiler var? Tablolar varsa nasıl ilişkilidir? Kullanılmadan önce verilerin temizlenmesi, toplanması veya işlenmesi gerekiyor mu? Mevsimsel mi? İş süreçlerini doğru bir şekilde temsil ediyorlar mı?

Verileri hazırlayın

Bir sonraki adım, önceki adımda tanımlanan verileri birleştirmek ve temizlemektir. Bu veriler tutarsızlıklara sahip olabilir veya bir müşterinin piyasaya çıkmadan önce bir ürünü satın alması veya evinden 20.000 km uzakta bulunan bir mağazadan satın alması gibi geniş bir alana yayılmış olabilir.

Bu temizleme yalnızca geçerli olmayan verileri kaldırmakla değil, aynı zamanda verilerde gizli olan korelasyonları aramak, en doğru olan verilerin kaynağını belirlemek ve analiz için hangi sütunların en uygun olduğunu belirlemekle ilgilidir.

Verileri keşfedin

Veri madenciliği modelleri oluştururken en iyi kararı verebilmek için verileri bilmelisiniz, bunun için minimum ve maksimum değerleri hesaplamak, ortalama ve standart sapmaları hesaplamak ve incelemek gibi keşif tekniklerini kullanmalısınız. verilerin dağıtımı.

Modeller oluşturun

Veri madenciliğinin dördüncü adımında yapılan, verilerin araştırılmasında edinilen bilgileri kullanarak model oluşturmaktır, bunun için bir yapı oluşturmak için hangi veri sütunlarının kullanılacağının tanımlanması gerekmektedir. veri madenciliği.

Modelleri keşfedin ve doğrulayın

Veri madenciliği sürecindeki bir sonraki adım, daha önce elde edilen modelleri araştırmak ve dağıtımdan önce etkili olduklarını doğrulamaktır. Modelleri test ederek, başlangıçta ortaya çıkan sorun için hangisinin daha iyi sonuçlar verdiğini görebilirsiniz.

Oluşturulan modellerden hiçbiri işe yaramazsa, sorunu yeniden ifade etmek veya orijinal setteki verileri yeniden araştırmak için önceki adımlara geri dönmelisiniz.

Modelleri dağıtın ve güncelleyin

Son olarak, üretim ortamında en iyi şekilde çalışan, firmanın ihtiyaçlarına göre farklı görevleri yerine getirebilen modeller uygulanmalıdır.

Modelin gerçekleştirebileceği görevler şunlardır:

  • Daha sonra iş kararları vermek için kullanılabilecek tahminler yapmak için Modelden kuralları, formülleri ve istatistikleri almak için içerik sorguları oluşturun Modelin işlevselliğini bir uygulamaya yerleştirin (Microsoft, 2014)

Veri madenciliği uygulaması

Şu anda veri madenciliği, aşağıdakiler gibi çeşitli alanlarda kullanılabilir:

  • Finansal analiz yapın: Bankacılık veya finans sektöründe uygulanır ve aranan, güvenilir sistematik analizler yapmanın mümkün olduğu verileri sağlamaktır. Bununla, kredi ödemelerini tahmin etmek, müşteri kredi politikalarını analiz etmek, özel teklifler oluşturmak ve olası dolandırıcılık ve mali suçları tespit etmek için müşterileri sınıflandırmak ve gruplamak mümkündür. satışlar, satın alma geçmişi ve yük taşımacılığından gelen birçok bilgi. Bu veriler ile mağazaların daha iyi bir hizmet sunmasına ve elde tutulmasını kolaylaştıracak tahminler yapılabilir. Bu durumlarda veri madenciliği şunları yapabilir:
    • Satışların, müşterilerin, ürünlerin, zamanın ve bölgenin analizi Satış kampanyalarının etkinliğini analiz edin Ürünleri kişiselleştirilmiş bir şekilde önerin
    Telekomünikasyonda: Bu sektörde veri madenciliği telekomünikasyon modellerini belirlemek için kullanılabilir, dolandırıcılık faaliyetlerinin tespitini kolaylaştırmaya yardımcı olur ve kaynakların daha iyi kullanılmasını sağlayarak hizmet kalitesini artırır. (Lantares, 2014)

Metin madenciliği nedir?

Metin madenciliği, belgeleri incelerken açıkça görülemeyen yeni bilgiler oluşturmak için bilginin yeri, analizi ve organizasyonudur. Elde edilen yeni bilgiler, internet sayfaları, e-postalar, veri tabanlarındaki bir alan veya herhangi bir format olmadan bir metin dosyası olabilen, yalnızca belgelerin okunmasıyla tanımlanamayan bir model, bir eğilim veya bir korelasyon olabilir.

Metin madenciliği veya metin madenciliği üç temel faaliyetten oluşur:

  • Bilgi alın: uygun metinleri seçin Bu metinlerde bulunan bilgileri çıkarın: önemli veriler, gerçekler ve olaylar Bu anahtar metinler arasındaki ilişkileri bulmak için veri madenciliğini kullanın (galeon.com, 2016)

Metin madenciliği nasıl yapılır?

Veri madenciliğini gerçekleştirmek için aşağıdaki dört aşama takip edilebilir:

Birinci aşama: Soruşturmada aranılanın netleştirilmesi ve sınırların belirlenmesi ve ne ölçüde derinleştirilmesinin istendiği hedefler belirlenir.

İkinci aşama: Bilginin çıkarılacağı metin veya belgeleri seçerek, analiz ederek ve azaltarak verileri işleyin. Bu en çok zaman harcayan aşamadır

Üçüncü aşama: Hangi model veya tekniğin kullanılacağını belirleyin, bu belirlenen hedeflere ve gerçekleştirilecek görevlere bağlı olacaktır.

Dördüncü aşama: Bulunan bilgileri kuruma en uygun kararları vermede kullanmak için sonuçlar analiz edilir. (galeon.com, 2016)

Metin madenciliği uygulaması

  • Bilgi ayıklamak için: Web'de bulunan büyük miktardaki metinden bilgi çıkarmak için kullanılabilir, böylece varlıkların ve bunların ilişkilerinin tanımlanmasına, önemli bilgilerin açığa çıkarılmasına ve verilerin anlaşılmasını kolaylaştırılmasına izin verir. belgeler, özellikle faaliyetlerinin ve projelerinin tarihsel kaydını belgelerde tutan şirketlerde. Bunun için, belgeleri gruplandıran ve daha iyi anlamak için her bir grubun her birinden açıklayıcı bilgi alan metin madenciliği algoritmaları uygulanır.Özetlerin hazırlanması: bir dizi belgenin genel bir açıklaması elde edilebilir belirli bir konu ile ilgili.Bu anlamda, bu yöntemler iki kategoriye ayrılabilir: çıkarımlı özetleme ve soyut özetleme Bilgi çıkarma: metin madenciliği kullanarak belgelerden çıkarılan bilgilerden bilgi modelleri oluşturmak mümkündür.

Duygu veya fikir madenciliği nedir?

Fikir veya duygu madenciliği, amacı insanlar tarafından bloglarda veya dergilerin incelemelerinde yayınlanan bilgilerden öznel bilgileri çıkarmak olan bir dizi doğal dil işleme, hesaplamalı dilbilim ve metin madenciliği tekniklerinin uygulanması olarak tanımlanabilir. çevrimiçi ürünler. Bu analizden olumlu veya olumsuz önemli bilgiler elde edilebilir.

Görüşleri veya duyguları araştırırken, metin madenciliği uygulanır ve iki şekilde yapılabilir:

  • Polarite tespiti: amacı, bir görüşün olumsuz mu yoksa olumlu mu olduğunu belirlemek ve aynı zamanda belirli bir görüşle ilişkili bir derecelendirme elde etmek için belirlenmiş bir aralıkta sayısal bir değer elde etmeye çalışmaktır.Özelliklere dayalı duyarlılığın analizi: amacı Kullanıcıların görüşlerine veya görüşlerine dayanarak bir ürünün özelliklerinin neler olduğunu tespit edebilir ve bu özelliklerin her biri ile bir kutupluluk elde edebilir. (Brainsins, 2015)

Sonuç

Veri, metin ve duyarlılık madenciliği, veri ve metinleri analiz etmek için çok yararlı araçlar sağlar ve aynı zamanda karar vermeye yardımcı olan davranış modellerinin tanımlanmasına izin verir. Veri, metin ve duyarlılık madenciliğine verilebilecek birçok kullanım vardır, ancak bir soruna ilk yaklaşıma dayanarak ne tür bir teknik kullanacağını belirlemek her kuruluşa kalmıştır.

kaynakça

  • Braga, LP, Valencia, LI ve Carvajal, SS (2009). Veri madenciliğine giriş. Sao Pablo: National Union of Publishers Brains. (2015). Kaynak: http://www.brainsins.com/es/blog/mineriaopiniones/3555Cesar Perez Lopez, DS (2007). Veri madenciliği: teknikler ve araçlar. Madrid: Uluslararası Thompson Ediciones Paraninfo saEnrique Jose Reinosa, CA (2012). Veri tabanı. Meksika: Allfaomega.galeon.com. (02/04 2016). Galeon.com. Http://textmining.galeon.com/Lantares adresinden edinildi. (2014). Http://www.lantares.com/blog/mineria-de-datosaplicaciones-que-ya-son-una-realidadMicrosoft'tan alındı. (2014). Https://msdn.microsoft.com/esmx/library/ms174949%28v=sql.120%29.aspxPerez Lopez, C., & Santín González, D. (2007) adresinden alınmıştır. Veri Madenciliği: Teknikler ve Araçlar. Madrid:Thomson International Editions Paraninfo.

Teşekkürler

Bana profesyonel olarak eğitim alma fırsatı verdiği için Orizaba Teknoloji Enstitüsüne ve kaliteli bilimsel makaleler yazma becerilerimi öğrenmek ve geliştirmek için Yönetim Mühendisliğinin Temelleri konusunda bizimle paylaştığı tüm bilgiler için Profesör Fernando Aguirre y Hernández'e.

Veri madenciliğine giriş Luis Pablo Vieira Braga ve diğerleri kitabından alınan görüntü. 2009

Veri Madenciliği: Teknikler ve Araçlar kitabından César Perez López ve Daniel Santín González tarafından alınmıştır.

Veri Madenciliği: Teknikler ve Araçlar kitabından César Perez López ve Daniel Santín González tarafından alınmıştır.

Orijinal dosyayı indirin

Veri, metin ve duyarlılık madenciliği