Logo tr.artbmxmagazine.com

Veri, metin ve fikir madenciliği

Anonim

Teknolojinin gelişmesi, farklı sektörlerdeki insanların işlerini bir dereceye kadar kolaylaştırmayı mümkün kılmıştır. Örneğin, insanlar ürünlerini yetiştirdiklerinde, toprağın hazırlanmasından ekim, sulama, kompostlama ve hasattan her şey manueldi. Bugün, tüm bu işler insanları değiştirmekten, insanlara yardım etmekten ve daha hızlı bir iş çıkarmaktan sorumlu makineler tarafından yapılıyor.

Tıp sektöründe robotlar, insanların erişemeyeceği yerlerde bile çalışırken büyük adımlar attı. Aynı şey, teknolojinin bir dereceye kadar emeğin yerini almaya başladığı, yorulmadan, fazla mesai olmaksızın sürekli üretime ulaştığı büyük fabrikalarda da oluyor.

Yönetim alanında, bu makalede görüleceği gibi, bilgi analizi yoluyla teknolojinin karar vermeye yardımcı olduğu görülmüştür.

Veritabanlarının, internetin ve depolanan verilerden otomatik ve verimli bir şekilde bilgi üreten tekniklerin ve araçların hızla büyümesi, kalıpları, ilişkileri keşfetmemize ve modelleri formüle etmemize izin veriyor. Özellikle, bu teknikler pazarlama stratejileri, karar desteği, finansal planlama, bilimsel veri analizi, biyoinformatik, metin analizi ve web veri analizi gibi alanlarda son derece önemli hale geldi.

Teknoloji, insanların işlerini tamamlamaya ve kolaylaştırmaya çalışarak gün geçtikçe kalıcı olmak için burada.

Veri Madenciliği - Veri Madenciliği

Tanım

Veri madenciliği, verinin belirli bir bağlamdaki davranışını açıklayan tekrar eden kalıpları, eğilimleri veya kuralları bulmak amacıyla büyük veritabanlarının otomatik veya yarı otomatik olarak araştırılmasına izin veren teknikler ve teknolojiler kümesidir.

Temel olarak, veri havuzunun içeriğini anlamaya yardımcı olmak için veri madenciliği ortaya çıkar. Bu amaçla, istatistiksel uygulamalardan ve bazı durumlarda yapay zeka ve sinir ağlarına yakın arama algoritmalarından yararlanır.

Genel olarak veriler brüt ham maddedir. Kullanıcı onlara özel bir anlam yüklediği anda bilgi haline gelirler. Uzmanlar bir model geliştirdiğinde veya bulduğunda, bilgi ile bu model arasında ortaya çıkan yorumu bir katma değeri temsil ederek, o zaman bilgiye atıfta bulunuruz.

Veri madenciliği, çeşitli avantajları olan, gelişmekte olan bir teknoloji olarak sunulur: bir yandan, araştırmacılar ve iş adamları arasında iyi bir buluşma noktasıdır; Öte yandan, bir şirkete büyük miktarda para tasarrufu sağlar ve yeni iş fırsatları yaratır. Dahası, bu teknolojiyle çalışmanın sayısız ayrıntıya dikkat etmeyi gerektirdiğine şüphe yok çünkü nihai ürün "karar vermeyi" içeriyor.

avantaj

  1. Araştırmacılar ve iş adamları arasında iyi bir buluşma noktasıdır.

Bu nokta, genellikle bu projeleri finanse eden büyük şirketler tarafından edinilen yeni teknolojinin ortaya çıkışını ifade eder.

  1. Bir şirkete büyük miktarda para kazandırır ve yeni iş fırsatları açar.

Pratik olarak bu bir önceki noktayı destekler, çünkü bir proje iyi olduğunda yatırdığından daha fazla para kazanan bir şirket tarafından finanse edilir ve bu teknoloji sayesinde bir şirket pazarda başka fırsatlar da açabilir.

  1. Bu teknolojiyle çalışmak, bir dizi ayrıntıya dikkat etmeyi gerektirir, çünkü nihai ürün "karar vermeyi" içerir.

Teknolojiye sahipsiniz ve o pazara giriş yaptı, aynı zamanda sunduğunuz bir ürün yaratıyor, ancak uygulamanın ne kadar etkili olduğunu görmelisiniz, şirket büyüyor mu, azalıyor mu?, Bu noktanın ifade ettiği şey budur.

  1. Geleneksel ve e-İş süreçleri tarafından oluşturulan veri hacimlerinden anahtar bilgileri tanımlamak için otomatik bir anlam sağlayarak taktik ve stratejik karar vermeye katkıda bulunur.Kullanıcıların kararları ve eylemleri önceliklendirmesine olanak tanır ve daha yüksek olan faktörleri gösterir. aynı zamanda hangi müşteri segmentlerinin tek kullanımlık olduğunu ve hangi iş birimlerinin atlandığını ve neden olduğunu gösterir

Bu, veri madenciliği sayesinde yalnızca karar verme konusunda endişelenmeniz gerektiği gerçeğini ifade eder, çünkü bu teknoloji sayesinde, bu noktada bazılarının da belirtildiği gibi çeşitli avantaj ve dezavantajları gösterir.

  1. Problemi ve ortamı daha iyi anlayan, eylemleri ve sonuçları en iyi şekilde ölçebilen iş kullanıcılarına karar verme yetkisi sağlar.

Veri madenciliği sayesinde sorunlar farklı sektörlere bölünebilir ve bu, farklı sektörlerde zamanı ve kaynakları optimize etmek için bu sorun alanında farklı uzman çalışma gruplarının olması gerektiği anlamına gelir.

  1. Tanımlayıcı modeller oluşturur: tanımlanmış iş hedefleri bağlamında, şirketlerin verileri otomatik olarak keşfetmesine, görselleştirmesine ve anlamasına ve nihai sonuçlarını etkileyen kalıpları, ilişkileri ve bağımlılıkları tanımlamasına olanak tanır. gelir tablosu (artan gelirler, artan karlar, maliyet sınırlaması ve risk yönetimi gibi) Tahmine dayalı modeller oluşturur: veri madenciliği süreci aracılığıyla keşfedilmeyen ve tanımlanmayan ilişkilerin iş kuralları veya tahmine dayalı modeller. Bu çıktılar, şirketin stratejisine ve planlamasına rehberlik etmek için geleneksel formatlarda (sunumlar, raporlar, paylaşılan elektronik bilgiler, uygulamalara gömülü vb.) İletilebilir.

Teknikler

Veri madenciliği teknikleri Yapay Zeka ve istatistikten gelir, bu teknikler, sonuçları elde etmek için bir dizi veriye uygulanan az çok karmaşık algoritmalardan başka bir şey değildir.

En çok kullanılanlar şunlardır:

1. Sinir Ağları

Bu yapay zeka tekniği, verilerin karmaşık kalıplarını ve özelliklerini tespit edip öğrenebildikleri için son yıllarda verilerdeki ortak kategorileri tespit etmek için sıklıkla kullanılan araçlardan biri haline geldi.

Sinir ağlarının temel özelliklerinden biri, probleme bağlı olarak bir avantaj veya dezavantaj olabilen eksik ve hatta paradoksal verilerle çalışabilmeleridir. Ek olarak, bu tekniğin iki öğrenme biçimi vardır: denetimli ve denetimsiz.

2. Karar Ağaçları

Bu teknik, denetimli bir öğrenme yöntemi içindedir. Temsili, her düğümün bir karar olduğu ve sonuçta bir veri setinin sınıflandırılması için kurallar üreten bir ağaç biçimindedir.

Karar ağaçlarının kullanımı kolaydır, kesikli ve sürekli öznitelikleri destekler, önemli olmayan öznitelikleri ve eksik değerleri iyi idare eder. Ana avantajı, yorumlama kolaylığıdır.

3. Genel Algoritmalar

Genetik algoritmalar, türlerin evrimini mutasyon, üreme ve seçim yoluyla taklit etmenin yanı sıra sinir ağları gibi diğer yapıların inşası ve eğitiminde kullanılabilecek programlar ve optimizasyonlar sağlar. Dahası, genetik algoritmalar, en uygun olanın hayatta kalması ilkesinden ilham alır.

4. Kümeleme

Verileri, mesafe veya benzerlik kriterlerine göre önceden belirlenmiş bir dizi sınıf içinde gruplandırır veya gruplandırmaz, böylece sınıflar birbirine benzer ve diğer sınıflardan farklı olur. Kullanımı, sistem modellemesi gibi sınıflandırıcılar veya örüntü tanıyıcılar açısından önemli sonuçlar sağlamıştır. Esnek yapısı nedeniyle bu yöntem, başka bir tür veri madenciliği tekniği ile kolayca birleştirilerek hibrit bir sistem ortaya çıkarılabilir.

5. Makine Öğrenimi

Bu yapay zeka tekniği, yukarıda bahsedilen diğer tekniklerden herhangi birinin uygulanmasının sonucunun bilgisini çıkarmak için kullanılır.

Veri Madenciliği Modelleri

Bir veri madenciliği modeli, verilere bir algoritma uygulanarak oluşturulur, ancak bu yalnızca bir algoritma veya meta veri taşıyıcısından daha fazlasıdır: oluşturmak için yeni verilere uygulanabilen bir veri, istatistik ve model kümesidir. tahminler ve çıkarımlar.

Veri Madenciliği Modellerinin Uygulamaları

Veri madenciliği modelleri aşağıdaki gibi senaryolarda uygulanabilir:

  1. Tahmin: satışları hesaplama ve sunucu yüklerini veya sunucu kesinti süresini tahmin etme Risk ve olasılık: yazışma için en iyi müşterileri seçme, risk senaryoları için olası başabaş noktasını belirleme, olasılıkları tanılamaya atama veya diğer hedef sonuçları Öneriler: birlikte satılabilecek ürünlerin belirlenmesi ve önerilerin oluşturulması Sıra arama: müşterilerin alışveriş sepetine yerleştirdiği ürünlerin analizi ve olası olayların tahmini Gruplama: müşterilerin veya olayların dağıtımı ilişkili unsurların grupları halinde ve yakınlıkların analizi ve tahmini.

Veri Madenciliği Modellerinin Üretilmesi

Bir veri madenciliği modeli oluşturmak, veriler hakkında sorular sormaktan ve bunları yanıtlamak için bir model oluşturmaktan, modeli bir çalışma ortamında uygulamaya kadar uzanan daha büyük bir sürecin parçasıdır.

Bu süreç aşağıdaki altı temel adımla tanımlanabilir:

1. Sorunu Tanımlayın

Veri madenciliği sürecindeki ilk adım, sorunu açıkça tanımlamak ve soruna bir yanıt sağlamak için verileri kullanma yollarını düşünmektir.

Bu adım, iş gereksinimlerinin analiz edilmesini, sorunun kapsamının tanımlanmasını, modelin değerlendirileceği ölçülerin tanımlanmasını ve veri madenciliği projesinin özel hedeflerinin tanımlanmasını içerir. Bu görevler aşağıdaki gibi sorulara dönüşür:

  • Ne arıyorsun? Ne tür ilişkiler aramaya çalışıyorsunuz? İş politikalarınızın veya süreçlerinizin çözmeye çalıştığı sorunu yansıtıyor mu? Veri madenciliği modelinden tahminler mi yapmak istiyorsunuz yoksa sadece ilginç kalıplar ve çağrışımlar mı arıyorsunuz? Hangi sonuç veya nitelik istiyorsunuz? Tahmin edin Ne tür verileriniz var ve her sütunda ne tür bilgiler var? Birden fazla tablo olması durumunda, bunlar nasıl ilişkilidir? Verileri kullanmadan önce temizlemeniz, eklemeniz veya işlemeniz mi gerekiyor? Veriler nasıl dağıtılıyor? Veriler mevsimsel mi? Veriler iş süreçlerini doğru bir şekilde temsil ediyor mu?

Bu soruları yanıtlamak için, iş kullanıcılarının mevcut verilere yönelik ihtiyaçlarını araştırmak için bir veri kullanılabilirliği çalışmasının yapılması gerekebilir. Veriler kullanıcıların ihtiyaçlarını karşılamıyorsa, projenin yeniden tanımlanması gerekebilir.

2. Verileri Hazırlayın

Veri madenciliği sürecindeki ikinci adım, önceki adımda tanımlanan verileri birleştirmek ve temizlemektir.

Veriler şirket içinde dağıtılabilir ve farklı formatlarda saklanabilir; eksik veya yanlış girişler gibi tutarsızlıklar da içerebilirler. Örneğin, veriler, bir müşterinin bir ürünü piyasaya sunulmadan önce satın aldığını veya müşterinin evinden 2.000 kilometre uzakta düzenli olarak bir mağazadan alışveriş yaptığını gösterebilir.

Veri temizleme, yalnızca geçersiz verilerin kaldırılmasını veya eksik değerlerin enterpolasyonunun yapılmasını değil, aynı zamanda verilerde gizli korelasyonların aranmasını, en doğru olan veri kaynaklarının tanımlanmasını ve analiz için hangi sütunların en uygun olduğunu belirlemeyi içerir. Örneğin, sevk tarihini mi yoksa sipariş tarihini mi kullanmalıyım? Satışları en çok ne etkiler: miktar, toplam fiyat veya indirimli fiyat? Eksik veriler, kötü veriler ve bağımsız görünen ancak gerçekte yakından ilişkili olan girdiler, model sonuçlarını beklenmeyen şekillerde etkileyebilir.

Bu nedenle, madencilik modellerinizi oluşturmaya başlamadan önce, bu sorunları belirlemeli ve nasıl düzeltileceğini belirlemelisiniz. Veri madenciliğinde, genellikle büyük bir veri kümesiyle çalışıyorsunuz ve her işlem için verilerin kalitesini inceleyemezsiniz; bu nedenle, verileri araştırmak ve tutarsızlıkları aramak için veri profili oluşturma ve otomatik veri temizleme ve filtreleme araçlarını kullanmanız gerekebilir.

3. Verileri Keşfedin

Veri madenciliği sürecindeki üçüncü adım, hazırlanan verileri keşfetmektir. Veri madenciliği modellerinizi oluştururken doğru kararlar vermek için verileri bilmeniz gerekir. Keşif teknikleri, minimum ve maksimum değerleri hesaplamayı, ortalama ve standart sapmaları hesaplamayı ve verilerin dağılımını incelemeyi içerir.

Örneğin, maksimum, minimum ve ortalama değerleri incelemek, verilerin müşterileri veya iş süreçlerini temsil etmediğini belirleyebilir ve bu nedenle daha dengeli veriler elde etmeli veya temeli oluşturan varsayımları gözden geçirmelisiniz. beklentilerinizin. Standart sapmalar ve diğer dağıtım değerleri, sonuçların kararlılığı ve doğruluğu hakkında yararlı bilgiler sağlayabilir. Büyük bir standart sapma, daha fazla veri eklemenin modelinizi geliştirmenize yardımcı olabileceğini gösterebilir. Standart bir dağılımdan büyük ölçüde sapan veriler çarpık olabilir veya gerçek hayattaki bir sorunun doğru bir resmini temsil edebilir, ancak verilere bir model uydurmayı zorlaştırabilir.

İş problemini anlamak için verileri keşfederek, veri kümenizin hatalı veri içerip içermediğine karar verebilir ve ardından sorunları düzeltmek için bir strateji geliştirebilir veya işinize özgü davranışların daha derinlemesine bir tanımını alabilirsiniz.

4. Model Oluşturun

Veri madenciliği sürecindeki dördüncü adım, veri madenciliği modelini veya modellerini oluşturmaktır.

Hangi veri sütunlarını kullanmak istediğinizi tanımlamalısınız; Bunu yapmak için bir veri madenciliği yapısı oluşturulacaktır. Madencilik yapısı veri kaynağına bağlıdır, ancak işlenene kadar gerçekte herhangi bir veri içermez. Madencilik yapısının işlenmesi, analiz için kullanılabilecek kümeler ve diğer istatistiksel bilgiler üretir.

Yapıyı ve modeli işlemeden önce, bir madencilik modeli, girdi için kullanılacak sütunları, tahmin ettiği özniteliği ve algoritmaya verileri nasıl işleyeceğini söyleyen parametreleri belirten basit bir kaptır. Bir modeli işlemeye genellikle eğitim denir. Eğitim, kalıpları çıkarmak için yapıdaki verilere belirli bir matematiksel algoritma uygulama sürecini ifade eder. Eğitim sürecinde bulacağınız modeller, eğitim verilerinin seçimine, seçtiğiniz algoritmaya ve algoritmanın nasıl yapılandırıldığına bağlı olacaktır.

Parametreler, her bir algoritmanın ince ayarını yapmak için de kullanılabilir ve farklı sonuçlar oluşturarak verilerin bir alt kümesini kullanmak için eğitim verilerine filtreler uygulanabilir. Verileri modelden geçirdikten sonra, araştırma modeli nesnesi, sorgulanabilen veya tahmin için kullanılabilen özetleri ve modelleri içerir.

Veriler her değiştiğinde araştırma yapısını ve modelini güncellemeniz gerektiğini unutmamak önemlidir.

5. Modelleri Keşfedin ve Doğrulayın

Veri madenciliği sürecindeki beşinci adım, oluşturduğunuz veri madenciliği modellerini keşfetmek ve etkinliklerini kontrol etmektir.

Bir modeli bir üretim ortamında dağıtmadan önce, doğru çalışıp çalışmadığını test etmek iyi bir fikirdir. Ayrıca, bir model oluştururken, genellikle farklı konfigürasyonlarla birkaç tane oluşturur ve hangisinin sorununuz ve verileriniz için en iyi sonuçları sağladığını görmek için hepsini test edersiniz.

6. Modelleri Uygulayın ve Güncelleyin

Veri madenciliği sürecindeki son adım, bir üretim ortamında en iyi şekilde çalışan modelleri uygulamaktır.

Veri madenciliği modelleri üretim ortamında olduğunda, ihtiyaçlara bağlı olarak farklı görevler gerçekleştirilebilir. Aşağıdakiler, gerçekleştirebileceğiniz görevlerden bazılarıdır:

  1. Modelleri, daha sonra iş kararları vermek için kullanılabilecek tahminler oluşturmak için kullanın. Modelden istatistikleri, kuralları veya formülleri almak için içerik sorguları oluşturun Kullanıcıların doğrudan mevcut bir madencilik modeline göre sorgulamasına olanak tanıyan bir rapor oluşturun. İnceleme ve analizden sonra modellerin güncellenmesi Kuruluşa daha fazla veri girdiğinde modelleri dinamik olarak güncellemek ve çözümün etkinliğini artırmak için sürekli değişiklikler yapmak, uygulama stratejisinin bir parçası olmalıdır.

Metin Madenciliği - Metin Madenciliği

Prensipte bir sıraya sahip olmayan veya orijinal olarak bu bilgiyi iletmek için düzenlenmemiş veri kümelerinden bilgi ve bilgi elde etmeye çalışan hesaplamalı dilbilim dallarından biridir.Şimdiki gibi bir dünyada anahtar bir tekniktir. İnsanoğlunun tüm faaliyetlerinin birçok farklı yönünden ve farklı bakış açılarından sürekli veri toplayan.

Metin Madenciliği, ilgili belgelerin metin indeksleme, sınıflandırma, kategorilere ayırma vb. Yoluyla otomatik olarak alınması olan bilgi alma ile karıştırılmamalıdır. Metin madenciliğini gerçekten ilgilendiren bilgi, bu belgelerde yer alan ama genel anlamda, yani belirli bir metinde yer almayan, tüm kayıtların, metinlerin, belgelerin… sahip olduğu küresel bilgidir. ortak koleksiyon. Koleksiyondaki tüm metinler tarafından paylaşılan ve dolaylı olarak sunulan, yani koleksiyonun uzmanlara vereceği, ancak oluşturuldukları sırada özel olarak bu koleksiyona dahil edilmeyen bilgilerin analizidir. daha sonra kullanıcılara dağıtım.

Metin Madenciliği üç temel faaliyetten oluşur:

  • Bilgiye erişim, yani ilgili metinlerin seçilmesi Bu metinlerde yer alan bilgilerin çıkarılması: gerçekler, olaylar, anahtar veriler, bunlar arasındaki ilişkiler, vb. Son olarak, daha önce veri madenciliği olarak tanımlanan şey ilişkilendirmeleri bulmak için yapılacaktır. daha önce metinlerden çıkarılan anahtar veriler arasında

Uygulamalar

Genel olarak tüm şirketler, idareler ve kuruluşlar için operasyonlarının, yapılarının ve faaliyetlerinin özellikleri nedeniyle çok sayıda belge üretmesi ve tüm bu hacimdeki veriden bilgi almakla ilgilenmesi çok faydalıdır. Müşterilerinizi daha iyi tanımanıza yardımcı olabilir, alışkanlıkları, tercihleri ​​vb.

Aşamaları

Farklı durumlara ve durumlara uyarlanabilen nispeten yeni, değişen bir tekniktir, bu nedenle her zaman izlenecek katı bir yöntem yoktur. Ancak genel anlamda şu dört ana aşama olduğu söylenebilir:

1. Hedeflerin Belirlenmesi

Bu araştırma ile neyin arandığını netleştirin, onu ne ölçüde derinleştirmek istediğinizi sınırlayın ve sınırları net bir şekilde tanımlayın.

2. Veri ön işleme

Bilginin çıkarılacağı metin veya belgelerin seçimi, analizi ve indirgenmesidir. Bu aşama çoğu zaman alıcıdır.

3. Modelin Belirlenmesi

Belirlenen hedeflere ve gerçekleştirilecek göreve bağlı olarak, bazı teknikler veya diğerleri kullanılabilir.

4. Sonuçların Analizi

Çıkarılan verilerden, tutarlılığını görmeye ve çalışmayı görevlendiren uzman veya kullanıcı tarafından şirketinizin bazı yönlerini iyileştirmek için kullanılabilecek sonuçlar çıkarmak için kullanılabilecek kanıt, benzerlik, istisna vb. Aramaya çalışacaktır., şirket, yönetim veya genel olarak organizasyon.

Fikir Madenciliği veya Duygu Analizi

Fikir Madenciliği, bloglarda yapılan yorumlar gibi kullanıcılar tarafından oluşturulan içerikten öznel bilgileri çıkarmayı amaçlayan doğal dil işleme teknikleri, hesaplamalı dilbilim ve metin madenciliğinin bir dizi uygulamasını ifade eder. veya ürün incelemeleri. Bu tür bir teknoloji ile, metinsel bir yorumdan "pozitif" / "negatif" gibi somut ve doğrudan bir değer çıkarılabilir.

Genel olarak, Kamu Madenciliği ile ilgili iki tür görev vardır:

  1. Kutupluluk tespiti: Ya da aynı şey, bir fikrin olumlu mu yoksa olumsuz mu olduğunu belirleyebilmek. Temel bir kutupluluğun ötesinde, belirli bir aralıkta belirli bir görüşle ilişkili nesnel bir “derecelendirme” elde etmeye çalışan sayısal bir değer elde etmek isteyebilirsiniz. Özelliklere göre duyarlılık analizi: Ya da aynı olanı, kullanıcı tarafından yazılan görüş veya incelemede işlenen ürünün farklı özelliklerini belirleyebilme ve görüşte belirtilen özelliklerin her biri için özüt alabilme bir kutupluluk. Bu tür yaklaşımlar, polarite tespitinden çok daha karmaşık ve çok daha ince tanelidir.

Sonuç

Veri, Metin ve Fikir Madenciliği, bir şirketin veya kuruluşun bilgilerini analiz etmek için çok önemli araçlardır ve belirli bir süre boyunca mevcut olan trendlere dayanarak tahmin yapmak için kullanılırlar.

Yönetimde uygulanan teknoloji, bir organizasyonun kontrolünü kolaylaştıran araçlar sağlamaya çalışır, oluşabilecek hataları önlemeye çalışır.

Bunlar günümüzün ve geleceğin araçlarıdır, bu yüzden daha fazla şirket tarafından kullanılmaktadır ve bu da her geçen gün daha uzmanlaşmış insanlara ihtiyaç duyulduğu anlamına gelmektedir.

kaynakça

  • Microsoft (2014). Https://msdn.microsoft.com/es-es/library/ms174949.aspx adresinden alınmıştır: http://www.sinnexus.com/business_intelligence/datamining.aspx Veri Madenciliği. Http://mineria-datos-actualidad.blogspot.mx/2012/06/por-que-usar-datamining.htmlMería de Textos adresinden alınmıştır. Erişim adresi:
Orijinal dosyayı indirin

Veri, metin ve fikir madenciliği