Logo tr.artbmxmagazine.com

Veri ve bilgi madenciliği

Anonim

Madenciliğin basit tanımı:

Madenlerde maden, metal, mücevher vb. Kazma işlemi veya işi.

Veri Madenciliği: Veri Madenciliği Nedir?

genel bakış

Genel olarak, veri madenciliği (bazen veri veya bilgi keşfi olarak adlandırılır), verileri farklı bakış açılarından analiz etme ve yararlı bilgiler, geliri artırmak, maliyetleri düşürmek veya her ikisi için kullanılabilecek bilgiler şeklinde özetleme sürecidir.. Veri madenciliği yazılımı, veri analizi için bir dizi analitik araçtan biridir. Kullanıcıların verileri birçok farklı boyut veya açıdan analiz etmesine, kategorilere ayırmasına ve belirlenen ilişkileri özetlemesine olanak tanır. Teknik olarak veri madenciliği, büyük ilişkisel veri tabanlarında desenler veya alanlar arasında korelasyon bulma sürecidir.

Sürekli yenilik

Veri madenciliği nispeten yeni bir terim olsa da teknoloji değildir. Şirketler, yıllardır süpermarket tarayıcı verilerini incelemek ve pazar araştırma raporlarını analiz etmek için güçlü bilgisayarlar kullandılar. Bununla birlikte, bilgi işlem gücü, disk depolama ve istatistiksel yazılımdaki sürekli yenilikler, maliyeti düşürürken analizin doğruluğunu önemli ölçüde artırmaktadır.

Misal

Örneğin, bir Midwest süpermarket zinciri, yerel alışveriş modellerini analiz etmek için Oracle'ın yazılım veri madenciliği yeteneklerini kullanıyor. Erkeklerin perşembe ve cumartesi günleri çocuk bezi aldıklarında, aynı zamanda bira alma eğiliminde olduklarını keşfettiler. Daha ayrıntılı bir analiz, bu müşterilerin haftalık alışverişlerini genellikle Cumartesi günleri yaptıklarını gösterdi. Perşembe günleri ise sadece birkaç eşya satın aldılar. Perakendeci, birayı önümüzdeki hafta sonu hazır bulundurmak için satın alması gerektiği sonucuna vardı. Süpermarket zinciri, yeni keşfedilen bu bilgiyi, geliri artırmak için çeşitli şekillerde kullanabilir. Örneğin, bira ekranını bebek bezi ekranına yaklaştırabilirler. VE,Bira ve çocuk bezlerinin perşembe günleri tam fiyatla satıldığından emin olabilirler.

Veri madenciliğinin temelleri

Veri madenciliği teknikleri, uzun bir ürün araştırma ve geliştirme sürecinin sonucudur. Bu evrim, iş verilerinin ilk kez bilgisayarlarda depolandığı, veri erişimindeki iyileştirmelerle devam ettiği ve son zamanlarda kullanıcıların verilerinde gerçek zamanlı olarak gezinmesine olanak tanıyan teknolojiler ortaya çıkardığı zaman başladı. Veri madenciliği, bu evrimsel süreci navigasyon ve geçmişe yönelik verilere erişimin ötesine, ileriye dönük ve proaktif bilgilerin sunumuna götürür. Veri madenciliği, zaten yeterince olgunlaşmış üç teknolojiye dayandığından, iş dünyasında uygulamaya hazırdır:

  • Devasa veri toplama Çok sayıda güçlü işlemciye sahip bilgisayarlar Veri madenciliği algoritmaları

İş veritabanları görülmemiş bir hızla büyüyor. META Group'un veri ambarlama projeleri üzerine yakın zamanda yaptığı bir anket, katılımcıların% 19'unun 50 gigabayt seviyesinin üzerinde olduğunu,% 59'unun da orada olmayı beklediğini ortaya koydu. Perakende gibi bazı sektörlerde bu rakamlar çok daha yüksek olabilir. Hesaplama motorlarının iyileştirilmesi için destek ihtiyacı, birkaç paralel işlemciye sahip bilgisayar teknolojisi ile uygun maliyetli bir şekilde karşılanabilir. Veri madenciliği algoritmaları, en az 10 yıldır var olan, ancak son zamanlarda eski istatistiksel yöntemlerden çok daha iyi performans gösteren olgun, güvenilir ve anlaşılır araçlar olarak uygulanan teknikleri içerir.

İş verilerinden iş bilgilerine geçişte, her yeni adım bir öncekinin üzerine inşa edilmiştir. Örneğin, dinamik veri erişimi, veri gezinme uygulamalarında detaylandırma için kritiktir ve büyük veritabanlarını depolama yeteneği, veri madenciliği için kritiktir.

Veriler, bilgiler ve bilgi

Veri

Veriler, bir bilgisayar tarafından işlenebilen gerçekler, sayılar veya metindir. Günümüzde kuruluşlar, farklı biçimlerde ve farklı büyüyen veritabanlarında büyük miktarda veri biriktiriyor. Bu içerir:

  • Satışlar, maliyetler, envanter, maaş bordrosu ve muhasebe gibi operasyonel veya işlemsel veriler Endüstri satışları, tahmin verileri ve makro ekonomik veriler gibi operasyonel olmayan veriler Meta veriler, içindeki verilerle ilgili veriler evet, mantıksal veritabanı düzeni veya veri sözlüğü tanımları gibi

bilgi

Tüm bu veriler arasındaki modeller, ilişkiler veya ilişkiler bilgi sağlayabilir. Örneğin, perakende işlem veri noktasının analizi, hangi ürünlerin ne zaman satıldığı hakkında bilgi sağlayabilir.

Bilgi

Bilgi, tarihsel kalıplar ve gelecekteki eğilimler hakkında bilgiye dönüştürülebilir. Örneğin, süpermarket satışlarıyla ilgili özet bilgiler, tüketici satın alma davranışına ilişkin içgörü sağlamak için yapılan promosyon çabalarının ışığında analiz edilebilir. Bu nedenle, bir üretici veya perakendeci, hangi öğelerin promosyon çabalarına en duyarlı olduğunu belirleyebilir.

Veri depoları

Veri yakalama, işleme gücü, veri iletimi ve depolama yeteneklerindeki olağanüstü ilerlemeler, şirketlerin çeşitli veritabanlarını veri depolama birimlerine entegre etmelerine olanak tanıyor. Veri ambarı, merkezi bir veri yönetimi ve erişim süreci olarak tanımlanır. Veri ambarlama, veri madenciliği gibi, nispeten yeni bir terimdir, ancak kavramın kendisi yıllardır varlığını sürdürmektedir. Veri ambarlama, kuruluşunuzun tüm verileri için merkezi bir havuz sağlamaya yönelik ideal bir vizyonu temsil eder. Kullanıcı erişimini ve analizini en üst düzeye çıkarmak için verilerin merkezileştirilmesi gerekir. Teknolojideki olağanüstü gelişmeler, bu vizyonu birçok şirket için gerçeğe dönüştürüyor. VE,Veri analizi yazılımındaki eşit derecede çarpıcı gelişmeler, kullanıcıların bu bilgilere özgürce erişmesine izin veriyor. Veri analiz yazılımı, veri madenciliğini destekleyen şeydir.

Veri madenciliği ne yapabilir?

Veri madenciliği, öncelikle güçlü bir tüketici odağına sahip şirketler (perakende, finans, iletişim ve pazarlama kuruluşları) tarafından kullanılmaktadır. Bu şirketlerin fiyat, ürün konumlandırma veya personel becerileri gibi "dahili" faktörler ile ekonomik göstergeler, rekabet ve müşteri demografisi gibi "harici" faktörler arasındaki ilişkileri belirlemesini sağlar. Ayrıca satış, müşteri memnuniyeti ve kurumsal kar üzerindeki etkiyi belirlemelerine olanak tanır. Son olarak, ayrıntılı işlem verilerini görmek için özet bilgilerde "detaya inmelerine" olanak tanır.

Veri madenciliği ile bir perakendeci, bir bireyin satın alma geçmişine dayalı olarak hedeflenen promosyonlar göndermek için müşteri satın alma POS kayıtlarını kullanabilir. Perakendeci yorum veya garanti kartı demografisini inceleyerek belirli müşteri segmentlerine hitap edecek ürünler ve promosyonlar geliştirebilir.

Örneğin, Blockbuster Entertainment madenciliği, müşterilere tatillerinde bireysel olarak tavsiye ettikleri tarihi video kiralama veritabanıdır. American Express, aylık harcamalarının analizine göre kart sahiplerine ürün önerebilir.

WalMart, satıcı ilişkilerini dönüştürmek için büyük veri madenciliğinde öncüdür. WalMart, 6 ülkedeki 2.900'den fazla mağazadan satış noktası işlemlerini yakalar ve bu verileri devasa 7,5 terabaytlık Teradata veri deposuna sürekli olarak aktarır. WalMart, 3.500'den fazla tedarikçinin ürünleri hakkındaki verilere erişmesine ve veri analizi yapmasına olanak tanır. Bu satıcılar, mağaza teşhir düzeyindeki müşteri satın alma modellerini belirlemek için bu verileri kullanır. Bu bilgileri yerel depo envanterini yönetmek ve yeni pazarlama fırsatlarını belirlemek için kullanırlar. 1995 yılında, WalMart ekipleri 1 milyondan fazla karmaşık veri sorgusu işledi.

Ulusal Basketbol Birliği (NBA), basketbol oyunlarının görüntü kayıtları ile birlikte kullanılabilecek bir veri madenciliği uygulamasını araştırıyor. Gelişmiş tarayıcı yazılımı, antrenörlerin oyunları ve stratejileri düzenlemelerine yardımcı olmak için oyuncu hareketlerini analiz eder. Örneğin, 6 Ocak 1995'te New York Knicks ile Cleveland Cavaliers arasındaki maçtan tek tek oyun kağıdının analizi, Mark Price savunma pozisyonunda oynadığında John Williams'ın dört şut attığıdır. zıpla ve her birini yaptım. Advanced bu kalıbı bulmakla kalmıyor, aynı zamanda oyunda Cavaliers için ortalama% 49,30'luk atış yüzdesinden oldukça farklı olduğu için ilginç olduğu açıklanıyor.

Bir koç, NBA'in evrensel saatini kullanarak, Williams'ın denediği her çekimi gösteren video klipleri saatlerce videodan geçmeden otomatik olarak kullanabilir. Bu klipler, Price'ın Knick'in savunmasını etkisiz hale getirdiği ve ardından açık şut atlamak için Williams'ı bulduğu çok başarılı bir pick-and-roll oyununu gösteriyor.

Veri madenciliği nasıl çalışır?

Büyük ölçekli bilgi teknolojisi gelişirken, analitik sistemler ve işlemler birbirinden ayrılırken, veri madenciliği ikisi arasındaki bağlantıyı sağlar. Veri madenciliği yazılımı, tanımlanmamış kullanıcılardan gelen sorgulara göre depolanan işlem verilerindeki ilişkileri ve modelleri analiz eder. Kullanılabilen birkaç analiz yazılımı türü vardır: istatistikler, makine öğrenimi ve sinir ağları. Genel olarak, dört tür ilişkiden herhangi biri aranır:

Sınıflar: Depolanan veriler, önceden belirlenmiş gruplardaki verileri bulmak için kullanılır. Örneğin, bir restoran zinciri, müşterilerin ne zaman ziyaret ettiklerini ve genellikle ne sipariş ettiklerini belirlemek için müşteri satın alma verilerini çıkarabilir. Bu bilgiler, trafiği artırmak, günün spesiyallerine sahip olmak için kullanılabilir.

Gruplar: Veri öğeleri, mantıksal ilişkilere veya tüketici tercihlerine göre gruplandırılır. Örneğin, pazar segmentlerini veya tüketici eğilimlerini belirlemek için veriler çıkarılabilir.

İlişkilendirmeler: İlişkilendirmeleri tanımlamak için veriler çıkarılabilir. Bira bezi örneği, birleştirici madenciliğe bir örnektir.

Sıralı modeller: Veriler, beklenen eğilimlerden ve davranış kalıplarından elde edilir. Örneğin, bir dış mekan malzemeleri satıcısı, tüketicinin uyku tulumu ve yürüyüş ayakkabısı satın almasına bağlı olarak bir sırt çantasının satın alınma olasılığını tahmin edebilir.

Veri madenciliği beş ana unsurdan oluşur:

  • Yük işlemi verilerini ayıklayın ve veri ambar sistemine dönüştürün Verileri çok boyutlu bir veritabanı sisteminde depolayın ve yönetin Verilere, iş analistlerine ve bilgi teknolojisi uzmanlarına erişim sağlayın Verileri bir yazılım uygulamasıyla analiz edin Verileri grafik veya tablo gibi kullanışlı bir biçimde sunun.

Farklı analiz seviyeleri mevcuttur:

  • Yapay sinir ağları: eğitim yoluyla öğrenen ve yapısal olarak biyolojik sinir ağlarına benzeyen doğrusal olmayan öngörücü modeller Genetik algoritmalar: genetik kombinasyon, mutasyon ve doğal seçilim gibi süreçleri kullanan optimizasyon teknikleri doğal evrim kavramlarına dayalı tasarım Karar ağaçları: karar kümelerini temsil eden ağaç benzeri yapılar. Bu kararlar, bir veri kümesini sınıflandırmak için kurallar oluşturur. Karar ağacına özgü yöntemler arasında Sınıflandırma ve Regresyon Ağaçları (CART) ve Otomatik Ki-Kare Algılama Etkileşimi (CHAID) bulunur. CART ve CHAID, bir veri setinin sınıflandırılması için kullanılan karar ağacı teknikleridir.Hangi kayıtların belirli bir sonuca sahip olacağını tahmin etmek için yeni (sıralanmamış) bir veri kümesine uygulanabilecek bir dizi kural sağlarlar. CART segmentleri, 2 dilimli bir yol oluşturarak bir veri kümesidir; CHAID segmentleri ise, çoklu dilimli yollar oluşturmak için ki-kare testlerini kullanır. CART tipik olarak CHAID'den daha az veri hazırlığı gerektirir. En Yakın Komşu Yöntemi: Bir veri kümesindeki her kaydı, bir dizi kartta / kartların k sınıflarının kombinasyonuna göre sınıflandıran bir teknik tarihsel veriler (burada k 1). Bazen k en yakın komşu tekniği olarak adlandırılır. Kural indüksiyonu: İstatistiksel anlamlılığa dayalı verilerden faydalı kuralların çıkarılması. Veri görselleştirme:Çok boyutlu verilerin karmaşık ilişkilerinin görsel yorumu. Veri ilişkilerini göstermek için grafik araçlar kullanılır.

Hangi teknolojik altyapı gereklidir?

Günümüzde veri madenciliği uygulamaları, ana bilgisayar, istemci / sunucu ve PC platformları için tüm boyut sistemlerinde mevcuttur. Sistem fiyatları, en küçük uygulamalar için birkaç bin dolar ile en büyüğü için terabayt başına 1 milyon dolar arasında değişiyor. Kuruluştaki uygulamaların boyutları genellikle 10 gigabayttan 11 terabayttan fazlaya kadar değişir. NCR, 100 terabayttan fazla uygulama sunma kapasitesine sahiptir. İki kritik teknolojik faktör vardır:

  • Veritabanı boyutu: ne kadar çok veri işlenir ve korunursa, gerekli olan sistem o kadar güçlüdür Sorgunun karmaşıklığı: sorgular ne kadar karmaşıksa ve işlenen sorgu sayısı ne kadar fazlaysa, o kadar güçlüdür gerekli sistem.

İlişkisel veritabanı depolama ve yönetim teknolojisi, 50 gigabayttan az olan birçok veri madenciliği uygulaması için uygundur. Ancak, en büyük uygulamaları desteklemek için bu altyapının önemli ölçüde iyileştirilmesi gerekiyor. Bazı satıcılar, sorgu performansını artırmak için kapsamlı dizin oluşturma yetenekleri eklediler. Diğerleri, sorgu süresinde büyük sıralı iyileştirmeler elde etmek için büyük ölçüde paralel işlemciler (MPP) gibi yeni donanım mimarilerini kullanır. Örneğin, NCR'nin MPP sistemleri, en büyük süper bilgisayarlardan daha yüksek performans seviyelerine ulaşmak için yüzlerce yüksek hızlı Pentium işlemciyi birbirine bağlar.

Metin madenciliği

Metin madenciliği, dilin doğal metninden anlamlı bilgiler çıkarmaya çalışan yeni ortaya çıkan bir alandır. Genel olarak, belirli amaçlar için yararlı olan bilgileri çıkarmak için metni analiz etme süreci olarak karakterize edilebilir. Veritabanlarında depolanan veri türleriyle karşılaştırıldığında, metin yapılandırılmıştır, şekilsizdir ve algoritmik olarak işlenmesi zordur. Bununla birlikte, modern kültürde metin, resmi bilgi alışverişi için en yaygın araçtır. Metin madenciliği alanları genellikle işlevi olguların, bilgilerin veya fikirlerin iletişimi olan metinlerle ilgilenir ve söz konusu metinden otomatik olarak bilgi çıkarmaya çalışma motivasyonu, başarı sadece kısmi olsa bile ikna edicidir..

"Metin madenciliği" ifadesi genellikle büyük miktarlarda metin ve doğal dili analiz eden ve olası yararlı bilgileri elde etme girişiminde sözcüksel veya dilsel kullanım modellerini tespit eden herhangi bir sisteme atıfta bulunmak için kullanılır.

Metin madenciliği ve veri madenciliği

Veri madenciliği genel olarak verilerinizdeki kalıpları bulmak olarak tanımlanabileceği gibi, metin madenciliği de metindeki kalıpları aramakla ilgilidir. Bununla birlikte, iki maske arasındaki yüzeysel benzerlik gerçek farklılıkları maskeler. Veri madenciliği, örtük, önceden bilinmeyen ve potansiyel olarak yararlı verilerin çıkarılması olarak daha tam olarak karakterize edilebilir. Bilgi, girdi verilerinde örtüktür: gizlidir, bilinmemektedir ve otomatik veri madenciliği tekniklerine başvurulmadan zorlukla çıkarılamaz. Bununla birlikte, metin madenciliği ile, çıkarılan bilgi açık ve kesin bir şekilde metnin içindedir. Hiç gizli değil, çoğu yazar kendilerini açık ve net bir şekilde ifade ettiklerinden emin oluyor veİnsani bir bakış açısından, "şimdiye kadar bilinmeyen" tek anlam, insan kaynakları kısıtlamalarının, insanların metni kendi kendilerine okumasını olanaksız kılmasıdır. Elbette ki sorun, bilginin otomatik işlemeye uygun bir şekilde formüle edilmemesidir. Metin madenciliği, bir insan aracısına ihtiyaç duymadan, metni doğrudan bilgisayarlar tarafından tüketime uygun bir biçimde getirmeye çalışır.Metin madenciliği, bir insan aracısına ihtiyaç duymadan, metni doğrudan bilgisayarlar tarafından tüketime uygun bir biçimde getirmeye çalışır.Metin madenciliği, bir insan aracısına ihtiyaç duymadan, metni doğrudan bilgisayarlar tarafından tüketime uygun bir biçimde getirmeye çalışır.

Felsefi açıdan açık bir fark olsa da, bilgisayar bakış açısından sorunlar oldukça benzerdir. En fazla detayı çıkarmak söz konusu olduğunda metin, ham veriler kadar opaktır.

Hem veri hem de metin madenciliği için ortak olan diğer bir gereklilik, çıkarılan bilginin "potansiyel olarak yararlı" olması gerektiğidir. Bir anlamda bu, eyleme geçirilebilir anlamına gelir - otomatik olarak alınacak eylemler için bir temel oluşturabilir. Veri madenciliği söz konusu olduğunda, bu kavram nispeten alandan bağımsız bir şekilde ifade edilebilir: eyleme geçirilebilir modeller, aynı kaynaktan gelen yeni veriler üzerinde önemsiz olmayan tahminlerin yapılmasına izin verenlerdir. Başarılar ve başarısızlıklar sayılarak performans ölçülebilir, aynı problem üzerinde farklı veri madenciliği yöntemlerini karşılaştırmak için istatistiksel teknikler uygulanabilir ve benzeri. Ancak,birçok metin madenciliği durumunda, belirli bir alandan bağımsız bir şekilde "eyleme geçirilebilir" ifadesinin ne anlama geldiğini tanımlamak çok daha zordur. Bu, adil ve objektif başarı ölçütleri bulmayı zorlaştırır.

Birçok veri madenciliği uygulamasında, "potansiyel olarak yararlı" ifadesine farklı bir yorum verilir: Başarının anahtarı, çıkarılan bilginin, verileri açıklamaya yardımcı olduğu için anlaşılabilir olması gerektiğidir. Bu, sonuç otomatik bir temelden ziyade insan tüketimine yönelik olduğunda gereklidir. Bu kriter metin madenciliğine daha az uygulanabilir çünkü veri madenciliğinin aksine girdinin kendisi anlaşılabilir. Anlaşılabilir çıktı ile metin madenciliği, kendi başına bir alt alan olan geniş bir metin gövdesinin göze çarpan özelliklerini özetlemeye eşdeğerdir: özet metin.

Metin madenciliği ve doğal dil işleme

Metin madenciliği, örneğin akademik literatürdeki bibliyografik referanslar ve Web literatüründeki hiperlinkler gibi bağlantı yapılarının analizine ek olarak, otomatik doğal dil işlemenin tamamını ve muhtemelen çok daha fazlasını kapsıyor gibi görünmektedir. doğal dil işlemenin geleneksel alanının dışında kalan yararlı bilgi kaynakları. Fakat gerçekte, çoğu metin madenciliği çabası, klasik doğal dil işlemenin daha derin ve bilişsel yönlerini, pratik bilgi erişiminde kullanılanlara benzer daha yüzeysel teknikler lehine bilinçli olarak reddeder.

Nedeni en iyi, doğal dil işleme kaynakları konusunun tarihsel gelişimi bağlamında anlaşılır. Alanın kökleri, 1940'ların sonlarında ve 1950'lerin başlarında, hobileri kelimesi kelimesine çeviriye dayalı stratejilerin, kolayca daha doğru bir şeye dönüştürülebilecek onurlu ve yararlı kaba çeviriler sağlayacağını varsayan makine çevirisi projelerinde yatıyordu., birincil ayrıştırmaya dayalı teknikleri kullanarak. Ancak bu yüksek profilli, yoğun bir şekilde finanse edilen projelerin tek sonucu, okuma yazma bilmeyen çocukların zirvesinde bile doğal dilin açık bir şekilde gerçekleştirilmesiydi, bu basit tekniklere boyun eğmeyen inanılmaz derecede karmaşık bir ortamdır.Temelde, doğasının nedenine rağmen, kodlaması ve her gün algoritmik olarak kullanılması son derece zor olan "sağduyu" bilgisi olarak ne düşündüğümüze bağlıdır.

Bu utanç verici ve son derece duyurulan başarısızlıkların bir sonucu olarak, araştırmacılar "oyuncak dünyasını", özellikle geometrik nesnelerin, şekillerin, renklerin ve istiflemenin (anlambiliminin açık ve net olan, kodlanması mümkün olan işlemler) "blok dünyası" nı kaldırdı.). Ancak yavaş yavaş başarılı oldu, Toy Worlds, başlangıçta etkileyici olmasına rağmen, gerçekçi metin parçalarının başarısına dönüşmedi. Dünyanın oyuncak teknikleri, aynı adı taşıyan tanınmış çocuk hikayelerinden sonra "Dick ve Jane" çeşidi olarak adlandırabileceğimiz yapay olarak oluşturulmuş cümlelerle iyi bir şekilde ilgilenir. Ancak, ister titizlikle oluşturulmuş ve düzenlenmiş olsun, ister gerçek zamanlı kısıtlamalarla (gündelik konuşma gibi) üretilmiş olsun, gerçek metinle karşılaştıklarında sefil bir şekilde başarısız olurlar.

Bu arada, diğer alanlardaki araştırmacılar, tüm tuhaflıkları, özgünlükleri ve hatalarıyla birlikte gerçek metinle uğraşmak zorunda kaldılar. Örneğin, sıkıştırma şemaları, içeriği ne olursa olsun tüm belgelerle iyi çalışmalı ve sapkın dosyalar (tamamen rasgele giriş veya ikili dosyalar gibi) skandal bir şekilde işlendiğinde bile feci arızalardan kaçınmalıdır. Bilgi erişim sistemleri, her türden belgeyi indekslemeli ve her konuda veya dilsel doğrulukta bunların etkili bir şekilde konumlandırılmasına izin vermelidir. Metin özetleme algoritmalarının ve çıkarmanın anahtarı, herhangi bir metin dosyası üzerinde düzgün bir iş yapmak zorunda olmalarıdır. Bu alanlardaki iş sistemleri ve uygulamaları ayrı konulardır,çünkü çoğu dilden bağımsızdır. Girişe dil değil verimiş gibi davranarak çalışırlar.

Metin madenciliği bu "gerçek metin" düşünme tarzının bir sonucudur. Muhtemelen fazla olmadığını kabul edersek, kısıtlamasız girdi ile neler yapılabilir, büyük miktarlarda metni işleme yeteneği görece basit teknikleri telafi edebilir mi?

İlginçtir ki, veri madenciliği disiplinler arasındaki zor ilişkilerin geçmişinden, bu durumda deneysel bilgisayar bilimine dayanan, özel değerlendirme metodolojileri ve teorik olarak sağlam temellere dayanan, ancak buna dayanan yeni bilgi aramak yerine açıkça belirtilen hipotezleri test etme geleneğine. İlk makine öğrenimi araştırmacıları istatistikler hakkında çok az şey biliyorlardı veya umursamıyorlardı; Erken yapılandırılmış istatistiksel hipotez araştırmacıları, makine öğrenimindeki paralel çalışmalardan habersiz kaldılar. Sonuç, benzer tekniklerin (örneğin, karar ağaçları ve en yakın komşu oluşturma) iki disiplinden paralel olarak ortaya çıkmasıydı.ve ancak daha sonra dengeli bir yaklaşım geliştirdiler.

Duygu madenciliği

Bilgisayarlar sayılarla çalışmak konusunda iyi olabilir, ancak duyguları sıkıştırabilirler mi?

Blogların ve sosyal ağların ortaya çıkışı, kişisel fikirlerin etrafında bir pazar yarattı: ağdaki görüşler, derecelendirmeler, tavsiyeler ve diğer ifade biçimleri. Bilgisayar bilimcileri için, bu hızla büyüyen veri dağı, İnternet kullanıcılarının kolektif bilincine çekici bir pencere açıyor.

Duygu analizi olarak bilinen yeni ortaya çıkan bir alan, bilgisayar dünyasının keşfedilmemiş sınırlarından biri etrafında şekilleniyor: insan duygularının değişkenlerini zor verilere çevirmek.

"Somutlaşmış biliş" teorisi, çeşitli zihinsel faaliyetlerin vücut durumlarına, örneğin duruşlar, kol hareketleri ve yüz ifadeleri gibi yansıtıldığını ileri sürer. Bir çalışma, bilgisayar kullanıcılarının profillerinin - cinsiyetleri, duyguları ve duygusal deneyimleri - bilgisayar imleçlerinin hareketlerinden ne derece değerlendirilebileceğini araştırıyor.

Bir deneyde, katılımcılar (N = 372) her biri iki dakika boyunca üç film klibi izledi, daha sonra duygularını derecelendirdi ve üç kez basit algılama görevlerini yerine getirdi, programımız katılımcıların imlecinin yolunu izledi her 20 milisaniyede bir. İmleç yolundan çıkarılan özelliklerin katılımcıların profillerini açığa çıkarma derecesi araştırıldı. Sonuçlar, az sayıda yörünge değişkeninin katılımcıların hangi filmi izlediklerini, filmi izlerken nasıl hissettiklerini ve cinsiyetlerini belirlemede yardımcı olduğunu gösterdi. İmleç hareketlerinin, dinamik bir kullanıcı profilini çıkarmak için kapsamlı bilgi sağlaması önerilir.

Bu, ilginç bir programlama egzersizinden daha fazlasıdır. Birçok şirket için çevrimiçi görüş, piyasadaki bir ürünü yapabilen veya bozabilen bir tür sanal para birimi haline geldi.

Ancak, birçok şirket, artık çevrimiçi ürünleri etrafında dönen şikayet ve tebrik kutularını veya sandıklarını anlamaya çalışıyor. Şekillenmeye başlayan duygu analizi araçları olarak, yalnızca şirketlerin karlarını iyileştirmelerine yardımcı olmakla kalmaz, aynı zamanda çevrimiçi bilgi arama deneyimini zaman içinde dönüştürürler.

Birkaç yeni duygu analizi şirketi, çevrimiçi olarak söylenenlere şirketlerin artan ilgisinden yararlanmaya çalışıyor.

San Francisco'daki Explorer Labs'ın ürün başkan yardımcısı Margaret Francis, "Sosyal medya eskiden 25 yaşındaki danışmanlar için bu projeydi" dedi. Şimdi, üst düzey yöneticilerin "bunu inanılmaz derecede zengin bir pazar zekası damarı olarak kabul ettiklerini" söyledi.

CNet kurucusu Halsey Minor tarafından başlatılan risk sermayesi şirketi tarafından desteklenen Scout Labs, kısa süre önce müşterilerin blogları, haber makalelerini, çevrimiçi forumları ve sosyal medya sitelerini izlemelerine olanak tanıyan bir abonelik hizmeti başlattı. haberlerdeki ürünler, hizmetler veya konular hakkındaki fikirlerin eğilimleri.

Mayıs ayı başlarında StubHub, bir Sox Yankees-Red oyununu geciktiren yağmurdan sonra olumsuz blog duyarlılığındaki ani bir artışı belirlemek için Explorer Labs'ın izleme aracını kullandı.

Resmi stadyum yanlışlıkla yüzlerce taraftara oyunun iptal edildiğini söyledi ve StubHub, oyunun gerçekten oynandığını öne sürerek taraftarların geri ödeme taleplerini reddetti. Ancak çevrimiçi ortamda bira sorunlarını tespit ettikten sonra şirket, etkilenen hayranlara indirim ve kredi teklif etti. Şu anda kötü hava politikasını yeniden değerlendiriyor.

StubHub müşteri hizmetleri direktörü John Whelan, "Bu bizim için bir kömür madenindeki bir kanarya," dedi.

Yonkers merkezli Jodange, çevrimiçi yayıncılar için ana akım haber kaynakları, bloglar ve Twitter dahil olmak üzere 450.000'den fazla kaynaktan gelen fikir verilerini birleştirmelerine olanak tanıyan bir hizmet sunuyor.

Eski bir Cornell bilgisayar bilimi profesörü olan Claire Cardie ve Pittsburgh Üniversitesi'nden Jan Wiebe tarafından yapılan araştırmaya dayanan hizmet, yalnızca belirli konulardaki duyguları değerlendiren değil, aynı zamanda en düşünceli fikir sahiplerini de belirleyen gelişmiş bir algoritma kullanıyor. etkili.

İlk yatırımcıları arasında National Science Foundation'ın da bulunduğu Jodange, şu anda gazete başyazılarının bir şirketin hisse senedi fiyatı üzerindeki etkisini tahmin etmek gibi gelecekteki gelişmeleri tahmin etmek için duyarlılık verilerini kullanabilecek yeni bir algoritma üzerinde çalışıyor.

Benzer bir şekilde, Financial Times kısa süre önce, haberlerdeki iş konuları hakkındaki duyguları izleyen deneysel bir program olan Newssift'i ve kullanıcıların sorgularını konuya, organizasyona göre düzenlemesine olanak tanıyan özel bir arama motorunu tanıttı. yer, kişi ve konu.

Newssift'i kullanarak, yakın tarihli bir Wal-Mart araştırması, şirketin yürüttüğü şey hakkındaki duyarlılığın ikiye bir gibi biraz daha iyi bir oranda olumlu olduğunu ortaya koyuyor. Bu arayış, önerilen "Kuvvet ve Birlikler" terimiyle rafine edildiğinde, olumlu duyguların olumsuz duygulara oranı bire bire yakındır.

Bu araçlar, şirketlerin belirli soruların müşteri algıları üzerindeki etkisini saptamasına yardımcı olarak uygun pazarlama ve halkla ilişkiler stratejileriyle yanıt vermelerine yardımcı olabilir.

Sıradan netizenler için, Tweetfeel, Twendz ve Twitrratr gibi hafif araçlar biçiminde daha basit duygu analizi enkarnasyonları ortaya çıkıyor. Bu siteler, kullanıcıların belirli konularda Twitter kullanıcılarının nabzını tutmasına olanak tanır.

Örneğin, Tweetfeel ile ilgili hızlı bir arama, Twitter kullanıcılarının yüzde 77'sinin "Julie ve Julia" filmini beğendiğini ortaya koyuyor. Bununla birlikte, Twitrratr'daki aynı arama birkaç yanlış ateşlemeyi ortaya çıkarır. Site, "Julie ve Julia gerçekten çok güzeldi" yazan bir tweet'e olumsuz bir puan veriyor. Aynı mesaj "bundan sonra hepimiz çok aç hissediyoruz" ile sona erdi - ve sistem olumsuz bir duyguyu belirtmek için "aç" kelimesini aldı.

Keşif laboratuvarları tarafından kullanılan daha gelişmiş algoritmalar, Jodange ve Newssift bu tür tuzaklardan kaçınmak için gelişmiş analitik kullanır, ancak bu hizmetlerin hiçbiri mükemmel çalışmaz. Francis, "Algoritmamız yaklaşık yüzde 70 ila 80 doğru" dedi ve kullanıcılarının yanlış sonuçları yeniden sınıflandırabildiklerini, böylece sistemin hatalarından ders çıkarabileceğini sözlerine ekledi.

Bununla birlikte, insan dilinin kaygan şeylerini ikili değerlere çevirmek her zaman mükemmel olmayan bir bilim olacaktır. Maryland banliyö danışmanlık firması Plana Alta'nın kurucusu Seth Grimes, bir dizi yazılı metni dönüştürmeyi zorlaştıran birçok kültürel faktöre ve dilbilimsel nüanslara işaret ederek, "Duygular geleneksel gerçeklerden çok farklıdır" dedi. lehinde veya aleyhinde basit bir hisle. "Günahkar, çikolatalı pastaya uygulandığında bu iyi bir kelime" dedi. En basit algoritma işi, bir ifadeyi basit bir ikili analize dayalı olarak pozitif veya negatif olarak sınıflandırmak için anahtar kelimeye göre taramaktır ("aşk" iyidir, "nefret" kötüdür). Ancak bu yaklaşım, insan dilini hayata geçiren incelikleri yakalayamıyor: ironi,alay, argo ve diğer deyimler. Güvenilir duygu analizi, dilbilimde birçok gri tonunun analiz edilmesini gerektirir.

Duygu analizi üzerine ilk bilimsel kitaplardan biri olan "Opinion Mining and Sentiment Analysis" i birlikte yazan Yahoo araştırmacısı Bo Pang, "Bu, ince şekillerde ifade edilebilecek güven ile ilgili" dedi.

Bir ifadenin gerçek amacına ulaşmak için Pang, kutupluluk (ifade olumlu mu yoksa olumsuz mu), yoğunluk (ifade edilen duygunun derecesi nedir?) Ve öznellik dahil olmak üzere birkaç farklı filtreyi analiz eden bir yazılım geliştirdi. (kısmi veya tarafsız biçim kaynaktır).

Örneğin, sıfatların üstünlüğü genellikle yüksek derecede bir öznelliğe işaret ederken, sözlü ve isim ifadeleri daha tarafsız bir bakış açısına yönelir.

Duygu analizi algoritmaları daha karmaşık hale geldikçe, daha karmaşık filtreleme mekanizmalarına giden yolu işaret edebilecek daha doğru sonuçlar üretmeye başlamalıdırlar. Her gün Web'i kullanmanın bir parçası olabilirler.

Grimes, "Duygu analizinin arama motorlarının standart bir özelliği haline geldiğini görüyorum," dedi ve bu tür algoritmaların hem genel web arama amaçlarını hem de aşağıdaki gibi alanlarda daha özel aramaları etkilemeye başlayabileceğini öne sürüyor. e-ticaret, seyahat rezervasyonları ve film incelemeleri.

Pang, güvene dayalı olarak kullanıcılar için sonuçları ayrıntılı olarak belirten bir arama motoru hayal ediyor. Örneğin, "San Antonio'daki en iyi otel" gibi belirli sorgu türleri için arama sonuçlarının sırasını etkileyebilir.

Arama motorları sonuçlarına gittikçe daha fazla fikir verisi eklemeye başladıkça, gerçek ve fikir arasındaki ayrım, David Byrne'nin bir zamanlar dediği gibi, »tüm gerçekler bakış açılarıyla gelir.. »

Madencilik işi ile ilgili çelişkili duygular ve duyguların manipülasyonu

Büyüleyici yeni animasyon filmi "Inside Out" da, psikologların evrensel olarak nitelendirdiği altı duygudan beşini temsil eden karakterlerle tanışmak için 11 yaşındaki Riley'nin kafasının içine çekiliyor.: sevinç, üzüntü, korku, öfke ve tiksinti. (Altıncı duygu: sürpriz, belki de çoğu iş insanı gibi film yapımcıları sürprizlerden nefret ettikleri için ihmal edildi.) Herhangi bir spoiler ifşa etmeden, Riley'de, kafalarda olduğu gibi bunu söylemek yeterli olur. Joy, kendi yaşındaki gerçek kızların çoğundan üzüntü, öfke, korku ve duygusal çevrenin diğer daha az sevimli üyelerine aklından bazı görüntüler sunar.

Bu filmde ve "Avatar" ve "Oyuncak Hikayesi" gibi filmlerde animatörler, psikolog Paul Ekman'ın yüz ifadesindeki küçük değişiklikleri haritalama konusundaki öncü çalışmasından bilgilendirildi ve ilham aldı. Filmde dikkate alınması gereken eylemlerle ilgili tüm bu bilgiler, insanların davranış ve duygularının madenciliğine dayanılarak verildi. Ancak ilham ve rehberlik için Ekman'a başvuran tek profesyoneller film yapımcıları değil. CIA, TSA ve diğer güvenlik bilincine sahip kuruluşlar, yalancıları ve kötü niyetli kişileri ortadan kaldırmak için yüz kodlama etkinliği kullanır. Ve biz daha farkına varmadan tüketicilerin kafasına girip kararlarımızı şekillendirmek isteyen reklamverenler,Altın kaydırmayı, fonksiyonel manyetik rezonans görüntüleme makinelerinin ticarileştirilmesinde ve küçük gülümsemelerimizin, yüz buruşturmalarımızın ve göz hareketlerimizin kamera algılamasında görüyorlar. Mesajlarının önündeki duygusal engellerin en aza indirildiğinden ve yarattığı neşe veya diğer duygusal teşviklerin en üst düzeye çıkarıldığından emin olmak için, reklamların mikro saniye saniye bize nasıl hissettirdiğini test etmeye çalışıyorlar.

Günümüzde firmaların verdikleri tüm kararlar, bireyi gözlemleyerek doldurdukları geniş bir veri tabanına dayanmaktadır, belli tip ürünleri sunmalarının nedeni bu firmalara sağladığı kolaylık ile verilmektedir. duyarlılık madenciliği.

İnternet hayatımızın giderek daha önemli bir parçası. İnternet kullanıcıları, duygularını, yargılarını, kişisel duygularını kolayca ifade ettikleri sosyal medya ağlarında bilgi ve görüşlerini paylaşırlar. Metin madenciliği ve bilgi erişim teknikleri, tüm bu bilgileri keşfetmemize ve yazarların ne tür görüşler, iddialar veya iddialarda bulunduğunu keşfetmemize olanak tanır.

Özetle, veri toplama alanındaki madencilik, kullanıcıların ne tür bilgi aradıklarını belirlemeye, büyük miktarda bilgi, metin kullanımını kolaylaştırmaya, özellikleri sınıflandırmaya, bir şirketin müşterilerinin tercihlerini bilmeye hizmet eder. Tüm bunlar, ilgili tarafın kabul ettiği amaçla. Genel olarak şirketler, müşteriye hangi ürün veya hizmetleri sunacaklarını, nasıl tepki vereceklerini ve neyle ilgileneceklerini bilmek için tüm bu tür bilgileri toplar.

Öte yandan, söz konusu verilerin işlenmesinde giderek daha hızlı hale gelen sistemler sayesinde, bilginin sınıflandırılması büyük miktarda veriyi işleyen kişilere büyük yardımcı olmaya başladı.

Referanslar:

  • Java uygulamalarıyla pratik veri madenciliği, makine öğrenimi ve teknik araçlar (2000). Ian H. Witten, Eibe Frank. Editör Morgan Kaufmann Algılama, ekonomi ve finansta veri madenciliği ve karar almaya dayalı (2007). Ildar Batyrshin, Leonid Sheremetov, Lofti A. Zadeh. Editoryal Resimli Sinirsel korelasyon kararları ve eylemleri, nörobiyolojide güncel görüş (2010). B. Tartacaklar.
Orijinal dosyayı indirin

Veri ve bilgi madenciliği