Part 1

Kitaba PDF formatında ulaşmak için [tıklayınız](https://www.statlearning.com/). ##### Verinin Önemi Ücret verileri, sürekli veya nicel bir çıktı değerinin tahmin edilmesini içerir. Bu genellikle bir regresyon problemi olarak adlandırılır. Ancak, bazı durumlarda bunun yerine *sayısal olmayan bir değeri, yani kategorik veya nitel bir çıktıyı* tahmin etmek isteyebiliriz. *Piyasalar aşağı mı yoksa yukarı mı hareket edecek?* Bu bir sınıflandırma problemi olarak bilinir. Piyasanın hangi yönde hareket edeceğini doğru bir şekilde tahmin edebilecek bir model çok faydalı olacaktır. ##### Diğerleri Bir diğer durum yalnızca girdi değişkenlerini gözlemlediğimiz ve buna karşılık gelen bir çıktının olmadığı durumlardır. Bireyleri gözlemlenen özelliklerine göre gruplandırarak hangi müşteri türlerinin birbirlerine benzediğini anlamak isteyebiliriz, bu durumda *clustering* karşımıza çıkar. #### Notasyonlar ve Formüller $ n \to \text{gözlem sayısı} $ $ p \to \text{değişken sayısı} $ $X_{ij} \to \text{i gözlemi için j değişkeninin değeri}$ **Matris Çarpımı** $ c_{ij}= a_{i1} b_{1j} + a_{i2} b_{2j} +\cdots+ a_{in} + b_{nj} = \sum_{k=1}^n a_{ik}b_{kj} $ $ \begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22} & \cdots & a_{2n}\\ \vdots & \vdots & \ddots & \vdots\\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{bmatrix} \times \begin{bmatrix} b_{11} & b_{12} & \cdots & b_{1p}\\ b_{21} & b_{22} & \cdots & b_{2p}\\ \vdots & \vdots & \ddots & \vdots\\ b_{n1} & b_{n2} & \cdots & b_{np} \end{bmatrix} = \begin{bmatrix} c_{11} & c_{12} & \cdots & c_{1p}\\ c_{21} & c_{22} & \cdots & c_{2p}\\ \vdots & \vdots & \ddots & \vdots\\ c_{m1} & c_{m2} & \cdots & c_{mp} \end{bmatrix}$ ##### Bir Örnek **Reklam** veri setinde bir ürünün *satış* verisi ve üç mecraya ait bilgiler olsun: *TV, radyo ve gazeteler*. Farklı reklam mecraları ile satışlar arasındaki ilişki ne ve satışlar nasıl artırılabilir? satışlar çıktı, diğerleri ise girdi değişkenler olmak üzere $X_1$ TV, $X_2$ radyo, $X_3$ gazeteler olsun. Eğer Y ve $X=(X_1, X_2,X_3...X_p)$ arasında bir ilişki varsa aşağıdaki gibi ifade edilebilir: $ Y = f(X) + ε $ f burada henüz bilinmese de $X_pnin belirli bir fonksiyonunu; ε X'den bağımsız rassal ve ortalama değeri neredeyse 0'a eşit olan hata terimini ifade eder. f, bize X'in Y hakkında açıkladığı sistematik bilgiyi temsil eder. Benzer bir örnek *kişi gelirinin* *eğitim aldığı yıl sayısı* değişkenine bakarak tahminlemesi ile yapılabilir. **Temelinde istatistiksel öğrenme f'in tahmin edilmesine dayanıyor.** ## Neden 𝑓'i tahmin ediyoruz? Çoğu zaman girdilere (X) ait veri mevcutken çıktı (Y) için mevcut değildir. Hata terimi 0'a yakınsadığı için $\hat{Y}=\hat{f}(X)$ şeklinde tahminlenebilir (şapkalı harfler tahmin edilen değer anlamına geliyor). $\hat{Y}nin başarısı *indirgenebilir/azaltılabilir hataya* (makine öğrenmesi için önemli) ve indirgenemez hataya bağlıdır. Doğru teknikler ile ilk gruptaki hata azaltılabilir ve tahmin performansı artırabilir. Ne olursa olsun hata tamamen yok edilemez, bu yüzden ε denklemde yer alır. $ E(Y-\hat{Y})^2 = E[f(X)+ε-\hat{f}(X)]^2 $ $ = [f(X)-\hat{f}(X)]^2 + var(ε)$ Beklenen değerin ilk kısmındaki hata azaltılabilirken, hata teriminin varyansı da mevcuttur. Tahmin ne kadar iyi olursa olsun, ε'nin değeri 0 olamaz. *dipnot: açıklayıcı, yordayıcı, tahmin edici vb. gibi terimler aynı değişkeni ($X_p$) anlatıyor, çevirirken karar veremedim, herhangi birini kullanabilirim* ##### Çıkarsama Genellikle $X_1, X_2,X_3...X_p$ ve $Y$ arasındaki ilişkiyi kavramak için 𝑓'i bilmek isteriz fakat illa ki $Yyi tahminlemek zorunda değiliz. Bazı soru ve cevaplar şunlar olabilir; **Hangi açıklayıcılar yanıtla ilişkilidir?** Analizdeki açıklayıcıların yalnızca küçük bir kısmının $Y$ ile anlamlı ölçüde ilişkili olduğu sıklıkla görülen bir durumdur. Uygulamaya bağlı olarak, çok sayıda olası değişken arasından birkaç önemli tahmin edicinin belirlenmesi son derece faydalı olabilir. **Yanıt ile her bir açıklayıcı arasındaki ilişki nedir?** Bazı açıklayıcılar daha büyük değerlerinin $Ynin daha büyük değerleriyle ilintili olması şeklinde $Y$ ile pozitif bir ilişkiye sahip olabilirken diğer açıklayıcılar ise tam tersi bir ilişkiye sahip olabilir. 𝑓'nin karmaşıklığına bağlı olarak, yanıt ile belirli bir açıklayıcı arasındaki ilişki diğer yordayıcıların değerlerine de bağlı olabilir. **Y ile her bir açıklayıcı arasındaki ilişki doğrusal bir denklem kullanılarak yeterince özetlenebilir mi, yoksa ilişki daha karmaşık mıdır?** Tarihsel olarak, 𝑓'yi tahmin etmeye yönelik çoğu yöntem doğrusaldır. Bazı durumlarda, böyle bir varsayım makul ve hatta arzu edilen bir durumdur ancak çoğu zaman gerçek ilişki daha karmaşıktır ve bu durumda doğrusal bir model girdi ve çıktı değişkenleri arasındaki ilişkinin doğru bir temsilini sağlamayabilir. ## 𝑓'i nasıl tahmin ederiz? Burada amaç 𝑓 fonksiyonunu herhangi bir gözlem (X,Y) için $Y≈\hat{f}(X)$ şeklinde tahmin edebilmektedir. Bunun için ilk etapta modeli eğitmek için *n* tane gözlem olacak. ${(x_1,y_1), (x_2,y_2),.....,(x_n,y_n)}$ ### Parametrik Yaklaşım 𝑓'in matematiksel ilişkisine dair bir model varsayımı oluşturulur. $f(X) = β_0 + β_1*X_1 +β_2*X_2....+β_p*X_p$ Bu doğrusal bir model olduğu için tahminleme kolaydır. p boyutlu bir $f(X)$ fonksiyonu yerine $p+1$ kadar olan katsayıların ($β_0,β_1,...,β_p$) tahmini yeterlidir. $Y ≈ β_0 + β_1*X_1 +β_2*X_2....+β_p*X_p$ Bunun için genellikle *en küçük kareler/EKK (ordinary least squares/OLS)* kullanılır fakat alternatifler de mevcuttur. OLS için bir not; heteroskedastisite ve uç değerler analiz için problemdir, mevcutken de model kurmanın anlamı olmaz. ![[Pasted image 20230714110842.png]] ![[Pasted image 20230714110855.png]] Bu yaklaşım parametrik olarak nitelenir ve $f$ fonksiyonuna dair tahminleri bir grup parametrenin tahminine indirger ve tüm bir fonksiyona kıyasla bu işlem daha kolaydır. Ne var ki ilk adımdaki varsayım her zaman $f$ fonksiyonunu yapısını yansıtmayabilir. Modeli daha fazla parametre ile genişletmek mümkündür fakat bu da *aşırı öğrenmeye yani veri setine çok yakın veya tam karşılık gelen, bu nedenle de ek verilere uymakta veya gelecekteki gözlemleri güvenilir bir şekilde tahmin etmekte başarısız analize/modele yol açabilir. Bir nevi model açıklama gücü için gereksiz bilgileri de öğrenmeye başlar ve ilerisi için sorun yaratır.* Yüksek varyans ve düşük hata oranları bu durum için gösterge olabilir. [IBM'in sayfasında](https://www.ibm.com/topics/overfitting) overfitting/underfitting'e dair özet bilgiler mevcut. ##### Örnek (Gelir) $gelir ≈ β_0 + β_1*eğitim +β_2*yaş$ Bu örnekte gelir eğitim alınan yıl sayısı ve yaşın doğrusal bir fonksiyonu olarak gözüküyor. Böyle bir durumda OLS ile $β_0$, $β_1$ ve $β_2$ tahmini yeterli olacaktır. Kitaptaki görsellerden gidecek olursak aşağıdaki grafikte mavi renk bu değişkenler arasındaki asıl ilişkiyi, kırmızı gözlemleri ifade ediyor. Mavi olan aslında $f$ fonksiyonu ve simülasyon olduğu için net olarak biliniyor. ![[Pasted image 20230714104359.png]] Aradaki ilişki OLS ile lineer bir model olarak ele alındığına şu şekilde ortaya çıkıyor. ![[Pasted image 20230714104250.png]] Kesişimlerine bakıldığında birebir örtüşmeseler bile temel yaklaşım açısından fikir verebileceği gözüküyor. Burada $n$ (gözlem sayısı) gibi önemli etkilere sahip faktörler var. ![[Pasted image 20230714104526.png]] ### Non-Parametrik Yaklaşım Bu yaklaşımda $fin fonksiyonel yapısına dair bir varsayım yok. Eldeki gözlemlere olabildiğince yaklaşan bir ilişki elde etmeye çalışıyoruz. Parametrik yaklaşımlara göre önemli bir avantajı $f$ için belirli bir fonksiyonel form varsayımından kaçınarak, gözlemleri modele uydurmak için daha geniş bir olası şekil aralığına sahipler. Herhangi bir parametrik yaklaşımda $fi tahmin etmek için kullanılan fonksiyonel form gerçektekinden ciddi ölçüde farklı olursa sorun çıkar. $fin biçimi hakkında hiçbir varsayım olmadığı için bu yaklaşımda öyle bir tehlike yoktur fakat parametrik olmayan yaklaşımlar büyük bir dezavantaja sahiptir: $f'$i tahmin etme sürecini az sayıda parametreye indirgemedikleri için, $f$ için doğru tahmine ulaşabilmek adına çok sayıda gözlem (parametrik yaklaşımda tipik olarak ihtiyaç duyulandan çok daha fazla) gereklidir. Görselde [Thin Plate Spline](https://en.wikipedia.org/wiki/Thin_plate_spline) ile model kurulmuş. ![[Pasted image 20230714105044.png]] Burada diğerlerine kıyasla çok daha açıklayıcı bir model olduğu görülse de orijinal simülasyona kıyasla çok daha ciddi varyans (büyüme ve küçülme, tepecikler) olduğu da ortada, yani *aşırı öğrenme* mevcut. Bu da bir optimizasyon problemi.