10 Pertanyaan Interview Menjadi Seorang Data Scientist

1. Apa perbedaan antara supervised dan unsupervised learning ?
Supervised learning (pembelajaran mesin yang diawasi):
Supervised learning membutuhkan data yang diberi label pelatihan.
unsupervised learning:
unsupervised learning tidak memerlukan data berlabel.


2. Apa itu bias, trade off varians?
Bias : Bias adalah error yang ada dalam model yang telah dibuat yang disebabkan oleh over simplification dari algoritma machine learning, ini bisa menyebabkan under fitting.
contoh model machine learning yang memiliki low bias = Decission tree, k-NN dan SVM
contoh model machine learning yang memiliki high bias = Linear Regression dan Logistic Regression

Variance : adalah error dalam model yang disebabkan algoritma machine learning yang kompleks, model kamu mempelajari noise/outlier juga pada sesi trainning data set dan performanya akan buruk ketika sesi test data set ini akan menyebankan overfitting

Bias, Variance trade off :
Tujuan dari setiap algoritma pembelajaran mesin yang diawasi adalah memiliki bias yang rendah dan varian yang rendah untuk mencapai kinerja prediksi yang baik.
 1. Algoritma k-NN memiliki bias rendah dan varians tinggi, tetapi trade-off dapat diubah dengan             meningkatkan nilai k yang meningkatkan jumlah neigbours yang berkontribusi pada prediksi dan       pada gilirannya meningkatkan bias model.
 2. Algoritma support vector machine memiliki bias rendah dan varians tinggi, tetapi trade-off dapat         diubah dengan meningkatkan parameter C yang memengaruhi jumlah pelanggaran margin yang           diizinkan dalam data pelatihan yang meningkatkan bias tetapi mengurangi varians.
     Tidak ada yang lolos dari hubungan antara bias dan varians dalam pembelajaran mesin.                       Meningkatkan bias akan mengurangi varians. Meningkatkan varians akan mengurangi bias.


3. Apa yang dimaksud dengan exploding gradients?
Gradien adalah arah dan besarnya yang dihitung selama pelatihan neural network yang digunakan untuk memperbarui bobot neural network ke arah yang benar dan dengan jumlah yang tepat.

"Exploding gradients adalah masalah di mana large error gradients menumpuk dan menghasilkan pembaruan yang sangat besar untuk bobot model neural network selama pelatihan." Pada titik ekstrim, nilai bobot dapat menjadi sangat besar hingga meluap dan menghasilkan nilai NaN.
Ini membuat model anda menjadi tidak stabil dan tidak dapat belajar dari data pelatihan Anda.


4. Apa itu confusion matriks?
Confusion matriks adalah tabel 2X2 yang berisi 4 output yang disediakan oleh classifier biner. Berbagai ukuran, seperti tingkat kesalahan, akurasi, spesifisitas, sensitivitas, presisi, dan turunannya.

Pengklasifikasi biner memprediksi semua instance data dari dataset uji sebagai positif atau negatif. Ini menghasilkan empat hasil-
True positive (TP) - Benar prediksi positif
False positive (FP) - Prediksi positif salah
True negative (TN) - Prediksi negatif yang benar
False negative (FN) - Prediksi negatif salah


6. Jelaskan cara kerja kurva ROC?
Kurva ROC adalah representasi grafis dari kontras antara tingkat positif benar dan tingkat positif palsu di berbagai ambang batas. Ini sering digunakan sebagai proksi untuk trade-off antara sensitivitas (tingkat positif sejati) dan tingkat positif palsu.

Tingkat Kesalahan = (FP + FN) / (P + N)
Akurasi = (TP + TN) / (P + N)
Sensitivitas (Tingkat penarikan kembali atau Benar positif) = TP / P
Spesifisitas (True negative rate) = TN / N
Presisi (Nilai prediksi positif) = TP / (TP + FP)
F-Score (Harmonic mean of precision and recall) = (1 + b) (PREC.REC) / (b²PREC + REC) di mana b biasanya 0,5, 1, 2.


7. Apa itu Bias Seleksi?
Bias seleksi terjadi ketika sampel yang diperoleh tidak mewakili populasi yang dimaksudkan untuk dianalisis.


8. Jelaskan algoritma pembelajaran mesin SVM secara terperinci
SVM adalah singkatan dari support vector machine, ini adalah algoritma pembelajaran mesin terawasi yang dapat digunakan untuk Regresi dan Klasifikasi. Jika Anda memiliki n fitur dalam set data pelatihan Anda, SVM mencoba untuk memplotnya dalam ruang n-dimensi dengan nilai setiap fitur menjadi nilai koordinat tertentu. SVM menggunakan hyper plane untuk memisahkan kelas yang berbeda berdasarkan pada fungsi kernel yang disediakan.


9. Sebutkan fungsi kernel pada SVM
  - Linear kernel
  - Polynomial kernel
  - Radial basis kernel
  - sigmoid kernel


10. Jelaskan Algoritma Decision Tree
Decision Tree adalah algoritma pembelajaran mesin yang diawasi terutama digunakan untuk Regresi dan Klasifikasi. Ini memecah set data menjadi himpunan bagian yang lebih kecil dan lebih kecil sementara pada saat yang sama pohon keputusan terkait dikembangkan secara bertahap. Hasil akhirnya adalah pohon dengan decision nodes dan leaf nodes. Pohon keputusan dapat menangani data kategorikal dan numerik.




Comments