Türkçe Metin |
Koordinatörümle geçen hafta yaptığımız toplantının ardından, kendilerinin olumlu yorumları ile beraber rotayı bu sefer daha iyi ne yapabiliriz sorusunu baz alarak farklı data setleri araştırmaya çevirdim. Recognition modelinin iyi işleyebilmesi ve birden fazla farklı insan sesini algılayabilmesi için var olan çalışmaların daha da geliştirilmesi adına en az 200 farklı ses kaynağının uygulamaya eklenmesi gerektiğini kararını almış bulunduk. Yeterli kaynak ve uygun gelişmeye açık model ile başarılı bir sonuca ulaşılması hedefleniyor. Fakat yapmış olduğum bazı araştırmalar ışığında bunun çok kısıtlı bir model şekli alacağını düşündüğüm için yapmak istediğim modelin biraz daha farklı olması gerektiğini düşünüyorum. Önceki projelere bakıldığında aslında sadece olan, ses dosyaları ile classification mantığını kullanarak ekrana sesimizin çıktısını almaktı. Fakat benim hedeflediğim şey ise gerçekten bir recognition modeli oluşturarak, RNN ve CNN yapılarını beraber iç içe kullanmak. Bu sayede elimizde olan ses kaynaklarını,görüntü işleme mantığıyla algoritmaya eklemek, back-propagation özelliği ile 2 input mantığını kavramak. Birincisi normal verilen data, ikinci ise tahmin ettiği data olmak üzere. Bunun ile ilgili yapmış olduğum kısa bir araştırmayı paylaşıyorum. |
İngilizce Çevirisi |
After our meeting with my coordinator last week, I turned the route along with their positive comments to research different data sets based on the question of what can we do better this time. In order for the Recognition model to function well and detect more than one different human voice, we decided that at least 200 different sound sources should be added to the application in order to further develop existing studies. It is aimed to achieve a successful result with sufficient resources and a model open to appropriate development. But in light of some of the research I’ve done, I think that the model I want to do should be a little different, because I think it will take a very limited form of model. Looking at previous projects, what actually happened was to output our audio to the screen using classification logic with audio files. But what I’m aiming for is to really create a recognition model and use RNN and CNN structures together. In this way,we have audio sources, image processing logic to add to the algorithm, back-propagation function with 2 input logic to understand. The first is normal given data, and the second is predicted data. I’m sharing a brief research I’ve done on this. |