תפריט
שלום אורח ::: Mon, 22 Jul 2019, 04:25
musical act magazine המגזין הישראלי לטכנולוגיות באודיו ומוסיקה Musical Act Magazine

אלגוריתמים בשירות מרחבי - למידת מכונה מאפשרת להפוך מונו בווידאו לתלת-מימד

מאת: ACT@R-M ::: ::: נושא:

נכון, 3D בסאונד קיים כבר עשרות שנים, אך חיקוי אפקטיבי לסאונד מרחבי מנותב תמונה תמיד היה אתגר.

ולא, לא מדובר בעוד פלגין שמדמה תמונת סטריאו רחבה (ועתירת בעיות ברוב המקרים), וגם לא ב-3D - הכירו את ה-2.5D החדש!

אם נקשיב לרעשים ורחשים בשטח בעיניים עצומות, נוכל לזהות בקלות אם מקור הצליל מאחורינו, מקדימה, מהצד וכדומה.

יכולת האדם לפענח מיקום של צליל במרחב תלת מימדי היא מדהימה, והיא בין השאר אפשרית בזכות האוזניים בעלות המבנה הסימטרי והמרחק ביניהם, שהן הקולטנים הייחודיים, הגוף, והפענוח במוח.

אך בעוד החוקרים למדו כצד ליצור סאונד 3D הצליח לרמות את מערכת הראיה שלנו, אף אחד לא ממש מצא דרך ליצירת סאונד 3D סינתטי המסוגל לשכנע את מערכת השמע.

נראה שבעיה זו לפני פתרון, הודות לחוקרים מאוניברסיטת טקסס ומפייסבוק, אשר הצליחו לבנות מערכת למידת מכונה אשר הופכת סאונד מונו לתלת מימד, והם מכנים זאת "סאונד 2.5D".

קצת רקע. המוח עושה שימוש ברמזים שונים כדי לפענח ולקבוע מהיכן מגיע הצליל במרחב התלת מימדי. רמז אחד חשוב הינו המרחק שבין מקור הצליל לכל אוזן בנפרד. הפרשי זמנים ומופע.

רמז נוסף היא העוצמה. אותו הצליל יופיע חזק יותר באוזן אחת מאשר השניה, שוב - בגלל הבדלי המרחק.

שימוש בצמד מיקרופונים תואמים לחיקוי המרחק בין האוזניים לא ממש מפיק את האפקט הזה, כיוון שההפרדה בין המיקרופונים אינה תואמת את מה שקורה באפרכסת, לדוגמה, מבחינת כיווניות, רמת עיוות, מופע... וההשפעה המבנית בתוך האוזן. המוח כן יכול לחוש בהבדלים הקטנטנים שמייצרת כל אוזן, ולייצר חיקוי משכנע נדרש לחקות את הגאומטריה הזו של האוזן.

כאן אתם בטח אומרים שכבר עשו זאת, אם באמצעות שתילת מיקרופונים באוזן האדם או יצירת ראש דמי (Dummy) שב'אוזניו' שתולים מיקרופונים. זה לא העניין כאן, וגם הוא אינו מושלם כי כל אחד שומע אחרת ולרוב נדרשות אוזניות כדי לשכנע עם אפקט כזה.

מה שעשו החוקרים במקרה הזה היא הפיכת מונו לסטריאו באמצעות רמזים ויזואליים (כמו שבן אדם עושה לפעמים), כך שאם לדוגמה מתקבל סרט וידאו עם סאונד מונופוני, מערכת למידת המכונה מנתחת מהיכן בתמונה מגיע הצליל ואז מעוות את דרגות העוצמה והזמן כדי להשיג את אפקט המיקום.


לדוגמה, תארו לכם ווידאו המציג הרכב שבו מנגנים מתופף ופסנתרן. אם המתופף ממוקם בצד שמאל של התמונה והפסנתר בציד ימין, באופן ברור אנו מניחים שהסאונד של כל כלי מגיע מאותו הכיוון, וזה מה שלמידת המכונה עושה, באמצעות שינוי מרכיבי הצליל כדי להתאים למיקום בתמונה את השמע המרחבי.

בהתאם נבנה בסיס נתונים רחב של דוגמאות למידה המוקלטות בצורה בינאורלית (שתי אוזניים מלאכותיות), אשר הוזנו למערכת הלמידה עם אלגוריתמים לפיענוח מהיכן הצליל מגיע, ובהתאם להפוך את סאונד המונו למרחבי או תלת מימד. התוצאה מרשימה ואפשר לצפות בה בווידאו הזה.

כאן מודגם ומשווה מצב של הקלטת מונו לפני ואחרי הפיענוח. זה אמנם לא מושלם כי החוקרים עדיין לא הצליחו להתאים לכל מאזין ויכולת הקליטה שלו (מה שקורה במציאות), אך מספיק מהווה עד קדימה בלמידת מכונה וממוקד לווידאו עם מוזיקה.
המחקר כאן.


  • הגברת ותאורת מופעים - PA
    RE: בעיה חוזרת בסאב מוגבר
    ReuvenM: 1. לסגל מהלכי ניתוק/כיבוי תקינים, אין מה לעשות 2. ליישם הגנה מ-DC אם אין כזו (לרמקול) 3. סליל שכבר תוקן או הוחלף ברמקול, לשרשור המלא אחרון
  • קידום עצמי
    RE: משהו בקטנה שהקלטתי בהשפעת הימים שעוברים עלינו. פידבקים ?
    liorp: אני באמת מתלבט אם להשאיר תמים ונקי או להוסיף תזמור מלא. לשרשור המלא אחרון
  • DIY, אלקטרוניקה וחיווט
    בעיה חוזרת בסאב מוגבר
    dazan: שלום לכולם, ברשותי 2 סאבים מוגברים 15' תוצרת RCFas705. באחד מהסאבים, תמיד יש תקלה שמופיעה כל פעם מחדש. בשביל להבין א לשרשור המלא אחרון
  • הסלון
    RE: מחזירים את תושבי אקט הביתה
    ravitzj: הגיע שלב ב. תעלו לכאן שירים שהשפיעו עליכם מאד מהתקופה האחרונה,וגרמו לכם לשנות גישה למיקסים,להלחנה,כתיבה,הקלטה,נגינה שונה. לשרשור המלא אחרון