תפריט
שלום אורח ::: Mon, 18 Jan 2021, 09:01
musical act magazine המגזין הישראלי לטכנולוגיות באודיו ומוסיקה Musical Act Magazine

אלגוריתמים בשירות מרחבי - למידת מכונה מאפשרת להפוך מונו בווידאו לתלת-מימד

מאת: ACT@R-M ::: ::: נושא:

נכון, 3D בסאונד קיים כבר עשרות שנים, אך חיקוי אפקטיבי לסאונד מרחבי מנותב תמונה תמיד היה אתגר.

ולא, לא מדובר בעוד פלגין שמדמה תמונת סטריאו רחבה (ועתירת בעיות ברוב המקרים), וגם לא ב-3D - הכירו את ה-2.5D החדש!

אם נקשיב לרעשים ורחשים בשטח בעיניים עצומות, נוכל לזהות בקלות אם מקור הצליל מאחורינו, מקדימה, מהצד וכדומה.

יכולת האדם לפענח מיקום של צליל במרחב תלת מימדי היא מדהימה, והיא בין השאר אפשרית בזכות האוזניים בעלות המבנה הסימטרי והמרחק ביניהם, שהן הקולטנים הייחודיים, הגוף, והפענוח במוח.

אך בעוד החוקרים למדו כצד ליצור סאונד 3D הצליח לרמות את מערכת הראיה שלנו, אף אחד לא ממש מצא דרך ליצירת סאונד 3D סינתטי המסוגל לשכנע את מערכת השמע.

נראה שבעיה זו לפני פתרון, הודות לחוקרים מאוניברסיטת טקסס ומפייסבוק, אשר הצליחו לבנות מערכת למידת מכונה אשר הופכת סאונד מונו לתלת מימד, והם מכנים זאת "סאונד 2.5D".

קצת רקע. המוח עושה שימוש ברמזים שונים כדי לפענח ולקבוע מהיכן מגיע הצליל במרחב התלת מימדי. רמז אחד חשוב הינו המרחק שבין מקור הצליל לכל אוזן בנפרד. הפרשי זמנים ומופע.

רמז נוסף היא העוצמה. אותו הצליל יופיע חזק יותר באוזן אחת מאשר השניה, שוב - בגלל הבדלי המרחק.

שימוש בצמד מיקרופונים תואמים לחיקוי המרחק בין האוזניים לא ממש מפיק את האפקט הזה, כיוון שההפרדה בין המיקרופונים אינה תואמת את מה שקורה באפרכסת, לדוגמה, מבחינת כיווניות, רמת עיוות, מופע... וההשפעה המבנית בתוך האוזן. המוח כן יכול לחוש בהבדלים הקטנטנים שמייצרת כל אוזן, ולייצר חיקוי משכנע נדרש לחקות את הגאומטריה הזו של האוזן.

כאן אתם בטח אומרים שכבר עשו זאת, אם באמצעות שתילת מיקרופונים באוזן האדם או יצירת ראש דמי (Dummy) שב'אוזניו' שתולים מיקרופונים. זה לא העניין כאן, וגם הוא אינו מושלם כי כל אחד שומע אחרת ולרוב נדרשות אוזניות כדי לשכנע עם אפקט כזה.

מה שעשו החוקרים במקרה הזה היא הפיכת מונו לסטריאו באמצעות רמזים ויזואליים (כמו שבן אדם עושה לפעמים), כך שאם לדוגמה מתקבל סרט וידאו עם סאונד מונופוני, מערכת למידת המכונה מנתחת מהיכן בתמונה מגיע הצליל ואז מעוות את דרגות העוצמה והזמן כדי להשיג את אפקט המיקום.


לדוגמה, תארו לכם ווידאו המציג הרכב שבו מנגנים מתופף ופסנתרן. אם המתופף ממוקם בצד שמאל של התמונה והפסנתר בציד ימין, באופן ברור אנו מניחים שהסאונד של כל כלי מגיע מאותו הכיוון, וזה מה שלמידת המכונה עושה, באמצעות שינוי מרכיבי הצליל כדי להתאים למיקום בתמונה את השמע המרחבי.

בהתאם נבנה בסיס נתונים רחב של דוגמאות למידה המוקלטות בצורה בינאורלית (שתי אוזניים מלאכותיות), אשר הוזנו למערכת הלמידה עם אלגוריתמים לפיענוח מהיכן הצליל מגיע, ובהתאם להפוך את סאונד המונו למרחבי או תלת מימד. התוצאה מרשימה ואפשר לצפות בה בווידאו הזה.

כאן מודגם ומשווה מצב של הקלטת מונו לפני ואחרי הפיענוח. זה אמנם לא מושלם כי החוקרים עדיין לא הצליחו להתאים לכל מאזין ויכולת הקליטה שלו (מה שקורה במציאות), אך מספיק מהווה עד קדימה בלמידת מכונה וממוקד לווידאו עם מוזיקה.
המחקר כאן.


  • פלגינים חינמיים מומלצים
    RE: Sitala - הדראם סמפלר המושלם (חינמי או לא)
    DrDataMiner: כתבתי מעלה שיש ל-Sitala דפדפן דגימות אבל למרבה הצער ללא אופציית האזנה מוקדמת, בשלב זה. אם כרטיס הקול שלכם מאפשר נגינה לשרשור המלא אחרון
  • DIY, אלקטרוניקה וחיווט
    RE: Jog Wheels ל- BCF2000
    acidhead: סלח לי גם פספספתי את רעיון הגלגל, חשבתי על נוב יותר גדול. מבחינה טכנית והנדסית הנובים שלי זהים לנובים יצוקים. החיסרון היחידי לשרשור המלא אחרון
  • מש' Steinberg
    RE: שימוש בפדלים קיובייס 5
    acidhead: אם כבר יש לך פדלים יש קופסאות שממירות את הפדל ל MIDI ב 4 כניסות (אתה כמובן יכול להשתמש ב 2 או יותר) או 8 עריכה: גרמת לי לקרוא לשרשור המלא אחרון
  • על המדרגות - לפני רכישה
    RE: רכישת מוניטורים בחו"ל
    acidhead: Dror_Shi אני זוכר ששאלת, תתחדש :) מה קנית? לשרשור המלא אחרון