הוכרז AudioGPT - הבנה ויצירת דיבור, מוזיקה, סאונד וראשים מדברים

Sunday, 30-04-23, 15:02, ACT ::: ::: נושא: AI בינה מלאכותית @ 213593

AudioGPT עושה לאודיו את מה ש-ChatGPT עשה למילים... ושינה את העולם.

הוכרז AudioGPT, המצטיין בפתרון משימות בינה מלאכותית עם דיבור, מוזיקה, צליל והבנה והפקת ראש מדבר בדיאלוגים מתמשכים.

מודלי שפה הראו יכולות יוצאות דופן בתחומים רבים, אך עד כה הם נאבקו בעיבוד מידע אודיו, והגבילו את השימושיות שלן ביישומים מסוימים. AudioGPT היא מערכת רב-מודאלית המשלבת LLMs (קיצור של Large language models) עם מודלים בסיסיים שנועדו לעבד מידע שמע מורכב ולפתור מגוון משימות הבנה והפקה.
בין השאר זה כולל גם ממשקי קלט/פלט כמו זיהוי דיבור אוטומטי (ASR) וטכנולוגיית טקסט לדיבור (TTS) לתמיכה בדיאלוג מדובר. המטרה של AudioGPT היא לאפשר לבני אדם ליצור תוכן אודיו עשיר ומגוון בקלות ובו זמנית גם לנתח ולהבין טקסטים וקולות בידי מכונה.

AudioGPT, שנבדקה בהרחבה עבור עקביות, יכולת וחוסן, הוכיחה את היכולת לפתור מגוון משימות בינה מלאכותית הקשורות לדיבור, מוזיקה, צליל והבנה ויצירת ראש-מדבר בדיאלוגים מרובי שיח (כמו הענקת דיבור, בכל שפה או שירה, לכל דמות קיימת או דימיונית ואפילו רובוטים או שיחות טלפון).

הוכרז AudioGPT - הבנה ויצירת דיבור, מוזיקה, סאונד וראשים מדברים

צור דיבור עם הטקסט 'הנה אנחנו הולכים'
תמלל את הנאום הזה
העבר את הנאום ממצב מונו לדיבור בינאורלי (מרחבי)
צור אודיו של כלב נובח
צור אודיו של התמונה שהועלתה (כאן אפשר להעניק לתמונה אודיו בקונטקסט שלה)
תן לי את התיאור של מה כלול באודיו המצורף
אני רוצה לצייר את האודיו הזה
אילו אירועים כולל האודיו שלהלן?
מתי מתרחש הרעם באודיו הזה?
חלץ את אירוע הפיצוץ מאודיו זה
צור דמות מדברת בהתאם לטקסט הנתון
הפוך את הדיבור בהקלטה הזו לקול של מישהו אחר לפי הדוגמה שהעלתי
צור מנגינה עם התווים האלה, בתזמון כזה, ועם המילים האלה
העשר את איכות האודיו בשמע הזה
תמלל את הישיבה מרובת המשתתפים הזו, כך שכל משתתף יזוהה בנפרד

ניתן לבחון דוגמאות ותוצאות בקישור הזה. אותנו מאוד מענין היכולות Text-To-Sing ו-Text-To-Audio

בטבלה נמצא את האפשרויות השונות, מה שמענין אתכם זה סוג הקלט/פלט והאתגר.
הוכרז AudioGPT - הבנה ויצירת דיבור, מוזיקה, סאונד וראשים מדברים

נקודות חשובות מהסרטון המצורף מטה כוללות:

- האתגרים הקשורים לעיבוד מידע אודיו באמצעות LLMs

- המערכת הרב-מודאלית ש-AudioGPT מעסיקה

- ממשקי הקלט/פלט שהופכים את AudioGPT לפתרון מלא לדיאלוג מדובר

- משימות ה-AI השונות ש-AudioGPT יכולה לפתור, והפוטנציאל ליצירת תוכן שמע עשיר ומגוון.

הכותב: ראובן מנשרוף, מייסד ועורך אקט מוסיקלי ומומחה אודיו בעל 45 שנות ניסיון.

קישור ישיר לכתבה זו

גלו מבצעים מדהימים! לחצו כאן כדי לגלות את רבי המכר של Temu ולקבל את חבילת הקופון שלכם בשווי ₪400. קבלו חיסכון ללא תחרות בכל זמן ובכל מקום. אל תחכו - פעלו עכשיו וחסכו בגדול!

הבזאר - הלוח של אקט מוסיקלי

הלוח מסווג לפי קטגוריות ותת מחלקות, ומאפשר לכל אחד להציג מודעות בהתאם למטרה: דרוש, מציע, למכירה וכדומה

קטגוריות :::: מודעות אחרונות ::: + פרסם מודעה

שיגור מודעה חדשה

שווה קריאה

מהפורומים

כלים וירטואליים, פלאגים - VST/i

RE: VST ARSENAL 2024
mixtrim: :headphones: העולם הדיגיטלי הקנה לנו מכשירי אפקטים ורוורב פיזיים... …לשרשור המלא אחרון
אקוסטיקה, סביבת עבודה

איטום לחדר של תופים במרכז לימודי נגינה
שאול: אני יש לי מרכז לימודי נגינה ויש כמה חדרים של חוגים אני עכשיו עובר... …לשרשור המלא אחרון
קידום עצמי

RE: Boketto - הרכב אינסטרומנטלי חדש
acidhead: היה הרכב ישראלי אחר עם אותו השם …לשרשור המלא אחרון
SoundBoard - סאונד מקצועי

RE: הסרת צלילי תופים מתקליט קיים
Rock_Artist: בפועל יש יחסית מעט מודלים קיימים שבהם משתמשים כולם. רוב המודלים... …לשרשור המלא אחרון