Amazon Transcribe: แปลงเสียงพูดเป็นข้อความ

·

2 min read

Amazon Transcribe: 
แปลงเสียงพูดเป็นข้อความ

Amazon Transcribe

Amazon Transcribe เป็นบริการแปลงเสียงพูดเป็นข้อความแบบเรียลไทม์จาก Amazon Web Services (AWS) รองรับภาษาต่างๆ มากมาย รวมถึงภาษาไทย

จุดเด่นของ Amazon Transcribe:

  1. ความแม่นยำสูง: Amazon Transcribe ใช้เทคโนโลยี Deep Learning ที่ล้ำสมัย ซึ่งช่วยให้การแปลงเสียงพูดเป็นข้อความมีความแม่นยำสูงมาก เทคโนโลยีนี้สามารถจับคำพูดและรายละเอียดต่างๆ ได้อย่างถูกต้อง ทำให้ข้อความที่ได้มีความถูกต้องและเชื่อถือได้

  2. รองรับภาษาต่างๆ มากมาย: บริการนี้รองรับการแปลงเสียงพูดเป็นข้อความในภาษาต่างๆ มากกว่า 100 ภาษา ซึ่งรวมถึงภาษาไทยด้วย ความสามารถนี้ทำให้ Amazon Transcribe เป็นเครื่องมือที่มีประโยชน์สำหรับผู้ใช้ทั่วโลกที่ต้องการแปลงเสียงพูดในภาษาต่างๆ

  3. ใช้งานง่าย: Amazon Transcribe สามารถใช้งานได้อย่างง่ายดายผ่าน API ที่ออกแบบมาให้ผู้ใช้สามารถเข้าถึงและใช้งานได้โดยไม่ยุ่งยาก ผู้ใช้สามารถผนวกการทำงานของ Transcribe เข้ากับแอปพลิเคชันหรือระบบของตนได้อย่างสะดวก

  4. ปรับขนาดได้: บริการนี้รองรับการใช้งานทั้งแบบเรียลไทม์และแบบออฟไลน์ ซึ่งหมายความว่าผู้ใช้สามารถเลือกใช้ตามความต้องการ ไม่ว่าจะเป็นการแปลงเสียงพูดในขณะที่กำลังพูดหรือแปลงไฟล์เสียงที่บันทึกไว้แล้ว

  5. ราคาไม่แพง: Amazon Transcribe มีหลายแผนการใช้งานให้เลือกตามความต้องการและงบประมาณของผู้ใช้ ทำให้เป็นตัวเลือกที่คุ้มค่าสำหรับองค์กรหรือบุคคลที่ต้องการบริการแปลงเสียงพูดเป็นข้อความในราคาที่เหมาะสม

// ตัวอย่างการใช้งาน Amazon Transcribe

const AWS = require('aws-sdk');

// ใส่ Access Key ID และ Secret Access Key ของคุณ
const credentials = new AWS.Credentials({
  accessKeyId: 'YOUR_ACCESS_KEY_ID',
  secretAccessKey: 'YOUR_SECRET_ACCESS_KEY',
});

const transcribe = new AWS.TranscribeService({
  region: 'us-east-1', // เลือก region ที่เหมาะสม
  credentials,
});

const audio = {
  uri: 'https://s3.amazonaws.com/my-bucket/audio.wav', // เปลี่ยนเป็น URL ไฟล์เสียงของคุณ
};

const config = {
  languageCode: 'th-TH', // ตั้งค่าภาษาไทย
};

const request = {
  Audio: audio,
  LanguageCode: config.languageCode,
};

// เริ่มงานแปลงเสียง
transcribe.startTranscriptionJob(request)
  .then((data) => {
    const transcriptionJobName = data.TranscriptionJobName;
    console.log('Transcription job started:', transcriptionJobName);

    // รอสักครู่ให้การแปลงเสียงพูดเสร็จสิ้น

    setTimeout(() => {
      transcribe.getTranscriptionJob({
        TranscriptionJobName: transcriptionJobName,
      })
        .then((data) => {
          const transcription = data.TranscriptionJob.Transcript.Text;
          console.log('Transcript:', transcription);
        })
        .catch((err) => {
          console.error('Error getting transcription:', err);
        });
    }, 5000); // รอ 5 วินาที 

  })
  .catch((err) => {
    console.error('Error starting transcription job:', err);
  });

การสมัครใช้งาน:

  1. ไปที่ Amazon Web Services: https://aws.amazon.com/ และสร้างบัญชีผู้ใช้

  2. ไปที่ Amazon Transcribe: https://aws.amazon.com/transcribe/ และคลิก "เริ่มต้นใช้งาน"

  3. เลือกแผนการใช้งานที่เหมาะสมกับความต้องการของคุณ

  4. กรอกข้อมูลการสมัครและยืนยัน

  5. ติดตั้ง AWS SDK และตั้งค่าคอนฟิก

  6. เริ่มใช้งาน Amazon Transcribe

แผนการใช้งาน:

  • แบบออฟไลน์: เหมาะสำหรับการแปลงไฟล์เสียงที่มีอยู่

  • แบบเรียลไทม์: เหมาะสำหรับการแปลงเสียงพูดแบบเรียลไทม์

  • แบบ Bring Your Own Model: เหมาะสำหรับผู้ที่มีโมเดลแปลงเสียงพูดของตัวเอง

ราคา:

  • ขึ้นอยู่กับแผนการใช้งานและปริมาณการใช้งาน

ดูรายละเอียดเพิ่มเติมได้ที่ Amazon Transcribe pricing: https://aws.amazon.com/transcribe/pricing/


แปลงไฟล์เสียงที่มีความยาวเกิน 1 ชั่วโมง

เช่น ไฟล์บันทีกการประชุม บทสนทนา หรือไฟล์การบรรยายวิชาการเป็นต้น

Amazon Transcribe เป็นบริการแปลงเสียงพูดเป็นข้อความแบบเรียลไทม์จาก Amazon Web Services (AWS) รองรับภาษาต่างๆ มากมาย รวมถึงภาษาไทย เหมาะสำหรับการแปลงไฟล์เสียงที่บันทึกไว้แล้ว

จุดเด่น:

  • ความแม่นยำสูง: ใช้เทคโนโลยี Deep Learning ล้ำสมัย ช่วยให้แปลงเสียงพูดเป็นข้อความได้อย่างแม่นยำ

  • รองรับภาษาต่างๆ มากมาย: รองรับภาษาต่างๆ มากกว่า 100 ภาษา รวมถึงภาษาไทย

  • ใช้งานง่าย: ใช้งานผ่าน API ได้อย่างง่ายดาย

  • ปรับขนาดได้: รองรับการใช้งานทั้งแบบเรียลไทม์และแบบออฟไลน์

  • ราคาไม่แพง: มีหลายแบบให้เลือกตามการใช้งาน

ตัวอย่างการใช้งาน:

Python

import boto3

# ตั้งค่า AWS credentials
aws_access_key_id = "YOUR_ACCESS_KEY_ID"
aws_secret_access_key = "YOUR_SECRET_ACCESS_KEY"

# ตั้งค่า region
region = "us-east-1"

# ตั้งค่า path ไปยังไฟล์เสียง
audio_path = "your_audio_file.wav"

# เริ่มงานแปลงเสียง
transcribe = boto3.client("transcribe", aws_access_key_id=aws_access_key_id, aws_secret_access_key=aws_secret_access_key, region_name=region)
job_name = transcribe.start_transcription_job(
    TranscriptionJobName="your_job_name",
    LanguageCode="th-TH",
    MediaFormat="wav",
    Media={
        "AudioUri": f"s3://your-bucket/{audio_path}",
    },
)

# รอสักครู่ให้การแปลงเสียงพูดเสร็จสิ้น

while True:
    job = transcribe.get_transcription_job(TranscriptionJobName=job_name)
    if job["TranscriptionJobStatus"] in ["COMPLETED", "FAILED"]:
        break

# รับ transcription
transcript = job["Transcript"]["Text"]

print(transcript)

หมายเหตุ:

  • ตัวอย่าง Code นี้เป็นเพียงตัวอย่างเบื้องต้น สามารถดูรายละเอียดเพิ่มเติมได้ที่เอกสารของ Amazon Transcribe: https://docs.aws.amazon.com/transcribe/

  • จำเป็นต้องมีบัญชีผู้ใช้ AWS และ IAM role ที่มีสิทธิ์ในการใช้งาน Amazon Transcribe

  • เปลี่ยน YOUR_ACCESS_KEY_ID, YOUR_SECRET_ACCESS_KEY, your_job_name, your_bucket, และ audio_path ด้วยข้อมูลของคุณ