Optical
character
recognition

Transformer-based Multilingual Optical Character Recognition System for Thai and English Documents

EN / TH

โปรแกรมแปลงเอกสารหรือรูปภาพเป็นข้อความ (OCR) เพื่ออ่านเอกสารภาษาไทย-อังกฤษโดยใช้โมเดลการเรียนรู้เชิงลึกชนิดทรานส์ฟอร์เมอร์ (Transformer)

บทคัดย่อ

ในปัจจุบันเอกสารทั้งภาษาไทยและอังกฤษมีเพิ่มขึ้นเรื่อยๆในหลากหลายฟอร์แมตทั้งเอกสารทั้งจากภาครัฐบาลและภาคเอกชน ใบเสร็จ หนังสือ รวมถึงเอกสารที่ประกอบด้วยลายมือเขียน เช่น หน้าซองจดหมาย เอกสารทางการแพทย์ เอกสารลายมือเขียนอื่นๆ การเพิ่มขึ้นของปริมาณเอกสารต่างๆนั้นทำให้ยากแก่การนำมาวิเคราะห์เนื่องจากคอมพิวเตอร์ไม่สามารถนำภาพเหล่านี้มาประมวลผลได้อย่างมีประสิทธิภาพ ดังนั้นการนำข้อมูลเหล่านี้มาแปลงผลเป็นข้อมูลข้อความ (text) จึงมีประโยชน์อย่างยิ่ง วิธีการแปลงข้อมูลภาพที่มีข้อความให้กลายเป็นข้อความนั้นเรียกว่า โปรแกรมแปลงเอกสารและรูปภาพเป็นข้อความ หรือเรียกว่า Optical character recognition (OCR)

ถึงแม้ว่าในปัจจุบันหลายหน่วยงานและบริษัทได้พัฒนาโปรแกรม OCR เพื่ออ่านภาพเอกสารประเภทต่างๆ แต่การนำโมเดลมาใช้ในงานต่างๆก็ยังอาจติดปัญหาอยู่ เช่น การนำโมเดลมาใช้ในโดเมนหรือเอกสารประเภทที่ต่างไปอาจมีความแม่นยำที่ต่ำลง นอกเหนือจากนั้นการวัดผลความแม่นยำของโมเดลสำหรับเอกสารประเภทต่างๆทั้งการวัดผลสำหรับเอกสารทั่วไปหรือลายมือเขียนยังมีไม่เพียงพอในปัจจุบัน ดังนั้นการสร้างโมเดลที่สามารถนำไปใช้ในงานอ่านเอกสารประเภททั้งเอกสารที่เป็นตัวพิมพ์และตัวเขียน รวมถึงการวัดผลความแม่นยำของโมเดลในเอกสารหลากหลายประเภทน่าจะเป็นประโยชน์อย่างมากต่องานวิจัยและการพัฒนาระบบ OCR ในปัจจุบัน

ในงานวิจัยที่บริษัทลูลู่ได้พัฒนาขึ้น เรานำเสนอโมเดล OCR ที่สร้างขึ้นจากการสร้างข้อมูลสังเคราะห์ขนาดใหญ่ (large synthetic dataset) โดยสร้างด้วยฟอนต์มากกว่า 100 ฟอนต์ และ textlines กว่า 7 ล้านรูปภาพที่สร้างขึ้นจากคลังข้อมูลภาษาไทยขนาดใหญ่เช่น Wikipedia, ชุดข้อมูลแปลภาษาขนาดใหญ่ของธนาคารไทยพาณิชย์ (SCB) และข้อมูลจำเพาะที่สร้างขึ้น (ตัวเลข, ตัวอักษร, ที่อยู่) โดยในการทดลอง เราค้นพบว่าโมเดลที่เทรนมานั้นสามารถนำไปปรับใช้ (fine-tune) สำหรับเอกสารประเภทต่างๆได้ ทั้งนี้เราทำการวัดผลกับเอกสารทั้งหมด 3 ประเภทได้แก่ (1) เอกสารจากภาพสแกน (2) เอกสารที่เก็บได้จากภาพถ่าย (3) เอกสารลายมือเขียน โดยจากการทดลองเราได้ค่าความคลาดเคลื่อนในการทำนายตัวอักษร (character error rate) สำหรับเอกสารทั้ง 3 แบบเท่ากับ 0.73%, 1.32%, and 3.14% และเมื่อวัดคะแนนความแม่นยำโดยการวัดจำนวนบรรทัดที่ทำนายถูกต้องเทียบกับบรรทัดที่ทำนายทั้งหมด ระบบ OCR ของเรามีความแม่นยำเท่ากับ 94.10%, 93.82%, และ 86.74% ตามลำดับ

 

เราเชื่อว่าการวัดผลในเอกสารประเภทต่างๆจะสามารถเปิดโอกาสให้ทีมวิจัยอื่นๆได้สามารถทดลองและวัดผลในเอกสารประเภทต่างๆได้อย่างมีประสิทธิภาพ เพิ่มโอกาสในการสร้างโปรแกรมอ่านเอกสารจากภาพเอกสารที่มีประสิทธิภาพสูงขึ้นในอนาคตได้

ทดลองใช้งาน looloo OCR

สำหรับผู้ที่สนใจสามารถทดลองการทำงานของระบบ OCR โดยคลิ้กปุ่มด้านล่าง

ทั้งนี้เว็บไซต์ตัวอย่างได้พัฒนาทั้งระบบการตรวจจับกล่องข้อความ (text detection)

และระบบรู้จำข้อความ (text recognition) ที่ได้กล่าวไปข้างต้น