ในงานวิจัยที่บริษัทลูลู่ได้พัฒนาขึ้น เรานำเสนอโมเดล OCR ที่สร้างขึ้นจากการสร้างข้อมูลสังเคราะห์ขนาดใหญ่ (large synthetic dataset) โดยสร้างด้วยฟอนต์มากกว่า 100 ฟอนต์ และ textlines กว่า 7 ล้านรูปภาพที่สร้างขึ้นจากคลังข้อมูลภาษาไทยขนาดใหญ่เช่น Wikipedia, ชุดข้อมูลแปลภาษาขนาดใหญ่ของธนาคารไทยพาณิชย์ (SCB) และข้อมูลจำเพาะที่สร้างขึ้น (ตัวเลข, ตัวอักษร, ที่อยู่) โดยในการทดลอง เราค้นพบว่าโมเดลที่เทรนมานั้นสามารถนำไปปรับใช้ (fine-tune) สำหรับเอกสารประเภทต่างๆได้ ทั้งนี้เราทำการวัดผลกับเอกสารทั้งหมด 3 ประเภทได้แก่ (1) เอกสารจากภาพสแกน (2) เอกสารที่เก็บได้จากภาพถ่าย (3) เอกสารลายมือเขียน โดยจากการทดลองเราได้ค่าความคลาดเคลื่อนในการทำนายตัวอักษร (character error rate) สำหรับเอกสารทั้ง 3 แบบเท่ากับ 0.73%, 1.32%, and 3.14% และเมื่อวัดคะแนนความแม่นยำโดยการวัดจำนวนบรรทัดที่ทำนายถูกต้องเทียบกับบรรทัดที่ทำนายทั้งหมด ระบบ OCR ของเรามีความแม่นยำเท่ากับ 94.10%, 93.82%, และ 86.74% ตามลำดับ
เราเชื่อว่าการวัดผลในเอกสารประเภทต่างๆจะสามารถเปิดโอกาสให้ทีมวิจัยอื่นๆได้สามารถทดลองและวัดผลในเอกสารประเภทต่างๆได้อย่างมีประสิทธิภาพ เพิ่มโอกาสในการสร้างโปรแกรมอ่านเอกสารจากภาพเอกสารที่มีประสิทธิภาพสูงขึ้นในอนาคตได้