Inicio > Historias > Blogfactor: Un Esbozo

Blogfactor: Un Esbozo

En algún sitio comenté que se podría hacer un análisis factorial de las palabras que aparecen en las bitácoras para ordenar sus contenidos semánticamente. Ahora he decidido ponerme un poco más a la tarea, haciéndolo de las maneras más "manuales" existentes. Algernon me está echando una mano, y si alguien quiere apuntarse, bienvenido sea. Los primeros resultados los publicaré la semana que viene.


¿Qué carajos?

El resultado final es una clasificación de las historias de una bitácora (o de un grupo de bitácoras) en función de en qué medida saturan sus palabras (variables) en distintos factores (grupos de variables que correlacionan en gran medida entre sí y poco con otros factores). Así, los factores no tendrían entidad previa al análisis, pero podrían ser tipo: "ciencia" (Ciencia15 debería saturar alto en esta), "política" (Prestige igual satura en esta), "tecnología" (¿Atalaya, Reflexiones e Irreflexiones, Cuaderno de Bitácora?)... las historias tendrían un valor asignado en cada una de las medidas.

A esto se llegaría organizando una matriz en la cual las filas son casos (las historias) y las columnas son variables (las palabras). Las casillas serían la frecuencia de aparición de cierta palabra en cierta historia. Este tipo de estructura sería procesable con cualquier paquete estadístico tipo SPSS (que es el que tengo más a mano), aunque se podría automatizar.

Supongo que en general el tema será similar al filtrado de Spam empleando análisis bayesiano que se comenta en esta historia de Yogur Griego.

¿Qué tal?

2003-03-09 | Ctugha | 4 Comentarios | Enlázame | Imprímeme

Referencias (TrackBacks)

URL de trackback de esta historia http://jkaranka.blogalia.com//trackbacks/5957

Comentarios

1
De: JJ Fecha: 2003-03-09 17:18

Mantennos informados. Un par de consejos:
*Para bajarte las historias sin farfolla usa el interfaz blogger, así te bajas solo el texto, sin necesidad de bajarte la página.
*Ten cuidadín con el método de codificación que usas para cada historia. TFIDF sería quizás conveniente.
*Échale un vistazo a LSA (Latent Semantic Indexing), para ver si lo puedes usar.
*No uses categorías de antemano: una vez que tengas los factores, usa algún algoritmo de clustering para descubrir cuáles son las categorías que se forman
Si necesitas que te eche una mano, no tienes más que decirlo. De hecho, llevo años queriendo hacer una cosa así con barrapunto.



2
De: Ctugha Fecha: 2003-03-09 20:50

Yo soy mucho más basto, JJ. Recuerda que de programar ni papa :D Estoy cavilando si hay alguna manera de usar macros de word o cosas por el estilo para hacer las matrices y similar. De momento tengo ya un listado de todas las palabras de las 30 historias gracias a un programa que se encontró Algernon por ahí. Espero no tener que meterlas a mano en su correspondiente casilla...
Una vez terminado podré hacerles casi cualquier análisis estadístico, eso sí. Si funciona, se podría convertir en un programa (automatizar todo el proceso).



3
De: mumbai call girls Fecha: 2019-03-31 09:04

Mumbai Escorts
Goa Escorts
Mumbai call girls
Mumbai Escorts
coimbatore escorts
rajkot escorts services
goa escorts services
mire road escorts
andheri escorts
andheri escorts services
roku remote not working
mcafee.com/activate
escorts web development company
web development company in india
download McAfee Antivirus
Download free php projects
activate ESPN on Roku mira road escorts



4
De: espn.com/activate Fecha: 2019-11-04 09:22

best web hosting
roku.com/link
roku.com/link
espn.com/activate
mcafee.com/activate
espn.com/activate
garmin updates
Dell printer customer service
xfinity.com/activate
pbs.com/activate








Todas las Historias


Translate me!


Archivos

<Marzo 2023
Lu Ma Mi Ju Vi Sa Do
    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31    

Documentos

  • Chorradas de internet
  • Planeta Encantado
  • Python: pruebas, cosas y demás.
  • Relatos
  • Material del juego de rol de los teletubbies.



  • Blogalia

    Blogalia








    Busca en El Asiento




    Bitácoras

    Desbarradas de Akin
    Blog de Beor
    La Biblioteca de Babel
    El Rincón de Canopus
    Ciencia 15
    Copensar
    La Cosa Húmeda
    Hazte Escuchar
    hipocondría demagógica
    JCantero
    Magonia
    diario del osito
    Por la Boca Muere el Pez
    El Paleofreak
    Segfault
    Tirando Líneas
    El Triunfo de Clío
    Una cuestión personal



    Cybergurús

    Epaminondas
    fernand0
    JJMerelo
    Joma
    Jordi
    mini-d
    mur0



    Laboratorios Virtuales

    Laboratorio Virtual de Psicología
    PsychExperiments



    Webs

    Homo Webensis
    Magufomedia
    ARP-SAPC

    Comportamental br> Neurociencias para niños
    Psicoteca







    Listed on BlogShares

    Creative Commons License



    This work is licensed under a Creative Commons License. 2003 Ctugha